📜  人机交互的新趋势

📅  最后修改于: 2021-10-18 12:43:02             🧑  作者: Mango

研究人机交互的主要目的是开发技术,以增强用户与计算机交互的方式并使其更加直观。使用鼠标、键盘等物理设备进行人机交互,阻碍了界面的直观性和自然性,因为用户和计算机之间存在很强的障碍。随着泛在计算的发展,当前用户与个人计算机的人机交互仅限于键盘和鼠标交互是不够的。能够自然地与系统交互在人机交互的许多领域变得越来越重要。直接使用手作为输入设备是一种有吸引力的方法,可以通过基于图形的用户界面提供自然的人机交互,而不是传统的基于文本的界面。尽管基于手势的界面设计市场巨大,但对于传统的基于视觉的方法而言,构建强大的手势识别系统仍然是一个具有挑战性的问题。因此,这种可以有效跟踪静态和动态手势的手势识别系统将是用户使用计算机的直观和自然的界面。该系统将检测到的手势转换为动作,例如打开网站、启动应用程序等,只需极少的硬件。使这种交互更加直观的另一种方法是借助凝视手势,其中使用头戴式显示器 (HMD),这是一种便携式交互式显示设备,可以跟踪眼睛运动作为交互手段。这种技术对用户来说非常有效且非常轻松,因为人类可以自由地控制他们的眼球运动。因此,眼动追踪技术可以用作 HCI 的一种方法。目前,手势和语音输入的人机交互已经很好地建立,但这种基于手势的人机交互方法不适用于双手被占用或无法语音的环境中。因此,使用 HMD 处理 HCI 的更简单、更有效的方法至关重要。此外,该系统使用HMD网络摄像头实现了基于HMD的注视交互,以近距离实时检测和跟踪人类注视方向,并基于注视分析用户的意图。近年来,基于注视手势的 HCI 研究应运而生,并且正在迅速增加。

人机交互手势识别方法在这种方法中,当用户向系统发出手势时,它会在其摄像头模块的帮助下立即捕获手势图像。然后在各种灰度算法的帮助下将图像转换为灰度图像。然后处理该灰度图像以去除噪声和平滑图像。 Otsu二值化自动计算双峰图像的图像直方图阈值,该图像是直方图具有两个峰值的图像 阈值应用于图像以从处理后的灰度图像中获得二值图像,这是通过设置阈值获得的从二值化并根据其值小于或大于该阈值将所有像素转换为黑色或白色,以实现更高的精度。轮廓提取用于对象检测。凸包与凸性缺陷一起被发现。根据这些缺陷,然后识别手势。对于手掌等没有凸面缺陷的手势,使用 Haar 级联分类器,其中使用在不同光照条件和角度拍摄的至少 10 张正图像的集合来识别这些手势。然后根据这些手势将动作映射到每个手势。最后,映射到特定手势的应用程序被启动。

优点:

  • 这是一种直观而自然的交互方式。
  • 更加人性化。
  • 识别静态和动态手部运动。
  • 作为识别系统快速且足够可靠。
  • 易于在实时系统中实现。
  • 这些手势是可定制的,并且可以为每个手势分配任何任务。
  • 它具有最低的硬件要求。
  • 低成本。

缺点:

  • 如果涉及复杂的背景,识别的准确性会下降。
  • 与手无关的物体可能会误导识别系统。
  • 系统可能要求手垂直且手指准确指向相机。
  • 该系统的性能随着用户和相机之间距离的增加而下降。
  • 环境光效果颜色检测会降低系统性能。
  • 它仍然没有产生可以替代物理控制器的接口。

凝视手势方法及其在人机交互与头戴式显示器中的应用:该方法涉及使用眼球追踪技术,这是一种测量人眼凝视点及其相对于头部姿势的运动程度的技术。该系统实现了基于 HMD 的注视交互方式,可在近距离实时检测和跟踪人类注视方向。该过程从在 HMD 中集成的近眼摄像头的帮助下拍摄眼睛开始,以计算注视方向。系统会自定义头部姿态分布的范围,直接提供头部姿态信息。我们根据范围收集数据,这些数据与我们的 HMD 系统捕获的图像一致。以瞳孔为中心,图像被放大了一些因素。以瞳孔坐标为中心坐标,随机减少像素数,最后对图像应用高斯滤波。然后使用深度卷积神经网络模型的两个模块对图像的注视轨迹进行分类。该网络包含从不同个体收集的近万条注视轨迹的数据。由于合成图像中的特征分布与真实图像的特征分布之间存在差距,从合成图像中学习可能无法达到预期的性能。为了弥合合成图像分布和真实图像分布之间的差距,该网络使用在网络上预训练的模型从大量数据中学习,然后训练生成的模型。使用真实数据解决了数据分布问题,在保留标注信息的同时增强了系统的识别度。这些种类的注视手势最终映射到用户选择的特定函数。

优点:

  • 该系统非常强大且用户友好。
  • 在手部全神贯注且无法使用语音的情况下非常有用。
  • 眼睛注视运动明显快于任何其他手势运动。
  • 该技术为手势识别收集了大量准确和精确的数据。
  • 在神经网络的帮助下提高识别的准确性。
  • 并行使用两个神经网络来映射不同的特征,以确保获得的结果之间的一致性。
  • 可适应各种室内或室外照明条件。
  • 可以作为残疾人士的接口手段。

缺点:

  • 新用户可能倾向于绘制不准确的图案。
  • 用户需要一些采用时间来习惯该界面。
  • 眼睛和相机的相对位置因人而异。
  • 隐形眼镜、眼镜都会影响相机跟踪眼球运动的能力。
  • 眼动追踪和训练神经网络的数据集可能很昂贵。

在实时场景中使用这些技术:

1. 手势:开发新型界面设计具有巨大的潜力,可以改进我们以前与计算机交互的方式。有很多研究正在进行这些类型的接口的开发。基于手势的界面有着巨大的市场。这种界面具有许多实际应用,用户无需接触物理控制设备即可轻松操作。这些类型的界面现在甚至在使用,例如,在为公司推出产品时,他们使用这些手势移动到下一张幻灯片,避免手中的物理点击器。这种界面对于小型智能移动设备和其他智能可穿戴设备(如智能手表)非常有效,这些设备界面有限,通常屏幕很小,限制用户使用其他类型的界面而不是触摸屏。因此,这种手势运动可以在红外传感器的帮助下在此类设备中实现。这些手势可用于基本但常用的功能,例如启动某些应用程序、增大或减小音量、跳过歌曲、呼叫特定的预设联系人等,并且此类功能可以轻松实现。这为用户与具有有限物理区域的设备创建了方便的界面,因此视觉界面对于用户与设备交互来说将是麻烦的。

2. 凝视手势:这项技术在其他界面范式中有着巨大的需求,如增强现实和虚拟现实(AR 和 VR),其中眼球运动的跟踪用于各种功能。传统的交互方法可能不适用于某些手部全神贯注且无法使用语音的环境。此时可以使用注视手势,因为这些应用程序完全没有任何类型的物理交互设备,除了仅用于跟踪用户眼球运动的头戴式设备。由于这些设备只需要注视手势界面为用户提供一种自由方便的交互形式,因此该技术可以广泛应用于这些领域。这些类型的技术目前甚至正在使用,就像我们可以以 Microsoft HoloLens 为例。
在智能镜头等智能设备中,佩戴眼镜作为一种智能设备来显示信息,注视手势可以作为导航和其他用户指定功能的界面方式。此外,该方法具有较高的眼动追踪精度,因此可以用作虚拟环境中的绘图工具。这些也可用于检测用户的困倦,并在需要时警告用户。跟踪用户眼睛很重要的另一个场景是商业,其中检测哪个产品引起了观看广告的用户的注意。

参考:

  • Haria, A.、Subramanian, A.、Asokkumar, N.、Poddar, S. 和 Nayak, JS(2017 年)。手势
    人机交互识别。 Procedia 计算机科学,115,367-374。
    doi:10.1016/j.procs.2017.09.092
  • Chen, WX, Cui, XY, Zheng, J., Zhang, JM, Chen, S. 和 Yao, YD(2019)。凝视手势
    及其在与头戴式显示器的人机交互中的应用。 arXiv
    预印本 arXiv:1910.07428。