专业定制伺服电动缸的电动缸厂家

咨询热线:13905180521
杏彩体育官网入口

杏彩体育官网入口网址·不一样的“注意力”:人机交互注意力的测量指标与利用

来源:杏彩体育官网网址 作者:杏彩体育官网入口2024-05-21 02:56:52
杏彩体育官网入口网址·

  本文我们关注注意力(Attention)问题。在这里,我们谈到的注意力与大家非常熟悉的机器学习中的注意力模型(Attention Model,AM)不同,本文讨论的是人机交互中的注意力问题。

  人机交互中的这种注意力也被称为是用户的关注焦点(Users focus Of Attention)。人机交互中的注意力是构造社交机器人(Social Robot)的重要问题,也在普适计算和智能空间等人机交互应用中起到非常重要的作用,因为在这些应用中,必须能够持续的监控用户的目标和意图。

  通过引入并有效测量注意力,能够改进人机交互的方式、效率和效果。一般认为,主要通过眼睛注视(Eye gaze)和头部姿势动态(Head)等来确定注意力 [1]。针对这些测量指标,研究者需要结合机器视觉和其他传感技术,测量和计算交互中的注意力指标,并且利用这些指标对机器人的行为进行控制。另一方面,这些指标也可以作为衡量社交机器人或者机器人辅助治疗中的效果。

  本文首先介绍了一种用于社交机器人的人机交互方法,该方法根据目标人当前的视觉注意力焦点来吸引和控制目标人的注意力,从而建立人和机器人之间的沟通渠道。这也是社交机器人中注意力的最直接的研究和应用。此外,本文还介绍了两个在人与机器交流场景中的注意力应用,一是将注意力应用于在线教育效果的评估,另一个是在机器人增强治疗中开发自闭症儿童的联合注意力(Joint Attention,JA)。

  在社交机器人的构造过程中,为了使机器人能够在服务应用程序或协作工作场景中与人类进行有效的交互,应该将这些机器人视为社会参与者,并表现出社会智能和意识。本文提出了一种智能的社交机器人工作方法,能够根据目标人的视觉注意力水平(Level of visual focus of attention,LVFOA)吸引目标人的注意力,并建立与目标人的交流通道。

  作者认为 VFOA 是机器人能够有效吸引注意力(用户关注点)和启动互动的一个重要线)它有助于理解人在做什么,2)它表明关注目标客体是谁(谁在看谁)。本文使用视觉线索,例如注视模式(Eye gaze),以及目标人的任务背景来识别 VFOA 及其水平。

  人们一般都会倾向于注视他 / 她感兴趣的目标物体 [2],为了描述参与人机交互任务的目标人的注意力情况,本文定义了视觉注意力(Visual Focus of Attention,VFOA)为三维表示的注视方向(gaze direction)。而具体任务 Ti 定义为:Ti(T={阅读、写作、浏览、观看绘画)},其中,i=1...4,Ti 是属于有限组可视目标 Li 的元素,而 Li 就是由不同任务的不同目标对象组成。例如,L1={book},L2={notebook},L3={display,keyboard,mouse} 和 L4={paintings},分别用于阅读、写作、浏览和查看绘画任务。作者定义了当目标人从指定的目标对象转移其 VFOA 时如何度量其注意力的丧失,还定义了如何测量目标对象参与任务时 VFOA 的持续时间。

  本文对 18 名参与者(14 名男性,平均年龄 28 岁,标准差 4.9)完成四项任务的过程进行了录制:阅读(4 名参与者)、写作(4 名)、浏览(6 名)和观看绘画(将注意力集中在室内的一幅画上,4 名)。给参与者发出的指令是要求他们集中精力完成任务。每个人阅读、写作、浏览和观看绘画的平均任务完成时间分别为 9 分钟、9 分钟、8 分钟和 8 分钟。

  为了测量 VFOA 的持续时间,作者观看录制的视频数据,并手动标注(使用暂停和重新开始)参与者在没有失去注意力的情况下对任务产生一致结果的时间段。当受试者将当前的 VFOA 转向另一个方向时,就会出现注意力丧失的情况。对于阅读和写作,参与者分别在「翻页」和「停止写作」时失去注意力。对于阅读、写作、浏览和观看绘画的任务,分别检测到 14 次、10 次、9 次和 12 次注意力的丧失情况。根据这些情况的持续时间,估计得到了每个任务的 VFOA 时间跨度(见表 1)。

  本文所提出的方法如图 1 所示。在启动交互模块(见图 1(a)的左侧部分),机器人识别并跟踪目标人的 VFOA。如果它们最初是面对面的,机器人会产生一个感知信号,并与目标人进行眼神接触。否则,机器人会试图通过识别目标人当前的任务来吸引目标人的注意力。机器人检测当前 VFOA 的水平,直到时长达到 T_s(T_s 为预先设置的用于表示 VFOA 持续的最大时间跨度的参数)。图 1(b)给出了这一方法的具体执行步骤。机器人在时间 t 使用低级或高级的 VFOA(取决于目标人的当前任务),根据目标人的移位 VFOA 的观察情况来生成吸引注意力(Attention attraction,AA)信号(弱或强)。

  由图 2,本文作者将一个人的视野(Field of View,FOV)分为中心视野和周边视野,具体包括下面三个分区:

  中心视野(Central Field of View,CFV):这个视野位于人类视野的中心。该区域设置为 30° 的锥形区域(图 2 中为 75° 至 105°);

  近周边视野(Near Peripheral Field of View,NPFV):定义为 CFV 区两侧 45° 扇形区域。在 CFV 的右侧(图 2 中为 30° 到 75° 之间),该区域被定义为右侧近周边视野(RNPFV),而在左侧(图 2 中为 105° 到 150° 之间),该区域被称为左侧近周边视野(LNPFV);

  远周边视野(Far Peripheral Field of View,FPFV):这个视野存在于人视野边缘的两侧,具体包括右侧远周边视野(RFPFV)和左侧远周边视野(LFPFV)。

  如果在 CFV/LNPFV/RNPFV 中检测到 VFOA,则机器人会产生头部转动动作(微弱信号)。如果检测到的 VFOA 在 LFPFV 或 RFPFV 中,则机器人产生摇头动作(强信号)。当机器人成功吸引目标人的注意时,通信信道建立模块(图 1(a)的右侧部分)尝试与目标人建立通信信道。机器人决定了注意力转移的程度,并向目标人发出一个感知信号,表明它想和她 / 他交流。机器人通过眨眼完成眼神交流。

  本文重点关注的是:持续的注意力(Sustained Attention)和集中或转移的注意力(Focused or Shifted Attention)。集中注意力或转移注意力是由刺激或意外事件所导致的瞬时反应,而持续的注意力则是由任务决定的。本文根据视觉信号(Visual Cues)和注视模式来衡量 VFOA 及其水平。

  1)获取视觉信号。一是,使用视觉机器的 faceAPI 来检测和跟踪目标人的头部姿势 h_p。二是,使用光流特征检测头部运动 h_m [4]。三是,重叠面窗口:如果检测到一个面部并且与最近的头部运动窗口重叠,h_m 大于 50%,则认为检测到重叠的面部窗口 o_f(o_f=1)。检测到重叠面窗口就意味着目标人把脸转向了机器人。本文使用 Viola-Jones AdaBoost-Haar-like 人脸检测器检测人脸 [5]。

  2)注视模式分类。一个人的注视模式表明了他 / 她感兴趣的对象。一般来说,人类的注视模式分为三种。当一个人在没有任何特定任务的情况下观看场景时,也就是说,当她 / 他「只是看到」场景时,就发生了自发的观看(Spontaneous Viewing)。当一个人带着特定的问题或任务(例如,她 / 他可能对博物馆中的某一幅画感兴趣)观看场景时,会出现任务或场景相关的观看(Task or Scene-Relevant Viewing)。当受试者不太注意自己在看什么,而是在关注一些「内心的想法」时,就会出现思维观察的取向(Orientation of Thought Viewing)。本文讨论的是前两种注视模式,使用 SVM 进行两类注视模式的分类处理。

  为了得到注视模式 Gp,本文考虑了头部在图像中的平移运动和虹膜在眼睛中的位置变化。图 3 给出了本文实验定位人头部的过程。首先定位到头部区域,之后利用 ASM 找到面部特征点,最后定位到虹膜中心。令 H_0 表示初始头部位置,E_t 为第 t 帧的眼睛注视位置(眼睛中相对虹膜位置)。T_Ht 表示来自 H_0 的头部运动的平移矢量,则第 t 帧的注视点 Q_t 确定如下:

  Gp={Q_0,Q_1, ...,Q_L−1} 表示 L 帧的注视模式。图 4(a)示出了观看场景中的特定点(任务或与场景相关的观看)的人的注视模式,并且在图 4(b)中示出如何观看三个不同点(自发观看)。

  通过对注视模式的重心进行归一化处理,从注视模式数据中提取特征向量。假设 C_m 是重心,r_t 是从 C_m 到注视点 Q_t 的欧氏距离:

  其中,t=0,1, ...,L−1。接下来,将距离值 r_t 按降序排序,并构造分类器的特征向量。使用 SVM 进行分类。

  为了进行训练,作者收集了注视数据,并构建与场景相关的、自发观看的注视模式的训练数据。SVM 模型能够将注视模式分类为自发观看(spontaneous viewing)S_l 和任务或场景相关观看(task or scene-relevant viewing)T_l。

  最后,通过识别目标人物所参与的任务来确定任务上下文(Task Context)。给定一个视频序列,提取每帧的方向梯度(HOG)特征直方图 [6]。将 HOG 特征组合为 10 个连续的帧来构建 HOG 特征模式 HOG_P:

  在识别出目标人的任务(或当前 VFOA)后,接下来,使用任务的相关上下文线索来识别注意力水平。对于每个任务,本文使用任务相关的 VFOA 跨度(T_s)来确定机器人应该等待多长时间或者机器人应该在怎样的时间周期内与目标人交互。此外,还定义了一些特定任务的线索来确定注意力的水平。以阅读 reading 为例,使用翻页率 P_t 和倾斜角度偏差来测量 LVFOA。而这些特定任务的线索的位置是根据人的身体的相对位置来确定的,本文应用的是文献 [7] 中给出的跟踪系统。

  根据语境线索和注视模式,VFOA 水平分为低水平和高水平。当注意力水平降低时,系统假设检测到 VFOA 丢失。对于不同的任务,注意力水平检测如下:

  S_l 表示自发观看。如果检测到自发观看,则假定此人对某项任务没有特别注意,即,表示检测到低注意水平。对于阅读和写作任务,除了头部姿势的改变外,本文还考虑了「翻页」(Pt)和「停止写作」(Ws)等行为来检测低注意水平。对于上式来说,如果特定的头部姿势变化且稳定性大于或等于 3 帧,则相应任务的注意力水平较低。否则,表示注意力水平较高,当前的注意力集中在任务上。

  焦点 / 注意力转移分为两个阶段。首先,为了吸引目标人的注意力,机器人从持续的 VFOA 中检测出焦点 / 转移的注意力。第二,在发送 AA 信号后,机器人需要检测到焦点 / 转移的注意力。

  注意力从持续性 VFOA 转移:为了发起礼貌的社交互动,机器人应该根据目标人当前持续的 VFOA 去吸引他 / 她的注意力。在引起注意后,机器人检测到目标人移位的 VFOA。根据环境因素和目标人的心理焦。