一种基于个体差异的跨个体注视估计方法

2025-06-08 15:40:06 457次浏览

本发明涉及跨个体的视线估计，具体指一种基于个体差异的跨个体注视估计方法。

背景技术：

1、在计算机视觉领域中，注视估计是一个非常活跃并具有挑战性的研究方向，并已经在近些年的研究中取得了巨大的进展。注视估计要求通过对图片中的面部特征进行提取和融合，以得到准确的2d注视点，很多人机交互应用都和它高度相关，在虚拟现实的交互中占据着十分重要的地位，例如用户注意力分布估计、虚拟现实眼动交互系统等。而跨人注视估计的任务被定义为在一组以前未见过的参与者上评估模型的任务。现有视线估计技术并没有捕获眼睛之间的长距离依赖关系，尽管它们在视线估计精度方面有很大的提高。

2、角度kappa(光轴和视轴之间的偏差)无法通过传统方法拍摄的图像反映出来。正常人群中水平轴和垂直轴的kappa角标准差约为1.8°，导致直接从图像估计的注视方法时出现2.0°～2.3°的随机误差。

3、现有的基于单图像的视线估计方法无法恢复这种个体差异，理论上，其准确度将达到2.0°。现有的好多方法，例如根据单个图像、视频序列和内容信息是可以预测注视位置方向，但是仍然存在不可观察的特定于人的差异的问题。鉴于这些挑战，学者提出了许多针对个人的适应技术，包括利用深度学习神经网络来预测人与人之间的差异、直接估计人眼的6自由度校准参数或用少量标记的测试样本微调模型，取得了不错的效果。但是，这些方法仍然没能很好的解决kappa的问题。

技术实现思路

1、本发明根据现有技术的不足，提出了一种基于个体差异的跨个体注视估计方法，旨在解决无效样本数据问题以及眼睛之间的长距离依赖关系，并且在跨人员的设置下，针对个体差异建模。该方法特别设计用于处理面部图像。设计了三个功能模块：dp(数据过滤模块)、sp(自动校准模块)、pst(预测变换模块)。其中，dp模块用于识别无效样本。sp和pst模块则用于学习并补偿有效样本上的个体差异，通过变换进一步提升预测结果的精确度。本方法在二维视线估计任务中显示出了显著的性能提升。

2、本发明提供了一种基于个体差异的跨个体注视估计方法，包括如下步骤：

3、步骤(1)、选定视线估计数据集，将数据集中面部图像输入到校验模块中，用于去除闭眼或者部分瞳孔可见的样本数据，使用dp模型进行样本数据的去噪，目的是在不同的光照条件、面部姿态和图像质量下保持稳定的检测结果；

4、步骤(2)、将去噪后的样本输入到神经网络模型cbsp-net中，获取参与者的三维注视向量d，根据数据集中样本采集时相机的位置转换计算出视线的二维注视点，得到初始的预测点；

5、步骤(3)、使用sp模块计算该参与者的全部可用帧样本的预测均值与历史预测数据的差值，进行预测偏差的矫正学习，主要针对不同个体特有的视线误差偏移量kappa值，从而获得精确后的pog值；

6、步骤(4)、将精确后的pog值转换为热图，如果该参与者存在历史数据的话，将历史数据也转换为热图，将两个数据结合，输入到pst模块，消除仿射变换的误差，得到最后的预测的热图数据。然后得到的最终热图数据进行softmax变换，得到最终预测到的二维注视估计预测结果。

7、作为优选，步骤1所述dp模型去噪方法如下：

8、由于到闭眼或者眨眼等样本为噪声样本，并且不同的光照情况，不同的面部姿态，不同的图像质量都会影响模型的训练和预测情况，所以，要去除噪声样本。提出的dp模型是结合人脸特征点检测和虹膜检测，该模型整合了人脸特征点检测与虹膜检测技术，运作流程始于成功定位的人脸区域，随后采用68点面部标志点检测法，精确定位眼睛周边的关键特征点，作为进一步分析眼部结构的基线参照。在此基础上，根据这些特征点界定出两个独立的眼部感兴趣区域(roi)，并分别将它们转化为灰度图像。接下来，通过应用对比度增强与降噪技术，突出显示眼部特征，特别是虹膜与瞳孔的细微构造。利用瞳孔与虹膜的特定属性，实施霍夫圆变换以精确获取虹膜边界信息。将从特征点检测汇总的信息与霍夫变换提取的虹膜详细特征相结合，进而计算出人眼的纵横比。通过这一系列细致分析，结合所得的纵横比指标与虹膜的具体形态，系统能够高效且准确地区分眼睛是处于睁开还是闭合状态。

9、作为优选，步骤2具体实现如下：

10、在经过步骤1的筛选去除无效样本后，将筛选后的图片输入到模型，先转换到特征向量空间，然后进行特征提取。由于现有视线估计技术并没有捕获眼睛之间的长距离依赖关系，也没有很好的结合空间注意力机制。提出的神经网络模型cbsp-net以l2cs-net为基础模型，添加空间注意力和条形池化技术，有效浓缩信息，提炼出三维视线向量的两个组成部分(偏航角和俯仰角)，偏航角和俯仰角的组合可以覆盖所有可能的视线方向，从而提供对头部或眼睛姿态的全面描述。两个角度对应日常生活中头部和眼睛的自然运动。因此将两个部分结合能表示出眼睛和头部姿态。结合数据采集时相机的位置，获取到相机坐标系的方向。将三维向量结合相机坐标系投影到二维屏幕平面。三维向量与二维平面的交点就是二维注视点(pog)；

11、添加的空间注意力模块为cbam模块是轻量级的卷积注意力模块，它结合了通道和空间的注意力机制模块，cbam包含cam和sam两个子模块，分别进行通道和空间上的注意力。

12、添加的条形池化技术为strippooling模块，在一个空间维度上应用了一个长条状的池化核，能够捕获长距离信息，尤其是长距离依赖关系。同时，在另一维度上保持比较窄的尺寸，可以避免捕获一些无关信息。

13、作为优选，步骤3的具体实施过程如下：

14、由于不同个体之间由于生理结构差异导致注视点预测存在偏差。sp模块主要是学习补偿预测偏差，对偏移进行建模弥合视轴和光轴之间的差距，用来消除整体的影响，利用数据集的分布来模拟特定于参与者的偏移量。将该名参与者的全部可用帧样本的预测均值和历史预测数据的计算当作误差。则全部可用帧样本的预测均值gtr的计算公式为：

15、

16、全局平均注视点gtr表示本次所有样本注视结果的均值，pi表示每个有效样本预测的注视点的坐标，n表示经过dp模块筛选后的有效样本的数量。

17、作为优选，sp模块的预测公式如下：

18、

19、公式中表示经过sp模块校准后，对第t个时间点的第j个参与者的注视点预测的修正值，pt,j是初始的注视点的预测的值，ht,j表示历史索引集合，对于在线设置(连续帧输入)，包含直到当前时间点的所有历史预测索引(t-1)；对于离线设置，包含除了当前帧外的所有历史和未来帧。pi,j表示历史数据上第i个样本在位置j上的预测概率，gt,r表示全部可用帧样本的预测均值，ωi表示历史预测数据的权重系数。

20、作为优选，其中ωi的计算方式如下:

21、

22、公式中distance(pi,j,pt,j)表示历史预测pi,j与当前预测pt,j之间的距离度量，distance采用欧氏距离。∈是一个很小的整数，防止历史预测与当前预测完全相同，分母变为零，导致权重无穷大。

23、作为优选，步骤4的pst模块，能够建模和补偿更加普遍用户视线的差异，具体如下：

24、pst模块将sp模块输出的预测的热图以及同一参与者的历史精化pog的预测信息的热图作为输入，输出两者转换的热图，最后经过softmax函数，转换为概率，概率最大值的点就是改善精进后的预测的点。

25、本发明具有以下的特点和有益效果：

26、采用上述技术方案，本发明首先利用数据筛选模块dp去除噪声样本。然后输入到cbsp-net中提取特征，模型预算得到三维注视向量，然后转换成二维注视点。然后，通过比较测试用户的历史预测视线数据和训练gaze数据，计算两者均值的差异，作为用户的眼部个体差异kappa角的值，以修正用户的预测，消除基本的差异。最后，pst模块学习用户预测和训练gaze之间的仿射变换，结合测试用户的历史评估数据和前面个性化矫正的估计数据，得到最终改善的结果。本发明能根据不同参与者的预测的历史数据进行建模，有效提升预测精度。本发明提出的算法与具体的视线估计模型无关，它是一个简单的仿射变换，可以应用于任何视线估计方法之后，有效提升预测精度。

文档序号 : 【 40051436 】

技术研发人员：周泽昌,俞俊,杨艳,包俊
技术所有人：杭州电子科技大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

周泽昌丨俞俊丨杨艳丨包俊丨杭州电子科技大学