基于多模态数据的学习者专注度研究

发布于: 雪球转发:0回复:0喜欢:0

大数据文摘受权转载自中国人工智能学会

文 / 武法提

专注是产生有效学习的先决条件,在以自主学习为主的在线学习场景中具有更为重要的作用,但在线学习时空分离的特性难以保证学习者的专注度得到及时监控,故而探究精准识别在线学习专注度的可行方法至关重要。本研究主要关注在线学习中学习者的面部线索、眼动特征与生理数据,基于从视频数据中提取的眼部视线、头部姿态、面部动作单元等面部线索特征,从眼动数据中提取的注视停留时间、注视点、眼跳等眼动特征,以及从生理数据中提取的心跳间期、血液容积脉搏波、皮肤电活动、皮肤温度等生理特征,分别通过三类单模态特征,以及“视频+生理”和“视频 + 眼跳”两种多模态特征进行学习专注度识别,采用常用的六种机器学习方法构建相应的评估模型,对六种分类器的专注度预测性能进行了比较。实验结果表明,相较于面部线索,眼动特征与生理特征具有更好的识别潜力;与单一模态相比,模态融合能显著提高学习专注度识别效果,揭示了多模态数据特征的融合对学习专注度识别的互补性。

关键词:学习专注度;面部线索;眼动;生理信号;多模态数据

如今,以人工智能为核心的智能技术正在推动人类教育向智能教育阶段转型和演进,为教与学全过程提供了个性化数据采集和智能化分析的能力,蓄积了解决教与学问题的起步动能,如研究人员开始使用多源多模态数据自动分析学习者的学习情绪、学习专注度等多元微观特征,试图深度理解学习过程,提升学习者的学习质量。学习专注度反映学习者聚焦于学习任务的注意集中程度,是决定学习表现的关键因素。先前研究已经指出,较高的注意集中程度有利于大脑中的信息处理和编码,便于学习者更准确地回忆学习到的内容,从而获得更好的学习成效。因此,及时识别学习专注度至关重要,可以作为学习者自我调节和教师实施教学调整与干预决策的依据,进而促进学习者学习和教师教学。

相比于面对面学习,在线学习具有灵活化、个性化的优势,但时空分离的条件让教师难以及时监控学习者,而学习者在没有教师监督的情况下很可能会难以集中注意力,进而导致学习效率低下并影响教学效率。特别地,中小学生在线学习缺乏专注度的现象尤为严重,这导致学习效果不够理想,故在线学习专注度的识别问题亟待解决。传统的学习专注度评估方式主要有两类,一类是由教师通过观察学习者的外部行为表现 ( 如肢体语言、面部表情等 )判断其专注程度,另一类则是由学习者进行专注状态的自我报告,这两类方法均存在一定主观性,且难以实现对专注度实时、动态的评估,无法满足在线学习的评估要求。

随着新技术在教育中的逐步应用,越来越多的研究人员使用学习者的外部表现来自动识别学习专注度,如使用摄像头以非侵入的方式采集学习者的计算机视觉数据,从中提取相关特征,并通过不同的机器学习方法识别学习专注度。目前,体现个体外在行为表现的计算机视觉数据得到广泛关注,但是反映学习者信息关注范围的眼动数据却少有用于专注度识别。而眼球运动与人类的认知和大脑活动之间存在着密切联系,可识别吸引学习者注意的内容和潜意识行为。眼动追踪技术作为一种记录学习者行为与状态的有效方法,故同样具有识别在线学习专注度的可能。相较于学习者的外部表现,未经训练的学习者通常无法控制其生理信号的波动,因此生理信号能够更加客观地反映学习者真实的学习专注度。低侵入性的便携式可穿戴设备的出现,能够允许在自然真实的学习者场景下,进行无感式、伴随式地采集学习者的过程性生理表现。基于人的多重感知模式,采用多种方式追踪学习过程,通过不同层面数据洞悉学习过程的多模态学习分析逐渐得到学者关注。多模态信号数据具有相互补充的特点,促使学习专注度建模走出数据类型单一与数量不足的桎梏与困境。

因此,本研究面向在线学习场景,将视频数据、眼动数据和生理信号作为多模态数据来源,再以交叉验证的方式提供可靠的学习专注度标签,并分别从多模态信号中提取可理解的特征,借助可解释性强的机器学习方法构建基于多模态信号的学习专注度识别模型。通过探究使用多模态信号识别学习专注度的有效性与可行性,助力在线学习专注度的精准识别。

1 相关研究

1.1 面部线索是识别学习专注度的有效特征

计算机视觉数据中提取面部线索、身体姿态等特征,是识别专注度的常用方法。由于在线学习场景的特殊性,身体姿态难以被完整记录,而通过高清摄像头伴随式地采集学习者的眼睛注视方向、头部姿态、面部特征等面部线索数据易在在线学习场景中实现,因此,从该类数据中提取相应特征并建立学习专注度识别模型,是诊断在线学习专注状态的有效方式,先前大量研究结论也证实了通过以上面部线索识别专注度的可行性。眼睛注视方向是通过个体眼球在三维空间中的注视点坐标识别出的视线关注点,是判断学习者是否将注意力集中于学习内容的重要依据。例如,郑天阳通过计算学习者眼神在左右方向、上下方向的偏移值是否在合理范围内来判断专注状态;Daniel 等则证实学习者对相应任务的注视时间、注视率、注视次数等是识别专注度的有效指标。

类似地,反映学习者头部偏转情况的头部姿态也可较好地反映学习者的注意力范围,从而判断其是否专注于学习。例如,Useche 等认为可通过学习者头部的俯仰值与偏航值判断其是否专注;Xu 等同样通过头部的俯仰角、偏航角与旋转角实现了较高精度的专注度识别。

面部特征则能通过个体五官的动作单元反映其情绪、疲劳程度等状态,同样是识别专注度的可行依据。例如,刘冀伟等和 Peng 等均是通过人脸的眉毛、眼睛、嘴巴等部位的运动特征实现了较高准确率的专注度识别;郭晓旭、Sharma 等、Gerard 等均通过学习者的面部特征识别其表情,并通过给每种表情赋予不同权重从而计算学习专注度分数;张双喜则基于学习者的眨眼及哈欠情况判断其是否疲劳,并通过计算疲劳帧数比例判断其是否专注。

1.2 眼动特征具有识别学习专注度的较高潜力

随着眼动仪智能化程度的不断提高,眼动追踪技术常被用于多媒体学习领域。根据 Just 与 Carpenter提出的“眼 - 脑”(eye-mind) 假设,眼球运动为个体注意力的分配提供了动态追踪的可能,即眼动特征与信息加工机制有着密切的联系。眼动特征中常关注的指标包括视线落点、注视时间及次数、眼跳路径等,视线落点反映了个体所关注的具体信息区域,可明确其注意的位置和范围;注视时间反映了加工难度与注意量,注视时间越长,一般说明在相应区域投入的注意量越多,信息处理可能会表现出复杂深入的特点;眼跳路径则是个体注意力的动态转移轨迹,能反映更为精细的视觉加工信息,如著名的帕福利迪斯实验发现,阅读困难者的回视路径更多,因此可认为阅读困难儿童负责行为顺序的中枢存在缺陷,进而导致注意力的持续时间较短。因此,眼动特征也为学习专注度的识别提供了可能性。

目前,有少量研究探索了采用眼动特征识别专注度的可行性。例如,D'Mello等聚焦于在线阅读场景,基于学习者对阅读材料整体的注视频率、注视持续时间、眼跳长度等全局特征,以及不同长度单词的阅读时间、跳过的单词数量、首次注视长度等关注材料词汇的局部特征,判定其是否专注于学习内容;Bixler 等同样证实了采用眼动数据识别阅读专注度的可行性;Veliyath等则从学习者的眼动数据中提取出其眼球注视位置、被查看的任务位置及相应的时间戳等特征进行专注状态评估。可见,眼动特征具有较高的专注度识别潜力。

1.3 生理信号是识别学习专注度的重要依据

生理信号是人作为生物体的自发反应,不易受到学习者主观意识的影响,故具有很好的科学性、准确性与客观性。在基于外部生理表现的学习专注度识别研究中,使用较为广泛的生理信号是脑电信 号(electroencephalogram,EEG)与心电信号(electrocardiogram,ECG),但 EEG 和 ECG 感知设备不满足无感式采集的要求,故它们不能被应用于常态化的学习场景。

值得注意的是,ECG 的关键特征是心率变异性(heart rate variability,HRV), 指 的 是 心 脏两次搏动间隔时间的变异性,其被证明是衡量专注度的重要指标。HRV 可通过光电容积脉搏波(photoplethysmography,PPG)的连续脉冲周期间期变化来计算。目前,PPG 检测技术能够被集成到腕带、手环等便携式可穿戴设备中,从而实现 PPG信号的无感式、伴随式采集,因此研究人员开始使用 PPG 信号来识别学习者的专注度。例如,Li 等在在线视频学习的实验中要求被试佩戴腕带完成学习任务,以固定时间间隔提取相应的时域特征、频域特征与非线性特征,再通过算法构建学习专注度评估模型。由于单一模态数据容易造成路灯效应,而多模态数据具有互补优越性,因此结合脉搏数据、温度数据、皮肤电等多模态生理信号来识别学习专注度可能会显著提高预测性能。

2 研究方案

多模态数据的采集是实现学习者专注度识别的第一步。将通过便携式的可穿戴设备收集的多模态学习数据作为原始数据,对数据进行数据清洗(噪声、伪影等干扰去除)、数据对齐(数据切割与分段、多模态数据的时域同步等)、数据集成等数据预处理。针对同步与对齐后的多模态数据,以原标注、自标注与他标注三种不同方式进行学习专注度标签标注,并通过三角互证对标注结果进行了一致性分析,保证标注标签的准确性、有效性与科学性。通过上述处理后,构建了多模态学习者专注度数据集,并利用数学统计方法验证数据集质量,为后续特征工程的技术路线提供数据基础。

特征工程是将原始数据转化为更能代表机器学习方法潜在问题的特征,从而提高模型精度的过程,其目的是依据研究目标从原始数据中发现更好的合适特征,减少噪声的干扰,使得模型能取得更好的效果。对采集的多模态数据进行检查与筛选,每个样本均包含多模态学习者数据,具体指标与特征编码如表1所示。

表 1 多模态数据的相关指标

图 1 面部线索特征提取流程

视频数据的相关指标提取可以通过开源工具箱Open Face逐帧分解图像,对每一帧图像进行人脸检测、面部特征点估计、面部特征输出等步骤从而计算抽象特征,集成后获得包含眼部视线方向、头部姿态、面部动作单元等特征向量,并通过统计分析计算相应的均值、标准差、最小值与最大值等,共提取104个具体指标。面部特征提取的步骤,如图1所示。

图 1 面部线索特征提取流程

Empatica E4 腕 带 记 录 了 心 跳 间 期(interbeat intervals,IBI)、 血 液 容 积 脉 搏 波(blood volume pulse,BVP)、皮肤电活动(electrodermal activity,EDA) 与 皮 肤 温 度(skin temperature,SKT)四种生理信号。为减少采集阶段的伪影和干扰,在构建特征之前需要对生理信号进行单独滤波,如需要使用插值法补充 IBI 的缺失值,并通过伪影校正法进行正确的重建,使用 64 Hz 和 4 Hz 的陷波器分别过滤 BVP 和 SKT 的工频噪声,使用高斯低通滤波器去除 EDA 中因手腕运动、汗液渗出等影响的伪影与噪声。在生理数据层面,从 IBI、BVP、EDA 与 SKT 中分别构建有意义的度量特征。例如,IBI 的时域特征通过 Kubios HRV Standard 软件提取;BVP、EDA与SKT的相关特征通过集成于Matlab的Bio-SP工具箱提取。其中,BVP 的特征来源于代表血流量的血液容积脉搏波振幅;EDA 的特征来源于过滤后的电流振幅及其皮肤电导反应成分。本研究总共提取28个可理解的具体特征,它们在先前的研究中已得到应用。生理信号特征的提取流程,如图2所示。

图 2 生理信号特征提取流程

眼动数据则通过 Tobii Studio 软件进行预处理,首先使用区域划分工具将阅读材料标记为文本部分、插图部分与思考题部分三个兴趣区,而后导出在时域与空域上皆有追踪痕迹的眼动数据,并提取出各兴趣区的眼动特征,通过统计分析共得到 12 个眼动数据的量化指标。

因不同特征的量纲不同,特征的实际数值间差异较大,不具备直接比较的意义,故使用 Z-Score标准化方法将上述指标的取值转化为标准分数。虽然更多的特征意味着机器学习方法可以获得更多的信息,但冗余和不相关的特征可能会导致预测性能不佳。为了减少多余信息与优化预测精度,本研究使用相关分析、卡方检验与信息增益方法作为进行特征选择,即剔除相关系数绝对值低于 0.10 的特征,将剩下的特征作为潜在的最优特征子集作为学习专注度识别方法的输入。

3 结果讨论

为了评估学习专注度,需要选择合适的可解释性方法进行分析。机器学习方法能学习到比较具象的信息,而深度学习能学习到特别抽象的信息,通常无法描述。因此,研究选择了单一规则法、线性逻辑回归、支持向量机、贝叶斯网络、决策树与随机森林这六种常用且有效的机器学习方法构建模型,并使用通过混淆矩阵计算得到的准确率、精确率、召回率和 F1 分数作为性能参数,选择单一规则法作为基线分类器,评估和比较以上六种方法所建模型的预测性能。此外,为了减少监督学习中常见的过度拟合问题,本研究还利用五折交叉验证来提高学习专注度识别模型的鲁棒性。在多模态融合方面,研究分别测试“视频 + 眼动”和“视频 + 生理”两种特征融合的效果,并与三种单模态特征的识别效果进行比较,结果如表 2 所示。

表 2 学习者专注度识别结果

根据结果,视频特征反映的识别效果普遍不理想,生理特征和眼动特征是对学习专注度识别的补充,可以作为专注度识别的有效区分特征。单模态中,生理特征与眼动特征在识别学习专注度方面较为出色,视频特征的表现稍逊色。多模态融合较为明显地提高了学习专注度识别的准确性,“视频 + 生理”多模态融合获得的最佳 F1 分数为 0.839,而单独使用视频模态和生理模态的 F1 分数分别为 0.443 和0.633;“视频 + 眼动”多模态融合获得的最佳 F1分数为 0.745,而单独使用视频模态和眼动模态的F1 分数分别为 0.578 和 0.727。由于学习专注度是与许多非言语线索相关的复杂的心理生理现象,仅仅使用单一的模态很难建立强大的学习专注度评估模型。面部线索主要可反映个体在学习过程中的一般专注程度,但难以明晰对学习内容的具体加工情况,较难确认其是否将注意力集中于学习内容;而外显化的眼动特征往往较易“伪装”,虽能明确学习者关注的具体信息,但对于其处理信息时内在状态的判断较为有限。生理特征虽然体现客观,但是在采集和提取时还可以涉及更多的神经生理信号。而不同模态的信息融合能够较为显著提升识别的准确性,为专注度的识别提供更多有价值的信息,凸显出多模态学习分析的优势。这也间接说明了多模态融合可以更好地同时模拟学习者在不同学习专注度下表现出的潜意识行为和认知状态。

4 结束语

心不专一,不能专诚,专注是促进有效学习的发生与维持,提升学习表现的必要条件。本研究从专注度视角切入,将它作为透视学习者学习的重要窗口,以伴随式采集的过程性数据为数据来源,开展多模态学习分析技术支持的学习专注度自动评估研究。多模态专注度识别的研究工作未来还有很大的研究和发展空间,如更加轻量化无感式的数据自然采集方案,更多模态数据的挖掘与融合,特征变量与教育实践中现实需求的适配性,以及群体学习专注度及其多模态特征的演化机制等;同时也应该在教育实践中找到更科学的证据,推动研究成果的应用落地。当然,未来更应该思考如何将学习者专注度自动识别技术真正应用于教育实践中反哺教与学,以实现教育质量的提升。

(参考文献略)

租售GPU算力

租:4090/A800/H800/H100

售:现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦!