图丨人脸识别应用场景(来源:邓伟洪老师,络绎知图整理)
那么什么是人脸识别呢?站在普通人的角度,人脸识别的定义可能就是“刷脸”,人脸识别系统通过脸部照片判断识别用户。例如刷脸解锁手机,用户把脸正对手机屏幕,手机识别到人脸部数据后,自动解锁。其实,学界对人脸识别的定义与人们认知里的人脸识别大相径庭:
人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别。
图丨人脸识别发展历史(来源:邓伟洪老师,络绎知图整理)
人脸识别技术的应用已经成熟,但仍然面临许多现实的问题,例如人脸识别仍存在准确度不高、人脸信息被盗刷、公平性等问题。如何解决以上问题成了该领域科研人员所面临的挑战。
本次络绎学术 Online 直播第 101 期,我们邀请了北京邮电大学人工智能学院邓伟洪教授以“可信人脸识别与分析”为主题,为大家讲解人脸识别在应用中所面临的难题和挑战,也分享了其团队为解决问题所做的最新研究成果。
络绎学术Online第101期精彩回顾
以下为直播内容回顾及延伸解读。
可信人类识别与分析 ——
人脸识别的模式、发展史及面临的问题
对人脸识别的研究可以追溯到 20 世纪六七十年代,经过几十年的曲折发展,如今该技术已经日趋成熟。
1)人脸识别的三种模式
常见的人脸识别有两种,分别是 "1:1" 验证模式和 "1:N" 识别模式。1:1 验证模式是机器在做判断题,通过对某人的设备采集照与证件照的人脸特征进行比对,核实是否是同一个人。该模式主要应用于需要通过实名制验证的场景,比如我们乘坐高铁验票,乘客需手持有效身份证件通过时,人脸识别检票系统会将乘客人脸图像与身份证照片进行比对,这就是典型 1:1 模型的人脸识别,此外常见的 1:1 模型应用还有景区验票、酒店入住、刷脸支付、刷脸解锁等等。
1:N 识别模式是机器在做选择题,通过采集某人的人像后,从海量的人像数据底库中找到与当前使用者人脸数据相符合的图像,通过数据库的比对找出“你是谁”。常见的办公楼宇的人脸考勤门禁就是采用这种模式,此外还有社区门禁、工地考勤、会签等等场景。
由于 1:N 识别模式中,机器需要在大量的人脸数据库中找出匹配的人脸图像,因此识别难度要远远高于 1:1 验证模式。同时,人脸数据库中的人脸数量 N 也极大影响了人脸识别的正确率。
图丨人、机人脸识别比较(来源:邓伟洪老师,络绎知图整理)
此外,还有 M:N 的人脸识别模式。"M:N" 是通过计算机对场景内所有人进行面部识别并与人像数据库进行比对的过程。M:N 作为一种动态人脸比对,其使用率非常高,能充分应用于多种场景,例如公共安防,迎宾,机器人应用等。但是 M:N 模式仍存在很大的弊端,因为其必须依靠海量的人脸数据库才能运行,并且由于识别基数过大,设备分辨率不足等因素,使 M:N 模式会产生很高的错误率从而影响识别结果。
2)人脸识别算法发展历史
人脸识别算法经历了:早期算法,人工特征+分类器,深度学习 3 个阶段:
第一阶段是半机械式识别阶段。这一时期的人脸识别过程主要以大量人工操作为主,识别过程几乎全部需要操作人员来完成,因此,这样的系统是无法自行完成人脸识别过程的。
第二阶段是人机交互式识别阶段。在这一阶段,人脸识别技术得到了进一步的发展,研究者可以使用算法来完成对人脸的高级表示,或者可以以一些简单的表示方法来代表人脸图片的高级特征。
图丨大数据的发展历程(来源:邓伟洪老师,络绎知图整理)
第三阶段是自动人脸识别阶段。在这一阶段中,人工神经网络 (Artificial Neural Network, ANN) 也得到了广泛的应用,由此演化出很多人脸识别中的新方法。例如当前非常热门的深度学习方法就属于人工神经网络的范畴。
3)人脸识别存在哪些问题?
目前,我们处于人脸自动识别的第三阶段,深度学习算法是主流,极大的提高了人脸识别的精度。在谈解决人脸识别可信度这一问题之前,我们必须先了解什么是深度学习。
深度学习是机器学习的重要研究领域:使用分层算法模型分析数据,运用统计与预测建模收集、分析、解读海量信息,是数据科学的核心组成部分;模拟人脑神经网络处理数据,设计模型,训练模型,做出决策,是人工智能的一大分支。深度学习技术通常用于研发图像识别工具、自然语言处理和语音识别软件,完善自动驾驶、语言翻译服务;在零售、医疗、汽车、农业、安全、制造业有着广泛应用。人脸识别是深度学习技术常见的应用领域之一。
图丨深度学习(来源:邓伟洪老师,络绎知图整理)
海量标注数据和深度学习技术推动了人脸识别的广泛应用[1],现有模型在数据集上的性能已经超越人类。然而,在实际应用中,训练和测试的环境差异、地区差异、伪造和对抗攻击等挑战,导致大部分视觉识别应用的准确率和稳定性仍不理想,甚至造成“种族偏见”等伦理问题和伪造人脸等安全问题。同时,隐私保护和数据安全也引起了人们的广泛担忧。
解决数据问题是关键
深度学习技术应用需要依靠大数据的支撑,在人脸识别技术的应用上亦是如此,海量、可靠的大数据是保障人脸识别准确性的基础。在人脸识别技术得到广泛应用的今天,人脸识别系统的数据库仍存在以下挑战:
其一,数据不足。在数量和质量上均较为匮乏的数据库,是当今深度人脸表情识别系统面临的主要挑战[2]。由于不同年龄段、不同种族和不同性别的人,表达和解析面部表情的方式也不同, 一个理想的表情数据集应该包含除了表情标签之外,各种丰富且精确的其他面部属性标签,例如年龄、性别和种族。
其二,数据偏差。研究人员通常通过爬取网站(例如 Google 图片)来构造人脸识别数据集。然后通常由研究生或通过众包平台为这些数据集添加标注。这种数据收集方法可能会无意间产生具有性别,种族和文化偏差的数据。通常,某些群体的图片过多,而另一些群体的图片则严重不足。例如,尽管东亚和印度占全球人口的 44%,但它们在人脸识别中仅占常用训练数据集的 8%。用有偏差的数据训练的人脸识别算法会导致算法的不公平性。
图丨人脸识别面临的挑战(来源:邓伟洪老师,络绎知图整理)
人脸识别应用中,数据问题不解决,可以出现以下问题,例如,人脸识别闹出的笑话、人脸识别出现失误、人脸识别造假。因此,如何避免人脸识别闹出的笑话?如何解决人脸识别极端条件下的失误?如何解决人脸识别造假?如何保证人脸识别对不同人种的公平性?
对大量携带复杂自然场景变化的数据进行精确的标注的难度很大,在专家指导团队下对数据进行多人的众包标注,并利用机器学习不断地优化大数据,搭建全新数据集,是可靠的解决方式[1]。
可信人脸识别新问题研究及数据集建设
邓伟洪教授在计算机视觉与模式识别、可信人工智能、情感计算、多模态学习等领域,有多年的研究经验。最近,邓伟洪教授带领团队搭建了数据集,如 BUPT-Xface+RFW 和 RAF-DB。BUPT-Xface+RFW 针对公平性人脸识别而提出,该数据集包含不同肤色的四类人种,利用其可以公平地进行模型训练并评估模型的公平性。同时,团队提出了通过迁移学习、强化学习、元学习来提高人脸识别公平性的新方法。RAF-DB 数据库主要为研究人脸表情识别问题而建立。具体细节如下:
图丨人脸识别数据驱动中的主要偏差(来源:邓伟洪老师,络绎知图整理)
1)公平性人脸识别问题与数据集
在介绍数据集 (BUPT-Xface+RFW) 之前,我们首先需要了解人脸识别公平性问题的研究背景:模型关于肤色的偏差是指,人脸识别模型在不同肤色人群上的性能往往不同,肤色较浅的人识别率较高,而肤色深的人识别率较低。这种偏差可能导致某些人口群体受到不公正的对待,使他们面临更高的欺诈风险,或者使他们更难获得服务。因此,保证人脸识别系统的公平性至关重要。
数据:邓伟洪教授的课题组针对该问题进行了系统且科学的研究,搭建了数据库 (BUPT-Xface+RFW) ,数据库包括[3]:
图丨IDS-4 和 IDS-8 上不同肤色人群的平均脸 (来源:邓伟洪老师,络绎知图整理)
测试集:IDS-4 包含四个肤色人群,每个人群都构建了 6000 个人脸对进行人脸验证。IDS-8 包含八个肤色人群,每个人群有 3000 个人脸对进行人脸验证。
训练集:BUPT Globalface 数据集是按照世界人口比例构建,包含 3 万 8 千个人的 200 多万张图片。Globalface-4 被划分成 4 个肤色人群;Globalface-8 被划分成八个肤色人群。BUPT Balancedface 数据集中各个肤色人群的数量均衡分布,包含 2 万 8 千个人的 130 万张图片。Balancedface-4 被划分成 4 个肤色人群;Balancedface-8 被划分成八个肤色人群。
图丨MBN 的主要架构 (来源:邓伟洪老师,络绎知图整理)
算法:为了解决偏差问题,算法必须权衡不同肤色人群对间距的需求,以控制不同肤色分布下的公平程度。因此,他们将自适应间距的思想引入到肤色公平性问题中,利用元学习为不同肤色人群动态学习一个间距参数。利用训练数据进行模型参数优化,使用大间距损失优化模型参数;利用元数据进行间距参数优化,设计元偏差损失优化间距参数优化。在 MBN 中,模型参数优化和间距参数优化迭代进行,最终学习到更优的模型参数使得模型在不同肤色人群上有更加公平的表现。
实验验证:关于肤色偏差的研究。首先,邓伟洪教授团队在 IDS-4 和 IDS-8 上测试了四个人脸识别算法以及四个商业识别 API。所有 SOTA 算法和 API 在肤色较浅的人群上表现最好,在肤色较深的人群上表现较差。这是因为,在肤色较浅居多的数据上训练的特征,会丢弃对识别肤色较深的面孔有用的信息。
MBN 去偏差性能验证。邓伟洪教授团队利用 BUPT Globalface 数据集和 BUPT Balancedface 数据集训练 MBN 模型,并在 IDS-4 和 IDS-8 上验证性能。算法提升了系统的公平性,黑人的性能得到较大的提升,同时白人的性能几乎没有下降,不同人种的识别率趋于相近。并且,同时利用平衡数据集和去偏差算法可以取得最先进的去偏差性能。
实验表明,该研究将会为机器学习的公平性研究打开了一扇窗户,并为去偏差算法提供新的思路[3]。
2)其他两个数据集
除了数据集 (BUPT-Xface+RFW) 之外,邓伟洪教授介绍了其团队此前搭建的两个数据集:
其一,真实世界表情识别问题及数据集 (RAF-DB,RAF-ML,RAF-AU) 通过众包方式标注真实世界图片中的人脸表情,在国际上较早构建并公开了精确标注的大规模“复合表情”、“混合表情”和面部动作单元图片数据集。目前,数据集 (RAF-DB,RAF-ML,RAF-AU) 包含 7 类基本表情,12 类复合表情,30 多类混合表情,还标注了人类面部表情和情绪之间的关系。目前已被两千余个研究小组使用。例如许多心理学研究小组使用了该数据集。以往,心理学实验所采用的数据集多是在实验室摆拍的,而数据集 (RAF-DB,RAF-ML,RAF-AU) 则是邓伟洪教授团队利用海量网络图片搭建的全新数据集,为心理学研究带来另一种可能,例如利用该数据集诊断儿童自闭症等。
在介绍真实世界表情识别问题及数据集 (RAF-DB,RAF-ML,RAF-AU) 时,邓伟洪教授科普了解决人脸造假的硬科技,利用心跳时人脸会产生微妙变化这一生理现象,让机器捕捉人脸在心跳时的微妙变化,应用在假脸防伪上可以很大程度上解决“人脸造假”的问题。例如诈骗犯利用受害人的图像冒充受害者进行人脸识别,这种造假就能被系统甄别出来,因为照片没有心跳,机器捕捉不到微妙的人脸变化,便可识别。
其二,极端场景人脸识别问题和数据集,通过相似外貌、跨年龄、跨姿态、口罩遮挡、对抗攻击的无限制条件下的人脸图片组,构建了四个与 Labeled Face in-the-Wild (LFW) 规模和规则均相同的数据集 (SLLFW / CALFW / CPLFW / MLFW / TALFW) ,为人脸识别鲁棒性难题提供了新的评测数据和标准。
图丨人为的数据对抗模型(来源:邓伟洪老师,络绎知图整理)
在介绍极端场景人脸识别问题和数据集时,谈及人脸信息被盗用这一数据安全问题时,邓伟洪教授说:“人脸识别存在安全隐患,但并非技术问题,人脸信息被盗用才是根本问题。现在互联网无处不在,离开互联网社会无法运转,生活无法正常进行。很多人利用互联网犯罪,这不是技术问题,这是人的问题,应该利用技术和法律去控制犯罪。”
最后,邓伟洪教授表示,人脸识别技术应用臻至成熟,但很多维度上还有很大的研究和开发空间,他将会继续带领团队在计算机视觉与模式识别、可信人工智能等领域深入研究。
结论
人脸识别技术已得到广泛应用,深入在社会各行业和多个生活场景,邓伟洪团队搭建的三大类人脸表情数据集,有效提高了人脸识别中可信度、安全性和公平性等问题,也为心理学、医学等领域的研究提供了非常有价值的参考数据。
目前,人们的生活已离不开人脸识别,大众对人脸识别也不再陌生。但人脸识别仍存在安全性和可信度问题,公平性带来的舆论和道德压力仍存在。换言之,人脸识别在应用上很成熟但其理论基础仍然很薄弱,人脸识别系统还很脆弱,我们距离完美的人脸识别还有很长的一段路要走。
在互联网日益发展,数字化和人工智能日益普及的背景下,如何提高人脸识别的可信度和安全性,是当前该领域研究中最重要的课题。在学术研究领域,还有很多问题需要解决,人脸识别在技术上还有广泛的研究空间。
参考:
1. Mei Wang, Weihong Deng. “Deep face recognition: A survey.” Neurocomputing, vol. 429, pp. 215–244, 2020.
2. Li S, Deng W H . 2020. Deep facial expression recognition: a survey. Journal of Image and Graphics, 25(11): 2306-2320.(李珊, 邓伟洪. 2020. 深度人脸表情识别研究进展. 中国图象图形学报, 25(11): 2306-2320.)
3. Mei Wang, Yaobin Zhang, Weihong Deng. “Meta Balanced Network for Fair Face Recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 1-16, 2021.