发布于: Android转发:0回复:0喜欢:0
数字人,大风起兮!
2021-11-10 09:32

最近元宇宙概念火的一塌糊涂,科技和文娱界大有言必称元宇宙之势,而数字人作为元宇宙的“原住民”或“通行证”,也是各种信息扑面而来,各种应用五花八门,让我们为“未来已来”雀跃的同时,又有点眼花缭乱、应接不暇。本文尝试对数字人的概念、主要应用场景简要分析,并结合数字人在广播电视和网络视听领域应用的难点和问题,提出一些思考。

  数字人的“基因”解码

数字人相关概念20世纪80年代最先出现在医疗领域。医疗领域的数字化虚拟人体,是为了可视化、精准化模拟人体结构,仿真人体的物理反应、生理反应。而我们所说的“数字人”,与“数字化人体”有着本质不同。数字人(Digital Human)是通过计算机图形学技术(Computer Graphics,CG)创造出的与人类形象接近的具有特定身份的数字化形象。数字人只依赖显示设备存在,不具有实体。

根据身份设定的真实性不同,数字人可以分为虚拟化身和虚拟数字人。虚拟化身(Avatars)是按照现实世界中的人进行设定的数字人,是真人在虚拟世界的映射,本身就代表现实世界中的人。虚拟化身的外观可以按真人原型尽可能还原,也可以是卡通化的形象。前者比如数字王国制作的Digi Doug、$数字王国(00547)$ 英伟达CEO$英伟达(NVDA)$ 在GTC大会的14秒虚拟影像,后者类似扎克伯格在虚拟办公软件Horizon Workrooms中接受采访,以及加州伯克利分校连续两年在游戏《Minecraft》中为虚拟化身的学生举办毕业典礼。在首次提出元宇宙概念的小说《雪崩》中,人类都拥有虚拟化身在元宇宙生活,它成为模糊现实和虚拟世界界限的重要突破口。

虚拟数字人(Virtual Digital Human)指人物身份虚构的数字人。不过,虚拟数字人的形象、声音和行为都可以基于真实人物,只要没有被赋予“现实人物的身份标识”特性,就是虚拟数字人。其中,最早的虚拟数字人是1982年日本以《超时空要塞》中的角色林明美为基础包装了第一位虚拟歌者(严格说,受制于技术条件,林明美是靠手绘生成而非计算机绘图,因此当时也只是出了音乐专辑)。我们现在常见的虚拟主播、虚拟员工、虚拟艺人等,也基本都是这一范畴。

相关机构发布的《2020年中国数字虚拟人发展白皮书》里指出,“虚拟数字人”宜具备三个方面特征:一是拥有人的外观,具有特定的相貌、性别和性格等人物特征;二是拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。

  数字人的“生命起源”

伴随赋予数字人“生命”的技术不断演进,数字人“人”的属性表达也越来越充分。近年来,随着制作和驱动数字人的技术快速迭代,数字人诞生周期越来越短、门槛越来越低,而数字人也更加鲜活、真实起来。

“照片写实”(“超写实”)是数字人外观制作的最新突破。数字人根据人物图形资源的维度,可分为2D和3D两类,外形上又分为了卡通、拟人、写实和超写实等风格。目前,如果数字人的外观和动作看起来非常逼真,渲染效果达到难以辨别是照片还是渲染图的程度,就可以称为照片写实数字人(photorealistic digital human)或超写实数字人(metahuman)。比如,腾讯发布的Siren(塞壬,与真人原型长相一样)、数字航天员(数字记者)小诤、清华大学的AI大学生华智冰、湖南台的实习主持人小漾、入职华为云的云笙等。有数据不完全统计,全球大约有50余个超写实数字人。

交互能力是可选项,但也是驱动数字人的“硬实力”。目前,很多数字人并不具备互动能力,都是事先根据目标文本生成对应的人物语音及动画,合成后以音视频形式呈现,比如虚拟主播播报新闻、虚拟模特走秀、虚拟博主街拍等。具备交互能力的数字人显然从属性上更像“人”。按照具体驱动方式,分为智能驱动型和真人驱动型。智能驱动型数字人是通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物生成相应的语音与动作来使数字人跟用户互动。人物模型是预先通过AI技术训练得到的,称为TTSA(Text to Speech& Animation)人物模型。

真人驱动型数字人是真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上,实现数字人与用户的交互。实际应用中,通常是根据场景需要,数字人会分别采取真人和智能两种驱动方式。今年两会期间,央视网的虚拟小编“小C”就是通过支持AI驱动和人工监管双重模式展现“人类温度”。由于人工智能技术虽已在深度学习等方面取得很大进步,但整体依然处于发展的初级阶段,因此,当我们觉得数字人很“智能”、更“真实”的时候,往往都是在采用真人驱动。比如,“梅涩甜”说脱口秀是真人驱动,读书分享则为智能驱动。

  数字人的“百态人生”

数字人赛道不断细分,应用场景也更加成熟和丰富,如同为数字人赋予了不同的身份和技能,可以在大千世界体验不一样的“百态人生”。当前,活跃在我们视线范围的数字人主要有四类“身份”。

一是客服型员工。在金融、银行、新零售等领域应用相对较多。从现场客服到人工座席、智能语音、文字客服,数字人客服是服务向智能化、可视化、个性化、全天候演进的又一次进步。相对早的是2019年浦发银行百度联合打造的“小浦”$百度集团-SW(09888)$ 。数字人员工在移动终端和大屏等媒介提供服务。

二是学生和老师。比如今年6月清华大学计算机系知识工程实验室迎来中国首个原创虚拟学生——华智冰。华智冰可作诗、作画、创作剧本杀,并具有一定推理和情感交互能力,其外观、声音由人工智能生成,9月发布的唱歌视频里人物肢体、动作是动作捕捉生成。每天的日常就是不断学习,包括创造能力、交互能力、学习能力等。此外在线教育领域已出现了一些具有简单交互功能的数字人老师,提供体育健身、启蒙教育等AI课程。

三是新闻主播。自2018年新华社和搜狗联合推出号称全球首个“全仿真智能虚拟主持人”,越来越多报社、广播电视台、新媒体平台都上线了数字人新闻主播。这些数字人的外观、声音和动作表达多是依托机构里的真实主持人、编辑原型,采集训练后实现智能驱动。目前,一些平台已可以通过后台合成视频再上线的方式,实现数字人新闻节目的日播,有的还提供了多语种、多方言、多音色的版本,支持用户根据喜好自行切换。有的已推出支持与观众互动、可以采访的记者型主持人。

四是艺人。这里主要指“供职”娱乐领域的数字人。一类是数字替身、虚拟化身或衍生类艺人。数字替身已较为普遍,可实现现实拍摄中无法表现的内容和效果,也有一些相对简单的比如AI换脸。肯德基创造了年轻版的数字化“桑德斯上校”,并成为自己的品牌代言人入驻社交平台。国内也有一些基于艺人打造的虚拟形象,通过伴舞或录制视频等形式共同经营自己的IP,有的还逐步被赋予“独立人格”。

全文:
搜狐新闻: 数字人,大风起兮!

网页链接

Page Excerpt:

最近元宇宙概念火的一塌糊涂,科技和文娱界大有言必称元宇宙之势,而数字人作为元宇宙的“原住民”或“通行证”,也是各种信息扑面而来,各种应用五花八门,让我们为“未来已来”...