- A+
👆点击 链接者 > 点击右上角“···” > 设为星标🌟
作者|董建强,2023中国数字人
大会联席秘书长
深圳市边缘云计算有限公司
CEO
编辑|澜玲
来自丨链接者数字人智库
01 先看数字人的皮囊,即外观形态,是2D还是3D
2D数字人
顾名思义,2D数字人是指平面空间中的数字人,也叫“纸片人”,是数字人的初级形态,通常是采集一段真人视频或者仅仅用一张照片,通过机器预学习训练,可以快速识别绑定面部表情和肢体动作,然后用文本或者语音驱动,几分钟内就可以生成一段拟人视频。可以大幅降低视频创作的人力成本和时间成本,解决真人出镜种种麻烦。也是目前为止技术最为成熟,最容易商业化部署实施的一种数字人。
网上很多鬼畜和搞笑视频大量采用这种方法,下面请看懂王的表演。
刘润在今年年度演讲中重磅推荐了数字人,表示这项技术在未来会很有价值。他自曝目前自己的短视频口播很多都是使用数字人分身。
案例2,刘润短视频口播
相比较于短视频的制作。最近抖音和淘宝等直播平台出现了一些虚拟主播,替代一部分真人进行产品的讲解。目前由于技术限制,在实时互动性上,由于比较依赖知识图谱,还是不能像真人一样有感情和温度。当然对于这类直播带货,除了技术因素以外,平台政策监管也将面临巨大挑战。
案例3,数字人抖音直播
由于目前对于数字人还没有明确的标准,关于2D数字人是不是真正的数字人,在行业内部还有很多争议,从技术角度来说,2D的数字人由于还没有实现真正的数字化,所以有很多人不认为2D“纸片人”是真正意义上的数字人。需要特别说明的一点是:现在抖音淘宝直播间采用特效换脸的真人直播, 就肯定不是数字人了。
3D数字人
3D数字人是指立体空间中的数字人。2D数字人和3D数字人的区别不仅体现在视角上,也体现在制作方式和技术上。目前主流的3D虚拟数字人通常都是由3D建模(又分人工,视觉,手机),然后计算机渲染(CG)生成。
人工建模案例
扫描建模案例
目前3D建模技术的精度越来越高,同时成本也在大幅的下降。在不远的将来,我们每个人都可以拥有一个属于自己的3D数字人。在元宇宙里和朋友社交聊天,或者组队吃鸡。
02 再看皮囊的驱动模式:可分为AI
智能驱动型和真人驱动型(中之人)
真人驱动
3D数字人的肢体表情需要通过专业的动作捕捉设备(又分:惯性,激光,红外,视频)采集,基于固定的骨骼和面部肌肉特征进行关键点的标识和绑定,然后通过人工实时驱动,赋予该数字人形象表情和动作。
惯性传感器动捕
红外相机动捕
面部表情捕捉
其火爆背后的商业模式内核是偶像娱乐工业、虚拟主播带货等;可用于节目表演、品牌直播带货、虚拟偶像线下见面会等互动场景中。
邓丽君之后的中之人:陈佳
当然,关于真人驱动的数字人是不是真数字人,行业也有很大的分歧,你觉得呢?
AI智能驱动
数字人的表情和肢体动作是通过人像驱动引擎完成的,它能通过3D扫描、智能绑定,深度学习等AI技术,来实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等,让数字人从表情到动作更生动具体。
案例:GTC 2021 发布会"造假"事件
在SIGGRAPH 2021上,英伟达宣布在GTC2021上主持发布会的黄仁勋其实是假的。顿时引来行业一阵“哗然”,在“假黄仁勋”刷屏之后,英伟达官方又辟谣:只有14秒是虚拟的,并通过一部纪录片,自行揭开这场“骗局”的幕后过程。
03 最后看数字人的灵魂
听说读写看唱跳等多模态交互能力
无交互性
通常非实时的预制作数字人或者数字分身。主要应用于影视特效,虚拟偶像,短视频制作等领域,这类应用主要对时效性要求不高,根据制作人物精度,造型逼真程度的不同要求。制作周期在几天到几年不等,费用在几千块到上百亿之间,差别很大。
案例:洛天依
弱交互性
弱交互性数字人是指数字人的交互能力较弱,无法与用户进行复杂的交互,只能根据给定的知识图谱,进行简单的问答、语音播报等操作。弱交互性数字人主要应用于一些简单的场景,如银行客服,各种语音手机助手,智能音响,车载助理,商场导购等已在实际生活、工作场景中进入大规模应用。
案例银行数字客服
强交互性
我们把强交互性数字人又叫数智人,数智人的愿景目标是成为通用型数字人(AGI),赋能千行百业,进入千家万户。它可以利用语音交互(TTS、ASR)+自然语言理解(NLU)+深度学习(DL)等技术实现虚拟形象生成与驱动能力,以真人及卡通形象与客户进行多模态交互,实现低延迟率的实时互动交流和拟人化服务能力,沉浸式交流体验,提升用户服务体验。
案例:黄仁勋的AI“数字人Toy Jensen”
Toy Jensen演唱圣诞歌
英伟达的创作团队导入了英伟达Omniverse Avatar云引擎平台的云原生AI微服务和工作流程,利用最近开发的语音转换模型,从样本中提取专业歌手的声音,然后转换成玩具Jensen的声音然后通过Audio2Face,Audio2Gesture等技术,为整场演出生成逼真的面部表情和肢体动作。
结束语
随着人工智能领域的三大要素算力、算法和数据的飞速发展。数字人的落地应用将迎来爆发式的增长。以下是五个发展趋势:2D到3D,从低精度到高精度,从真人驱动到ai驱动,从非实时到实时,从单模态到多模态。
最近马斯克等1000名科技人士签署了一封特殊的公开信。呼吁所有的AI实验室立即暂停训练比GPT4更强大的AI系统至少6个月。
也许硅基智能超过碳基智能的“奇点”,很快就要来临。那么你是降临派?拯救派?还是幸存派?
联系我们
联系方式:158 1727 5500 刘女士
(微信同号)