发表评论

A+

所属分类：heygen ai百科

👆点击链接者 > 点击右上角“···” > 设为星标🌟

作为每个人进入元宇宙的入口，相信大家对数字人已经不是很陌生。那么市面上有各种数字人和各种专业术语总是把我们搞得云里雾里，晕头转向。今天，我就教大家用三招来拆解一个数字人，让你秒变数字人“砖家”。

数字人技术篇：三招教你成为数字人“砖家”

作者｜董建强，2023中国数字人

大会联席秘书长

深圳市边缘云计算有限公司

CEO

编辑｜澜玲

来自丨链接者数字人智库

01 先看数字人的皮囊，即外观形态，是2D还是3D

2D数字人

顾名思义，2D数字人是指平面空间中的数字人，也叫“纸片人”，是数字人的初级形态，通常是采集一段真人视频或者仅仅用一张照片，通过机器预学习训练，可以快速识别绑定面部表情和肢体动作，然后用文本或者语音驱动，几分钟内就可以生成一段拟人视频。可以大幅降低视频创作的人力成本和时间成本，解决真人出镜种种麻烦。也是目前为止技术最为成熟，最容易商业化部署实施的一种数字人。

网上很多鬼畜和搞笑视频大量采用这种方法，下面请看懂王的表演。

案例1，懂王演唱BEYOND歌曲

刘润在今年年度演讲中重磅推荐了数字人，表示这项技术在未来会很有价值。他自曝目前自己的短视频口播很多都是使用数字人分身。

数字人技术篇：三招教你成为数字人“砖家” 案例2，刘润短视频口播

相比较于短视频的制作。最近抖音和淘宝等直播平台出现了一些虚拟主播，替代一部分真人进行产品的讲解。目前由于技术限制，在实时互动性上，由于比较依赖知识图谱，还是不能像真人一样有感情和温度。当然对于这类直播带货，除了技术因素以外，平台政策监管也将面临巨大挑战。

数字人技术篇：三招教你成为数字人“砖家” 案例3，数字人抖音直播

目前最常使用的语音驱动照片的AI引擎主要有：SPACEx、PC-AVS、MakeItTalk和Wav2Lip，小伙伴们有兴趣的可以自己百度。

数字人技术篇：三招教你成为数字人“砖家”

由于目前对于数字人还没有明确的标准，关于2D数字人是不是真正的数字人，在行业内部还有很多争议，从技术角度来说，2D的数字人由于还没有实现真正的数字化，所以有很多人不认为2D“纸片人”是真正意义上的数字人。需要特别说明的一点是：现在抖音淘宝直播间采用特效换脸的真人直播，就肯定不是数字人了。

3D数字人

3D数字人是指立体空间中的数字人。2D数字人和3D数字人的区别不仅体现在视角上，也体现在制作方式和技术上。目前主流的3D虚拟数字人通常都是由3D建模（又分人工，视觉，手机），然后计算机渲染（CG）生成。

人工建模案例

数字人技术篇：三招教你成为数字人“砖家”

扫描建模案例

目前3D建模技术的精度越来越高，同时成本也在大幅的下降。在不远的将来，我们每个人都可以拥有一个属于自己的3D数字人。在元宇宙里和朋友社交聊天，或者组队吃鸡。

02 再看皮囊的驱动模式：可分为AI

智能驱动型和真人驱动型（中之人）

真人驱动

3D数字人的肢体表情需要通过专业的动作捕捉设备（又分：惯性，激光，红外，视频）采集，基于固定的骨骼和面部肌肉特征进行关键点的标识和绑定，然后通过人工实时驱动，赋予该数字人形象表情和动作。

惯性传感器动捕

红外相机动捕

数字人技术篇：三招教你成为数字人“砖家”

面部表情捕捉

数字人技术篇：三招教你成为数字人“砖家”

其火爆背后的商业模式内核是偶像娱乐工业、虚拟主播带货等；可用于节目表演、品牌直播带货、虚拟偶像线下见面会等互动场景中。

数字人技术篇：三招教你成为数字人“砖家”

邓丽君之后的中之人：陈佳

当然，关于真人驱动的数字人是不是真数字人，行业也有很大的分歧，你觉得呢？

AI智能驱动

数字人的表情和肢体动作是通过人像驱动引擎完成的，它能通过3D扫描、智能绑定，深度学习等AI技术，来实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等，让数字人从表情到动作更生动具体。

案例：GTC 2021 发布会"造假"事件

在SIGGRAPH 2021上，英伟达宣布在GTC2021上主持发布会的黄仁勋其实是假的。顿时引来行业一阵“哗然”，在“假黄仁勋”刷屏之后，英伟达官方又辟谣：只有14秒是虚拟的，并通过一部纪录片，自行揭开这场“骗局”的幕后过程。

数字人技术篇：三招教你成为数字人“砖家”

英伟达的声音转手势（A2G）技术

案例黄仁勋「数字人」亮相GTC2021

03 最后看数字人的灵魂

听说读写看唱跳等多模态交互能力

多模态的含义是多种模态的信息，包括：文本、图像、视频、音频等，交互性这里面又分：强交互，弱交互，还有无交互。

无交互性

通常非实时的预制作数字人或者数字分身。主要应用于影视特效，虚拟偶像，短视频制作等领域，这类应用主要对时效性要求不高，根据制作人物精度，造型逼真程度的不同要求。制作周期在几天到几年不等，费用在几千块到上百亿之间，差别很大。

案例：洛天依

弱交互性

弱交互性数字人是指数字人的交互能力较弱，无法与用户进行复杂的交互，只能根据给定的知识图谱，进行简单的问答、语音播报等操作。弱交互性数字人主要应用于一些简单的场景，如银行客服，各种语音手机助手，智能音响，车载助理，商场导购等已在实际生活、工作场景中进入大规模应用。

案例银行数字客服

强交互性

我们把强交互性数字人又叫数智人，数智人的愿景目标是成为通用型数字人（AGI），赋能千行百业，进入千家万户。它可以利用语音交互（TTS、ASR）+自然语言理解（NLU）+深度学习（DL）等技术实现虚拟形象生成与驱动能力，以真人及卡通形象与客户进行多模态交互，实现低延迟率的实时互动交流和拟人化服务能力，沉浸式交流体验，提升用户服务体验。