数字人技术篇:三招教你成为数字人“砖家”

  • A+
所属分类:heygen ai百科

​👆点击 链接者 > 点击右上角“···” > 设为星标🌟

作为每个人进入元宇宙的入口,相信大家对数字人已经不是很陌生。那么市面上有各种数字人和各种专业术语总是把我们搞得云里雾里,晕头转向。今天,我就教大家用三招来拆解一个数字人,让你秒变数字人“砖家”。

数字人技术篇:三招教你成为数字人“砖家”

作者|董建强,2023中国数字人

大会联席秘书长

深圳市边缘云计算有限公司

CEO

编辑|澜玲

来自丨链接者数字人智库


01 先看数字人的皮囊,即外观形态,是2D还是3D


2D数字人

顾名思义,2D数字人是指平面空间中的数字人,也叫“纸片人”,是数字人的初级形态,通常是采集一段真人视频或者仅仅用一张照片,通过机器预学习训练,可以快速识别绑定面部表情和肢体动作,然后用文本或者语音驱动,几分钟内就可以生成一段拟人视频。可以大幅降低视频创作的人力成本和时间成本,解决真人出镜种种麻烦。也是目前为止技术最为成熟,最容易商业化部署实施的一种数字人。

网上很多鬼畜和搞笑视频大量采用这种方法,下面请看懂王的表演。

案例1,懂王演唱BEYOND歌曲

刘润在今年年度演讲中重磅推荐了数字人,表示这项技术在未来会很有价值。他自曝目前自己的短视频口播很多都是使用数字人分身。 

数字人技术篇:三招教你成为数字人“砖家” 案例2刘润短视频口播

 相比较于短视频的制作。最近抖音和淘宝等直播平台出现了一些虚拟主播,替代一部分真人进行产品的讲解。目前由于技术限制,在实时互动性上,由于比较依赖知识图谱,还是不能像真人一样有感情和温度。当然对于这类直播带货,除了技术因素以外,平台政策监管也将面临巨大挑战。

数字人技术篇:三招教你成为数字人“砖家”案例3,数字人抖音直播

目前最常使用的语音驱动照片的AI引擎主要有:SPACExPC-AVSMakeItTalkWav2Lip,小伙伴们有兴趣的可以自己百度。

数字人技术篇:三招教你成为数字人“砖家”

由于目前对于数字人还没有明确的标准,关于2D数字人是不是真正的数字人,在行业内部还有很多争议,从技术角度来说,2D的数字人由于还没有实现真正的数字化,所以有很多人不认为2D“纸片人”是真正意义上的数字人。需要特别说明的一点是:现在抖音淘宝直播间采用特效换脸的真人直播, 就肯定不是数字人了。

3D数字人

3D数字人是指立体空间中的数字人2D数字人和3D数字人的区别不仅体现在视角上,也体现在制作方式和技术上。目前主流的3D虚拟数字人通常都是由3D建模(又分人工,视觉,手机),然后计算机渲染(CG)生成。

人工建模案例

数字人技术篇:三招教你成为数字人“砖家” 

扫描建模案例

数字人技术篇:三招教你成为数字人“砖家”

 

数字人技术篇:三招教你成为数字人“砖家”

目前3D建模技术的精度越来越高,同时成本也在大幅的下降。在不远的将来,我们每个人都可以拥有一个属于自己的3D数字人。在元宇宙里和朋友社交聊天,或者组队吃鸡。



02 再看皮囊的驱动模式:可分为AI

智能驱动型和真人驱动型(中之人)


真人驱动

3D数字人的肢体表情需要通过专业的动作捕捉设备(又分:惯性,激光,红外,视频)采集,基于固定的骨骼和面部肌肉特征进行关键点的标识和绑定,然后通过人工实时驱动,赋予该数字人形象表情和动作。

惯性传感器动捕

数字人技术篇:三招教你成为数字人“砖家”

红外相机动捕

数字人技术篇:三招教你成为数字人“砖家”

面部表情捕捉

数字人技术篇:三招教你成为数字人“砖家”


其火爆背后的商业模式内核是偶像娱乐工业、虚拟主播带货等;可用于节目表演、品牌直播带货、虚拟偶像线下见面会等互动场景中。

数字人技术篇:三招教你成为数字人“砖家”

邓丽君之后的中之人:陈佳

当然,关于真人驱动的数字人是不是真数字人,行业也有很大的分歧,你觉得呢?


AI智能驱动

数字人的表情和肢体动作是通过人像驱动引擎完成的,它能通过3D扫描、智能绑定,深度学习等AI技术,来实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等,让数字人从表情到动作更生动具体。

案例:GTC 2021 发布会"造假"事件

在SIGGRAPH 2021上,英伟达宣布在GTC2021上主持发布会的黄仁勋其实是假的。顿时引来行业一阵“哗然”,在“假黄仁勋”刷屏之后,英伟达官方又辟谣:只有14秒是虚拟的,并通过一部纪录片,自行揭开这场“骗局”的幕后过程。

数字人技术篇:三招教你成为数字人“砖家”

数字人技术篇:三招教你成为数字人“砖家”

英伟达的声音转势(A2G)技术

数字人技术篇:三招教你成为数字人“砖家”
案例 黄仁勋「数字人」亮相GTC2021



03 最后看数字人的灵魂 

听说读写看唱跳等多模态交互能力

 多模态的含义是多种模态的信息,包括:文本、图像、视频、音频等,交互性这里面又分:强交互,弱交互,还有无交互

无交互性

通常非实时的预制作数字人或者数字分身。主要应用于影视特效,虚拟偶像,短视频制作等领域,这类应用主要对时效性要求不高,根据制作人物精度,造型逼真程度的不同要求。制作周期在几天到几年不等,费用在几千块到上百亿之间,差别很大。

数字人技术篇:三招教你成为数字人“砖家”

案例:洛天依


弱交互性

弱交互性数字人是指数字人的交互能力较弱,无法与用户进行复杂的交互,只能根据给定的知识图谱,进行简单的问答、语音播报等操作。弱交互性数字人主要应用于一些简单的场景,如银行客服,各种语音手机助手,智能音响,车载助理,商场导购等已在实际生活、工作场景中进入大规模应用。

数字人技术篇:三招教你成为数字人“砖家”

案例银行数字客服

强交互性

我们把强交互性数字人又叫数智人,数智人的愿景目标是成为通用型数字人(AGI),赋能千行百业,进入千家万户。它可以利用语音交互(TTSASR+自然语言理解(NLU+深度学习(DL)等技术实现虚拟形象生成与驱动能力,以真人及卡通形象与客户进行多模态交互,实现低延迟率的实时互动交流和拟人化服务能力,沉浸式交流体验,提升用户服务体验。

例:黄仁勋的AI“数字人Toy Jensen”

Toy Jensen知识问答

Toy Jensen演唱圣诞歌 

英伟达的创作团队导入了英伟达Omniverse Avatar云引擎平台的云原生AI微服务和工作流程,利用最近开发的语音转换模型,从样本中提取专业歌手的声音,然后转换成玩具Jensen的声音然后通过Audio2Face,Audio2Gesture等技术,为整场演出生成逼真的面部表情和肢体动作。

数字人技术篇:三招教你成为数字人“砖家”

结束语


随着人工智能领域的三大要素算力、算法和数据的飞速发展。数字人的落地应用将迎来爆发式增长。以下是五个发展趋势:2D到3D,从低精度到高精度,从真人驱动到ai驱动,从非实时到实时,从单模态到多模态。

最近马斯克等1000名科技人士签署了一封特殊的公开信。呼吁所有的AI实验室立即暂停训练比GPT4更强大的AI系统至少6个月。

也许硅基智能超过碳基智能的“奇点”,很快就要来临。那么你是降临派?拯救派?还是幸存派?

数字人技术篇:三招教你成为数字人“砖家”
来源|链接者数字人
点击阅读原文跳转

4月8日-9日
加入
《链接者©万亿数字人赛道总裁班》
有可带走的应用技术
立马点击下方图片了解详情


联系我们

联系方式:158 1727 5500 刘女士

              (微信同号)

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: