硬核解析，一文看懂虚拟数字人的原理与机会

发表评论

A+

在未来构建数字内容的过程中，将有更多的场合可以用GPU+电耗替代人工，真正打造元宇宙数字世界，使数字人集社交、创作、分享于一身，有望成为GPT4之后、承载多模态的杀手级应用。

一、定义：数字人、虚拟人、虚拟数字人被赋予特定人物身份

虚拟人、数字人、虚拟数字人的目标是通过计算机图形学技术（Computer Graphic，CG）创造出与人类形象接近的数字化形象，并赋予其特定的人物身份设定，在视觉上拉近和人的心理距离，为人类带来更加真实的情感互动。按照各定义特征的要求，数字人的范畴包含虚拟人，虚拟人的范畴包含虚拟数字人。

对于不要求必须具备交流互动能力时，数字人、虚拟人、虚拟数字人这三者概念可以认为是等同的。但在严格意义下它们又有细微的差别。虚拟人的身份是虚构的，现实世界中不存在的。数字人强调角色存在于数字世界。虚拟数字人强调虚拟身份和数字化制作特性。

滑动查看更多

二、框架：五大模块构成虚拟数字人通用系统框架

人物形象根据人物图形资源的维度，可分为 2D 和 3D 两大类；语音和动画生成模块可分别基于文本生成对应的人物语音以及人物动画；音视频合成显示模块将语音和动画合成视频；交互模块根据语音语义识别用户的意图，并决定数字人后续的语音和动作。

交互模块为扩展项，根据其有无，可将数字人分为交互型数字人和非交互型数字人。非交互型虚拟数字人系统依据目标文本生成对应的人物语音及动画，并合成音视频呈现给用户。

交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。

1、智能驱动型数字人可通过智能系统自动读取并解析识别外界输入信息，根据解析结果决策数字人后续的输出文本，然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。该人物模型是预先通过 AI 技术训练得到的，可通过文本驱动生成语音和对应动画，业内将此模型称为 TTSA（Text To Speech & Animation）人物模型。

2、真人驱动型数字人则是通过真人来驱动数字人，主要原理是真人根据视频监控系统传来的用户视频，与用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，从而与用户进行交互。

滑动查看更多

三、产业链：随理论技术日益成熟，商业模式持续演进丰富产业链

当前虚拟数字人理论和技术日益成熟，应用范围不断扩大，产业正在逐步形成、不断丰富，相应的商业模式也在持续演进和多元化。

基础层为虚拟数字人提供基础软硬件支撑，硬件包括显示设备、光学器件、传感器、芯片等，基础软件包括建模软件、渲染引擎。显示设备是数字人的载体，既包括手机、电视、投影、LED 显示等 2D 显示设备，也包括裸眼立体、AR、VR 等 3D 显示设备。光学器件用于视觉传感器、用户显示器的制作。传感器用于数字人原始数据及用户数据的采集。芯片用于传感器数据预处理和数字人模型渲染、AI 计算。建模软件能够对虚拟数字人的人体、衣物进行三维建模。渲染引擎能够对灯光、毛发、衣物等进行渲染，主流引擎包括 UnityTechnologies 公司的 Unity 3D、Epic Games 公司的 Unreal Engine 等。总体来看，处于基础层的厂商已经深耕行业多年，已经形成了较为深厚的技术壁垒。

平台层包括软硬件系统、生产技术服务平台、AI 能力平台，为虚拟数字人的制作及开发提供技术能力。建模系统和动作捕捉系统通过产业链上游的传感器、光学器件等硬件获取真人/实物的各类信息，利用软件算法实现对人物的建模、动作的重现；渲染平台用于模型的云端渲染。解决方案平台基于自身技术能力为广大客户提供数字人解决方案。AI 能力平台提供计算机视觉、智能语音、自然语言处理技术能力。平台层汇聚的企业较多，腾讯、百度、搜狗、魔珐科技、相芯科技均有提供相应数字人技术服务平台。

应用层是指虚拟数字人技术结合实际应用场景领域，切入各类，形成行业应用解决方案，赋能行业领域。按照应用场景或行业的不同，已经出现了娱乐型数字人（如虚拟主播、虚拟偶像）、教育型数字人（如虚拟教师）、助手型数字人（如虚拟客服、虚拟导游、智能助手）、影视数字人（如替身演员或虚拟演员）等。不同外形、不同功能的虚拟数字人赋能影视、传媒、游戏、金融、文旅等领域，根据需求为用户提供定制化服务。

四、技术架构：建模、驱动、渲染三大关键技术构成底层架构

虚拟数字人基础技术架构包括“五横两纵”。“五横”是指用于数字人制作、交互的五大技术模块，即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中，人物生成，即人物建模方面 2D 数字人较为简单，3D 数字人需要额外使用三维建模技术。人物表达包括语音生成和动画生成。动画生成则包含驱动和渲染两大部分。“两纵”是指 2D、3D 数字人，2D 数字人和 3D 数字人在技术架构方面基本一致。3D 数字人需要额外使用三维建模技术生成数字形象，信息维度增加，所需的计算量更大。

建模：主流技术仍为静态扫描，动态光场成为未来重点发展方向

建模技术分为静态扫描建模和动态光场重建，目前主流技术仍为静态扫描，相比静态重建技术，具有高视觉保真度的动态光场三维重建技术不仅可以重建人物的几何模型，还可一次性获取动态的人物模型数据，并高品质重现不同视角下观看人体的光影效果，成为数字人建模重点发展方向。

驱动：智能合成，动作捕捉迁移成为主流动作生产方式

智能合成：2D、3D 数字人均已实现嘴型动作的智能合成，其他部位仅支持录播2D、3D 数字人嘴型动作智能合成的底层逻辑类似，均建立在输入文本到输出音频与输出视觉信息的关联映射。

动作捕捉：通过将捕捉采集的动作迁移至数字人是目前 3D 数字人动作生成的主要方式，核心技术是动作捕捉。动作捕捉是指通过数字手段记录现实人们的运动过程。同时，动作捕捉系统根据实现原理的不同，可以分成光学动作捕捉、惯性动作捕捉、Track 设备+IK 算法的动作捕捉、以人工智能为主的动作捕捉方案。现阶段，光学式和惯性式动作捕捉占据主导地位，基于计算机视觉的动作捕捉成为聚焦热点。

光学动作捕捉：光学动作捕捉是在演员身上粘贴能够反射红外光的 Marker（马克点），摄像机通过反光来捕捉这些马克点的位置变化，从而完成对演员的动作捕捉。目前，光学动作捕捉方案能通过高帧率的捕捉，实现毫米级误差精度，能对人物动作还原最为精细，但这类捕捉方案对于背景环境的要求较高，技术门槛也同样较高。

惯性动作捕捉：主要是基于惯性测量单元（Inertial Measurement Unit，IMU）来完成对人体动作的捕捉，即把集成了加速度计、陀螺仪和磁力计的 IMU 绑在人体的特定骨骼节点上，通过算法对测量数值进行计算，从而完成动作捕捉。这种惯性动作捕捉方案价格相对低廉且精度较低，会随着使用时间的增加产生累积误差，发生位置漂移。这类捕捉方案需要大量复杂的硬件设备和严格的影棚环境，技术门槛也同样较高，并不适合大众消费者使用。

计算机视觉的动作捕捉：视觉的动作捕捉主要是通过采集及计算深度信息来完成对动作的捕捉，是近些年才兴起的技术。这种视觉动捕方式因其简单、易用、低价，已成为目前使用的频率较高的动作捕捉方案。

渲染：主打 Unreal 和 Unity 渲染引擎，真实性和实时性均大幅提升

当通过不同的设备记录下动作方案之后，还需通过渲染引擎，对毛发、衣物等细节尽量还原。从引擎性能上来说，游戏领域的渲染引擎达到最好的渲染效果。PBR（PhysicallyBased Rendering，基于物理的渲染技术）渲染技术的进步以及重光照等新型渲染技术的出现使数字人皮肤纹理变得真实，突破了恐怖谷效应。

五、当下前景：AI 赋能，进入“数智人”新阶段

AI 等技术快速突破，虚拟数字人的发展进入新阶段，由“数字人”变成“数智人”。近年来，AI技术快速发展，尤其是 AIGC 技术（包括自然语言、图像、声音等多模态处理）近期的突破，虚拟数字人也进入了发展新阶段。AI 技术覆盖虚拟数字人建模、视频生成、驱动等全流程。

一方面 AI 技术使数字人的制作成本降低、制作周期缩短、门槛降低，并获得和真人更加相似的外形、动作效果，例如在 3D 数字人的建模环节，AI 建模相比人工建模所需时间大幅缩短、效率提升，AI 建模目前已经初步实现产品化，可以开放程序接口对接各种应用，使用范围较广，也可以实现 C 端应用（上传图片即可生成 3D 数字人面部模型）。

另一方面，多模态 AI 使得虚拟数字人的交互能力更上一个台阶，随着 AI 技术的不断完善，数字人的感知能力（例如现在数字人对语言的理解主要以文本为主，未来有望实现多模态输入）、思维能力、内容输出能力都将得到显著改善，在思想、语言、行为上和人更加接近、更加智能化。

滑动查看更多

目前，国内各 AI 厂商、互联网大厂、垂直 ISV 厂商均可提供较为成熟的具有 AIGC 能力的“数智人”产品及解决方案。下文我们将以微软小冰、腾讯云、火山引擎（抖音集团）、百度智能云提供的产品为例：

1、小冰公司（前身是微软小冰团队）

提供“AI 数字员工”产品：基于人工智能小冰框架，推出了数字专家和数字员工等完整产品线。在形象定制方面，仅需 20 分钟的有效数据即可生数字人形象，支持多服装，多表情，多动作；内容生成方面，基于小冰框架的人工智能创造能力（AIGC），数字人可实现对业务数据的快速学习，获得相应技能，稳定输出文本、图片、音频、视频等内容；交互能力方面，拥有情感对话能力和多模态交互能力，可人声定制，支持多语种、多方言。

2、腾讯云智能数智人

腾讯云智能数智人采用语音交互、虚拟形象模型生成等多项 AI 技术，实现唇形语音同步和表情动作拟人等效果，广泛应用于虚拟形象播报（根据文本内容快速合成音视频文件，落地于媒体、教育、会展服务等场景）和实时语音交互（实时语音交互支持即时在线对话，可赋能智能客服、语音助理等场景）两大场景。平台提供虚拟真人 2D 形象、3D 写实数字人形象，基于腾讯云小微的平台能力，为客户提供配套的生成界面，方便客户自主操作。目前在多行业落地，覆盖行业含金融、传媒、交通、政务、文旅等。

3、火山引擎虚拟数字人

在 2023 春季火山引擎 FORCE 原动力大会上，火山引擎正式发布“善听”、“会说”、“能想”的虚拟数字人创新产品。火山引擎依托 2D/3D 数字人技术，结合语音识别、语义理解、对话控制、语音合成等多项全自研能力构建多模态交互体系，提供 3 大数字人产品方案：交互型数字人、播报型数字人、直播型数字人。

4、百度智能云曦灵智能数字人平台

面向金融、媒体，运营商、MCN，互娱等行业，提供服务型数字人、演艺型数字人解决方案，降低数字人应用门槛，实现人机可视化语音交互服务和内容生产服务，有效提升用户体验、降低人力成本。百度智能云提供的数字人服务可应用在手机 APP 端、云屏端，可扮演智能客服、数字理财经理、数字商品导购、数字培训师、数字讲解员等角色。

六、应用场景：虚拟数字人在电商、营销、企业服务的应用逐步落地

虚拟数字人目前在多行业、多场景均有落地应用，较为常见的有游戏、电商、营销、文娱、企业服务等。

1、虚拟数字人在电商行业的应用

虚拟数字人可以替代真人主播进行 7×24 小时直播，可解决主播不足、人力成本逐渐攀升的问题。此前虚拟数字人的生成门槛较高、成本较贵，且后续的交付使用也存在一定难度，因此只有少数头部商家会选择用数字人替代真人进行短视频拍摄、电商直播；但随着技术的不断完善，更多低成本、标准化、智能化的解决方案和产品出现，预计受众用户群体会大幅增加。

目前以真人形象为基础的 2D 超写实数字人的制作、运营成本已经降到较低的水平，和人工成本逐渐拉开差距。根据“新榜”报道，抖音平台上某本地生活类账号进行了两场带货直播，新榜旗下的新抖数据统计，该账号2场直播的预估销售额在7万元左右，这2场直播全程由数字人完成，单日成本仅 190 元，不需要场地、灯光、摄像头等硬件投入，只需要一台电脑。以“硅基智能”平台提供的服务为例，数字人形象+声音克隆的费用为几万元/年，数字人如果用于拍摄短视频，只需要支付大约几十元/分钟的时长费，如果用于直播带货，需要再支付几千元/月的服务费。而前文提到的“腾讯智影”近期也将推出数字人直播解决方案，收费模式和水平也是“千元级别，包月使用”。

随着 AIGC 技术的不断进步，数字人和用户在直播间的交互能力有望得到进一步提升，直播间的转化效果有望和真人主播直播间进一步缩小差距。

另外，对于一些头部电商主播、明星电商主播等具有稀缺性的主播资源，其产能的瓶颈主要来自于真人的直播时长有限，如果未来头部稀缺的电商主播、明星可以使用虚拟数字分身进行直播带货的话，那么这些稀缺主播的产能瓶颈有望消除。近期，乐华娱乐旗下的明星“黄新淳”的虚拟数字分身进行了一场直播（但不是电商直播），直播的硬件设备、配备人员要求也大幅降低（无需场地布景、灯光、场控等）；而未来，该类型的直播有可能会发生在电商类的直播场景中。

2、虚拟人在营销领域的应用

目前虚拟人在营销领域的应用可以分为两大类：一类是已经有 IP 价值及粉丝量的虚拟数字人为品牌、产品进行品牌代言和推广。典型代表是燃麦科技推出的虚拟偶像 AYAYI（粉丝数：抖音 7.6万、小红书 12.6 万、微博 87.9 万），她 2021 年以数字员工身份入驻阿里，并和美妆、珠宝、3C、食品等多领域品牌合作进行新品推广；另一个案例是天娱数科推出的虚拟人“天妤”（粉丝数：抖音 357 万、小红书 14.8 万、微博 51.9 万），她分别与珠宝品牌周大生、汽车品牌集度、手游《倩女幽魂》达成合作。

滑动查看更多

另一类虚拟人在品牌营销领域的应用，是品牌的专属定制化虚拟人形象。目前不少品牌都有定制专属的虚拟形象、虚拟 IP 的需求，例如花西子的虚拟形象“花西子”，浙文互联为东风风光打造的虚拟人“可甜”等。

3、在金融、政务、文旅等领域的垂直领域应用

另外，数字虚拟人在银行、政府机构、博物馆等文旅场所可扮演虚拟大堂经理、虚拟讲解员、虚拟政务人员等数字员工角色。

以“世优科技”发布的 AI 数字人产品“世优 BOTA”为例。世优 BOTA 是基于世优自研的快速训练小模型能力，与数字人形象结合，让 AI 从聊天窗口升级成人与“人”的直接交流，可担任企业的 AI 数字员工。根据世优科技团队在产品发布会上的介绍，企业可根据业务场景定制专属的BOTA 数字员工，可以导入企业自有数据库，基于企业私有数据快速生成小模型，实现更准确、更有效率地回答问题，服务用户，可以 7*24 ⼩时在线，无需人工辅助；并且 BOTA 数字员工能汇总不同使用场景下的问题和需求持续进化服务，越用效果越好。

4、泛娱乐行业应用

以游戏行业为例，越来越真实的数字人游戏角色使游戏者有了更强的代入感，可玩性变得更强。

七、总结梳理：数字人是GPT4下的杀手级应用

AIGC，数字人的点睛之笔。AIGC解决了数字人“只会念稿、不能交互”的尴尬，生成算法提高了内容创作的效率和便捷性，降低了成本和门槛，同时还丰富了内容创作的多样性和个性化，满足了用户的不同需求和喜好。自然语言处理大模型有助于提升数字人交互体验，真正让数字人有了灵魂。而ChatGPT所展现出来的高灵活度让人们对AI有了新的认知，它比普通的AI机器人更加像自然人，对信息、知识的挖掘和梳理更充分，对语句的处理更加贴近人类的日常交流表达习惯。

2D仿真数字人爆发在即。3D建模数字人精美度高，但过高的成本和制作周期导致其在商业化应用上存在一定难度，通常被用作品牌大使等场景。但对于市场空间更大的直播带货、教育、客服等场景来说，难以普及。尤其在AIGC发展迅速的现在，2D仿真数字人的制作门槛、周期和成本远远低于3D建模数字人。并且，在市场空间较大的直播带货、娱乐主播、客服和游戏NPC场景下，2D数字人已经足够满足当下的需求，爆发在即。

GPT4+数字人，构筑元宇宙中的“阿凡达”。数字人未来的用途将远不限于主播、客服等，随着算力的提升以及GPT4的模型升级，数字人将成为个人分身“Avatar”，输出文字、图像、音视频，甚至细微到情绪表达。在未来构建数字内容的过程中，将有更多的场合可以用GPU+电耗替代人工，真正打造元宇宙数字世界，使数字人集社交、创作、分享于一身，有望成为GPT4之后、承载多模态的杀手级应用。

投资策略：涉及的赛道可以分为应用、IP和基础设施两大类，其中基础设施可以细分为自然语言处理模型、数据集、AIGC生成算法和算力。

4相关股票梳理