- A+
你好,我是清风徐来
这是《ChatGPT ,从入门到精通》 系列第 126 篇原创文章。
今天新开一个系列,数字人。
AI 消费领域,文本、图像技术都比较成熟,有很重磅的产品;但在视频领域,发展空间还比较大。
今天介绍下“数字人”技术,顺便介绍下heygen和它近期大火的功能“视频翻译"。
heygen是收费的,新用户有1分钟免费体验劵,白嫖方式见文末!
先看两段视频:
女演员霉霉说中文,流利、地道,完全不是配音,口型完美匹配
郭德纲说英语相声:
一、数字人
(一)数字人的定义
数字人(Digital Human)是一种基于信息技术创造的虚拟人物,
广义上,比如各种游戏、动画里面的人物,都是数字人,
本所讲的数字人,主要指 AI 技术生成的数字人。
我认为 AI 技术生成的数字人有两种:
一种是「虚拟人」
凭空创造的人物,有自己的人设,由 AI 驱动,具备更高级的认知和交互能力,
可以理解自然语言、识别图像和声音,甚至可以生成新的内容,
模拟人类的面部表情、肢体动作和语言交流。
比如,最近短视频"和尚讲佛经"啥的,都是虚拟人。
一种是「克隆真人」
AI 你自己,最高境界是数字孪生。
科幻小说《雪崩》、美剧《上载》、《异次元骇客》里面的数字人 就是此类型。他们在一起,将构成元宇宙。
比如,你完全可以克隆一个自己,放到直播间,和大家交流。
我见过一个产品,一个直播间,左边是克隆的老板,右边是真人销售美女,同台直播带货,两个人还有交互!
至于换脸、更换唇形、声音克隆,只是实现数字人的技术。
(二)数字人的应用场景
应用场景丰富!
「行业多样」
这种数字人可以用于客户服务、虚拟助手、在线教育、娱乐、广告、教育、售前、客户服务、情感陪伴等。
可以基于通识,销售说辞等知识库,与真人进面对面行交互!
前两天,在知识库学习群和同学们交流,
有个同学是面包店老板,他准备在面包商城用知识库 AI 做售前引导
他根据《fastgpt 知识库教程》搭建了 AI 客服如下:
这位同学不禁感叹,ai助理知识丰富,态度好!
知识库 AI 已经可以做到根据消费者的不同提问+个性化需求,综合回答,给出针对性的解决方案!
除了文字外,我们完全可以虚拟一个数字人员工,浓眉大眼地 7X24 小时在线,答疑解惑,
未来再加上人形机器人,虚拟的灵魂+真实的身体,不敢想象!
「跨空间」
不限空间、不限时间。有了数字人,白天黑夜,刮风下雨。就都可以直播。
「跨语言」
比如,heygen 的视频翻译,最常见的场景就是电商!
你想想,抖音上的短视频,一键翻译,直接就可以搬到全球不同国家的 tiktok 上!
(三)数字人的生财之道
如果你有心,完全可以构建自己的数字人!
克隆你自己,用你的声音、你的语言,你的样子、你的思维方式,让这个数字分身做一些事务性或重复性的工作
只要你找到有价值的、有同好的点,写好台词,交给数字分身,让它在你上班的时候,替你搞副业赚钱!
如果你是律师,一个好的医生,一个知识分享者,可以用数字人实现咨询工作;
如果你是一个创业者,你每天清晨、半夜直播,为了拉取大 V 们没时间顾及的流量,有了数字人,再不用熬更守夜;
如果你是一个老板,你可通过数字人,随时随地与消费者互动,引流自己的渠道。
这是一个趋势。我大胆预言!数字人将是未来每个人的标配!
(四)实现数字人的技术
要模拟一个人的音、容、笑、貌,需要用到不同的技术。
大致流程:先用真人数据训练,然后分别克隆声音、口型、面容,最后合成!
使用的时候,把文字台词转化为声音,让数字人表达出来!
「1、收费版」
一些商用平台,有一站解决方案,你只需要按要求上传一段视频,就可以完成克隆,比如 D-ID,heygen
都有免费试用额度!
有些小伙伴会说,现在主流数字人,效果好都是收费的,比如硅基、腾讯、芽势、heygen,最便宜的小冰数字人都要几大千。太贵,用不起!
别急!首先,收费版都有一些试用额度,多注册几个账号,玩一玩还是可以的;
其次,有一些开源免费的软件,如果你懂一点技术,还可以得到相对不错的效果。比如, AI 绘画领域, MJ收费,但还有免费的 SD!
最后,技术在不断发展,成本也在下降。只要有需求,肯定会有低价的那一天。先把技术掌握了,掌握先机!
「2、免费版」
文本语音互转:文本语音互转不难,用之前分享的《通义听悟:免费语音视频转文字》、主流剪辑软件就可以做到!
声音到文字: whisper
翻译:chatgpt
语音克隆:MockingBird(号称 5 秒完成克隆),bark(文字到声音),so-vits-svc(Github:https://github.com/svc-develop-team/so-vits-svc
口型调整: GeneFace++,生成符合音频的嘴型视频,github.com/yerfor/GeneFace
视频+语音合成:Wav2Lip(对口型)、video-retalking
图片+口型训练: so-vits-svc
「3、直播」
前期AI辅导直播,大致是先录好,然后直播的时候抓弹幕,让 chatgpt 回答,然后转换为语音、视频,插到录播中。
目前采用较多的是“直播延迟10秒”大法。
二、Heygen 视频翻译
前面的霉霉说中文,郭德纲说英语相声,都是 AI 视频工具 heygen 的作品!
下面教你如何操作
一、原理
「声音克隆+自动翻译+嘴型调整」
比如,郭德纲飚英文相声。
原视频是郭的天津相声!通过 AI 技术处理后,先克隆了郭德纲的声音,然后将语音转成文字,翻译后,再用克隆好的郭的腔调发音!AI调整口型,最后音频视频合并!
二、技术实现
(一)本地部署:开源免费版
开源方案:
-
语音转文字:whisper 或 前天介绍的 通义听悟
-
文字翻译:GPT
-
声音克隆+生成音频:so-vits-svc
-
嘴型调整:GeneFace++
(二) Heygen 网站:收费版,一站搞定
付费方案:HeyGen 的视频翻译功能(新用户有1分钟免费额度)
全套解决地址:https://labs.heygen.com/video-translate
对于 heygen,我们并不陌生
中国人的公司,定位就是服务境外电商
5 月份介绍过一期 《保姆级教程:5 分钟, AI 你自己》
这个教程详细介绍了 heygen 的注册、一张图片制作口播数字人。
当时 heygen 在数字人领域,效果已是公认的行业领先
过了几个月,技术再次升级!界面也做了较大调整。
三、 Heygen 视频翻译
Heygen :公司名叫诗云科技(没错,三体那个诗云),创始人 Joshua Xu ,成立于 2020 年。
公司定位于“做不输 Midjourney 的 AI 视频生成器”
「具体操作步骤」
只需要 两 步即可完成视频翻译。
-
注册账号 -
视频翻译
(一)注册 heygen
「1. 访问网站」
官网:heygen.com
点击本文左下角“阅读原文”,可以观看视频效果(5月份的早期技术,效果一般),然后点击注册!
或者访问 91AItools 网站,找到“数字人”栏目,点击第一个“Heygen AI 视频“:
打开 HeyGen 网站后,界面如下,白衣帅哥不是模特,是公司创始人!
「2. 验证邮箱」
未注册点击“sing up ",在注册界面输入你的邮箱地址,点击“send code”。
系统会给你的邮箱发一封邮件,给你一个随机验证码。
在浏览器新开一个页面,打开你的邮件。打开收到的 hengen 官方邮件,点开界面如下:
复制这个数字,输入到刚才的注册界面,点击“next step”
「3. 设置密码」
在这个界面输入你的登录密码,密码要求 8 位及以上长度,必须同时包含大写字母、小写字母,数字。完成后点“done”。
注意,验证码 60 秒内有效,你必须在“send code” 后 60 秒内,完成密码输入。
「4. 完成登录」
用你设置的邮箱和密码,登录进入 HenGen 网站。
进入后,会跳出一个页面,让你选择你的基本情况,这是软件厂商在收集数用户信息啊,按你的情况选择即可,选好一个点一次 continue
二、基本版块
完成基本信息设置后,显示界面如下:
几个栏目说明一下:
「① 点数」:
新用户注册即送 1 个点,1 个点=1 分钟。你可以用于训练 1 分钟的视频或克隆 1 分钟的语音。
本文最后我会分享免费白嫖方法。
「② Template(模版)」:
里面有大量官方模版,你也可以在这里训练自己的模版。
点击官方模版后,点新建,即可基于此模版新建数字人。
以下是基本操作:大概原理,输入你想让数字人说的台词,然后选择配音类型,点创建即可。近期我会单独分享一期具体教程。
「② Avatar」:
数字人,用户上传自己的照片或者视频,训练自己的数字孪生。
具体操作可见《5 分钟,AI 你自己》,我对照了下,照片训练功能基本相同。
「④ Voice:声音克隆」
「⑤ video:」
这里是你所有的视频项目
新用户,所以是空的
「⑥ ASSET」:用户可自定义公司的 vi 系统
「⑦ Video Translate」:今天的主角,视频翻译!
(二)视频翻译
进入“视频翻译”后,界面如下
「1、选择一个视频」
-
尽量避免背景音乐和噪音,因为它们会降低输出音频的质量。 -
尽量避免多人。 -
分辨率必须介于 360x360 和 4096x4096 之间。 -
持续时间必须在 30 秒到 5 分钟之间。
「2、选择目标语言」
主流语言基本都支持
“目标语言”选择“普通话”,选择一段大表姐的视频。视频不能少于30秒。
提示将消耗 1 个卡点
上传后显示排队人数。不多,也就小 4 万人,:)
不愿意等,可以点升级!
按年付,1 个月 48 美元,可生成每月合计 30 分钟,单个最长 5 分钟的视频,三个上传的模板
1 分钟约 12 元人民币!
HeyGen 免费试用,需要等待很长时间。
以下为白嫖方式,不清楚可以进学习群问我!
1、多注册几个邮箱!
2、分享制作的heygen,官方送积分
网站为了扩大影响力,也给出了福利:只要通过创作者本人分享的链接注册了新用户,且该新用户创作了一个视频,那么邀请者就会获得一个积分!
懂技术的小伙伴也可以寻找开源替代方案,比如前面讲的语音转文字 whisper、文字翻译 GPT、声音克隆 + 生成音频 MockingBird、so-vits-svc、bark;生成符合音频的嘴型视频 GeneFace++,Sync labs;视频+语音合成_:Wav2Lip(对口型)、video-retalking。
我会结合场景,和大家逐一分享上述开源软件!
好啦,今天就讲到这里!
最后,欢迎加入学习群,免费群名额有限!
或者直接加入 VIP 群,干货更多,答疑更及时,每天分享最新 ChatGPT 实用干货和AI赚钱方法!
加入VIP方式点击公众号文章《VIP 学习群已开通!入群方式+文章集锦》(定期涨价,早入早好!)
不懂就问,言多必得!
5分钟搞定!AI 写工作总结+ 自动生成 PPT
月之暗面 AI ,1秒搞定20 万字贵州茅台年报
通义听悟:免费!语音视频转文字 AI 利器
保姆级教程!手把手教你支付宝开通 ChatGPT plus!
可视化!用 GPT4 十分钟内完成泰坦尼克号生存分析
FastGPT + Chatgpt-on-wechat + 亚马逊免费VPS+AI助理:企业知识库接入微信群! 保姆级教程
国内直联 GPT!清风 AIchat 手把手教程
本篇文章来源于微信公众号: 浩瀚的苍穹 喜欢可以搜索关注!