- A+
看非母语视频时,你更倾向于选择看原版字幕还是听母语配音?就是这样一个简单的问题,把观众分为了“原声党”和“配音党”,二者的背后分别有各自的支持者在摇旗呐喊,他们在各种社交网络上摆事实讲道理,甚至形成了某种“鄙视链”,其争论之激烈,丝毫不亚于豆腐脑界的“甜党”与“咸党”之争。法国知名媒体《20分钟报》(20 Minutes)关注了美国初创企业 HeyGen 近期推出的一款生成式人工智能(AIGC)工具,该工具可以让视频画面中人物的嘴唇动作与目标语言的发音相一致,此类工具的应用或将改变视频传播中“原声”与“配音”的分野。
01
“配音党”有福了, Deepfake 让 20 门语言“张口就来”
美国初创公司 HeyGen 最近开发了一种工具,可以让任何人在视频里开口“说”20门外语。该工具的基本工作原理是:对被拍摄者所说的话进行翻译,在尽量保持其自身语音、语调不变的前提下,对其嘴唇的动作添加“一点额外的”修改,使之与翻译目标语言中的文本发音相匹配。
图 1 HeyGen 的虚拟人“化身”可以在多种语言之间随意切换
这或将终结由“原声党”对“配音党”发起的“讨伐战”,前者一直诟病配音电影中存在人物唇形与语音不同步的问题。
说起“原声党”与“配音党”之间的论战,其历史几乎和电影本身的历史一样古老。一方面,“原声党”作为某种意义上的“纯粹主义者”,只认可原版影片里的“真实声音”,对译制片里人物唇形与语音不匹配的问题大加指责。另一方面,尽管遭受到“原声党”高高在上的蔑视,但“配音党”的支持者数量众多,他们更喜欢去电影院里看电影,认为这样可以让大脑得到充分放松,不用一直分心去看字幕,更无须担心翻译质量方面的缺陷。在这场旷日持久的斗争中,多少家庭为之分裂、友谊为之破碎……如今,一款新的人工智工具能否让“原声党”与“配音党”实现和解呢?
HeyGen 公司开发的 AIGC 技术不仅可以对个人说话的视频进行翻译,还可以调整画面中嘴唇的动作,在某种程度上可以视为深度伪造(Deepfake)在翻译领域的一种应用。那么问题来了,这项技术的工作原理是什么,可以在哪些行业获得应用?我们如何才能防止此类工具被用来制造假新闻?对此,来自巴黎第八大学(Université Paris 8)的语言学家克莱尔·拉尔索纳(Claire Larsonneur)表示事情并不简单。
02
工作原理:语音翻译 + 视频生成
对于机器翻译应用,无论其载体是文字还是语音,我们都已经很熟悉了,比如日常使用的百度翻译等。如果在翻译的同时,进一步改变画面中人物身体某个部位(如嘴唇)的动作,就可以让其用自己的声音“亲口”说出他从未说过的话,这有些类似于互联网上各种深度伪造的名人短视频。
克莱尔·拉尔索纳解释,HeyGen 新工具在其应用场景中叠加了三个层面的操作。第一层是通过基于语料库训练的翻译引擎来执行文本翻译任务,类似于谷歌翻译或者 DeepL 等在线翻译应用。第二层是通过执行一个“语音-文本,文本-语音”的转换流程,来实现翻译内容的“语音化”,就像苹果操作系统中自带的“翻译”(Translate)工具所做的那样。
而第三层,也就是 HeyGen 技术的独特创新点,在于它采用了能够支持多种语言的“声音与嘴唇动作关联数据库”。这样一来,就能够在视频人物的面部(主要是嘴唇)动作上,实现“与目标语言发音相一致”的效果。不过,除了显著降低深度伪造视频的创作门槛,这位语言学家同时警告说,这项技术一旦流行开来,另一个显著危害是可能因为大量算力消耗而引发“惊人的碳排放”,并且其“在能源、带宽和存储方面的成本非常昂贵”。
03
这项技术可以在哪些领域发挥作用?
随着 AIGC 技术的迅速发展,HeyGen 的新工具在广告领域,特别是奢侈品营销方面或将大有可为,甚至可以直接用于企业传播。想象一下,未来的直播带货可以实时切换语言,一名主播只需要用自己的母语开播,就能用任意一种语言自然流畅地向全世界推销;在发布会大厅里,全球范围内各大企业的首席执行官可以使用自己的母语来发表股东大会讲话,或者介绍公司的新款产品。
作为语言学家,克莱尔·拉尔索纳指出,此类工具能够实实在在地为其使用者赋能,因为与说一门外语相比,人在使用自己母语的时候会感觉更加自在,进而能够更好地对各种“非语言信号”,如表情、手势、体态、步态等进行传达。由于无须高度专注于自己要说的话,用户就能将“更多的能量、更多的热情”融入他们所传达的信息之中,这一点即使在经过翻译之后也能感受得到。
此外在文化产品生产领域,将唇部动作与翻译相关联还有助于减少阅听者的“陌生感”,即当前电影和电子游戏配音中普遍存在的“口型不对”问题,从而显著提升观众的视觉舒适度,增强体验的沉浸感。
04
如何避免此类工具被用于制造虚假新闻?
这位语言学家警告说,尽管 AIGC 时不时会出现“幻觉”,即编造一些明显不符合事实逻辑的内容,但类似于 HeyGen 这样的工具首先可能引发的危害在于其可能遭到滥用。近年来,深度伪造产业“蓬勃”发展,各类明星、名人甚至政治人物在网上的影像资料被人任意伪造,对于经验不足的用户来说,的确可能被误导。
虽然在技术上可以对某张具体的图片是否经过修改进行验证,并且这几乎已经成为各大新闻机构在发稿前的一道必不可少的工序,但由于信息的验证需要时间,导致新闻发布机构经常需要在“真实性”和“时效性”之间权衡。对此,谷歌提出的一个解决方案是在AIGC 图像的元数据中加入相关信息,以对其来源进行声明。另一种较为简单和普遍的做法是在图像或视频上加盖无法去除的水印,这也是 HeyGen 新工具所采取的做法。如图 2 所示,一位博主用 HeyGen 把自己 30 秒的英语视频转为法语:图左侧为原视频,该博主正在说英语单词“lip”(嘴唇)时的口型;图右侧为经过翻译之后的语序调整,原本应该说“lip”的时间点,这位博主口中说的是法语单词“mouvement”(动作),可以看到与原视频相比在口型上出现了明显的变化。
图 2 一位博主用一段 30 秒的视频测试 HeyGen 的新工具
(来源:社交平台 X@mrjonfinger)
05
“原声党”和“配音党”的恩怨要就此了结了吗?
对于这个问题,克莱尔·拉尔索纳打趣道:“真正的问题是,还有人在看原版电影吗?”这位语言学家认为,“原声党”往往是付出努力学习外语的人,他们“对语言感兴趣是有原因的”,毫无疑问,这一类人会继续偏爱原始版本,“即使有新工具出现也不会改变任何事情”;而对于“配音党”,无论语音与口型是否一致,他们都可以在各大视频平台上挑选自己想要的配音语言。
在视频平台上,某些电影会针对特定地区开放特定的语言版本。例如我们在国内视频平台上通常只能找到电影的原声版和中文配音版,有的影片甚至只有中文配音版,而难以找到其他语言的配音版。不过,这与“原声党”和“配音党”之间的恩怨无关,而是平台方基于存储、带宽、版权、成本等方面限制所采取的策略。
图 3 HeyGen 让埃隆·马斯克说一口流利的法语
(来源:社交平台X@HeyGen_Official)
此外,类似于 HeyGen 新工具这样的技术对于配音业界来说也并非灭顶之灾。目前的人工智能配音技术仅能满足小成本电影的需求,如果想要准确地传达真情实感,就离不开配音演员的参与。其原因在于,虽然 HeyGen能够通过复用人类声音来生成相对自然的语音,但其基础依然来自配音演员。例如,目前HeyGen 渲染生成的 AIGC 法语配音就带有轻微的加拿大魁北克地区口音。此外,HeyGen目前仅支持 20 种语言,而世界上大约有 7000种语言。克莱尔·拉尔索纳开玩笑说:“咱们大可放心,至少咱们喜爱的匈牙利电影大师作品暂时还不会被机器翻译的配音染指。”
来源:《中国电信业》2023年第11期
作者:李白咏(本刊记者)
编辑:刘尧
审核:汪建
与工信业同拓展
与产业链共繁荣
投稿信箱
本篇文章来源于微信公众号: 中国电信业杂志 喜欢可以搜索关注!