- A+
快手智播,让虚拟主播“活”了。 全文3900字,读完约需要6分钟。
硅谷教父杰弗里·摩尔有一本很经典的书叫《跨越鸿沟》,说所有高科技产品,从早期市场到主流市场之间,都有一个巨大的鸿沟,能否顺利跨越鸿沟,决定这款产品的成败。
成功的案例当然很多,比如乔布斯的 iPhone、iPad,失败的也很多,比如摩托罗拉当年耗费巨资搞的铱星系统。今天这篇文章,想说一说已经热了好几年的数字人产品,或者叫数字孪生、虚拟主播。
数字人产品,从概念热、少数人用,到进入主流市场、广泛应用,也需要“跨越鸿沟”,而这关键一跃,是需要关键选手的关键产品来领路搭桥的。
在8月10日举行的快手光合大会上,快手 AI&用户增长业务负责人王仲远介绍了快手AIGC数字人解决方案——快手智播,给笔者留下了深刻的印象,这款产品有鲜明的应用场景——直播、短视频;使用便捷——只需三分钟的视频和音频素材,就可以制作数字孪生形象,而且不需要采购任何硬件设备就可以一键开播和制作视频;成本亲民——仅需千元,就可以获得媲美真人的效果。
这样的产品的推出和普及,很可能会成为数字人从小众到大众的关键推手和引领者,推动数字人技术解决方案“跨越鸿沟”。
1
数字人技术的起源,可以追溯到上世纪60年代,当时的科学家开始尝试用计算机图形处理技术,在屏幕上显示出各种人类的形象。
后来随着计算机性能的不断提升,互联网技术的发展,尤其是人工智能技术的推进,数字人技术和产品不断推陈出新,2016年“虚拟 YouTuber”出现,引发虚拟主播大热,数字人在视频、直播领域找到了极好的发挥场景。
但这项技术和产品要从小众到大众,从尝鲜者到主流群体的广泛应用,还存在不少障碍和痛点。
比如说,产品还不成熟,虚拟主播怎么看着都像个假人,说话、表情、动作迟缓、僵硬,让观众感觉有距离感,不舒服。机器人专家森昌弘提出过著名的“恐怖谷理论”,说当机器人与人类相似程度达到一定程度,但又有一些差别的时候,人类会激起负面和厌恶的感受。
互动性也是个问题。虚拟主播如果不能像真人一样跟观众实时互动,及时的做出反馈,进行真正的交流,就会让观众感到疏离、孤独,也就很难产生信任感。
而带货类虚拟主播,无疑非常需要信任感和亲近感,这两者的缺失,就会影响到虚拟主播的带货转化效果,进而影响到这项产品和技术的广泛应用。
还有很重要一点,就是成本和使用的便捷性问题,目前许多3D数字人制作流程长,落地成本高,运营成本高,这决定了很多时候只能是“财大气粗”的少数机构和人群能够尝鲜使用,很难进入大规模的主流市场。
硅谷教父杰弗里·摩尔说,一项高科技产品要“跨越鸿沟”,进入主流市场,一定不能“陶醉于产品而不考虑行业”,满足于小众人群的追捧而孤芳自赏,傲慢自大。
所以,数字人产品要“跨越鸿沟”,一定是需要逼近那个临界点的——价格要足够的亲民,产品要足够的好用,容易上手,而且效果还要好。
快手智播这个产品让笔者感到惊艳,是因为它有这么几个特点:
一个是上手快。作为一款2D生成数字人直播产品,快手智播使用起来非常便捷,只需要三分钟的视频和音频素材就可以生成数字孪生形象,另外还有多款预设的数字人形象和音色可以直接选用。
二是把配套的问题帮用户解决了。快手提供了整套的SaaS服务工具,用户不需要再另外采购任何硬件设备,一键就可以开播。
三是成本低,效果逼真。据介绍,这款产品仅需千元就可以完成,却可以获得媲美真人的效果。这中间涉及到许多创新技术的应用,包括结合3D结构信息的生成式AI技术,以及语言语音和表情动作的跨模态匹配技术等。
当然了,有比较才有发言权,快手智播究竟好在哪,咱们接下来,从行业的角度详细的说一说。
2
笔者曾经试用过不少数字人产品,也比较过几家产品的区别,接下来从行业的角度,站在第三方的立场上,详细说说快手智播这款产品的优点。
首先,按照杰弗里·摩尔的观点,高科技产品要跨越鸿沟,一定要找到自己的“D-Day战场”,像诺曼底登陆一样,在这个战场里脱颖而出。从商业的角度来理解,就是找到细分的应用场景,在这个场景里做到头部。
快手智播这款产品,首先的优点还是因为根植于快手这个大的生态,真正懂视频,懂直播,了解需求,有庞大的生态和数据作为支撑,所以提供的数字人解决方案解决真问题,随时接受市场的反馈和检验。
快手智播的数字人与快手业务系统深度打通,包括直播系统、风控系统、自动挂车、自动切换讲解卡等等。在快手开播的时候,使用快手智播,可以与用户实时互动,而其他产品就无法获得这样的支持;快手智播支持自动完成商品挂车、切换讲解卡片等操作,其他产品需要人工手动进行。这是快手智播不同于其他公司做出来的产品明显的区别和优势。
第二,数字人能不能“跨越鸿沟”,正如我们在上文里提到的,一定要解决看着假、动作迟缓、让用户不舒服等致命的痛点,这是一款产品能够走向主流市场的前提。
快手智播数字人口播类视频效果可以媲美真人实拍,唇形、表情、动作自然,与真人直播看起来真假难辨。这就要说到背后的模型训练,快手智播在上万小时的模特数据上进行训练,保证其具备优秀的泛化性,又针对每个具体模特进行模型微调,使其兼具高精度的特点。
为了解决数字人动作迟缓,不够流畅的问题,快手通过自研的推理引擎、部署框架,以及在多个业务中得以迭代的流式的数字人生成框架,能够以秒级的低延迟实现数字人直播,未来也会支持实时问答互动的直播虚拟人。
做产品的都知道,魔鬼藏在细节之中,为了让数字人栩栩如生,快手智播在细节上下足了工夫,说武装到牙齿毫不夸张:快手智播团队针对牙齿进行了专门的高精度建模,保证了每个牙齿缝都能高度还原,最大程度上满足拟真的要求,所以快手智播制作的数字人看起来明显要舒服很多。
第三,影响一个产品能不能进入主流,价格是一个很重要的影响因素,就像PC电脑,如果像最开始那样动辄上百万一台,那就永远不可能进入家庭,进入日常的职场。很多公司推出的虚拟主播,报价并不亲民,动辄数万元,而且制作起来很复杂,产出低,这必然会影响数字人的大规模应用。
快手智播的优点是,制作数字人成本低,可以低成本快速批量化。比如说,按业内普遍的水平,数字分身形象复刻一般要7天时间,花费万元,而快手智播只需要三天,千元的成本;音色复刻,只需要提供3~30分钟的语音,两天到一周就可以交付,有20个预设音色可供选择。
第四点就是,一个真正能够走向大众的产品,一定要操作起来越简单越好,无限的逼近“傻瓜式操作”。快手智播将操作的门槛降到了极低的水平,以视频制作为例,使用快手智播平台输入口播文案,两分半钟就可以生成视频;在直播的时候,使用快手智播平台输入直播稿,提供商品QA库,点击开播,自动推流到快手APP,整个过程就像做PPT一样,大大降低了操作的难度,这就为产品走向主流市场铺平了道路。
3
当然了,一款产品好不好,行不行,归根到底是由客户说了算的。接下来我们从产品视角转向客户视角,以实际的使用场景为例,来看看快手智播这款产品反馈的情况怎么样,以及能够带来什么样的价值。
短视频或者直播,都属于产品形态,或者叫媒介形态,归根到底是要为具体的产业场景做服务的。我们以本地消费场景为例,在快聘业务领域,以中低粉段达人拍摄视频为基准计算,使用了快手智播后,单条短视频创作成本降低到人工成本的 5%以下;账号“全国操作工招聘”在测试周所有主播中简历投递量能力排名第6;而且突破时间限制,在凌晨2-3点仍有拿单能力。
在本地生活领域,使用快手智播后,效果也非常的显著。快手某腰部服务商开播账号50多个,数字人有效直播总时长11640小时,GMV达近百万,贡献订单量1.1万+,单个账号月均带来2万GMV,转化率超过了真人主播。
“沪上吃喝玩乐花花”系列快手账号,使用快手智播数字人,汉堡套餐单品一个月卖出近3000份,本地游乐园全日门票单品一个月卖出30万元,实际核销率接近60%,堪比真人直播带货效果。
知名国货美妆品牌花西子的案例也很具有说服力。花西子官方旗舰店快手账号采用名牌主播的定制数字分身直播带货,真人下播,数字人接班,满足“夜猫子”购物需求。数据显示,数字人夜间直播期间观看时长基本与日间时段持平,GMV达到日间热门主播的60%,而且客户反馈“数字人效果太逼真,不仅和真人主播难分辨,还可以迅速回复问题。”
此外,快手智播还支持快手海外产品Kwai的数字人形象定制和广告素材低成本高效制作,日生成上百部广告素材,有效的帮助海外客户提升素材供给效率,降低素材生产成本,制作时间甚至可以缩短到仅需一分钟。
游戏类产品的实践数据显示,同等出价情况下,相较普通素材,虚拟人视频投放 CTR 提升8.36%,CVR 提升77.86%,CTCVR 提升86.28%,投放成本 CPA 下降4.52%。
这些行业案例和数据都表明,快手智播能够显著的帮助商家降本增效,能够带来实实在在的效能的提升。
4
在笔者看来,快手智播作为一款好用、便宜、先进的智能化产品,至少有三个层面的价值:
一方面为B端的商家、带货的达人和内容创作者,提供了智能化的工具,延伸了人的四肢、大脑和时间,让内容的创作、财富的创造都打破了物理空间的限制。
另一方面,为用户带来了更丰富的内容,不打烊的购物体验,更好的交互,更及时的回应。
此外,以快手智播为代表的AIGC产品,推动了人工智能技术更深入地进入人们的工作和生活,改变了日常工作模式和生活方式,让人类的智能化程度进一步提升,最终就像历史学者尤瓦尔·赫拉利在《未来简史》里说的,让人类“从智人走向智神”。