
我们之前测过 AI 生成视频广告产品,生成的广告主要分为“有人”和“无人”版本。
前者即有人解说产品,给消费者种草,这里 AI 虽然也发挥了“生成”的作用,但主要作用还是在“对口型”环节。路径大概是,用户上传一段说话视频,生成 Avatar,而后 AI 再基于 Avatar 生成广告视频,其实就是 [上传视频] + 对口型。
也就是说,如果想真正实现种草,必须要有多个 Avatar,或者针对不同的目的、录制不一样的视频。否则,不论介绍什么产品,都是一个样子,只有脚本和声音在变,可用范围有限。
这次更新的卖点是“充满活力”的高转化广告,主要是完善了视频人物的肢体动作和微表情,Captions 表示,实现该效果的基础模型叫做 Mirage,是专门为生成“类 UGC”内容研发的。用户输入脚本或者音频文件,然后指定 Avatar 的相貌、背景、着装、甚至情绪。也就是同一个 Avatar,在介绍不同的产品时,可以穿不同的衣服、有不同的背景、表达不同的情绪。像是有了自己的专属代言。
一段口播,可以拥有不同穿着和表情,Mirage 演示视频地址 -- https://youtu.be/xN0v11qE438
大概在 1 个月前,也就是 2 月初,字节发布了 Omnihuman-1 模型,支持照片+音频,生成支持微表情、全身动作的口型同步视频,基本上和 Mirage 针对的是相同的应用场景。随后即梦 AI 在中下旬开启功能内测,最近两天在即梦 AI 已经对所有用户开放,为数字人-对口型-大师模式。剪映也有数字人板块,目前还仅有普通和灵动模式的。
字节和 Captions 先后上线同类功能,标志着 AI 生成口播视频(taking video),对口型的时代宣告结束。
Captions 背景介绍:
Captions 2020 年年底上线 iOS 端,作字幕生成起家,2024 年完成 C 轮融资,当时估值 5 亿美元。主要功能板块包括:AI 口播的基础剪辑功能+长视频缩短视频+AI 生成视频广告+AIAvatar,融合市场上热门的 AI 视频剪辑功能。不久前 Capcut 因 TikTok 风波被封禁时,Captions 将自己作为替代方案加以宣传。近一年公司发展迅猛,在 2024 年上线 web 端后,现在月访问量已经快速增长至 220w 左右,但 App 端数据近半年有所滑落,MAU 跌落至百万以下,月流水也从百万美元跌落至 90 万左右。具体原因我们之前也有分析,与其转型后的定位更适配 PC 端有关。
