Captions和字节“先后上新”，AI视频的对口型时代结束了-TopMarketing|TopMarketing官方网站

Captions和字节“先后上新”，AI视频的对口型时代结束了

2025.03.18

赞 4浏览 2129评论 0收藏 0

我们之前测过 AI 生成视频广告产品，生成的广告主要分为“有人”和“无人”版本。

前者即有人解说产品，给消费者种草，这里 AI 虽然也发挥了“生成”的作用，但主要作用还是在“对口型”环节。路径大概是，用户上传一段说话视频，生成 Avatar，而后 AI 再基于 Avatar 生成广告视频，其实就是 [上传视频] + 对口型。

也就是说，如果想真正实现种草，必须要有多个 Avatar，或者针对不同的目的、录制不一样的视频。否则，不论介绍什么产品，都是一个样子，只有脚本和声音在变，可用范围有限。

这次更新的卖点是“充满活力”的高转化广告，主要是完善了视频人物的肢体动作和微表情，Captions 表示，实现该效果的基础模型叫做 Mirage，是专门为生成“类 UGC”内容研发的。用户输入脚本或者音频文件，然后指定 Avatar 的相貌、背景、着装、甚至情绪。也就是同一个 Avatar，在介绍不同的产品时，可以穿不同的衣服、有不同的背景、表达不同的情绪。像是有了自己的专属代言。

一段口播，可以拥有不同穿着和表情，Mirage 演示视频地址 -- https://youtu.be/xN0v11qE438

大概在 1 个月前，也就是 2 月初，字节发布了 Omnihuman-1 模型，支持照片+音频，生成支持微表情、全身动作的口型同步视频，基本上和 Mirage 针对的是相同的应用场景。随后即梦 AI 在中下旬开启功能内测，最近两天在即梦 AI 已经对所有用户开放，为数字人-对口型-大师模式。剪映也有数字人板块，目前还仅有普通和灵动模式的。

字节和 Captions 先后上线同类功能，标志着 AI 生成口播视频（taking video），对口型的时代宣告结束。

Captions 背景介绍：

Captions 2020 年年底上线 iOS 端，作字幕生成起家，2024 年完成 C 轮融资，当时估值 5 亿美元。主要功能板块包括：AI 口播的基础剪辑功能+长视频缩短视频+AI 生成视频广告+AIAvatar，融合市场上热门的 AI 视频剪辑功能。不久前 Capcut 因 TikTok 风波被封禁时，Captions 将自己作为替代方案加以宣传。近一年公司发展迅猛，在 2024 年上线 web 端后，现在月访问量已经快速增长至 220w 左右，但 App 端数据近半年有所滑落，MAU 跌落至百万以下，月流水也从百万美元跌落至 90 万左右。具体原因我们之前也有分析，与其转型后的定位更适配 PC 端有关。

本文由作者原创发布于TopMarketing，内容为作者独立观点，不代表TopMarketing立场。如有转载需求，请联系作者本人。

创作不易，点个赞鼓励作者吧~