数据人下场做内容,当然以数字说话,先看视频号和小红书的数据:
小红书,单篇笔记 4547 个赞,涨粉 3600+
视频号,单条视频 3万观看,1600+赞,涨粉 600+
不得不说,素人做视频号和小红书,正反馈来的真快 !!
今天说一说,这样的 AI 数字人怎么做?以下是极简步骤:
1/ 编剧:我自个儿 2/ 声效:F5-TTS 3/ 视频:PixVerse 4/ 剪辑:剪映 5/ 人物造型:可灵
首先是声音克隆,F5-TTS。这是一款 Github 开源 tts 软件。借助 10s 左右的人声,完美克隆出音色,用来朗读文本。
我本地使用 3060的显卡,虽然够用,但依旧不舍得用它来烧。于是我把 F5-TTS 部署到了谷歌 Colab. 租用 10G 左右的 T4 GPU。使用 Gradio 可以快速把这份软件,发布到外网使用。
人物造型,采用可灵的“文生图”。相比 MidJourney, Stable Diffusion 纷繁复杂的咒语,可灵生图大模型已经完全中文化。用中文去描述一幅图,更符合国人习惯。
图生视频,采用 PixVerse. 一张2D的图,搭配中文的提示词,经过 PixVerse 渲染后,就动起来了。让图中人物笑就笑,哭就哭。惊艳!
但最令人惊艳的部分,是 PixVerse 对口型的功能。中英文语境下,口型完全看不出瑕疵。当然这部分需要一点点费用。但很快,相比带给我的惊喜,这点米就毫不在意了
剪映,已经成为我每日至少用一回的神器了,比 Cursor 用的还勤。用它翻译,做双语字幕,听声辩词,添加 BGM,做转场,特效等等。