MOSS-TTS-Nano,0.1B 开源的语音合成模型。

它的参数量只有0.1B——也就是1亿参数。

你可能没什么概念,我换个说法:GPT-4据说有1.8万亿参数,就连很多"轻量级"的本地模型也动辄七八十亿。0.1B在这个圈子里,真的算是"纳米级"。

但更关键的不是参数量,是这句话:可以直接在CPU上运行,不需要GPU。

这意味着什么?意味着你的普通笔记本电脑,就能跑起来一个实时语音合成系统。不用买显卡,不用租云服务器,不用调API,不用付月费。

说几个具体的能力:

支持20种语言,包括中文、英文、日语、韩语、法语、德语、阿拉伯语……基本上你能想到的主流语言都覆盖了。

输出是48kHz双声道,这个音质标准放在专业播客里也够用。

最有意思的功能是声音克隆——你给它一段参考音频,它就能用那个声音来合成新的文字。


怎么装起来

不需要任何付费账号,全程在自己电脑上操作。

第一步,确认你电脑装了Python 3.12。没装的话去 python.org 下载,装完重启终端。

第二步,打开终端,把项目下载到本地:

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano

第三步,安装依赖:

pip install -r requirements.txt
pip install -e .

这一步会自动下载模型文件,第一次大概需要几分钟,取决于网速。模型文件会缓存在本地,之后每次启动很快。

装完怎么用

声音克隆只需要一行命令,给它一段参考音频,它就能用那个声音合成新内容:

python infer.py \
  --prompt-audio-path 你的参考音频.wav \
  --text "你想合成的文字内容"

不想敲命令的话,还有本地网页界面——python app.py 启动之后,浏览器打开就能用,点点鼠标就行。


为什么这件事值得关注

TTS(文字转语音)这个领域,其实一直有个奇怪的现象:技术进步很快,但真正好用的工具,要么贵,要么封闭。

商业产品里,ElevenLabs、微软Azure TTS、讯飞,效果都不错,但都是按字数或按时长收费的。你要做个人项目、做播客、做有声书,成本加起来不低。

开源方案里,之前也有一些,但要么需要GPU,要么部署复杂,要么效果差强人意。

MOSS-TTS-Nano的出现,填的就是这个空白:效果够用、本地运行、不需要专业硬件、完全开源免费。

它不是最好的TTS,复旦自己的旗舰版MOSS-TTS有8B参数,效果肯定更好。但Nano版本的定位很清晰——给那些需要"够用就行"的场景用的。

个人创作者、独立开发者、想做本地语音助手的人,这个模型值得认真看一眼。


一个更大的背景

这个项目背后是复旦大学NLP实验室和MOSI.AI,他们在做的不只是这一个模型,而是一整个"MOSS-TTS家族"。

从8B的旗舰版,到1.7B的对话版,再到这个0.1B的Nano版,还有专门做声音设计、环境音效、实时语音的版本——这是一套完整的语音生成体系,而且全部开源。

说实话,这种规模的开源语音模型,在国内团队里不多见。

目前项目在GitHub上有659个star,刚发布没几天,关注度还在快速增长。

聊天