MOSS-TTS-Nano，0.1B 开源的语音合成模型。

它的参数量只有0.1B——也就是1亿参数。

你可能没什么概念，我换个说法：GPT-4据说有1.8万亿参数，就连很多"轻量级"的本地模型也动辄七八十亿。0.1B在这个圈子里，真的算是"纳米级"。

但更关键的不是参数量，是这句话：可以直接在CPU上运行，不需要GPU。

这意味着什么？意味着你的普通笔记本电脑，就能跑起来一个实时语音合成系统。不用买显卡，不用租云服务器，不用调API，不用付月费。

说几个具体的能力：

支持20种语言，包括中文、英文、日语、韩语、法语、德语、阿拉伯语……基本上你能想到的主流语言都覆盖了。

输出是48kHz双声道，这个音质标准放在专业播客里也够用。

最有意思的功能是声音克隆——你给它一段参考音频，它就能用那个声音来合成新的文字。

怎么装起来

不需要任何付费账号，全程在自己电脑上操作。

第一步，确认你电脑装了Python 3.12。没装的话去 python.org 下载，装完重启终端。

第二步，打开终端，把项目下载到本地：

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano

第三步，安装依赖：

pip install -r requirements.txt
pip install -e .

这一步会自动下载模型文件，第一次大概需要几分钟，取决于网速。模型文件会缓存在本地，之后每次启动很快。

装完怎么用

声音克隆只需要一行命令，给它一段参考音频，它就能用那个声音合成新内容：

python infer.py \
  --prompt-audio-path 你的参考音频.wav \
  --text "你想合成的文字内容"

不想敲命令的话，还有本地网页界面——python app.py 启动之后，浏览器打开就能用，点点鼠标就行。

为什么这件事值得关注

TTS（文字转语音）这个领域，其实一直有个奇怪的现象：技术进步很快，但真正好用的工具，要么贵，要么封闭。

商业产品里，ElevenLabs、微软Azure TTS、讯飞，效果都不错，但都是按字数或按时长收费的。你要做个人项目、做播客、做有声书，成本加起来不低。

开源方案里，之前也有一些，但要么需要GPU，要么部署复杂，要么效果差强人意。

MOSS-TTS-Nano的出现，填的就是这个空白：效果够用、本地运行、不需要专业硬件、完全开源免费。

它不是最好的TTS，复旦自己的旗舰版MOSS-TTS有8B参数，效果肯定更好。但Nano版本的定位很清晰——给那些需要"够用就行"的场景用的。

个人创作者、独立开发者、想做本地语音助手的人，这个模型值得认真看一眼。

一个更大的背景

这个项目背后是复旦大学NLP实验室和MOSI.AI，他们在做的不只是这一个模型，而是一整个"MOSS-TTS家族"。

从8B的旗舰版，到1.7B的对话版，再到这个0.1B的Nano版，还有专门做声音设计、环境音效、实时语音的版本——这是一套完整的语音生成体系，而且全部开源。

说实话，这种规模的开源语音模型，在国内团队里不多见。

目前项目在GitHub上有659个star，刚发布没几天，关注度还在快速增长。

ai新闻

创建于 2026年4月28日

公开

访客

贡献

版主

u/alive_fighter6701