SERVICE PHONE

400-123-4657
  • 诚信为本,市场在变,诚信永远不变...

公司动态

当前位置: 首页 > 富联动态 > 公司动态

开源免费 AI 朗读中文,居然也能以假乱真了?

发布时间:2025-08-14 点击量:69

脚扑朔,眼迷离,傍地走……

这几天,有个 文本转语音的 Github repo 刷屏了,名字叫做 ChatTTS。

!

它有多火呢?这是它 Github 星星(相当于点赞数量)增长的趋势。

3天,就3天,星星数量从零到超过1万。实话实说,除了 AutoGPT,我真没有见过这么恐怖的 Stars 涨势。

其实文本转语音(Text to Speech, TTS)技术本身根本谈不上稀奇。不管你用的是 Siri 还是小爱同学,都应该听过 AI 合成语音。至于 GPT-4o 那种不讲武德的低延迟「拟人」打法,就更厉害了。

文本生成声音这领域,已有不少巨头参与,大家也见识过 AI 在音色、语气、节奏上的惟妙惟肖,为何还会对一个个体开发者做的 TTS 新应用如此惊喜?

原因在于,这款应用,可以算作目前中文文本生成语音领域的开源顶流了。

我先给你展现一下效果吧。下面是我公众号上的一段文字。

这是 ChatTTS 朗读的结果,请点击这个链接查看

你觉得效果怎么样?

更有意思的是,你不需要为了使用这款应用付任何的 AI 订阅费。只要你有个主流配置的电脑,就能用。甚至你 也可以租个 GPU 来玩儿

不过要使用 ChatTTS 官方的项目来生成音频,你运行的时候得用到 Python。我的一个朋友跟我说我他不懂编程,就连 Python 也不想学,那怎么办呢?

我说帮你找找看更简便的途径吧,果然我找到了一个基于官方项目打包的应用,叫做 ,用起来更加方便。

下面咱们来说说使用方法。其实就两步。

第一步,运行下面的指令,把 ChatTTS-fork 软件包装上;

第二步,进入终端。macOS 请进入 Terminal,Windows 打开「命令行」。运行下面的命令:

解读一下,其中的 chattts 是执行的命令,后面一整段的字符串代表着你让 ChatTTS 读的内容。再之后指定一个随机种子值,ChatTTS 按照随机种子指定的音色来发声。

对,就这么简单。生成的文件,叫做 。你也可以在刚才的命令后面加上 来指定自定义输出音频文件名称。

下面咱们来听一听不同的随机种子之下,ChatTTS 对同样的文本读出来的声音分别是什么样子。

这是 seed 编号 1997 的,链接在这里

这是 seed 编号 1983 的,链接在这里。

你喜欢哪个?实话实说,我更喜欢编号 1997 的这个。语气特别自然,听起来更加可信。

前面咱们输入的只是文本,其实 ChatTTS 厉害的地方在于,你可以非常容易控制 AI 朗读的情绪。例如下面我给你演示加上「笑」() 这个控制符,你听听看。这是命令:

生成的结果,在这里

如果你尝试了很多不同的 seed ,会发现有些生成音频里,有特别高频刺耳的噪声。一开始我以为这是当时清洗语料的时候没做好,后来才发现,是 ChatTTS 的作者需要免责

作者知道造出来这么样的一个开源应用后,可能会带来什么。没错 —— 某些不法活动的门槛,进一步降低了。如果任由所有人使用纯净原声,那么可能会有更多的受害者上当受骗,后果不堪设想啊。

这个模型训练时长全集超过 10 万小时,而目前开放出来的版本只是一个 4 万小时训练的结果,还加上了噪声。将来它真正商业化的版本,会带来什么?

我这几天跟朋友们分享生成音频效果时,他们反复提到一个关键词 —— 声优。而另一部分人则干脆宣布,只要这工具成熟了,自己会立即取消某常用音频平台的订阅。你说,「声优」这份职业和这个好不容易发展起来的音频平台,招谁惹谁了?

AI 距离人们的期许,还有很长的路要走,甚至我们中没有人知道这个目标是否一定能在近年内达到。但即便在目前 AIGC 发展初级阶段,很多 AI 应用都已经在真真实实影响我们的生活。不是吗?

希望今天的介绍,让你了解目前中文开源 TTS 应用的进步。有了这款应用,你是否打算尝试一下?又准备用它做些什么呢?欢迎你把自己的应用场景和使用感受写在留言区,咱们一起交流讨论。

如果你觉得本文有用,请充电

如果本文可能对你的朋友有帮助,请转发给他们。

欢迎关注我的专栏「科研利器」,以便及时收到后续的更新内容。

点击这个链接加入少数派会员,立享 9 折优惠!获得专属会员内容、会员播客以及会员定制周边。在更多的领域和方向帮你打开脑洞,找到新的兴趣点。与少数派一起洞悉当下,探索新知。

?

?

平台注册入口