Skip to Content

TTS 语音模块

这是一个为 SillyTavern 开发的文字转语音(TTS)模块,可以让 AI 角色的回复”开口说话”。 启用月:打开小白X扩展菜单-辅助工具-勾选TTS语音模块


这个模块能做什么?

简单来说:把 AI 的文字回复变成语音播放出来

  • AI 回复后可以自动朗读,也可以手动点击播放
  • 支持多种音色(男声、女声、不同风格)
  • 可以给不同角色指定不同的声音
  • 支持情感控制(开心、悲伤、生气等语气)

两种使用模式

试用模式

  • 无需任何配置,开箱即用
  • 提供 11 个预设音色:
    • 女声:桃夭(甜蜜仙子)、霜华(清冷仙子)、顾姐(御姐烟嗓)、苏菲(优雅知性)、嘉欣(港风甜心)、青梅(清秀少年音)、可莉(奶音萝莉)
    • 男声:夜枭(磁性低音)、君泽(温润公子)、沐阳(沉稳暖男)、梓辛(青春少年)
  • 不稳定,如果报错“全部段落请求失败”,则代表服务器暂时挂了,请用鉴权模式,官方接口永不挂(四次元壁的语音同理,用的同一个试用服务器)

鉴权模式

  • 需要配置火山引擎 API
  • 可使用 200+ 预设音色
  • 支持声音复刻(用自己的声音)

界面说明

播放器按钮

模块提供两种播放器显示方式:

楼层按钮:显示在每条 AI 消息旁边 悬浮按钮:固定在屏幕上,可拖动位置

在设置面板顶部可以勾选启用哪种模式。

播放器状态

  • 播放 → 点击开始朗读
  • 准备/缓存 → 正在准备音频
  • 播放中 → 显示声波动画
  • 暂停 → 已暂停,可继续
  • 完成 → 本条播放结束

设置面板

点击播放器的展开按钮()或设置按钮()打开设置。

基础配置页

鉴权配置

  • AppID / Access Token:填入火山引擎的凭证(试用模式可跳过)

朗读设置

  • 自动朗读:AI 回复后是否自动播放
  • 语速:0.5x ~ 2.0x 可调

文本过滤功能

在基础配置页的”文本过滤”部分,有两个功能可以精确控制哪些内容需要朗读、哪些内容跳过。

跳过区间

作用:遇到指定的”起始”标记后,跳过中间内容,直到遇到”结束”标记为止。

使用场景

很多角色卡会在回复中插入状态栏、属性面板、旁白说明等内容,这些通常不适合朗读出来。

配置方式

每条规则有两个输入框:

  • 起始:开始跳过的标记
  • 结束:停止跳过的标记
示例

假设 AI 回复是这样的:

"今天天气真好呀!"她开心地说道。 【状态栏】 好感度:85 心情:愉悦 【状态栏结束】 "要不要一起去散步?"

如果你添加一条规则:

  • 起始:【状态栏】
  • 结束:【状态栏结束】

那么朗读时会跳过中间的状态信息,只读:

“今天天气真好呀!“她开心地说道。“要不要一起去散步?“

特殊情况
  • 只填起始、结束留空:从起始标记开始,后面的内容全部跳过
  • 起始留空、只填结束:从开头到结束标记之间的内容全部跳过
  • 两个都留空:这条规则无效,不会产生任何作用

只读区间

作用:只朗读匹配标记内的内容,其他所有内容都忽略。

使用场景

有些角色卡会用特定符号包裹”台词”部分,比如用引号、书名号或自定义标记。如果你只想听角色说的话,不想听旁白描写,可以用这个功能。

启用方式

需要先勾选”启用只读区间”复选框,规则才会生效。

示例

假设 AI 回复是这样的:

她轻轻叹了口气,目光望向窗外。 「我一直在等你回来。」 月光洒在她的脸上,映出淡淡的忧伤。 「你知道吗,每天晚上我都会想起那件事。」

如果你添加一条规则:

  • 起始:
  • 结束:

那么只会朗读引号内的台词:

我一直在等你回来。你知道吗,每天晚上我都会想起那件事。

特殊情况
  • 只填起始、结束留空:从起始标记到文本末尾的内容会被朗读
  • 起始留空、只填结束:从文本开头到结束标记的内容会被朗读
  • 添加多条规则:所有规则匹配到的内容都会合并朗读

两个功能的优先级

如果同时配置了”跳过区间”和”只读区间”:

  1. 先执行”跳过区间”,移除不需要的内容
  2. 再执行”只读区间”(如果启用了的话),从剩余内容中筛选

常见配置参考

场景功能起始结束
跳过状态栏跳过区间【状态栏】【/状态栏】
跳过括号旁白跳过区间
跳过星号动作跳过区间**
只读日式引号台词只读区间
只读中式引号台词只读区间""
读冒号后的所有对话只读区间(留空)

音色管理页

我的音色

  • 已保存的音色列表
  • 点击选中设为默认
  • 可重命名或删除
  • 手动添加复刻音色

试用音色

  • 11 个免费音色
  • 点击选中后可试听
  • 点击”添加到我的音色”保存

预设库(需配置鉴权)

  • 200+ 官方音色
  • 支持按性别、模型、语种、场景筛选
  • 支持搜索

高级设置页

鉴权模式的进阶选项:

  • 返回计费用量
  • 服务端缓存
  • Markdown 过滤
  • 语种识别
  • 音高调整等

缓存管理页

  • 查看本地缓存统计
  • 设置缓存天数和容量上限
  • 清理过期或全部缓存

使用说明页

包含配音指令语法和鉴权配置教程。


配音指令(进阶玩法)

在 AI 回复中使用特殊指令,可以控制朗读效果:

基本格式

[tts:speaker=音色名;emotion=情绪;context=语气提示] 要朗读的文字内容

参数说明

  • speaker:音色名称(必须是”我的音色”中保存的名称)
  • emotion:情感语气
  • context:语气提示(仅对 2.0 模型生效)

三个参数可任意组合,用分号分隔。

示例

[tts:speaker=小白;emotion=开心] 今天天气真好呀! [tts:emotion=悲伤] 我好难过... [tts:context=用更温柔的语气] 晚安,好梦。

可用情感值

中文:开心、悲伤、生气、惊讶、恐惧、厌恶、激动、冷漠、中性、沮丧、撒娇、害羞、安慰、鼓励、咆哮、焦急、温柔、讲故事、自然讲述、情感电台、磁性、广告营销、气泡音、低语、新闻播报、娱乐八卦、方言、对话、闲聊、温暖、深情、权威

英文:happy, sad, angry, surprised, fear, hate, excited, coldness, neutral, depressed, lovey-dovey, shy, comfort, tension, tender, storytelling, radio, magnetic, advertising, vocal-fry, asmr, news, entertainment, dialect, chat, warm, affectionate, authoritative


鉴权模式配置步骤

如果想使用更多音色或声音复刻功能:

  1. 开启 CORS 代理

    • 打开酒馆目录的 config.yaml
    • enableCorsProxy 改为 true
    • 重启酒馆
  2. 开通火山引擎服务

  3. 获取凭证

  4. 声音复刻(可选)


常见问题

Q:没有声音,堵塞等怎么办?

  • 检查浏览器是否允许自动播放音频,或更换浏览器
  • 尝试手动点击播放按钮

Q:试用音色够用吗?

  • 11 个音色覆盖了常见风格,日常使用足够
  • 需要更多选择或复刻功能再配置鉴权