TTS 语音模块

这是一个为 SillyTavern 开发的文字转语音（TTS）模块，可以让 AI 角色的回复”开口说话”。启用月：打开小白X扩展菜单-辅助工具-勾选TTS语音模块

这个模块能做什么？

简单来说：把 AI 的文字回复变成语音播放出来。

AI 回复后可以自动朗读，也可以手动点击播放
支持多种音色（男声、女声、不同风格）
可以给不同角色指定不同的声音
支持情感控制（开心、悲伤、生气等语气）

两种使用模式

试用模式

无需任何配置，开箱即用
提供 11 个预设音色：
- 女声：桃夭（甜蜜仙子）、霜华（清冷仙子）、顾姐（御姐烟嗓）、苏菲（优雅知性）、嘉欣（港风甜心）、青梅（清秀少年音）、可莉（奶音萝莉）
- 男声：夜枭（磁性低音）、君泽（温润公子）、沐阳（沉稳暖男）、梓辛（青春少年）
不稳定，如果报错“全部段落请求失败”，则代表服务器暂时挂了，请用鉴权模式，官方接口永不挂（四次元壁的语音同理，用的同一个试用服务器）

鉴权模式

需要配置火山引擎 API
可使用 200+ 预设音色
支持声音复刻（用自己的声音）

界面说明

播放器按钮

模块提供两种播放器显示方式：

楼层按钮：显示在每条 AI 消息旁边 悬浮按钮：固定在屏幕上，可拖动位置

在设置面板顶部可以勾选启用哪种模式。

播放器状态

播放 → 点击开始朗读
准备/缓存 → 正在准备音频
播放中 → 显示声波动画
暂停 → 已暂停，可继续
完成 → 本条播放结束

设置面板

点击播放器的展开按钮（）或设置按钮（）打开设置。

基础配置页

鉴权配置

AppID / Access Token：填入火山引擎的凭证（试用模式可跳过）

朗读设置

自动朗读：AI 回复后是否自动播放
语速：0.5x ~ 2.0x 可调

文本过滤功能

在基础配置页的”文本过滤”部分，有两个功能可以精确控制哪些内容需要朗读、哪些内容跳过。

跳过区间

作用：遇到指定的”起始”标记后，跳过中间内容，直到遇到”结束”标记为止。

使用场景

很多角色卡会在回复中插入状态栏、属性面板、旁白说明等内容，这些通常不适合朗读出来。

配置方式

每条规则有两个输入框：

起始：开始跳过的标记
结束：停止跳过的标记

示例

假设 AI 回复是这样的：


"今天天气真好呀！"她开心地说道。

【状态栏】
好感度：85
心情：愉悦
【状态栏结束】

"要不要一起去散步？"

如果你添加一条规则：

起始：【状态栏】
结束：【状态栏结束】

那么朗读时会跳过中间的状态信息，只读：

“今天天气真好呀！“她开心地说道。“要不要一起去散步？“

特殊情况

只填起始、结束留空：从起始标记开始，后面的内容全部跳过
起始留空、只填结束：从开头到结束标记之间的内容全部跳过
两个都留空：这条规则无效，不会产生任何作用

只读区间

作用：只朗读匹配标记内的内容，其他所有内容都忽略。

使用场景

有些角色卡会用特定符号包裹”台词”部分，比如用引号、书名号或自定义标记。如果你只想听角色说的话，不想听旁白描写，可以用这个功能。

启用方式

需要先勾选”启用只读区间”复选框，规则才会生效。

示例

假设 AI 回复是这样的：


她轻轻叹了口气，目光望向窗外。

「我一直在等你回来。」

月光洒在她的脸上，映出淡淡的忧伤。

「你知道吗，每天晚上我都会想起那件事。」

如果你添加一条规则：

起始：「
结束：」

那么只会朗读引号内的台词：

我一直在等你回来。你知道吗，每天晚上我都会想起那件事。

特殊情况

只填起始、结束留空：从起始标记到文本末尾的内容会被朗读
起始留空、只填结束：从文本开头到结束标记的内容会被朗读
添加多条规则：所有规则匹配到的内容都会合并朗读

两个功能的优先级

如果同时配置了”跳过区间”和”只读区间”：

先执行”跳过区间”，移除不需要的内容
再执行”只读区间”（如果启用了的话），从剩余内容中筛选

常见配置参考

场景	功能	起始	结束
跳过状态栏	跳过区间	`【状态栏】`	`【/状态栏】`
跳过括号旁白	跳过区间	`（`	`）`
跳过星号动作	跳过区间	`*`	`*`
只读日式引号台词	只读区间	`「`	`」`
只读中式引号台词	只读区间	`"`	`"`
读冒号后的所有对话	只读区间	`：`	（留空）

音色管理页

我的音色

已保存的音色列表
点击选中设为默认
可重命名或删除
手动添加复刻音色

试用音色

11 个免费音色
点击选中后可试听
点击”添加到我的音色”保存

预设库（需配置鉴权）

200+ 官方音色
支持按性别、模型、语种、场景筛选
支持搜索

高级设置页

鉴权模式的进阶选项：

返回计费用量
服务端缓存
Markdown 过滤
语种识别
音高调整等

缓存管理页

查看本地缓存统计
设置缓存天数和容量上限
清理过期或全部缓存

使用说明页

包含配音指令语法和鉴权配置教程。

配音指令（进阶玩法）

在 AI 回复中使用特殊指令，可以控制朗读效果：

基本格式


[tts:speaker=音色名;emotion=情绪;context=语气提示]
要朗读的文字内容

参数说明

speaker：音色名称（必须是”我的音色”中保存的名称）
emotion：情感语气
context：语气提示（仅对 2.0 模型生效）

三个参数可任意组合，用分号分隔。

示例


[tts:speaker=小白;emotion=开心]
今天天气真好呀！

[tts:emotion=悲伤]
我好难过...

[tts:context=用更温柔的语气]
晚安，好梦。

可用情感值

中文：开心、悲伤、生气、惊讶、恐惧、厌恶、激动、冷漠、中性、沮丧、撒娇、害羞、安慰、鼓励、咆哮、焦急、温柔、讲故事、自然讲述、情感电台、磁性、广告营销、气泡音、低语、新闻播报、娱乐八卦、方言、对话、闲聊、温暖、深情、权威

英文：happy, sad, angry, surprised, fear, hate, excited, coldness, neutral, depressed, lovey-dovey, shy, comfort, tension, tender, storytelling, radio, magnetic, advertising, vocal-fry, asmr, news, entertainment, dialect, chat, warm, affectionate, authoritative

鉴权模式配置步骤

如果想使用更多音色或声音复刻功能：

开启 CORS 代理
- 打开酒馆目录的 config.yaml
- 将 enableCorsProxy 改为 true
- 重启酒馆
开通火山引擎服务
- 访问 https://console.volcengine.com/speech/new/setting/activate
- 开通语音合成服务
获取凭证
- 访问 https://console.volcengine.com/speech/service/8
- 复制 AppID 和 Access Token
- 填入设置面板
声音复刻（可选）
- 访问 https://console.volcengine.com/speech/new/experience/clone
- 上传音频完成复刻
- 获取音色 ID（格式 S_xxxxxxxx）
- 在”我的音色”中手动添加

常见问题

Q：没有声音，堵塞等怎么办？

检查浏览器是否允许自动播放音频，或更换浏览器
尝试手动点击播放按钮

Q：试用音色够用吗？

11 个音色覆盖了常见风格，日常使用足够
需要更多选择或复刻功能再配置鉴权