TTS 语音模块
这是一个为 SillyTavern 开发的文字转语音(TTS)模块,可以让 AI 角色的回复”开口说话”。 启用月:打开小白X扩展菜单-辅助工具-勾选TTS语音模块
这个模块能做什么?
简单来说:把 AI 的文字回复变成语音播放出来。
- AI 回复后可以自动朗读,也可以手动点击播放
- 支持多种音色(男声、女声、不同风格)
- 可以给不同角色指定不同的声音
- 支持情感控制(开心、悲伤、生气等语气)
两种使用模式
试用模式
- 无需任何配置,开箱即用
- 提供 11 个预设音色:
- 女声:桃夭(甜蜜仙子)、霜华(清冷仙子)、顾姐(御姐烟嗓)、苏菲(优雅知性)、嘉欣(港风甜心)、青梅(清秀少年音)、可莉(奶音萝莉)
- 男声:夜枭(磁性低音)、君泽(温润公子)、沐阳(沉稳暖男)、梓辛(青春少年)
- 不稳定,如果报错“全部段落请求失败”,则代表服务器暂时挂了,请用鉴权模式,官方接口永不挂(四次元壁的语音同理,用的同一个试用服务器)
鉴权模式
- 需要配置火山引擎 API
- 可使用 200+ 预设音色
- 支持声音复刻(用自己的声音)
界面说明
播放器按钮
模块提供两种播放器显示方式:
楼层按钮:显示在每条 AI 消息旁边 悬浮按钮:固定在屏幕上,可拖动位置
在设置面板顶部可以勾选启用哪种模式。
播放器状态
- 播放 → 点击开始朗读
- 准备/缓存 → 正在准备音频
- 播放中 → 显示声波动画
- 暂停 → 已暂停,可继续
- 完成 → 本条播放结束
设置面板
点击播放器的展开按钮()或设置按钮()打开设置。
基础配置页
鉴权配置
- AppID / Access Token:填入火山引擎的凭证(试用模式可跳过)
朗读设置
- 自动朗读:AI 回复后是否自动播放
- 语速:0.5x ~ 2.0x 可调
文本过滤功能
在基础配置页的”文本过滤”部分,有两个功能可以精确控制哪些内容需要朗读、哪些内容跳过。
跳过区间
作用:遇到指定的”起始”标记后,跳过中间内容,直到遇到”结束”标记为止。
使用场景
很多角色卡会在回复中插入状态栏、属性面板、旁白说明等内容,这些通常不适合朗读出来。
配置方式
每条规则有两个输入框:
- 起始:开始跳过的标记
- 结束:停止跳过的标记
示例
假设 AI 回复是这样的:
"今天天气真好呀!"她开心地说道。
【状态栏】
好感度:85
心情:愉悦
【状态栏结束】
"要不要一起去散步?"如果你添加一条规则:
- 起始:
【状态栏】 - 结束:
【状态栏结束】
那么朗读时会跳过中间的状态信息,只读:
“今天天气真好呀!“她开心地说道。“要不要一起去散步?“
特殊情况
- 只填起始、结束留空:从起始标记开始,后面的内容全部跳过
- 起始留空、只填结束:从开头到结束标记之间的内容全部跳过
- 两个都留空:这条规则无效,不会产生任何作用
只读区间
作用:只朗读匹配标记内的内容,其他所有内容都忽略。
使用场景
有些角色卡会用特定符号包裹”台词”部分,比如用引号、书名号或自定义标记。如果你只想听角色说的话,不想听旁白描写,可以用这个功能。
启用方式
需要先勾选”启用只读区间”复选框,规则才会生效。
示例
假设 AI 回复是这样的:
她轻轻叹了口气,目光望向窗外。
「我一直在等你回来。」
月光洒在她的脸上,映出淡淡的忧伤。
「你知道吗,每天晚上我都会想起那件事。」如果你添加一条规则:
- 起始:
「 - 结束:
」
那么只会朗读引号内的台词:
我一直在等你回来。你知道吗,每天晚上我都会想起那件事。
特殊情况
- 只填起始、结束留空:从起始标记到文本末尾的内容会被朗读
- 起始留空、只填结束:从文本开头到结束标记的内容会被朗读
- 添加多条规则:所有规则匹配到的内容都会合并朗读
两个功能的优先级
如果同时配置了”跳过区间”和”只读区间”:
- 先执行”跳过区间”,移除不需要的内容
- 再执行”只读区间”(如果启用了的话),从剩余内容中筛选
常见配置参考
| 场景 | 功能 | 起始 | 结束 |
|---|---|---|---|
| 跳过状态栏 | 跳过区间 | 【状态栏】 | 【/状态栏】 |
| 跳过括号旁白 | 跳过区间 | ( | ) |
| 跳过星号动作 | 跳过区间 | * | * |
| 只读日式引号台词 | 只读区间 | 「 | 」 |
| 只读中式引号台词 | 只读区间 | " | " |
| 读冒号后的所有对话 | 只读区间 | : | (留空) |
音色管理页
我的音色
- 已保存的音色列表
- 点击选中设为默认
- 可重命名或删除
- 手动添加复刻音色
试用音色
- 11 个免费音色
- 点击选中后可试听
- 点击”添加到我的音色”保存
预设库(需配置鉴权)
- 200+ 官方音色
- 支持按性别、模型、语种、场景筛选
- 支持搜索
高级设置页
鉴权模式的进阶选项:
- 返回计费用量
- 服务端缓存
- Markdown 过滤
- 语种识别
- 音高调整等
缓存管理页
- 查看本地缓存统计
- 设置缓存天数和容量上限
- 清理过期或全部缓存
使用说明页
包含配音指令语法和鉴权配置教程。
配音指令(进阶玩法)
在 AI 回复中使用特殊指令,可以控制朗读效果:
基本格式
[tts:speaker=音色名;emotion=情绪;context=语气提示]
要朗读的文字内容参数说明
speaker:音色名称(必须是”我的音色”中保存的名称)emotion:情感语气context:语气提示(仅对 2.0 模型生效)
三个参数可任意组合,用分号分隔。
示例
[tts:speaker=小白;emotion=开心]
今天天气真好呀!
[tts:emotion=悲伤]
我好难过...
[tts:context=用更温柔的语气]
晚安,好梦。可用情感值
中文:开心、悲伤、生气、惊讶、恐惧、厌恶、激动、冷漠、中性、沮丧、撒娇、害羞、安慰、鼓励、咆哮、焦急、温柔、讲故事、自然讲述、情感电台、磁性、广告营销、气泡音、低语、新闻播报、娱乐八卦、方言、对话、闲聊、温暖、深情、权威
英文:happy, sad, angry, surprised, fear, hate, excited, coldness, neutral, depressed, lovey-dovey, shy, comfort, tension, tender, storytelling, radio, magnetic, advertising, vocal-fry, asmr, news, entertainment, dialect, chat, warm, affectionate, authoritative
鉴权模式配置步骤
如果想使用更多音色或声音复刻功能:
-
开启 CORS 代理
- 打开酒馆目录的
config.yaml - 将
enableCorsProxy改为true - 重启酒馆
- 打开酒馆目录的
-
开通火山引擎服务
-
获取凭证
- 访问 https://console.volcengine.com/speech/service/8
- 复制 AppID 和 Access Token
- 填入设置面板
-
声音复刻(可选)
- 访问 https://console.volcengine.com/speech/new/experience/clone
- 上传音频完成复刻
- 获取音色 ID(格式
S_xxxxxxxx) - 在”我的音色”中手动添加
常见问题
Q:没有声音,堵塞等怎么办?
- 检查浏览器是否允许自动播放音频,或更换浏览器
- 尝试手动点击播放按钮
Q:试用音色够用吗?
- 11 个音色覆盖了常见风格,日常使用足够
- 需要更多选择或复刻功能再配置鉴权