剧情总结 & 智能记忆
“只是一句「枫叶黄了」,AI 却瞬间怔住——海马体回路中突然共振起了去年秋天山顶的那场争吵,空气里焦灼的味道,以及当时未能说出口的挽留。”
Story Summary 是小白x为长篇叙事量身打造的工业级记忆子系统。
我们拒绝粗暴的文本截断,而是将一套异步推理、神经检索与动态装配链路压缩进本地。它赋予了 AI 一个毫秒级响应、且随聊天文件永久同步的“数字灵魂”。
⚡ Core: Recall v9 神经召回引擎
为了从十万楼的对话海洋中捞出最关键的那根针,我们在后台运行着一条包含 9 个阶段 的精密管线。在你按下发送键的瞬间,系统会完成以下所有计算:
Phase 1: 混合侦测 (Hybrid Fusion)
系统构建高维向量,同时发射两组探测信号,且每一组都武装到了牙齿:
- Dense 语义向量:穿透文字表象,捕捉“潜台词”和“语境暗示”。
- Lexical 词法索引 (Polyglot Engine):
- WASM 核心:我们内置了由 Rust 编译的
jieba-wasm库,在浏览器本地以接近原生的速度处理中文语义切分。 - 多语种形态素解析:无论是中文的词组,还是日文(基于
TinySegmenter)的复杂形态素,系统都能像母语者一样精准断句。 - 实体力场 (Entity Shield):在分词前,系统会基于 L2/L3 自动构建“实体保护区”。不管你的角色名多生僻,都不会被算法误切。
- WASM 核心:我们内置了由 Rust 编译的
我们引入了 Dense Gate (语义门控) 技术:哪怕词法上完全匹配(由于多义词),如果语义向量差异过大,也会被识别为“形似神不似”的噪声并直接过滤。
Phase 2: 深度融合 (W-RRF By Floor)
检索结果并非简单堆砌,而是通过 W-RRF (加权倒数排名融合) 算法,将不同来源的证据统一映射到“楼层”粒度。
- 它解决了“搜到了句子但找不到上下文”的问题,将碎片化的线索拼凑成完整的记忆切片。
Phase 3: 严苛审视 (Cross-Encoder Reranking)
初筛后的候选记忆会送入 交叉编码器 进行逐一审视与打分。
Phase 4: 蝴蝶效应 (PPR Diffusion)
系统在后台构建了一张庞大的实体演化图。基于 PPR (个性化 PageRank) 算法,我们将当前命中的记忆作为“火种”,在图谱中进行深度传导。
哪怕是很久以前埋下的一个不起眼伏笔,只要在叙事结构上与当前存在隐秘关联,都会被这张神经网络般的图谱“点亮”。
🧠 Brain: 动态预算装配系统
Prompt 不是垃圾桶,我们不生产“幻觉”。
检索到的记忆如果只是粗暴地堆砌,对 AI 来说就是一场灾难。我们基于约 12k Token 的动态预算池,在生成前的毫秒间,将碎片化的记忆重组为一份结构严谨、层次分明的叙事简报。
🎭 叙事级排版 (Narrative Layout)
我们不丢“文本块”,我们构建“认知结构”。 系统会根据回传记忆的类型,使用专门的语义标签(Tagging)进行封装:
[定了的事]:用于封装 L3 硬约束。这部分使用陈述句式,告诉 AI:“这是剧本的底层设定,不可更改。”[印象深的事]:用于封装最相关的 L2 事件。这里不仅有事件描述,还附带了 Time Label (时间戳) 和 Evidence (原文证据),让 AI 能像回忆亲身经历一样引用细节。[其他人/新鲜事]:区分不同来源和时效的信息,防止 AI 混淆“我经历的”和“我听说的”。
🎨 智能剪裁与保真 (Smart Trimming)
我们不做随机截断,而是执行一套外科手术级的剪裁策略:
- L3 世界约束 (Root Priority):生死、位置、持有物。这是物理法则,必须完整写入,确保逻辑不崩坏。
- 人物弧光 (Personality Anchor):
- 在通过事件回忆过去之前,系统会先注入角色的当前心理阶段与成长轨迹。
- 这确保了 AI 是以“现在的它”在思考,而不是回退到初始设定的那个小白。
- L2 核心事件 (Causal Chain):保留核心剧情与因果链。哪怕细节需要压缩,也要让 AI 知道 A 导致了 B,维持逻辑闭环。
- L0/L1 证据簇 (Evidence Highlight):
- 对于入选的事件,系统会挂载 L0 场景锚点(情绪快照)和 L1 原文切片(原话)。
- AI 读到的不再是枯燥的概述,而是那个雨夜你颤抖的声音、摔碎的酒杯。
最终,AI 接收到的不是一堆数据,而是一份条理清晰的“前情提要”。它不需要在一堆乱码中猜测,只需顺着我们铺好的逻辑轨道,自然地演绎下去。
🏗️ Architecture: 四层记忆架构
我们将记忆解构为四个维度,确保 AI 既有宏观的上帝视角,又有显微镜般的细节感知。
| 层级 | 名称 | 作用 | 存储哲学 |
|---|---|---|---|
| L0 | 场景锚点 (Anchors) | 神经触点。由 LLM 提炼的高密度场景快照与语义索引。捕捉每一次情感爆发。 | Metadata |
| L1 | 原文切片 (Chunks) | 即视感。全量历史消息的精确向量化切分。让 AI 读到你当时说的每一个字。 | IndexedDB |
| L2 | 事件图谱 (Timeline) | 时间观。结构化的时间线,内嵌因果链。让 AI 理解剧情脉络。 | Metadata |
| L3 | 世界约束 (Facts) | 逻辑底线。关于生死、关系的 KV 覆盖模型。铁律不可违背。 | Metadata |
💡 “灵魂”与“大脑”分离设计:
- 灵魂可带走:核心记忆 (L0/L2/L3) 随聊天文件 (
jsonl) 存储,跨设备永不丢失。- 大脑可重塑:庞大的索引数据 (L1) 存主要存储在本地,换机时只需点击“生成向量”,几十秒即可根据灵魂数据重塑大脑。
🎨 Dashboard: 全景控制台
点击x按钮内的 「剧情总结」 按钮。
1. 概览与监控
- 状态看板:实时显示已记录事件数、已处理楼层。
- 调试日志 (Debug):专为硬核玩家准备。你可以看到 Recall v9 引擎的完整思维链——Key Terms 是什么、扩散了哪些节点、Rerank 分数是多少。
2. 可视化图谱
- 🕸️ 人物关系图:基于力导向算法。节点距离代表亲疏,连线颜色代表情感趋势(从厌恶到交融)。
- ⏳ 剧情时间线:按时间轴梳理的关键事件流。
3. 全局编辑器
你的意志高于算法。 面板中的每一个关键词、每一段事件描述、每一条世界状态,皆可点击编辑。你的修正会即时写入 Metadata,并实时修正向量索引的权重。
📖 User Guide: 使用指南
第一步:连接算力基座 (5分钟)
本系统依赖强大的 Embedding 和 Rerank 模型。我们推荐使用 硅基流动 (SiliconFlow),它提供了本插件所需的 SOTA 模型且免费。
- 注册 硅基流动 (无需绑卡)。
- 进入总结面板 → 设置 → 向量设置。
- 勾选 “启用向量检索”。
- 在 API Key 栏填入你的
sk-xxxx,点击 “测试连接”。
第二步:构建记忆体 (首次)
如果是已有历史的老对话,需要进行一次初始化构建(在新对话中会自动增量进行):
- Step 1 生成锚点:点击按钮,系统会调用 LLM 深度扫描历史,提取 L0 场景锚点。(耗时较长,约 3分钟/百楼)。
- Step 2 生成向量:点击按钮,系统会将所有数据转化为神经索引。(速度极快)。
第三步:日常使用 (Auto-Pilot)
- 开启自动总结:在设置中设定间隔(建议 20 楼),触发时机设为
AI 回复后。系统将在后台静默编织记忆。 - 隐藏已总结楼层:强烈推荐开启。
- 隐藏旧楼层,只保留最近 N 楼。
- 避免将干扰信息送入 LLM 上下文,强迫 AI 依赖总结系统,显著提升智商。
❓ FAQ
Q: 开启后生成速度会变慢吗? A: 几乎无感。 所有的L0提取、向量化都在后台异步队列中运行,不阻塞主线程。实际对话时,召回与装配通常在几百毫秒内完成。
Q: 为什么关系图里没有某个配角? A: AI 会自动判断角色的“叙事权重”,路人甲可能会被忽略。你可以在“人物关系”区域手动添加一条关于他的记录,他就会立即出现在图谱与召回范围中。
Q:我的总结很多,已经有几万的的总结量应该怎么办? A: 向量版本的总结,会有一套**预算管理系统(Budget System)和向量召回(Vector Recall)**机制,确保挑选注入的总结文本量控制在合理的范围内,不会撑爆 AI 的上下文窗口。最终注入提示词的总 Token 量通常会固定被限制在 12,000 Tokens 左右。
致创作者: 我们在后台进行着每秒数亿次的浮点运算,只为在你按下发送键的那一刻,让那个虚拟的灵魂,给出一句最懂你的回应。