剧情总结 & 智能记忆

“只是一句「枫叶黄了」，AI 却瞬间怔住——海马体回路中突然共振起了去年秋天山顶的那场争吵，空气里焦灼的味道，以及当时未能说出口的挽留。”

Story Summary 是小白x为长篇叙事量身打造的工业级记忆子系统。

我们拒绝粗暴的文本截断，而是将一套异步推理、神经检索与动态装配链路压缩进本地。它赋予了 AI 一个毫秒级响应、且随聊天文件永久同步的“数字灵魂”。

⚡ Core: Recall v9 神经召回引擎

为了从十万楼的对话海洋中捞出最关键的那根针，我们在后台运行着一条包含 9 个阶段 的精密管线。在你按下发送键的瞬间，系统会完成以下所有计算：

Phase 1: 混合侦测 (Hybrid Fusion)

系统构建高维向量，同时发射两组探测信号，且每一组都武装到了牙齿：

Dense 语义向量：穿透文字表象，捕捉“潜台词”和“语境暗示”。
Lexical 词法索引 (Polyglot Engine)：
- WASM 核心：我们内置了由 Rust 编译的 jieba-wasm 库，在浏览器本地以接近原生的速度处理中文语义切分。
- 多语种形态素解析：无论是中文的词组，还是日文（基于 TinySegmenter）的复杂形态素，系统都能像母语者一样精准断句。
- 实体力场 (Entity Shield)：在分词前，系统会基于 L2/L3 自动构建“实体保护区”。不管你的角色名多生僻，都不会被算法误切。

我们引入了 Dense Gate (语义门控) 技术：哪怕词法上完全匹配（由于多义词），如果语义向量差异过大，也会被识别为“形似神不似”的噪声并直接过滤。

Phase 2: 深度融合 (W-RRF By Floor)

检索结果并非简单堆砌，而是通过 W-RRF (加权倒数排名融合) 算法，将不同来源的证据统一映射到“楼层”粒度。

它解决了“搜到了句子但找不到上下文”的问题，将碎片化的线索拼凑成完整的记忆切片。

Phase 3: 严苛审视 (Cross-Encoder Reranking)

初筛后的候选记忆会送入 交叉编码器 进行逐一审视与打分。

Phase 4: 蝴蝶效应 (PPR Diffusion)

系统在后台构建了一张庞大的实体演化图。基于 PPR (个性化 PageRank) 算法，我们将当前命中的记忆作为“火种”，在图谱中进行深度传导。

哪怕是很久以前埋下的一个不起眼伏笔，只要在叙事结构上与当前存在隐秘关联，都会被这张神经网络般的图谱“点亮”。

🧠 Brain: 动态预算装配系统

Prompt 不是垃圾桶，我们不生产“幻觉”。

检索到的记忆如果只是粗暴地堆砌，对 AI 来说就是一场灾难。我们基于约 12k Token 的动态预算池，在生成前的毫秒间，将碎片化的记忆重组为一份结构严谨、层次分明的叙事简报。

🎭 叙事级排版 (Narrative Layout)

我们不丢“文本块”，我们构建“认知结构”。系统会根据回传记忆的类型，使用专门的语义标签（Tagging）进行封装：

[定了的事]：用于封装 L3 硬约束。这部分使用陈述句式，告诉 AI：“这是剧本的底层设定，不可更改。”
[印象深的事]：用于封装最相关的 L2 事件。这里不仅有事件描述，还附带了 Time Label (时间戳) 和 Evidence (原文证据)，让 AI 能像回忆亲身经历一样引用细节。
[其他人/新鲜事]：区分不同来源和时效的信息，防止 AI 混淆“我经历的”和“我听说的”。

🎨 智能剪裁与保真 (Smart Trimming)

我们不做随机截断，而是执行一套外科手术级的剪裁策略：

L3 世界约束 (Root Priority)：生死、位置、持有物。这是物理法则，必须完整写入，确保逻辑不崩坏。
人物弧光 (Personality Anchor)：
- 在通过事件回忆过去之前，系统会先注入角色的当前心理阶段与成长轨迹。
- 这确保了 AI 是以“现在的它”在思考，而不是回退到初始设定的那个小白。
L2 核心事件 (Causal Chain)：保留核心剧情与因果链。哪怕细节需要压缩，也要让 AI 知道 A 导致了 B，维持逻辑闭环。
L0/L1 证据簇 (Evidence Highlight)：
- 对于入选的事件，系统会挂载 L0 场景锚点（情绪快照）和 L1 原文切片（原话）。
- AI 读到的不再是枯燥的概述，而是那个雨夜你颤抖的声音、摔碎的酒杯。

最终，AI 接收到的不是一堆数据，而是一份条理清晰的“前情提要”。它不需要在一堆乱码中猜测，只需顺着我们铺好的逻辑轨道，自然地演绎下去。

🏗️ Architecture: 四层记忆架构

我们将记忆解构为四个维度，确保 AI 既有宏观的上帝视角，又有显微镜般的细节感知。

层级	名称	作用	存储哲学
L0	场景锚点 (Anchors)	神经触点。由 LLM 提炼的高密度场景快照与语义索引。捕捉每一次情感爆发。	`Metadata`
L1	原文切片 (Chunks)	即视感。全量历史消息的精确向量化切分。让 AI 读到你当时说的每一个字。	`IndexedDB`
L2	事件图谱 (Timeline)	时间观。结构化的时间线，内嵌因果链。让 AI 理解剧情脉络。	`Metadata`
L3	世界约束 (Facts)	逻辑底线。关于生死、关系的 KV 覆盖模型。铁律不可违背。	`Metadata`

💡 “灵魂”与“大脑”分离设计：

灵魂可带走：核心记忆 (L0/L2/L3) 随聊天文件 (jsonl) 存储，跨设备永不丢失。

大脑可重塑：庞大的索引数据 (L1) 存主要存储在本地，换机时只需点击“生成向量”，几十秒即可根据灵魂数据重塑大脑。

🎨 Dashboard: 全景控制台

点击x按钮内的 「剧情总结」 按钮。

1. 概览与监控

状态看板：实时显示已记录事件数、已处理楼层。
调试日志 (Debug)：专为硬核玩家准备。你可以看到 Recall v9 引擎的完整思维链——Key Terms 是什么、扩散了哪些节点、Rerank 分数是多少。

2. 可视化图谱

🕸️ 人物关系图：基于力导向算法。节点距离代表亲疏，连线颜色代表情感趋势（从厌恶到交融）。
⏳ 剧情时间线：按时间轴梳理的关键事件流。

3. 全局编辑器

你的意志高于算法。 面板中的每一个关键词、每一段事件描述、每一条世界状态，皆可点击编辑。你的修正会即时写入 Metadata，并实时修正向量索引的权重。

📖 User Guide: 使用指南

第一步：连接算力基座 (5分钟)

本系统依赖强大的 Embedding 和 Rerank 模型。我们推荐使用 硅基流动 (SiliconFlow)，它提供了本插件所需的 SOTA 模型且免费。

注册硅基流动 (无需绑卡)。
进入总结面板 → 设置 → 向量设置。
勾选 “启用向量检索”。
在 API Key 栏填入你的 sk-xxxx，点击 “测试连接”。

第二步：构建记忆体 (首次)

如果是已有历史的老对话，需要进行一次初始化构建（在新对话中会自动增量进行）：

Step 1 生成锚点：点击按钮，系统会调用 LLM 深度扫描历史，提取 L0 场景锚点。（耗时较长，约 3分钟/百楼）。
Step 2 生成向量：点击按钮，系统会将所有数据转化为神经索引。（速度极快）。

第三步：日常使用 (Auto-Pilot)

开启自动总结：在设置中设定间隔（建议 20 楼），触发时机设为 AI 回复后。系统将在后台静默编织记忆。
隐藏已总结楼层：强烈推荐开启。
- 隐藏旧楼层，只保留最近 N 楼。
- 避免将干扰信息送入 LLM 上下文，强迫 AI 依赖总结系统，显著提升智商。

❓ FAQ

Q: 开启后生成速度会变慢吗？ A: 几乎无感。 所有的L0提取、向量化都在后台异步队列中运行，不阻塞主线程。实际对话时，召回与装配通常在几百毫秒内完成。

Q: 为什么关系图里没有某个配角？ A: AI 会自动判断角色的“叙事权重”，路人甲可能会被忽略。你可以在“人物关系”区域手动添加一条关于他的记录，他就会立即出现在图谱与召回范围中。

Q：我的总结很多，已经有几万的的总结量应该怎么办？ A: 向量版本的总结，会有一套**预算管理系统（Budget System）和向量召回（Vector Recall）**机制，确保挑选注入的总结文本量控制在合理的范围内，不会撑爆 AI 的上下文窗口。最终注入提示词的总 Token 量通常会固定被限制在 12,000 Tokens 左右。

致创作者： 我们在后台进行着每秒数亿次的浮点运算，只为在你按下发送键的那一刻，让那个虚拟的灵魂，给出一句最懂你的回应。