Skip to Content

剧情总结 & 智能记忆

“只是一句「枫叶黄了」,AI 却瞬间怔住——海马体回路中突然共振起了去年秋天山顶的那场争吵,空气里焦灼的味道,以及当时未能说出口的挽留。”

Story Summary 是小白x为长篇叙事量身打造的工业级记忆子系统

我们拒绝粗暴的文本截断,而是将一套异步推理、神经检索与动态装配链路压缩进本地。它赋予了 AI 一个毫秒级响应、且随聊天文件永久同步的“数字灵魂”。


⚡ Core: Recall v9 神经召回引擎

为了从十万楼的对话海洋中捞出最关键的那根针,我们在后台运行着一条包含 9 个阶段 的精密管线。在你按下发送键的瞬间,系统会完成以下所有计算:

Phase 1: 混合侦测 (Hybrid Fusion)

系统构建高维向量,同时发射两组探测信号,且每一组都武装到了牙齿:

  1. Dense 语义向量:穿透文字表象,捕捉“潜台词”和“语境暗示”。
  2. Lexical 词法索引 (Polyglot Engine)
    • WASM 核心:我们内置了由 Rust 编译的 jieba-wasm 库,在浏览器本地以接近原生的速度处理中文语义切分。
    • 多语种形态素解析:无论是中文的词组,还是日文(基于 TinySegmenter)的复杂形态素,系统都能像母语者一样精准断句。
    • 实体力场 (Entity Shield):在分词前,系统会基于 L2/L3 自动构建“实体保护区”。不管你的角色名多生僻,都不会被算法误切。

我们引入了 Dense Gate (语义门控) 技术:哪怕词法上完全匹配(由于多义词),如果语义向量差异过大,也会被识别为“形似神不似”的噪声并直接过滤。

Phase 2: 深度融合 (W-RRF By Floor)

检索结果并非简单堆砌,而是通过 W-RRF (加权倒数排名融合) 算法,将不同来源的证据统一映射到“楼层”粒度。

  • 它解决了“搜到了句子但找不到上下文”的问题,将碎片化的线索拼凑成完整的记忆切片

Phase 3: 严苛审视 (Cross-Encoder Reranking)

初筛后的候选记忆会送入 交叉编码器 进行逐一审视与打分。

Phase 4: 蝴蝶效应 (PPR Diffusion)

系统在后台构建了一张庞大的实体演化图。基于 PPR (个性化 PageRank) 算法,我们将当前命中的记忆作为“火种”,在图谱中进行深度传导。

哪怕是很久以前埋下的一个不起眼伏笔,只要在叙事结构上与当前存在隐秘关联,都会被这张神经网络般的图谱“点亮”。


🧠 Brain: 动态预算装配系统

Prompt 不是垃圾桶,我们不生产“幻觉”。

检索到的记忆如果只是粗暴地堆砌,对 AI 来说就是一场灾难。我们基于约 12k Token 的动态预算池,在生成前的毫秒间,将碎片化的记忆重组为一份结构严谨、层次分明的叙事简报

🎭 叙事级排版 (Narrative Layout)

我们不丢“文本块”,我们构建“认知结构”。 系统会根据回传记忆的类型,使用专门的语义标签(Tagging)进行封装:

  • [定了的事]:用于封装 L3 硬约束。这部分使用陈述句式,告诉 AI:“这是剧本的底层设定,不可更改。”
  • [印象深的事]:用于封装最相关的 L2 事件。这里不仅有事件描述,还附带了 Time Label (时间戳)Evidence (原文证据),让 AI 能像回忆亲身经历一样引用细节。
  • [其他人/新鲜事]:区分不同来源和时效的信息,防止 AI 混淆“我经历的”和“我听说的”。

🎨 智能剪裁与保真 (Smart Trimming)

我们不做随机截断,而是执行一套外科手术级的剪裁策略:

  1. L3 世界约束 (Root Priority):生死、位置、持有物。这是物理法则,必须完整写入,确保逻辑不崩坏。
  2. 人物弧光 (Personality Anchor)
    • 在通过事件回忆过去之前,系统会先注入角色的当前心理阶段成长轨迹
    • 这确保了 AI 是以“现在的它”在思考,而不是回退到初始设定的那个小白。
  3. L2 核心事件 (Causal Chain):保留核心剧情与因果链。哪怕细节需要压缩,也要让 AI 知道 A 导致了 B,维持逻辑闭环。
  4. L0/L1 证据簇 (Evidence Highlight)
    • 对于入选的事件,系统会挂载 L0 场景锚点(情绪快照)和 L1 原文切片(原话)。
    • AI 读到的不再是枯燥的概述,而是那个雨夜你颤抖的声音、摔碎的酒杯。

最终,AI 接收到的不是一堆数据,而是一份条理清晰的“前情提要”。它不需要在一堆乱码中猜测,只需顺着我们铺好的逻辑轨道,自然地演绎下去。


🏗️ Architecture: 四层记忆架构

我们将记忆解构为四个维度,确保 AI 既有宏观的上帝视角,又有显微镜般的细节感知。

层级名称作用存储哲学
L0场景锚点 (Anchors)神经触点。由 LLM 提炼的高密度场景快照与语义索引。捕捉每一次情感爆发。Metadata
L1原文切片 (Chunks)即视感。全量历史消息的精确向量化切分。让 AI 读到你当时说的每一个字。IndexedDB
L2事件图谱 (Timeline)时间观。结构化的时间线,内嵌因果链。让 AI 理解剧情脉络。Metadata
L3世界约束 (Facts)逻辑底线。关于生死、关系的 KV 覆盖模型。铁律不可违背。Metadata

💡 “灵魂”与“大脑”分离设计

  • 灵魂可带走:核心记忆 (L0/L2/L3) 随聊天文件 (jsonl) 存储,跨设备永不丢失
  • 大脑可重塑:庞大的索引数据 (L1) 存主要存储在本地,换机时只需点击“生成向量”,几十秒即可根据灵魂数据重塑大脑

🎨 Dashboard: 全景控制台

点击x按钮内的 「剧情总结」 按钮。

1. 概览与监控

  • 状态看板:实时显示已记录事件数、已处理楼层。
  • 调试日志 (Debug):专为硬核玩家准备。你可以看到 Recall v9 引擎的完整思维链——Key Terms 是什么、扩散了哪些节点、Rerank 分数是多少。

2. 可视化图谱

  • 🕸️ 人物关系图:基于力导向算法。节点距离代表亲疏,连线颜色代表情感趋势(从厌恶到交融)。
  • ⏳ 剧情时间线:按时间轴梳理的关键事件流。

3. 全局编辑器

你的意志高于算法。 面板中的每一个关键词、每一段事件描述、每一条世界状态,皆可点击编辑。你的修正会即时写入 Metadata,并实时修正向量索引的权重。


📖 User Guide: 使用指南

第一步:连接算力基座 (5分钟)

本系统依赖强大的 Embedding 和 Rerank 模型。我们推荐使用 硅基流动 (SiliconFlow),它提供了本插件所需的 SOTA 模型且免费

  1. 注册 硅基流动  (无需绑卡)。
  2. 进入总结面板 → 设置向量设置
  3. 勾选 “启用向量检索”
  4. 在 API Key 栏填入你的 sk-xxxx,点击 “测试连接”

第二步:构建记忆体 (首次)

如果是已有历史的老对话,需要进行一次初始化构建(在新对话中会自动增量进行):

  1. Step 1 生成锚点:点击按钮,系统会调用 LLM 深度扫描历史,提取 L0 场景锚点。(耗时较长,约 3分钟/百楼)。
  2. Step 2 生成向量:点击按钮,系统会将所有数据转化为神经索引。(速度极快)。

第三步:日常使用 (Auto-Pilot)

  1. 开启自动总结:在设置中设定间隔(建议 20 楼),触发时机设为 AI 回复后。系统将在后台静默编织记忆。
  2. 隐藏已总结楼层强烈推荐开启
    • 隐藏旧楼层,只保留最近 N 楼。
    • 避免将干扰信息送入 LLM 上下文,强迫 AI 依赖总结系统,显著提升智商。

❓ FAQ

Q: 开启后生成速度会变慢吗? A: 几乎无感。 所有的L0提取、向量化都在后台异步队列中运行,不阻塞主线程。实际对话时,召回与装配通常在几百毫秒内完成。

Q: 为什么关系图里没有某个配角? A: AI 会自动判断角色的“叙事权重”,路人甲可能会被忽略。你可以在“人物关系”区域手动添加一条关于他的记录,他就会立即出现在图谱与召回范围中。

Q:我的总结很多,已经有几万的的总结量应该怎么办? A: 向量版本的总结,会有一套**预算管理系统(Budget System)和向量召回(Vector Recall)**机制,确保挑选注入的总结文本量控制在合理的范围内,不会撑爆 AI 的上下文窗口。最终注入提示词的总 Token 量通常会固定被限制在 12,000 Tokens 左右。


致创作者: 我们在后台进行着每秒数亿次的浮点运算,只为在你按下发送键的那一刻,让那个虚拟的灵魂,给出一句最懂你的回应。