四种主流架构 + CLI Agent 趋势 + 动手 6 步

CHAPTER 10

四种主流 Harness 架构横向对比

业界已经沉淀出四种常见的 harness 架构。理解它们的差异，能帮你给自己的项目选对起点。

架构	核心思路	代表项目	适合的场景	主要风险
Loop-based 循环驱动	while 循环里反复 ReAct，直到完成或超步	AutoGPT、BabyAGI、最早的开源 Agent	原型验证、个人玩具	容易跑飞、卡死、烧 token
Graph-Stateful 状态图	DAG / 有限状态机，节点是 LLM 或工具，边是跳转条件	LangGraph、CrewAI 的 Process 模式	有明确流程的业务 agent（客服、审批、审核）	开放性任务建图困难；图改动成本高
Microkernel / Control-Plane 微内核 + 控制面	核心调度极简，能力（memory、tools、skills）全部 plug-in，统一 control plane 管生命周期	OpenClaw、字节 OpenViking 配套生态、部分 super-agent harness（如字节 DeerFlow）	大企业自建 Agent 平台；需要长期演进	架构复杂；早期 ROI 不直观
Multi-Agent 多智能体协作	多个 Agent 各自扮演角色，通过消息协议协作	AutoGen、CrewAI、MetaGPT	内容生产、研究分析、复杂角色扮演场景	"加 agent 不解决问题"陷阱；通信成本高

10.1 一条隐线：从单体到分层

把上面四种架构按时间线排，几乎呈现一条工程演进路径：

2023：大家都是 Loop-based，写一个 while 循环就敢叫 Agent。
2024：复杂任务跑不通，Graph-Stateful（LangGraph 为代表）登场，把流程刻死换可控性。
2024-2025：单 Agent 装不下所有能力，Multi-Agent 流派起势（AutoGen、CrewAI、MetaGPT）。
2025-2026：企业开始追求平台化、可治理，Microkernel + Control-Plane 架构成为大厂自研 Agent 中台的主流选择。"super agent harness" 概念开始流行 —— 一层 harness 编排一组 sub-agents、memory、sandboxes、tools、skills，对外像一个 super-agent。字节的 DeerFlow（2026-02-28 GitHub Trending #1）就是这条路线的典型代表。

对小白的建议：从 Loop-based 起手做 Demo，从 Graph-Stateful 起手做产品，从 Microkernel 起手做平台。不要逆序。

CHAPTER 10·趋势

趋势观察：CLI Agent 为什么突然火了

2025 年下半年到 2026 年初，AI 圈最显眼的产品形态变化不是又一个新模型、也不是又一个 IDE 插件，而是 CLI Agent —— 一群"长在终端里"的编码 Agent 集体出圈。这一节把这股浪潮拆给你看，并把它放回前面八根支柱的坐标系里。

10b.1 一句话定义：什么叫 CLI Agent

CLI Agent 就是 把 harness 直接装进终端命令的 Agent 产品。你在 shell 里敲一个 claude / codex / gemini / aider，进入一个交互会话，告诉它要做什么，它在 当前目录 直接读文件、改文件、跑命令、提交 git。没有 web UI，没有 IDE 面板，UI 就是终端本身。

这个形态很反直觉 —— 都 2026 年了，AI 产品最火的 UI 居然是 1970 年代的终端。原因不是怀旧，是 CLI 在 Agent 这个特定场景下，恰好把工程上几个最难的事情一次性绕开了。

10b.2 AI 编码工具的四个阶段

把"AI 写代码"这件事按交互形态做时间线，能清楚看到 CLI 是第四代：

阶段	代表产品	核心能力	交互形态
第一代	ChatGPT	回答编程问题	Web 聊天
第二代	GitHub Copilot、通义灵码	代码补全、上下文问答	IDE 插件
第三代	Cursor、Trae	AI 原生 IDE，Agent 半自主执行	带 AI 的 IDE
第四代	Claude Code、Codex CLI、Gemini CLI、Aider	全流程覆盖、自主多步执行、原生工具链集成	命令行 CLI

每一代的进化都是把 Agent 往"更靠近开发者真实工作环境"推一步。第四代干脆直接住进终端 —— 因为开发者最终干活的地方就是终端。

10b.3 为什么 CLI 形态突然成了主流

这一波 CLI Agent 不是单纯的"复古"，而是工程上几个真实优势叠加的结果：

天然吃 DevOps 工具链：终端里 git、docker、npm、kubectl 现成的，Agent 拿一个 bash 工具就能用全。不需要为每个工具写 MCP server 或 IDE 集成。
远程 / 无图形环境友好：SSH 进生产服务器、跑在 CI 流水线、跑在 Docker 容器里 —— 这些场景没有 GUI，IDE 形态根本进不去，CLI 是唯一选项。
可脚本化、可流水线化：CLI 的输入输出都是文本，能 pipe、能 cron、能塞进 GitHub Actions。"夜里 12 点自动跑一遍 Agent 修 lint 然后发 PR"在 CLI 里是十几行 yaml 的事。
资源开销极小:没有 Electron 壳、没有渲染层。一个 npx 命令几十兆，跟随进程随用随关。
模型够用了：第 1 章说过，2024 年起函数调用稳定 + 长上下文打开，让"扔给模型一堆文件让它自己读"这件事真的能跑通。CLI 形态高度依赖这点。

📊

市场信号：2026 年初一份开发者调查里，46% 的开发者把 Claude Code 评为"最喜爱的 AI 编程工具"，远超 Cursor (19%) 和 GitHub Copilot (9%)；约 4% 的公开 GitHub 提交由 Claude Code 完成。"在 IDE 里调插件"被"在终端里跑 Agent"显著替代。

10b.4 四款主流 CLI Agent 速览

把 2026 年开发者最常用的四款放一张表里。重点不是"哪个最强"，而是看它们各自押注的 harness 设计哲学。

产品	厂商 / 时间	一句话定位	harness 哲学的关键词
Claude Code	Anthropic / 2025-03	代理式编程的"鼻祖"，复杂多文件重构最强	"产品即模型"——只给四件工具，剩下交给模型推理
Codex CLI	OpenAI / 2025 下半年	ChatGPT 订阅用户的轻量终端代理	本地优先 + 与 ChatGPT 订阅打包
Gemini CLI	Google / 2025 下半年（Apache 2.0 开源）	1M 超长上下文 + 慷慨免费额度	开源 + 大上下文 + 多模态
Aider	开源社区（Paul Gauthier）/ 2024	开源先驱，Git 原生集成	BYOK + 架构师/编辑器双模型 + Git 自动 commit

国内厂商也已经跟进同一形态：阿里的 Qwen Code、Moonshot 的 Kimi CLI、字节系的 OpenCode、GitHub 自家的 Copilot CLI 等，2026 年上半年密集发版。可以理解为：CLI Agent 已经从"明星产品"变成"模型公司的标配交付形态"。

10b.5 把 Claude Code 的"四件套"拆给你看

Claude Code 是这一波里最值得拆解的产品。它的整个 harness 公开宣称只暴露 四个工具给模型：

Claude Code 工具集 = Read + Write + Edit + Bash

Read：读仓库里任意文件
Write：创建新文件
Edit：精确字符串替换式修改文件
Bash：在 shell 里执行任意命令

没有专用的"搜索工具"（用 grep）、没有专用的"测试工具"（用 npm test）、没有专用的"lint 工具"（用 eslint）。其设计者 Boris Cherny 的原话是：

"模型只想用工具。给它 bash，它就会写 AppleScript 去做没人规划过的事情。"

这是一个非常激进的 harness 哲学：不要为模型预先规划"它该有哪些能力"，给它一个 shell，让它自己组合。这种打法过去几年是不可行的，因为模型组合能力不够；2025-2026 之后才被证明可行。它对应的代价是：模型一旦走偏，破坏力很大（一句 rm -rf 就能把工作目录抹掉）—— 所以 Claude Code 在第二支柱"沙箱"上压了重注：每个写入/执行操作默认弹二次确认。

10b.6 CLI Agent 的共性 harness 长什么样

把四款产品摆在一起观察，会发现 CLI Agent 这条路线在八根支柱上有一组高度收敛的工程选择：

支柱	CLI Agent 的典型做法	对应回前文哪一章
身份与权限	OAuth 设备码登录（一次浏览器授权后绑定到 CLI），企业版叠 SSO；本地以"当前 OS 用户"身份操作	第 4 章
沙箱与运行时	多数产品默认是"第二档"——直接在用户本地目录跑命令，但每个写入/执行加 permission gate；少数（Codex Cloud / Aider sandbox 模式）走容器化	第 5 章
工具/技能/MCP	极简核心工具（Read/Write/Edit/Bash 四件套）+ 原生 MCP client。MCP 在 CLI Agent 里已经是事实标配，外接能力靠装 MCP server	第 6 章
记忆系统	项目级一份 markdown（`CLAUDE.md` / `GEMINI.md`），每次会话自动注入；跨会话长期记忆基本都靠这个 + 仓库本身	第 7 章
编排与控制流	主路是 ReAct 循环；高级形态出现 SubAgents（Claude Code）/ 架构师-编辑器分工（Aider）—— 一个强模型规划 + 弱模型执行	第 8 章
观测与日志	终端流式输出每一步的 thinking + tool call + 结果；会话日志落本地 jsonl，方便复盘	第 9 章

换句话说，CLI Agent 不是另起炉灶的新架构，它就是第 10 章里 Loop-based 与 Multi-Agent 的混合体，外面套上"终端"这层 UI。它之所以能做得简洁，是因为它接受了一个很狠的约定：开发者本地工作目录 = 沙箱，git 仓库 = 状态，CLAUDE.md = 记忆。这个约定一旦立住，整个 harness 可以薄到只剩四个工具。

10b.7 国内协同办公平台的 CLI 化浪潮：飞书与钉钉

故事到这里其实只讲了一半。CLI Agent 是"AI 这一侧"的形态选择，那同一时间窗口里，"SaaS 这一侧"也在做一件呼应它的事 —— 把整个产品压扁成命令行。2026 年 3 月，钉钉、飞书、企业微信几乎在同一窗口集体开源了官方 CLI，国内办公协同平台一下子从"对人友好的 GUI"转向"对 Agent 友好的 CLI"。这一节把这件事讲清楚。

10b.7.1 一周之内，三家集体开源

把时间线摊开看，这几乎是行业级的同步动作：

2026-03-17，钉钉发布"悟空"平台并宣布产品全面 CLI 化改造，CTO 朱鸿原话："我们希望每一个 AI Agent，都能像调用系统命令一样自然地调用钉钉。"注意他用的词是"系统命令"，不是 API、不是协议，是 ls/cd/grep 那种东西。十天后（3-27），仓库 dingtalk-workspace-cli 开源到 GitHub，二进制叫 dws，Apache-2.0。
2026-03-28 前后，飞书跟上，仓库 larksuite/cli，包名 @larksuiteoapi/cli，MIT，Go 语言。上线不到两个月即攒到 10100+ Stars / 673 Forks / 380+ Issues / 32 个版本，是国内官方 CLI 中最热的项目（来源：itbear.com.cn 2026-05 报道）。
同期 企业微信开源 wecom-cli，开放消息、日程、文档等七大核心能力。

同窗口对照一下海外：Google Workspace CLI 同样有热度（开源 70 余天 2.6 万 Star），但被官方明确标注为"非官方支持"。国内三家是全球范围内首批"官方背书 + 面向 AI Agent 适配 + 用户友好"的协同办公 CLI。腾讯网当时一篇刷屏文章直接给这件事下了一个尖锐标题："钉钉飞书集体抛弃 MCP，CLI 才是 Agent 的终局"。

10b.7.2 为什么做？三个层次的回答

"为什么不继续做 MCP server，而非要做 CLI"是这件事最核心的问题。把它拆成三层来看：

第一层 · 工程层：CLI 是 LLM 的"母语"。大模型的训练语料里塞满了 Shell 命令、Unix 管道、命令行工具示例，所以让模型生成一条 dws calendar event create --title "周会" --time "周五15:00"，几乎是零学习成本；让它去拼一段自定义 MCP 协议的 JSON 调用，则需要专门的上下文注入和示例。这种差异在单次调用里看不出来，在高频、多步、复杂的 Agent 任务里会被放大成显著的准确率差距。同时 CLI 自带四个 Agent 友好的工程属性：

确定性：同一条命令同一组参数，输出关系稳定，没有 LLM 决策漂移。
可观测性：stdout / stderr / exit code 一应俱全，Agent 干了什么、错在哪、能不能重试，全部有据可查。
可组合性：天然吃 Unix 管道，可以和 git/jq/grep/curl 这一整套五十年的工具生态拼接。
生态继承：所有 CLI Agent（Claude Code、Cursor 终端、Codex CLI 等）天然能调用，不需要为每个 Agent 单独适配。

第二层 · 范式层：从"先 MCP 后 CLI"是行业认知的递进。这一波之前业界在 Agent 工具层走过两个阶段：

第一阶段：MCP "把世界接进来"。解决"模型怎么调外部能力"的问题，让任何工具都能以统一协议被 Agent 看到。但当一个 Agent 接入工具数 > 15 ~ 20 个之后，工具描述全量进上下文导致 Token 成本爆涨、模型在相似工具里选错率上升、整体行为依赖 prompt 不够稳定。
第二阶段：Skills 把能力结构化。把工具组合成"可复用能力单元"（"竞品分析"、"生成周报"），让 Agent 按手册办事。但 Skill 内部黑盒、组合复杂度爆炸、最终调度仍依赖 LLM 决策 → 执行不确定性没解决。
第三阶段：CLI 把执行层"压扁"。把"决策（LLM）"和"执行（CLI）"明确分开 —— LLM 输出一条确定性命令，CLI 负责稳定执行。从依赖模型的理解力，走向依赖系统的执行力。

钉钉飞书做的事情，本质上就是把第三阶段在企业协同领域落地。

第三层 · 战略层：争夺"Agent 时代的工作平台入口"。Gartner 预测：搭载 AI Agent 功能的商用企业软件市场占比，将从 2024 年不足 1% 升到 2028 年的 33%。这意味着：

"人主动适配软件操作"会逐步变成"人下达指令、Agent 直达业务目标"；
过去靠 GUI 锁定用户的"场景绑定优势"在加速失效；
谁的能力进了 Agent 的工具菜单，谁就还在场内；进不去的，就被通用大模型 + Computer Use 越过。

飞书的官宣里有一句很值得回味："飞书正从'人和人的协同工具'转变为'人和 Agent 的协同工具'"。把 CLI 开源，本质是把整个产品的能力面向 Agent 重新接入一遍。

10b.7.3 怎么做？两家的设计逻辑对照

两家 CLI 的具体设计有差异，但底层范式高度一致：服务/资源/动作三段命令树 + Agent 友好的开关 + 完整 OpenAPI 兜底。下面把核心差异摆出来。

维度	钉钉 dws（dingtalk-workspace-cli）	飞书 lark-cli（@larksuiteoapi/cli）
语言 / 体积 / 协议	Go，约 8 MB 原生二进制，Apache-2.0	Go（npm 分发，套了一层 Node wrapper），约 14 MB，MIT
安装	一行 `curl` 脚本，装完得到 `dws` 命令	`npm install -g @larksuite/cli`
命令结构	"服务 / 资源 / 动作"三级，如 `dws calendar event create`	三层架构：① Shortcuts（`+` 前缀，带智能默认值）② API Commands（一一对应平台 API）③ Raw API（直调 2500+ OpenAPI 端点的"逃生舱"）
覆盖面	12 个服务模块：`aitable` / `attendance` / `bot` / `calendar` / `chat` / `contact` / `devdoc` / `ding` / `oa` / `report` / `todo` / `workbench`	17 大业务域、200+ 子命令、19 个内置 AI Agent Skills，覆盖消息 / 群组 / 云文档 / 多维表格 / 日历 / 邮箱等
Agent 友好开关	`--yes`（跳过确认提示，"AI Agent 模式"） `--mock`（模拟数据） `--dry-run`（副作用预览）	多种输出格式（`json`/`ndjson`/`table`/`csv`/`pretty`），内置 `schema` 命令查任意 API 的参数与所需权限，相当于一本 Agent 现查现用的字典
安全	三件套：无感认证（继承企业权限）+ 批量熔断（防 Agent 失控）+ 沙箱执行；底下还有 RealDoc"AI 原生文件系统"做原子级文件操作 + 完整快照	多 token 模式（user_access_token / tenant_access_token / OAuth），按场景下发；权限要求每条命令在 `schema` 里显式标注
明显差异	更激进 —— 重写底层让 Agent 绕过 GUI 直接跑能力；命令体系简洁直接	更"分层兜底" —— 给 Agent、给开发者、给极端边缘场景各留了一层入口

抽出来共同点：

开放面向 Agent，不是面向程序员。传统 OpenAPI 文档需要程序员理解、写胶水代码；CLI 直接把能力做成 Agent 一调即用的命令，取消了"集成开发"这个中间环节。
显式的"Agent 模式"。--yes/--mock/--dry-run/多输出格式/schema 自查 —— 这些都是把 Agent 当一类一等公民的用户来设计的。
OpenAPI 兜底层不能少。Shortcuts 简化常见场景，但 Agent 总会遇到边缘需求；Raw API 这一层避免了"封装太薄死板、太厚漏命令"的两难。
权限和身份继承到 OS 用户/企业账号，对应回支柱一（身份与权限）—— 这是企业级 Agent 上线的硬门槛。

🧭

对比一下：CLI 不是 MCP 的替代，而是它的"执行落地形态"。现在主流的真实部署方式是：CLI Agent（Claude Code 等）通过 MCP 发现这些 CLI 工具的能力清单 → 模型决定调哪条命令 → 在本地真正执行的是 CLI 二进制。MCP 仍在做"接入"，CLI 在做"稳定执行"，两者分工。

10b.7.4 做与不做：AI 时代的"入口存亡线"

这是这一节最该让小白记一辈子的一句话：在 Agent 时代，能力没被 CLI/MCP 暴露 ≈ 能力不存在。

维度	做了官方 CLI / MCP	不做
Agent 可见性	自动出现在 Claude Code、Cursor、Codex CLI 等所有 CLI Agent 的能力面板里	Agent 看不到你的能力，只能让用户回到 GUI 手工点
集成成本	开发者一行命令安装 → Agent 直接用；Skill 维护者写一份 SKILL.md 就能复用	每接一个 Agent 都要单独写胶水代码，集成方维护负担分散到每个客户
执行可靠性	命令确定 + 可观测 + 可重放，企业可审计	靠 GUI 自动化 / RPA，遇到弹窗/改版/反爬就崩
商业模式	从"按席位卖 GUI"转向"按调用 / 按价值卖能力"，能跟 Agent 时代的按量计费对齐	仍依赖席位订阅，被 Agent 直接吞掉用户操作 → 席位需求被压缩
生态卡位	成为 Agent 工具菜单的"基础设施"，建立类似"操作系统接口"的卡位	被通用大模型 + Computer Use 跨过，变成可被替代的视觉壳子

钉钉、飞书、企微在同一窗口集体动手不是巧合 —— 它们都看到了同一件事：Agent 时代的 SaaS 不是"功能更强"的竞争，而是"谁是 Agent 的标配 import"。CLI 化是给企业协同平台争一张未来十年的入场券，做了不一定赢，不做几乎确定输。

✦

给小白的迁移启发：看到这里你应该理解，"CLI 化"这件事不只是协同办公平台的事 —— 任何想活在 Agent 时代的 B 端产品（CRM、ERP、运维工具、设计工具）迟早都要做。如果你正在创业或在内部做工具，从第一天就把"OpenAPI → CLI → MCP server"这条链路当作产品的一部分来设计，比晚两年打补丁要轻松一个数量级。

10b.8 给小白的两个启发

①

"少即是多"在 harness 工程里是真的。Claude Code 的四件套打败了一堆塞了几十种工具的 IDE Agent。新手做 Agent 第一版，不要先写 20 个工具，先写 3-5 个核心工具，把 description 打磨到位，让模型用 bash 组合。这条经验直接对应第 11 章 STEP 3。

②

形态选 CLI 还是 IDE 还是 Web，是 harness 设计的第一个分叉，不是"美工"问题。它决定了你的沙箱方案、记忆载体、权限模型。开发者工具优先选 CLI（吃工具链、好脚本化）；面向业务用户的工作流 Agent 优先选 Web/IM 内嵌（钉钉里的悟空就是这个路线）；介于两者之间的写代码场景优先选 IDE 形态。

CHAPTER 11

动手：6 步设计你的第一个 Agent

把前面 10 章的知识压缩成一个可执行的 6 步清单。建议照着做一个最小可用 Agent，再迭代加复杂度。

STEP 1

写一句话定义任务边界

例："这个 Agent 是给客服坐席用的，专门帮他们查订单状态、回复退款进度，不做任何写操作。" 这一句话决定了后续所有支柱怎么配。边界越窄，Agent 越靠谱。

STEP 2

挑一个起步框架，别造轮子

个人探索 → LangGraph 或 CrewAI；企业内部应用 → 钉钉/字节这类已有 Agent 平台直接接入；研究/平台向 → 看 OpenClaw、AutoGen 这类微内核框架。从零写 harness 是大厂级工程，新手别自虐。

STEP 3

先把工具的 description 写好，再写代码

记住第 6 章那句话：description 比实现更影响表现。每个工具至少写清"什么时候用、什么时候别用、参数格式、一个调用示例"。这一步花 30 分钟，能省后面 3 天的 debug。

STEP 4

记忆从最简单开始

第一版只做"会话内 buffer + 用户偏好 KV"两层就够。等真的卡到"上下文塞不下、跨会话事实记不住"，再上 Mem0；再卡到"事实演化、关系查询"，再上 Zep。不要为了用而用。

STEP 5

沙箱 + 权限 + 二次确认是上线红线

哪怕 demo 阶段，也把代码执行放进 Docker；哪怕 toC 应用，也把"删除 / 转账 / 对外发"这类动作加 confirm。这三件事补得越早，后面合规审查越省事。

STEP 6

第一天就建评测集

哪怕只有 20 条测试 case，每改一次 harness 全部跑一遍。Agent 工程没有评测就是在玩盲盒。等改到第 50 个版本你会感谢现在的自己。

✦

结尾给小白的话：Agent 工程在 2026 年的状态有点像 2010 年的移动互联网 —— 技术栈每三个月翻新一次，但底层方法论很稳：清晰的边界、可控的工具、合理的记忆分层、可观测的执行、严谨的评测。

把这五件事做扎实，模型怎么换、框架怎么变，你的 Agent 都能跟上。记住：你不是在造 ChatGPT，你是在造一个能干活的同事。

REFERENCES

参考资料

本文涉及的论文、开源项目和文章。括号内为发表/发布时间。

核心 Harness 概念

Birgitta Böckeler. Harness engineering for coding agent users. Martin Fowler 个人专栏（2026-04-02）。把 Harness 定义为 Guides + Sensors。
Vivek Trivedy. The Anatomy of an Agent Harness. LangChain Blog（2026-03-10）。"If you're not the model, you're the harness." 的出处。
Anthropic. Claude Code 官方文档与博客系列。Anthropic 把 Claude Code 称为 harness。

记忆系统主要论文与项目

Packer et al. MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560（2023-10）。分层记忆与 OS 范式。
Letta（github.com/letta-ai/letta，~16.7K Star）。MemGPT 商业化与社区演进。
Mem0（github.com/mem0ai/mem0，2024-07 开源）。论文 arXiv:2504.19413（2026-04），LoCoMo 71.4→91.6、LongMemEval 67.8→94.8（自评，需独立复现）。
Rasmussen et al. Zep: A Temporal Knowledge Graph Architecture for Agent Memory. arXiv:2501.13956（2025-01-20）。DMR 94.8% / LongMemEval +18.5%（自评）。
OpenViking（github.com/volcengine/OpenViking，2026-01 开源，~4.5k Star）。"Everything is a File"，L0/L1/L2 分层；LoCoMo10：35.65% → 52.08%（OpenClaw + OpenViking，自评）。
MineContext（github.com/volcengine/MineContext，2025-10）。主动式上下文。
LangMem / Cognee / A-MEM / Memary / EverMemOS / MIRIX 等：见各自 GitHub README。

Harness 与 Agent 框架案例

Can Bölük 实验：仅替换 edit 工具实现（str_replace → hashline 行号差量），Grok Code Fast 1 在 SWE-bench 成功率 6.7% → 68.3%。来源：作者博客与社交媒体公开实验记录（2026 初）。
DeerFlow（github.com/bytedance/deer-flow，2026-02-28 GitHub Trending #1）。super agent harness 代表。
LangGraph 官方文档。状态图编排范式。
AutoGen（Microsoft）、CrewAI、MetaGPT。多 Agent 协作主流框架。
Anthropic Model Context Protocol（MCP）官方文档。工具协议事实标准（2024 年底提出）。

关于 benchmark 的再次提醒：本文引用的 LoCoMo / LongMemEval / DMR 等指标几乎全部为各项目自评。各家实验设置（基础模型、检索 top-k、prompt 模板）差异巨大，不可直接横比。引用任何一组数字时，请配合"自评，需独立复现"的标注。真正决定选型的，是在你自己的真实数据上跑一遍。