四种主流 Harness 架构横向对比
业界已经沉淀出四种常见的 harness 架构。理解它们的差异,能帮你给自己的项目选对起点。
| 架构 | 核心思路 | 代表项目 | 适合的场景 | 主要风险 |
|---|---|---|---|---|
| Loop-based 循环驱动 |
while 循环里反复 ReAct,直到完成或超步 | AutoGPT、BabyAGI、最早的开源 Agent | 原型验证、个人玩具 | 容易跑飞、卡死、烧 token |
| Graph-Stateful 状态图 |
DAG / 有限状态机,节点是 LLM 或工具,边是跳转条件 | LangGraph、CrewAI 的 Process 模式 | 有明确流程的业务 agent(客服、审批、审核) | 开放性任务建图困难;图改动成本高 |
| Microkernel / Control-Plane 微内核 + 控制面 |
核心调度极简,能力(memory、tools、skills)全部 plug-in,统一 control plane 管生命周期 | OpenClaw、字节 OpenViking 配套生态、部分 super-agent harness(如字节 DeerFlow) | 大企业自建 Agent 平台;需要长期演进 | 架构复杂;早期 ROI 不直观 |
| Multi-Agent 多智能体协作 |
多个 Agent 各自扮演角色,通过消息协议协作 | AutoGen、CrewAI、MetaGPT | 内容生产、研究分析、复杂角色扮演场景 | "加 agent 不解决问题"陷阱;通信成本高 |
10.1 一条隐线:从单体到分层
把上面四种架构按时间线排,几乎呈现一条工程演进路径:
- 2023:大家都是 Loop-based,写一个 while 循环就敢叫 Agent。
- 2024:复杂任务跑不通,Graph-Stateful(LangGraph 为代表)登场,把流程刻死换可控性。
- 2024-2025:单 Agent 装不下所有能力,Multi-Agent 流派起势(AutoGen、CrewAI、MetaGPT)。
- 2025-2026:企业开始追求平台化、可治理,Microkernel + Control-Plane 架构成为大厂自研 Agent 中台的主流选择。"super agent harness" 概念开始流行 —— 一层 harness 编排一组 sub-agents、memory、sandboxes、tools、skills,对外像一个 super-agent。字节的 DeerFlow(2026-02-28 GitHub Trending #1)就是这条路线的典型代表。
对小白的建议:从 Loop-based 起手做 Demo,从 Graph-Stateful 起手做产品,从 Microkernel 起手做平台。不要逆序。
趋势观察:CLI Agent 为什么突然火了
2025 年下半年到 2026 年初,AI 圈最显眼的产品形态变化不是又一个新模型、也不是又一个 IDE 插件,而是 CLI Agent —— 一群"长在终端里"的编码 Agent 集体出圈。这一节把这股浪潮拆给你看,并把它放回前面八根支柱的坐标系里。
10b.1 一句话定义:什么叫 CLI Agent
CLI Agent 就是 把 harness 直接装进终端命令的 Agent 产品。你在 shell 里敲一个 claude / codex / gemini / aider,进入一个交互会话,告诉它要做什么,它在 当前目录 直接读文件、改文件、跑命令、提交 git。没有 web UI,没有 IDE 面板,UI 就是终端本身。
这个形态很反直觉 —— 都 2026 年了,AI 产品最火的 UI 居然是 1970 年代的终端。原因不是怀旧,是 CLI 在 Agent 这个特定场景下,恰好把工程上几个最难的事情一次性绕开了。
10b.2 AI 编码工具的四个阶段
把"AI 写代码"这件事按交互形态做时间线,能清楚看到 CLI 是第四代:
| 阶段 | 代表产品 | 核心能力 | 交互形态 |
|---|---|---|---|
| 第一代 | ChatGPT | 回答编程问题 | Web 聊天 |
| 第二代 | GitHub Copilot、通义灵码 | 代码补全、上下文问答 | IDE 插件 |
| 第三代 | Cursor、Trae | AI 原生 IDE,Agent 半自主执行 | 带 AI 的 IDE |
| 第四代 | Claude Code、Codex CLI、Gemini CLI、Aider | 全流程覆盖、自主多步执行、原生工具链集成 | 命令行 CLI |
每一代的进化都是把 Agent 往"更靠近开发者真实工作环境"推一步。第四代干脆直接住进终端 —— 因为开发者最终干活的地方就是终端。
10b.3 为什么 CLI 形态突然成了主流
这一波 CLI Agent 不是单纯的"复古",而是工程上几个真实优势叠加的结果:
- 天然吃 DevOps 工具链:终端里 git、docker、npm、kubectl 现成的,Agent 拿一个
bash工具就能用全。不需要为每个工具写 MCP server 或 IDE 集成。 - 远程 / 无图形环境友好:SSH 进生产服务器、跑在 CI 流水线、跑在 Docker 容器里 —— 这些场景没有 GUI,IDE 形态根本进不去,CLI 是唯一选项。
- 可脚本化、可流水线化:CLI 的输入输出都是文本,能 pipe、能 cron、能塞进 GitHub Actions。"夜里 12 点自动跑一遍 Agent 修 lint 然后发 PR"在 CLI 里是十几行 yaml 的事。
- 资源开销极小:没有 Electron 壳、没有渲染层。一个 npx 命令几十兆,跟随进程随用随关。
- 模型够用了:第 1 章说过,2024 年起函数调用稳定 + 长上下文打开,让"扔给模型一堆文件让它自己读"这件事真的能跑通。CLI 形态高度依赖这点。
市场信号:2026 年初一份开发者调查里,46% 的开发者把 Claude Code 评为"最喜爱的 AI 编程工具",远超 Cursor (19%) 和 GitHub Copilot (9%);约 4% 的公开 GitHub 提交由 Claude Code 完成。"在 IDE 里调插件"被"在终端里跑 Agent"显著替代。
10b.4 四款主流 CLI Agent 速览
把 2026 年开发者最常用的四款放一张表里。重点不是"哪个最强",而是看它们各自押注的 harness 设计哲学。
| 产品 | 厂商 / 时间 | 一句话定位 | harness 哲学的关键词 |
|---|---|---|---|
| Claude Code | Anthropic / 2025-03 | 代理式编程的"鼻祖",复杂多文件重构最强 | "产品即模型"——只给四件工具,剩下交给模型推理 |
| Codex CLI | OpenAI / 2025 下半年 | ChatGPT 订阅用户的轻量终端代理 | 本地优先 + 与 ChatGPT 订阅打包 |
| Gemini CLI | Google / 2025 下半年(Apache 2.0 开源) | 1M 超长上下文 + 慷慨免费额度 | 开源 + 大上下文 + 多模态 |
| Aider | 开源社区(Paul Gauthier)/ 2024 | 开源先驱,Git 原生集成 | BYOK + 架构师/编辑器双模型 + Git 自动 commit |
国内厂商也已经跟进同一形态:阿里的 Qwen Code、Moonshot 的 Kimi CLI、字节系的 OpenCode、GitHub 自家的 Copilot CLI 等,2026 年上半年密集发版。可以理解为:CLI Agent 已经从"明星产品"变成"模型公司的标配交付形态"。
10b.5 把 Claude Code 的"四件套"拆给你看
Claude Code 是这一波里最值得拆解的产品。它的整个 harness 公开宣称只暴露 四个工具给模型:
- Read:读仓库里任意文件
- Write:创建新文件
- Edit:精确字符串替换式修改文件
- Bash:在 shell 里执行任意命令
没有专用的"搜索工具"(用 grep)、没有专用的"测试工具"(用 npm test)、没有专用的"lint 工具"(用 eslint)。其设计者 Boris Cherny 的原话是:
"模型只想用工具。给它 bash,它就会写 AppleScript 去做没人规划过的事情。"
这是一个非常激进的 harness 哲学:不要为模型预先规划"它该有哪些能力",给它一个 shell,让它自己组合。这种打法过去几年是不可行的,因为模型组合能力不够;2025-2026 之后才被证明可行。它对应的代价是:模型一旦走偏,破坏力很大(一句 rm -rf 就能把工作目录抹掉)—— 所以 Claude Code 在第二支柱"沙箱"上压了重注:每个写入/执行操作默认弹二次确认。
10b.6 CLI Agent 的共性 harness 长什么样
把四款产品摆在一起观察,会发现 CLI Agent 这条路线在八根支柱上有一组高度收敛的工程选择:
| 支柱 | CLI Agent 的典型做法 | 对应回前文哪一章 |
|---|---|---|
| 身份与权限 | OAuth 设备码登录(一次浏览器授权后绑定到 CLI),企业版叠 SSO;本地以"当前 OS 用户"身份操作 | 第 4 章 |
| 沙箱与运行时 | 多数产品默认是"第二档"——直接在用户本地目录跑命令,但每个写入/执行加 permission gate;少数(Codex Cloud / Aider sandbox 模式)走容器化 | 第 5 章 |
| 工具/技能/MCP | 极简核心工具(Read/Write/Edit/Bash 四件套)+ 原生 MCP client。MCP 在 CLI Agent 里已经是事实标配,外接能力靠装 MCP server | 第 6 章 |
| 记忆系统 | 项目级一份 markdown(CLAUDE.md / GEMINI.md),每次会话自动注入;跨会话长期记忆基本都靠这个 + 仓库本身 | 第 7 章 |
| 编排与控制流 | 主路是 ReAct 循环;高级形态出现 SubAgents(Claude Code)/ 架构师-编辑器分工(Aider)—— 一个强模型规划 + 弱模型执行 | 第 8 章 |
| 观测与日志 | 终端流式输出每一步的 thinking + tool call + 结果;会话日志落本地 jsonl,方便复盘 | 第 9 章 |
换句话说,CLI Agent 不是另起炉灶的新架构,它就是第 10 章里 Loop-based 与 Multi-Agent 的混合体,外面套上"终端"这层 UI。它之所以能做得简洁,是因为它接受了一个很狠的约定:开发者本地工作目录 = 沙箱,git 仓库 = 状态,CLAUDE.md = 记忆。这个约定一旦立住,整个 harness 可以薄到只剩四个工具。
10b.7 国内协同办公平台的 CLI 化浪潮:飞书与钉钉
故事到这里其实只讲了一半。CLI Agent 是"AI 这一侧"的形态选择,那同一时间窗口里,"SaaS 这一侧"也在做一件呼应它的事 —— 把整个产品压扁成命令行。2026 年 3 月,钉钉、飞书、企业微信几乎在同一窗口集体开源了官方 CLI,国内办公协同平台一下子从"对人友好的 GUI"转向"对 Agent 友好的 CLI"。这一节把这件事讲清楚。
10b.7.1 一周之内,三家集体开源
把时间线摊开看,这几乎是行业级的同步动作:
- 2026-03-17,钉钉发布"悟空"平台并宣布产品全面 CLI 化改造,CTO 朱鸿原话:"我们希望每一个 AI Agent,都能像调用系统命令一样自然地调用钉钉。"注意他用的词是"系统命令",不是 API、不是协议,是
ls/cd/grep那种东西。十天后(3-27),仓库dingtalk-workspace-cli开源到 GitHub,二进制叫dws,Apache-2.0。 - 2026-03-28 前后,飞书跟上,仓库
larksuite/cli,包名@larksuiteoapi/cli,MIT,Go 语言。上线不到两个月即攒到 10100+ Stars / 673 Forks / 380+ Issues / 32 个版本,是国内官方 CLI 中最热的项目(来源:itbear.com.cn 2026-05 报道)。 - 同期 企业微信开源
wecom-cli,开放消息、日程、文档等七大核心能力。
同窗口对照一下海外:Google Workspace CLI 同样有热度(开源 70 余天 2.6 万 Star),但被官方明确标注为"非官方支持"。国内三家是全球范围内首批"官方背书 + 面向 AI Agent 适配 + 用户友好"的协同办公 CLI。腾讯网当时一篇刷屏文章直接给这件事下了一个尖锐标题:"钉钉飞书集体抛弃 MCP,CLI 才是 Agent 的终局"。
10b.7.2 为什么做?三个层次的回答
"为什么不继续做 MCP server,而非要做 CLI"是这件事最核心的问题。把它拆成三层来看:
第一层 · 工程层:CLI 是 LLM 的"母语"。大模型的训练语料里塞满了 Shell 命令、Unix 管道、命令行工具示例,所以让模型生成一条 dws calendar event create --title "周会" --time "周五15:00",几乎是零学习成本;让它去拼一段自定义 MCP 协议的 JSON 调用,则需要专门的上下文注入和示例。这种差异在单次调用里看不出来,在高频、多步、复杂的 Agent 任务里会被放大成显著的准确率差距。同时 CLI 自带四个 Agent 友好的工程属性:
- 确定性:同一条命令同一组参数,输出关系稳定,没有 LLM 决策漂移。
- 可观测性:stdout / stderr / exit code 一应俱全,Agent 干了什么、错在哪、能不能重试,全部有据可查。
- 可组合性:天然吃 Unix 管道,可以和
git/jq/grep/curl这一整套五十年的工具生态拼接。 - 生态继承:所有 CLI Agent(Claude Code、Cursor 终端、Codex CLI 等)天然能调用,不需要为每个 Agent 单独适配。
第二层 · 范式层:从"先 MCP 后 CLI"是行业认知的递进。这一波之前业界在 Agent 工具层走过两个阶段:
- 第一阶段:MCP "把世界接进来"。解决"模型怎么调外部能力"的问题,让任何工具都能以统一协议被 Agent 看到。但当一个 Agent 接入工具数 > 15 ~ 20 个之后,工具描述全量进上下文导致 Token 成本爆涨、模型在相似工具里选错率上升、整体行为依赖 prompt 不够稳定。
- 第二阶段:Skills 把能力结构化。把工具组合成"可复用能力单元"("竞品分析"、"生成周报"),让 Agent 按手册办事。但 Skill 内部黑盒、组合复杂度爆炸、最终调度仍依赖 LLM 决策 → 执行不确定性没解决。
- 第三阶段:CLI 把执行层"压扁"。把"决策(LLM)"和"执行(CLI)"明确分开 —— LLM 输出一条确定性命令,CLI 负责稳定执行。从依赖模型的理解力,走向依赖系统的执行力。
钉钉飞书做的事情,本质上就是把第三阶段在企业协同领域落地。
第三层 · 战略层:争夺"Agent 时代的工作平台入口"。Gartner 预测:搭载 AI Agent 功能的商用企业软件市场占比,将从 2024 年不足 1% 升到 2028 年的 33%。这意味着:
- "人主动适配软件操作"会逐步变成"人下达指令、Agent 直达业务目标";
- 过去靠 GUI 锁定用户的"场景绑定优势"在加速失效;
- 谁的能力进了 Agent 的工具菜单,谁就还在场内;进不去的,就被通用大模型 + Computer Use 越过。
飞书的官宣里有一句很值得回味:"飞书正从'人和人的协同工具'转变为'人和 Agent 的协同工具'"。把 CLI 开源,本质是把整个产品的能力面向 Agent 重新接入一遍。
10b.7.3 怎么做?两家的设计逻辑对照
两家 CLI 的具体设计有差异,但底层范式高度一致:服务/资源/动作三段命令树 + Agent 友好的开关 + 完整 OpenAPI 兜底。下面把核心差异摆出来。
| 维度 | 钉钉 dws(dingtalk-workspace-cli) | 飞书 lark-cli(@larksuiteoapi/cli) |
|---|---|---|
| 语言 / 体积 / 协议 | Go,约 8 MB 原生二进制,Apache-2.0 | Go(npm 分发,套了一层 Node wrapper),约 14 MB,MIT |
| 安装 | 一行 curl 脚本,装完得到 dws 命令 | npm install -g @larksuite/cli |
| 命令结构 | "服务 / 资源 / 动作"三级,如 dws calendar event create | 三层架构:① Shortcuts(+ 前缀,带智能默认值)② API Commands(一一对应平台 API)③ Raw API(直调 2500+ OpenAPI 端点的"逃生舱") |
| 覆盖面 | 12 个服务模块:aitable / attendance / bot / calendar / chat / contact / devdoc / ding / oa / report / todo / workbench | 17 大业务域、200+ 子命令、19 个内置 AI Agent Skills,覆盖消息 / 群组 / 云文档 / 多维表格 / 日历 / 邮箱等 |
| Agent 友好开关 | --yes(跳过确认提示,"AI Agent 模式")--mock(模拟数据)--dry-run(副作用预览) | 多种输出格式(json/ndjson/table/csv/pretty),内置 schema 命令查任意 API 的参数与所需权限,相当于一本 Agent 现查现用的字典 |
| 安全 | 三件套:无感认证(继承企业权限)+ 批量熔断(防 Agent 失控)+ 沙箱执行;底下还有 RealDoc"AI 原生文件系统"做原子级文件操作 + 完整快照 | 多 token 模式(user_access_token / tenant_access_token / OAuth),按场景下发;权限要求每条命令在 schema 里显式标注 |
| 明显差异 | 更激进 —— 重写底层让 Agent 绕过 GUI 直接跑能力;命令体系简洁直接 | 更"分层兜底" —— 给 Agent、给开发者、给极端边缘场景各留了一层入口 |
抽出来共同点:
- 开放面向 Agent,不是面向程序员。传统 OpenAPI 文档需要程序员理解、写胶水代码;CLI 直接把能力做成 Agent 一调即用的命令,取消了"集成开发"这个中间环节。
- 显式的"Agent 模式"。
--yes/--mock/--dry-run/多输出格式/schema 自查 —— 这些都是把 Agent 当一类一等公民的用户来设计的。 - OpenAPI 兜底层不能少。Shortcuts 简化常见场景,但 Agent 总会遇到边缘需求;Raw API 这一层避免了"封装太薄死板、太厚漏命令"的两难。
- 权限和身份继承到 OS 用户/企业账号,对应回支柱一(身份与权限)—— 这是企业级 Agent 上线的硬门槛。
对比一下:CLI 不是 MCP 的替代,而是它的"执行落地形态"。现在主流的真实部署方式是:CLI Agent(Claude Code 等)通过 MCP 发现这些 CLI 工具的能力清单 → 模型决定调哪条命令 → 在本地真正执行的是 CLI 二进制。MCP 仍在做"接入",CLI 在做"稳定执行",两者分工。
10b.7.4 做与不做:AI 时代的"入口存亡线"
这是这一节最该让小白记一辈子的一句话:在 Agent 时代,能力没被 CLI/MCP 暴露 ≈ 能力不存在。
| 维度 | 做了官方 CLI / MCP | 不做 |
|---|---|---|
| Agent 可见性 | 自动出现在 Claude Code、Cursor、Codex CLI 等所有 CLI Agent 的能力面板里 | Agent 看不到你的能力,只能让用户回到 GUI 手工点 |
| 集成成本 | 开发者一行命令安装 → Agent 直接用;Skill 维护者写一份 SKILL.md 就能复用 | 每接一个 Agent 都要单独写胶水代码,集成方维护负担分散到每个客户 |
| 执行可靠性 | 命令确定 + 可观测 + 可重放,企业可审计 | 靠 GUI 自动化 / RPA,遇到弹窗/改版/反爬就崩 |
| 商业模式 | 从"按席位卖 GUI"转向"按调用 / 按价值卖能力",能跟 Agent 时代的按量计费对齐 | 仍依赖席位订阅,被 Agent 直接吞掉用户操作 → 席位需求被压缩 |
| 生态卡位 | 成为 Agent 工具菜单的"基础设施",建立类似"操作系统接口"的卡位 | 被通用大模型 + Computer Use 跨过,变成可被替代的视觉壳子 |
钉钉、飞书、企微在同一窗口集体动手不是巧合 —— 它们都看到了同一件事:Agent 时代的 SaaS 不是"功能更强"的竞争,而是"谁是 Agent 的标配 import"。CLI 化是给企业协同平台争一张未来十年的入场券,做了不一定赢,不做几乎确定输。
给小白的迁移启发:看到这里你应该理解,"CLI 化"这件事不只是协同办公平台的事 —— 任何想活在 Agent 时代的 B 端产品(CRM、ERP、运维工具、设计工具)迟早都要做。如果你正在创业或在内部做工具,从第一天就把"OpenAPI → CLI → MCP server"这条链路当作产品的一部分来设计,比晚两年打补丁要轻松一个数量级。
10b.8 给小白的两个启发
"少即是多"在 harness 工程里是真的。Claude Code 的四件套打败了一堆塞了几十种工具的 IDE Agent。新手做 Agent 第一版,不要先写 20 个工具,先写 3-5 个核心工具,把 description 打磨到位,让模型用 bash 组合。这条经验直接对应第 11 章 STEP 3。
形态选 CLI 还是 IDE 还是 Web,是 harness 设计的第一个分叉,不是"美工"问题。它决定了你的沙箱方案、记忆载体、权限模型。开发者工具优先选 CLI(吃工具链、好脚本化);面向业务用户的工作流 Agent 优先选 Web/IM 内嵌(钉钉里的悟空就是这个路线);介于两者之间的写代码场景优先选 IDE 形态。
动手:6 步设计你的第一个 Agent
把前面 10 章的知识压缩成一个可执行的 6 步清单。建议照着做一个最小可用 Agent,再迭代加复杂度。
例:"这个 Agent 是给客服坐席用的,专门帮他们查订单状态、回复退款进度,不做任何写操作。" 这一句话决定了后续所有支柱怎么配。边界越窄,Agent 越靠谱。
个人探索 → LangGraph 或 CrewAI;企业内部应用 → 钉钉/字节这类已有 Agent 平台直接接入;研究/平台向 → 看 OpenClaw、AutoGen 这类微内核框架。从零写 harness 是大厂级工程,新手别自虐。
记住第 6 章那句话:description 比实现更影响表现。每个工具至少写清"什么时候用、什么时候别用、参数格式、一个调用示例"。这一步花 30 分钟,能省后面 3 天的 debug。
第一版只做"会话内 buffer + 用户偏好 KV"两层就够。等真的卡到"上下文塞不下、跨会话事实记不住",再上 Mem0;再卡到"事实演化、关系查询",再上 Zep。不要为了用而用。
哪怕 demo 阶段,也把代码执行放进 Docker;哪怕 toC 应用,也把"删除 / 转账 / 对外发"这类动作加 confirm。这三件事补得越早,后面合规审查越省事。
哪怕只有 20 条测试 case,每改一次 harness 全部跑一遍。Agent 工程没有评测就是在玩盲盒。等改到第 50 个版本你会感谢现在的自己。
结尾给小白的话:Agent 工程在 2026 年的状态有点像 2010 年的移动互联网 —— 技术栈每三个月翻新一次,但底层方法论很稳:清晰的边界、可控的工具、合理的记忆分层、可观测的执行、严谨的评测。
把这五件事做扎实,模型怎么换、框架怎么变,你的 Agent 都能跟上。记住:你不是在造 ChatGPT,你是在造一个能干活的同事。
参考资料
本文涉及的论文、开源项目和文章。括号内为发表/发布时间。
核心 Harness 概念
- Birgitta Böckeler. Harness engineering for coding agent users. Martin Fowler 个人专栏(2026-04-02)。把 Harness 定义为 Guides + Sensors。
- Vivek Trivedy. The Anatomy of an Agent Harness. LangChain Blog(2026-03-10)。"If you're not the model, you're the harness." 的出处。
- Anthropic. Claude Code 官方文档与博客系列。Anthropic 把 Claude Code 称为 harness。
记忆系统主要论文与项目
- Packer et al. MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560(2023-10)。分层记忆与 OS 范式。
- Letta(github.com/letta-ai/letta,~16.7K Star)。MemGPT 商业化与社区演进。
- Mem0(github.com/mem0ai/mem0,2024-07 开源)。论文 arXiv:2504.19413(2026-04),LoCoMo 71.4→91.6、LongMemEval 67.8→94.8(自评,需独立复现)。
- Rasmussen et al. Zep: A Temporal Knowledge Graph Architecture for Agent Memory. arXiv:2501.13956(2025-01-20)。DMR 94.8% / LongMemEval +18.5%(自评)。
- OpenViking(github.com/volcengine/OpenViking,2026-01 开源,~4.5k Star)。"Everything is a File",L0/L1/L2 分层;LoCoMo10:35.65% → 52.08%(OpenClaw + OpenViking,自评)。
- MineContext(github.com/volcengine/MineContext,2025-10)。主动式上下文。
- LangMem / Cognee / A-MEM / Memary / EverMemOS / MIRIX 等:见各自 GitHub README。
Harness 与 Agent 框架案例
- Can Bölük 实验:仅替换 edit 工具实现(str_replace → hashline 行号差量),Grok Code Fast 1 在 SWE-bench 成功率 6.7% → 68.3%。来源:作者博客与社交媒体公开实验记录(2026 初)。
- DeerFlow(github.com/bytedance/deer-flow,2026-02-28 GitHub Trending #1)。super agent harness 代表。
- LangGraph 官方文档。状态图编排范式。
- AutoGen(Microsoft)、CrewAI、MetaGPT。多 Agent 协作主流框架。
- Anthropic Model Context Protocol(MCP)官方文档。工具协议事实标准(2024 年底提出)。
关于 benchmark 的再次提醒:本文引用的 LoCoMo / LongMemEval / DMR 等指标几乎全部为各项目自评。各家实验设置(基础模型、检索 top-k、prompt 模板)差异巨大,不可直接横比。引用任何一组数字时,请配合"自评,需独立复现"的标注。真正决定选型的,是在你自己的真实数据上跑一遍。