让 LLM 真正能在生产里干活的工程外壳:身份、沙箱、工具、记忆、控制流、观测、评测、安全,以及 CLI Agent 的趋势观察。
把 Agent 工程拆成八根可独立讨论的支柱:身份、沙箱、工具、记忆、编排、观测、评测、安全。本文聚焦总图与第一根支柱:Agent 如何继承用户身份、如何在 SSO/OAuth/RBAC 之上做最小权限访问。
Agent Harness让 Agent 自由跑代码却不出大事,靠的是沙箱。本文系统对比三档沙箱(语言级 / Docker / Firecracker / E2B),分析选型边界,并解读 Claude Code'极简沙箱 + 二次确认'的设计哲学。
Agent Harness工具是 Agent 唯一能改变世界的方式。本文梳理从 Function Call 到 Skill 抽象再到 MCP 协议的演化路径,讲清楚 Tool / Skill / MCP 三层抽象到底各管什么。
Agent Harness为什么早期 Agent 总像金鱼?因为它没有持久记忆。本文系统讲清三类记忆(工作 / 情景 / 程序性),盘点主流记忆中间件(Mem0、MemGPT、Letta、Zep、OpenViking),并给出场景化选型决策树。
Agent HarnessAgent 怎么'想'问题:四种主流控制流的取舍。同时讲清观测(Trace / OpenTelemetry)、评测(SWE-bench / LoCoMo / 线上 A/B)、安全(Prompt Injection / 二次确认)这三根'让 Agent 上得了生产'的关键支柱。
Agent Harness本文做三件事:横向对比四种主流 Harness 架构;解读为什么 Claude Code / Aider / Codex CLI / Gemini CLI 这波 CLI Agent 集体爆发,包括飞书 lark-cli / 钉钉 dws / 企微 wecom-cli 这一支国内协同办公平台 CLI 化分支;最后给一套 6 步的'设计你的第一个 Agent'实操清单。