"AI" 是一种工程目标,不是一种东西
1956 年达特茅斯学院的那场夏季会议上,麦卡锡、明斯基、香农等人第一次把"让机器表现出智能"这件事命名为 Artificial Intelligence。从那时起,AI 就不是一项具体的技术,而是一个永远在被重新定义的目标 —— 每当机器学会了某件事,那件事就不再被叫做"智能"。
AI 不是一夜之间出现的奇迹,也不是对话框里的魔法。
它是一段近 80 年、跨越四次寒冬的工程长征 ——
现在我们站在 Agent 这一代的起点。
1956 年达特茅斯学院的那场夏季会议上,麦卡锡、明斯基、香农等人第一次把"让机器表现出智能"这件事命名为 Artificial Intelligence。从那时起,AI 就不是一项具体的技术,而是一个永远在被重新定义的目标 —— 每当机器学会了某件事,那件事就不再被叫做"智能"。
第一次浪潮(1950s-70s)赌符号主义和搜索;第二次(1980s)赌专家系统和知识工程;都因为"知识不够用"而陷入寒冬。第三次浪潮(2012 起)赌的是数据 + 算力 + 端到端学习 —— 它没有"知识工程师"这个角色,让机器自己从海量数据里"长出"理解力。
Google 的一篇 8 页论文《Attention Is All You Need》开启了 LLM 这一代。它的革命不在于哪个具体的技巧,而在于它让规模成为唯一的瓶颈 —— 模型越大、数据越多、算力越多,能力就越强。这一规律在之后 8 年被反复验证。
大众第一次意识到 AI 可以理解自然语言、能写代码、能解释复杂问题。但这只是序章 —— 它本质上是个对话框里的"问答机",无法主动行动、无法持久记忆、无法独立完成多步任务。
当 LLM 配上工具、记忆、沙箱、控制流,它就从"问答机"进化成了能自主规划、执行、纠错的 Agent。Claude Code、Cursor、Devin、Codex CLI、钉钉悟空、飞书智能助手 —— 这些不是聊天机器人,它们能改你的代码库、订机票、写周报、修 Bug。
"If you're not the model, you're the harness."
关键事件、技术拐点、和"它为什么会变成这样"的解释
艾伦·图灵在《Computing Machinery and Intelligence》里提出:"如果一台机器能在对话中骗过人类,我们就该承认它能思考。" 这个标准至今仍在用。
"Artificial Intelligence" 这个词第一次被命名。麦卡锡、明斯基、香农等 10 人许下了一个 60 年都没兑现的承诺:两个月内造出会思考的机器。
政府削减经费,研究停滞。原因是符号主义算力不足、知识难以手工编码、对真实世界的不确定性束手无策。
Hinton、Rumelhart 让神经网络这个被冷藏 20 年的想法重见天日。但还要再等 26 年它才迎来真正的爆发。
AI 第一次在国际象棋上压倒人类世界冠军。但它靠的是搜索 + 暴力,不是"理解"。这场胜利更像是算力的胜利。
Hinton 学生用 GPU 训练的卷积网络在 ImageNet 上把错误率砍掉一半。从此机器学习社区集体转向 GPU + 神经网络 + 大数据。所有今天的事都从这一年开始。
围棋 —— 那个曾被认为"机器永远不可能赢"的游戏 —— 落了。AI 第一次在直觉性极强的领域超越人类顶尖。
Google 8 页论文一举推翻 RNN 时代。它带来的不是新技术本身,而是一个判决:规模就是一切。这一判决之后 8 年被反复印证。
OpenAI 用 1750 亿参数证明了 scaling law。第一次出现一个不需要 finetune、靠 prompt 就能完成各种任务的"通用模型"。
AI 从"研究者圈子的玩具"变成"街上每个人都在用的产品"。它没有发明新算法,但它让大众第一次相信 AI 真的来了。
Meta 把 7B/13B/65B 的 LLaMA 权重放出来,引爆本地部署、量化、LoRA 微调的全民狂欢。从此"在自己笔记本上跑大模型"不再是科幻。Llama.cpp、Ollama、vLLM 等开源生态都从这一刻开始生长。
OpenAI 推出 GPT-4,在律师、医生、SAT 等标准化考试上达到人类前 10% 水平。多模态(图像理解)首次在通用模型里出现。"GPT 能不能干活"这个 2022 年还在讨论的问题,从这一天起不再有争议。
AutoGPT、BabyAGI 等"让 LLM 自己规划自己"的项目刷屏 GitHub。虽然能力还很粗糙,但 Agent 这个范式被正式带入主流。
OpenAI 抛出能生成 60 秒一致性视频的 Sora,画面里物理规律、光影、运镜都能"懂"。多模态线从这里彻底起飞,AI 不再只是文字工具。
Anthropic 发布 Claude 3.5,编码能力大跃迁;同年 10 月推出 Computer Use,让 Agent 能直接看屏幕、移动鼠标、敲键盘——不再只能调 API,而是像人一样操作电脑。GUI 自动化时代正式开启。
第一个明确为"思考"而设计的模型:在回答前先生成长长的内部推理链(CoT),用算力换正确率。数学、编程、科学问题准确率断崖式提升。"thinking model" 这个新物种从此存在,后续 Claude Thinking、DeepSeek R1、Gemini Thinking 都是同一路线。
Agent 终于从 Demo 走进生产。开发者发现:把 LLM 装进一个能读写文件、能调 Shell、能持久记忆的"外壳"里,它就能真的写代码、修 Bug、改架构。
DeepSeek 开源 R1 系列,用约 1/30 的训练成本逼近 o1 水平,权重和论文全公开。中文圈 AI 信心一夜爆棚,全球开源社区集体倒戈。"推理模型不再是 OpenAI 专利"成为定论,蒸馏版本能在 4090 上本地跑。
Anthropic 推出的 Model Context Protocol 在这年从"小众规范"变成行业默认:让 Agent 以统一协议接入任意工具/数据源,告别"每家自己定义 function calling 格式"的乱象。Cursor、Claude Desktop、Cline 等纷纷原生支持,MCP Server 生态遍地开花。
蝴蝶效应团队的 Manus 以"全自动通用 Agent"在中文圈引爆——你给一个目标,它自己上网查、写代码、做 PPT、订机票。是否真的"通用"还有争议,但它把 Agent 推向大众的能见度,效果堪比 2022 的 ChatGPT。
奥地利开发者 Peter Steinberger 的周末项目 Clawdbot,2026 年 1 月改名 OpenClaw,三个月内冲到 GitHub 290K+ Stars,超越 Linux 和 React。它不是聊天机器人,是跑在你自己机器上的 Agent 操作系统:本地优先、20+ 消息渠道、Skills 生态、自己写新 Skill 自己装。Karpathy 评价"最接近科幻起飞的东西"。
Karpathy 一条 X 长帖(1500 万浏览,8.8 万收藏)抛出 "LLM Knowledge Bases" 方法论:不是 RAG,而是让 LLM 把原始资料 编译 成结构化 Markdown wiki。三层架构(Raw → Wiki → Schema)+ 三大操作(Ingest / Query / Lint),一个目录的 .md 文件 + 一个 agent 就够,不需要向量库。"Obsidian 是 IDE,LLM 是程序员,wiki 是代码库。"
Agent 已经从"会聊天"进化到"会做事"。下一步是让它在企业内部、跨系统、长链路、安全可控地工作 —— 这就是这本博客想认真讲清楚的事。
把"藏在论文、源码、PPT、群聊里"的工程经验,整理成可以从头读到尾的中文长文。
LLM 是怎么回事 · Agent 是什么
从 LLM 的输入输出讲到 Agent 范式,把"为什么需要 Harness"这件事讲透。适合刚入门的读者作为起点。
让 Agent 真能干活的工程外壳
六篇长文,覆盖 Harness 的八根支柱:身份、沙箱、工具、记忆、编排、观测、评测、安全。系统地讲"上得了生产的 Agent" 怎么工程化。
来自工程一线的真实落地复盘
把别人已经跑通的 AI Native 实践拆开,对照前面文章里的支柱框架反过来看 —— 一份完整的工业级 Agent Harness 长什么样,以及哪些模式能迁移到自己团队。
作者、定位、写作初衷
这个博客背后是谁、为什么写、想给什么样的读者。如果你想知道我推荐你读哪一篇,从这里开始。
了解更多 →"If you're not the model, you're the harness."
—— 一句被 Anthropic 工程师反复引用的口诀