A Field Guide to Modern AI · 2026

图灵 Agent 时代

AI 不是一夜之间出现的奇迹,也不是对话框里的魔法。
它是一段近 80 年、跨越四次寒冬的工程长征 —— 现在我们站在 Agent 这一代的起点。

4次 AI 寒冬
1956达特茅斯起点
2017Transformer
2026Agent 元年
01 · Story

AI 是什么?
为什么它会在这个时代出现?

"AI" 是一种工程目标,不是一种东西

1956 年达特茅斯学院的那场夏季会议上,麦卡锡、明斯基、香农等人第一次把"让机器表现出智能"这件事命名为 Artificial Intelligence。从那时起,AI 就不是一项具体的技术,而是一个永远在被重新定义的目标 —— 每当机器学会了某件事,那件事就不再被叫做"智能"。

三次浪潮,三种方法论

第一次浪潮(1950s-70s)赌符号主义和搜索;第二次(1980s)赌专家系统和知识工程;都因为"知识不够用"而陷入寒冬。第三次浪潮(2012 起)赌的是数据 + 算力 + 端到端学习 —— 它没有"知识工程师"这个角色,让机器自己从海量数据里"长出"理解力。

2017 是分水岭:Transformer 诞生

Google 的一篇 8 页论文《Attention Is All You Need》开启了 LLM 这一代。它的革命不在于哪个具体的技巧,而在于它让规模成为唯一的瓶颈 —— 模型越大、数据越多、算力越多,能力就越强。这一规律在之后 8 年被反复验证。

2022 ChatGPT 让 AI 第一次"普及"

大众第一次意识到 AI 可以理解自然语言、能写代码、能解释复杂问题。但这只是序章 —— 它本质上是个对话框里的"问答机",无法主动行动、无法持久记忆、无法独立完成多步任务。

2024-2026:Agent 时代真正开始

当 LLM 配上工具、记忆、沙箱、控制流,它就从"问答机"进化成了能自主规划、执行、纠错的 Agent。Claude Code、Cursor、Devin、Codex CLI、钉钉悟空、飞书智能助手 —— 这些不是聊天机器人,它们能改你的代码库、订机票、写周报、修 Bug。

"If you're not the model, you're the harness."

02 · Timeline

一份不一样的 AI 简史

关键事件、技术拐点、和"它为什么会变成这样"的解释

  1. 1950

    图灵测试

    艾伦·图灵在《Computing Machinery and Intelligence》里提出:"如果一台机器能在对话中骗过人类,我们就该承认它能思考。" 这个标准至今仍在用。

  2. 1956

    达特茅斯夏季研讨会

    "Artificial Intelligence" 这个词第一次被命名。麦卡锡、明斯基、香农等 10 人许下了一个 60 年都没兑现的承诺:两个月内造出会思考的机器。

  3. 1974

    第一次 AI 寒冬

    政府削减经费,研究停滞。原因是符号主义算力不足、知识难以手工编码、对真实世界的不确定性束手无策。

  4. 1986

    反向传播算法重新流行

    Hinton、Rumelhart 让神经网络这个被冷藏 20 年的想法重见天日。但还要再等 26 年它才迎来真正的爆发。

  5. 1997

    深蓝击败卡斯帕罗夫

    AI 第一次在国际象棋上压倒人类世界冠军。但它靠的是搜索 + 暴力,不是"理解"。这场胜利更像是算力的胜利。

  6. 2012

    AlexNet · 深度学习的"创世瞬间"

    Hinton 学生用 GPU 训练的卷积网络在 ImageNet 上把错误率砍掉一半。从此机器学习社区集体转向 GPU + 神经网络 + 大数据。所有今天的事都从这一年开始。

  7. 2016

    AlphaGo 击败李世石

    围棋 —— 那个曾被认为"机器永远不可能赢"的游戏 —— 落了。AI 第一次在直觉性极强的领域超越人类顶尖。

  8. 2017

    Transformer · "Attention Is All You Need"

    Google 8 页论文一举推翻 RNN 时代。它带来的不是新技术本身,而是一个判决:规模就是一切。这一判决之后 8 年被反复印证。

  9. 2020

    GPT-3 出世

    OpenAI 用 1750 亿参数证明了 scaling law。第一次出现一个不需要 finetune、靠 prompt 就能完成各种任务的"通用模型"。

  10. 2022

    ChatGPT · 五天百万用户

    AI 从"研究者圈子的玩具"变成"街上每个人都在用的产品"。它没有发明新算法,但它让大众第一次相信 AI 真的来了。

  11. 2023·02

    LLaMA · 开源大模型潮起

    Meta 把 7B/13B/65B 的 LLaMA 权重放出来,引爆本地部署、量化、LoRA 微调的全民狂欢。从此"在自己笔记本上跑大模型"不再是科幻。Llama.cpp、Ollama、vLLM 等开源生态都从这一刻开始生长。

  12. 2023·03

    GPT-4 · 跨过"能用"门槛

    OpenAI 推出 GPT-4,在律师、医生、SAT 等标准化考试上达到人类前 10% 水平。多模态(图像理解)首次在通用模型里出现。"GPT 能不能干活"这个 2022 年还在讨论的问题,从这一天起不再有争议。

  13. 2023

    Agent 浪潮的第一波试探

    AutoGPT、BabyAGI 等"让 LLM 自己规划自己"的项目刷屏 GitHub。虽然能力还很粗糙,但 Agent 这个范式被正式带入主流。

  14. 2024·02

    Sora · 视频生成的 GPT 时刻

    OpenAI 抛出能生成 60 秒一致性视频的 Sora,画面里物理规律、光影、运镜都能"懂"。多模态线从这里彻底起飞,AI 不再只是文字工具。

  15. 2024·06

    Claude 3.5 Sonnet & Computer Use · Agent 学会"看屏幕点鼠标"

    Anthropic 发布 Claude 3.5,编码能力大跃迁;同年 10 月推出 Computer Use,让 Agent 能直接看屏幕、移动鼠标、敲键盘——不再只能调 API,而是像人一样操作电脑。GUI 自动化时代正式开启。

  16. 2024·09

    OpenAI o1 · 推理模型范式诞生

    第一个明确为"思考"而设计的模型:在回答前先生成长长的内部推理链(CoT),用算力换正确率。数学、编程、科学问题准确率断崖式提升。"thinking model" 这个新物种从此存在,后续 Claude Thinking、DeepSeek R1、Gemini Thinking 都是同一路线。

  17. 2024

    Claude Code / Cursor / Devin · CLI Agent 元年

    Agent 终于从 Demo 走进生产。开发者发现:把 LLM 装进一个能读写文件、能调 Shell、能持久记忆的"外壳"里,它就能真的写代码、修 Bug、改架构。

  18. 2025·01

    DeepSeek R1 · 国产推理模型出圈

    DeepSeek 开源 R1 系列,用约 1/30 的训练成本逼近 o1 水平,权重和论文全公开。中文圈 AI 信心一夜爆棚,全球开源社区集体倒戈。"推理模型不再是 OpenAI 专利"成为定论,蒸馏版本能在 4090 上本地跑。

  19. 2025·05

    MCP 协议进入主流

    Anthropic 推出的 Model Context Protocol 在这年从"小众规范"变成行业默认:让 Agent 以统一协议接入任意工具/数据源,告别"每家自己定义 function calling 格式"的乱象。Cursor、Claude Desktop、Cline 等纷纷原生支持,MCP Server 生态遍地开花。

  20. 2025·07

    Manus · 通用 Agent 出圈

    蝴蝶效应团队的 Manus 以"全自动通用 Agent"在中文圈引爆——你给一个目标,它自己上网查、写代码、做 PPT、订机票。是否真的"通用"还有争议,但它把 Agent 推向大众的能见度,效果堪比 2022 的 ChatGPT。

  21. 2025·11

    OpenClaw · 个人 Agent OS 现象级爆发

    奥地利开发者 Peter Steinberger 的周末项目 Clawdbot,2026 年 1 月改名 OpenClaw,三个月内冲到 GitHub 290K+ Stars,超越 Linux 和 React。它不是聊天机器人,是跑在你自己机器上的 Agent 操作系统:本地优先、20+ 消息渠道、Skills 生态、自己写新 Skill 自己装。Karpathy 评价"最接近科幻起飞的东西"。

  22. 2026·04

    Karpathy LLM Wiki · 知识管理新范式

    Karpathy 一条 X 长帖(1500 万浏览,8.8 万收藏)抛出 "LLM Knowledge Bases" 方法论:不是 RAG,而是让 LLM 把原始资料 编译 成结构化 Markdown wiki。三层架构(Raw → Wiki → Schema)+ 三大操作(Ingest / Query / Lint),一个目录的 .md 文件 + 一个 agent 就够,不需要向量库。"Obsidian 是 IDE,LLM 是程序员,wiki 是代码库。"

  23. 2026 · Now

    我们在哪?

    Agent 已经从"会聊天"进化到"会做事"。下一步是让它在企业内部、跨系统、长链路、安全可控地工作 —— 这就是这本博客想认真讲清楚的事。

03 · Chapters

本博客的内容地图

把"藏在论文、源码、PPT、群聊里"的工程经验,整理成可以从头读到尾的中文长文。

"If you're not the model, you're the harness."

—— 一句被 Anthropic 工程师反复引用的口诀