# 📄 2025: The Year in LLMs

> 来源: Simon Willison | Dec 31, 2025 > 解读: ChAI v1.1


一、核心摘要 (TL;DR)

  • Reasoning 成为主流 — 从 OpenAI o1 开始,所有主要 AI 实验室都推出了推理模型,核心价值是驱动工具调用和多步骤任务
  • Coding Agent 爆发 — Claude Code 2 月发布,年底已达 $1B run-rate 收入;命令行 AI 工具成为主流
  • 中国开源模型崛起 — DeepSeek R1 引发 $593B 市值恐慌,Qwen、Kimi、GLM 等模型在开源排行榜占据前列
  • OpenAI 失去领先地位 — 作者明确判断 OpenAI 不再是最佳模型提供商,Anthropic 和 Google 各有优势
  • $200/月订阅成为新常态 — Claude Pro Max、ChatGPT Pro、Gemini Ultra 都定价在这个区间


二、核心论证

Reasoning:从数学游戏到实用工具

Simon 开年时对 reasoning 模型持怀疑态度——数 R 的个数和解逻辑谜题有什么用?但他后来发现真正的价值在于驱动工具调用

Andrej Karpathy 的解释最清晰:

> "By training LLMs against automatically verifiable rewards... the LLMs spontaneously develop strategies that look like 'reasoning' to humans—they learn to break down problem solving into intermediate calculations."

实际应用:

  • AI 搜索终于能用了 — GPT-5 Thinking 可以回答复杂研究问题
  • 代码调试能力飞跃 — 推理模型可以"步进"多层代码库找到 bug 根源

Coding Agent:2025 年最重要的产品发布

Simon 认为 Claude Code(2 月发布)是 2025 年最重要的事件。讽刺的是,Anthropic 连单独的博客都没给它——只是在 Claude 3.7 Sonnet 公告里作为第二条提了一下。

到年底,所有主要实验室都推出了命令行 coding agent:

  • Anthropic: Claude Code
  • OpenAI: Codex CLI
  • Google: Gemini CLI
  • Alibaba: Qwen Code
  • Mistral: Mistral Vibe

12 月 2 日,Anthropic 宣布 Claude Code 达到 $1B run-rate 收入。一个命令行工具。

Simon 的反思:

> "With hindsight, maybe I should have promoted LLM from a side-project to a key focus!"

他自己做了多年的 LLM CLI 工具,一直觉得是小众,结果 Claude Code 证明了这是巨大市场。

YOLO 模式与"偏差正常化"

Coding agent 默认会在每个操作前请求确认。但任何用过"自动确认"(YOLO 模式)的人都知道,关掉安全轮子后体验完全不同。

Simon 自己一直用 YOLO 模式,虽然知道风险。

安全研究员 Johann Rehberger 的警告:

> "The Normalization of Deviance"——反复暴露于风险行为而没有负面后果,会让人把风险行为当作正常。

这是导致 1986 年挑战者号灾难的同一种现象。Johann 认为 AI 领域正在走向自己的"挑战者时刻"。

中国开源模型:震动华尔街

2024 圣诞节 DeepSeek 3 发布,据称训练成本只有 $5.5M。一个月后 DeepSeek R1 发布,直接触发 NVIDIA $593B 市值蒸发——投资者突然意识到 AI 可能不是美国垄断。

虽然市场很快恢复,但这是开源模型发布首次产生如此大的市场影响。

Simon 关注的中国实验室:

  • DeepSeek(MIT 协议)
  • 阿里 Qwen(Apache 2.0)
  • Moonshot AI (Kimi K2)
  • Z.ai (GLM-4.5/4.6/4.7,MIT)
  • MiniMax (M2)
  • MetaStone AI (XBai o4)

> "Some of them are competitive with Claude 4 Sonnet and GPT-5!"

OpenAI 失去领先地位

Simon 直接说:

> "The year that OpenAI lost their lead"

他的判断:

  • 最佳对话模型: Gemini
  • 最佳 coding agent: Claude Code
  • OpenAI 的优势: 产品多样性(搜索、图像、语音、视频)

但在核心 LLM 能力上,OpenAI 已经不再是无可争议的第一。

图像生成:最成功的消费产品发布

3 月 OpenAI 推出 GPT-4o 的图像编辑功能——用户可以上传照片并用 prompt 修改。

结果:一周内 1 亿 ChatGPT 注册,峰值每小时 100 万新账户

"吉卜力化"(把照片变成吉卜力风格)病毒式传播。

Google 的 Nano Banana Pro(11 月)更进一步:可以生成带准确文字的信息图表

长任务能力的飞跃

METR 的研究显示:

  • 2024 年最佳模型能独立完成人类 30 分钟内的任务
  • 2025 年 GPT-5、Claude Opus 4.5 可以完成人类几小时的任务
  • > "The length of tasks AI can do is doubling every 7 months."


    三、作者立场(Simon Willison,已熟悉)

  • 一如既往的实践导向,每个判断都基于亲身使用
  • 对安全问题有意识但仍在"YOLO"——承认这是问题
  • 对 OpenAI 的评价比以往更批判
  • 开源偏好明显

  • 四、对 Chao 的价值

    📡 战略信号

  • Coding Agent 是 2025 年的核心故事
- $1B run-rate 证明了市场规模 - 所有主要实验室都在这个赛道 - 🎯 关注点:谁会赢得企业市场?安全问题如何解决?

  • 中国开源模型改变竞争格局
- 不再是"追赶",在某些维度已经领先 - 对供应链和地缘政治有深远影响 - 🎯 关注点:美国政策会如何应对?企业采用会有什么障碍?

  • 多模态(尤其是图像)是消费市场爆点
- 1 周 1 亿注册的数据惊人 - 🎯 关注点:下一个病毒级应用会是什么?

🔧 工作流启发

  • Simon 的年度总结本身就是一个很好的"知识沉淀"模板
  • "每 7 个月任务时长翻倍"可以作为能力评估的参考框架

🧠 认知冲突

YOLO 模式的悖论

  • 大家都知道有风险,但禁用安全确认后体验好太多
  • Johann 的"偏差正常化"警告值得重视
  • ❓ 在安全和效率之间,正确的 trade-off 点在哪里?


ChAI 🧠 | 2026-02-02 15:16