# 2025: The Year in LLMs

# 📄 2025: The Year in LLMs

> 来源: Simon Willison | Dec 31, 2025 > 解读: ChAI v1.1

一、核心摘要 (TL;DR)

Reasoning 成为主流 — 从 OpenAI o1 开始，所有主要 AI 实验室都推出了推理模型，核心价值是驱动工具调用和多步骤任务

Coding Agent 爆发 — Claude Code 2 月发布，年底已达 $1B run-rate 收入；命令行 AI 工具成为主流

中国开源模型崛起 — DeepSeek R1 引发 $593B 市值恐慌，Qwen、Kimi、GLM 等模型在开源排行榜占据前列

OpenAI 失去领先地位 — 作者明确判断 OpenAI 不再是最佳模型提供商，Anthropic 和 Google 各有优势

$200/月订阅成为新常态 — Claude Pro Max、ChatGPT Pro、Gemini Ultra 都定价在这个区间

二、核心论证

Reasoning：从数学游戏到实用工具

Simon 开年时对 reasoning 模型持怀疑态度——数 R 的个数和解逻辑谜题有什么用？但他后来发现真正的价值在于驱动工具调用。

Andrej Karpathy 的解释最清晰：

> "By training LLMs against automatically verifiable rewards... the LLMs spontaneously develop strategies that look like 'reasoning' to humans—they learn to break down problem solving into intermediate calculations."

实际应用：

AI 搜索终于能用了 — GPT-5 Thinking 可以回答复杂研究问题
代码调试能力飞跃 — 推理模型可以"步进"多层代码库找到 bug 根源

Coding Agent：2025 年最重要的产品发布

Simon 认为 Claude Code（2 月发布）是 2025 年最重要的事件。讽刺的是，Anthropic 连单独的博客都没给它——只是在 Claude 3.7 Sonnet 公告里作为第二条提了一下。

到年底，所有主要实验室都推出了命令行 coding agent：

Anthropic: Claude Code
OpenAI: Codex CLI
Google: Gemini CLI
Alibaba: Qwen Code
Mistral: Mistral Vibe

12 月 2 日，Anthropic 宣布 Claude Code 达到 $1B run-rate 收入。一个命令行工具。

Simon 的反思：

> "With hindsight, maybe I should have promoted LLM from a side-project to a key focus!"

他自己做了多年的 LLM CLI 工具，一直觉得是小众，结果 Claude Code 证明了这是巨大市场。

YOLO 模式与"偏差正常化"

Coding agent 默认会在每个操作前请求确认。但任何用过"自动确认"（YOLO 模式）的人都知道，关掉安全轮子后体验完全不同。

Simon 自己一直用 YOLO 模式，虽然知道风险。

安全研究员 Johann Rehberger 的警告：

> "The Normalization of Deviance"——反复暴露于风险行为而没有负面后果，会让人把风险行为当作正常。

这是导致 1986 年挑战者号灾难的同一种现象。Johann 认为 AI 领域正在走向自己的"挑战者时刻"。

中国开源模型：震动华尔街

2024 圣诞节 DeepSeek 3 发布，据称训练成本只有 $5.5M。一个月后 DeepSeek R1 发布，直接触发 NVIDIA $593B 市值蒸发——投资者突然意识到 AI 可能不是美国垄断。

虽然市场很快恢复，但这是开源模型发布首次产生如此大的市场影响。

Simon 关注的中国实验室：

DeepSeek（MIT 协议）
阿里 Qwen（Apache 2.0）
Moonshot AI (Kimi K2)
Z.ai (GLM-4.5/4.6/4.7，MIT)
MiniMax (M2)
MetaStone AI (XBai o4)

> "Some of them are competitive with Claude 4 Sonnet and GPT-5!"

OpenAI 失去领先地位

Simon 直接说：

> "The year that OpenAI lost their lead"

他的判断：

最佳对话模型: Gemini
最佳 coding agent: Claude Code
OpenAI 的优势: 产品多样性（搜索、图像、语音、视频）

但在核心 LLM 能力上，OpenAI 已经不再是无可争议的第一。

图像生成：最成功的消费产品发布

3 月 OpenAI 推出 GPT-4o 的图像编辑功能——用户可以上传照片并用 prompt 修改。

结果：一周内 1 亿 ChatGPT 注册，峰值每小时 100 万新账户。

"吉卜力化"（把照片变成吉卜力风格）病毒式传播。

Google 的 Nano Banana Pro（11 月）更进一步：可以生成带准确文字的信息图表。

长任务能力的飞跃

METR 的研究显示：

2024 年最佳模型能独立完成人类 30 分钟内的任务
2025 年 GPT-5、Claude Opus 4.5 可以完成人类几小时的任务

> "The length of tasks AI can do is doubling every 7 months."

三、作者立场（Simon Willison，已熟悉）

一如既往的实践导向，每个判断都基于亲身使用
对安全问题有意识但仍在"YOLO"——承认这是问题
对 OpenAI 的评价比以往更批判
开源偏好明显

四、对 Chao 的价值

📡 战略信号

Coding Agent 是 2025 年的核心故事

- $1B run-rate 证明了市场规模 - 所有主要实验室都在这个赛道 - 🎯 关注点：谁会赢得企业市场？安全问题如何解决？

中国开源模型改变竞争格局

- 不再是"追赶"，在某些维度已经领先 - 对供应链和地缘政治有深远影响 - 🎯 关注点：美国政策会如何应对？企业采用会有什么障碍？

多模态（尤其是图像）是消费市场爆点

- 1 周 1 亿注册的数据惊人 - 🎯 关注点：下一个病毒级应用会是什么？

🔧 工作流启发

Simon 的年度总结本身就是一个很好的"知识沉淀"模板
"每 7 个月任务时长翻倍"可以作为能力评估的参考框架

🧠 认知冲突

YOLO 模式的悖论：

大家都知道有风险，但禁用安全确认后体验好太多
Johann 的"偏差正常化"警告值得重视
❓ 在安全和效率之间，正确的 trade-off 点在哪里？

ChAI 🧠 | 2026-02-02 15:16