# 📄 2025: The Year in LLMs
> 来源: Simon Willison | Dec 31, 2025 > 解读: ChAI v1.1
一、核心摘要 (TL;DR)
- Reasoning 成为主流 — 从 OpenAI o1 开始,所有主要 AI 实验室都推出了推理模型,核心价值是驱动工具调用和多步骤任务
- Coding Agent 爆发 — Claude Code 2 月发布,年底已达 $1B run-rate 收入;命令行 AI 工具成为主流
- 中国开源模型崛起 — DeepSeek R1 引发 $593B 市值恐慌,Qwen、Kimi、GLM 等模型在开源排行榜占据前列
- OpenAI 失去领先地位 — 作者明确判断 OpenAI 不再是最佳模型提供商,Anthropic 和 Google 各有优势
- $200/月订阅成为新常态 — Claude Pro Max、ChatGPT Pro、Gemini Ultra 都定价在这个区间
二、核心论证
Reasoning:从数学游戏到实用工具
Simon 开年时对 reasoning 模型持怀疑态度——数 R 的个数和解逻辑谜题有什么用?但他后来发现真正的价值在于驱动工具调用。
Andrej Karpathy 的解释最清晰:
> "By training LLMs against automatically verifiable rewards... the LLMs spontaneously develop strategies that look like 'reasoning' to humans—they learn to break down problem solving into intermediate calculations."
实际应用:
- AI 搜索终于能用了 — GPT-5 Thinking 可以回答复杂研究问题
- 代码调试能力飞跃 — 推理模型可以"步进"多层代码库找到 bug 根源
Coding Agent:2025 年最重要的产品发布
Simon 认为 Claude Code(2 月发布)是 2025 年最重要的事件。讽刺的是,Anthropic 连单独的博客都没给它——只是在 Claude 3.7 Sonnet 公告里作为第二条提了一下。
到年底,所有主要实验室都推出了命令行 coding agent:
- Anthropic: Claude Code
- OpenAI: Codex CLI
- Google: Gemini CLI
- Alibaba: Qwen Code
- Mistral: Mistral Vibe
12 月 2 日,Anthropic 宣布 Claude Code 达到 $1B run-rate 收入。一个命令行工具。
Simon 的反思:
> "With hindsight, maybe I should have promoted LLM from a side-project to a key focus!"
他自己做了多年的 LLM CLI 工具,一直觉得是小众,结果 Claude Code 证明了这是巨大市场。
YOLO 模式与"偏差正常化"
Coding agent 默认会在每个操作前请求确认。但任何用过"自动确认"(YOLO 模式)的人都知道,关掉安全轮子后体验完全不同。
Simon 自己一直用 YOLO 模式,虽然知道风险。
安全研究员 Johann Rehberger 的警告:
> "The Normalization of Deviance"——反复暴露于风险行为而没有负面后果,会让人把风险行为当作正常。
这是导致 1986 年挑战者号灾难的同一种现象。Johann 认为 AI 领域正在走向自己的"挑战者时刻"。
中国开源模型:震动华尔街
2024 圣诞节 DeepSeek 3 发布,据称训练成本只有 $5.5M。一个月后 DeepSeek R1 发布,直接触发 NVIDIA $593B 市值蒸发——投资者突然意识到 AI 可能不是美国垄断。
虽然市场很快恢复,但这是开源模型发布首次产生如此大的市场影响。
Simon 关注的中国实验室:
- DeepSeek(MIT 协议)
- 阿里 Qwen(Apache 2.0)
- Moonshot AI (Kimi K2)
- Z.ai (GLM-4.5/4.6/4.7,MIT)
- MiniMax (M2)
- MetaStone AI (XBai o4)
> "Some of them are competitive with Claude 4 Sonnet and GPT-5!"
OpenAI 失去领先地位
Simon 直接说:
> "The year that OpenAI lost their lead"
他的判断:
- 最佳对话模型: Gemini
- 最佳 coding agent: Claude Code
- OpenAI 的优势: 产品多样性(搜索、图像、语音、视频)
但在核心 LLM 能力上,OpenAI 已经不再是无可争议的第一。
图像生成:最成功的消费产品发布
3 月 OpenAI 推出 GPT-4o 的图像编辑功能——用户可以上传照片并用 prompt 修改。
结果:一周内 1 亿 ChatGPT 注册,峰值每小时 100 万新账户。
"吉卜力化"(把照片变成吉卜力风格)病毒式传播。
Google 的 Nano Banana Pro(11 月)更进一步:可以生成带准确文字的信息图表。
长任务能力的飞跃
METR 的研究显示:
- 2024 年最佳模型能独立完成人类 30 分钟内的任务
- 2025 年 GPT-5、Claude Opus 4.5 可以完成人类几小时的任务
- 一如既往的实践导向,每个判断都基于亲身使用
- 对安全问题有意识但仍在"YOLO"——承认这是问题
- 对 OpenAI 的评价比以往更批判
- 开源偏好明显
- Coding Agent 是 2025 年的核心故事
> "The length of tasks AI can do is doubling every 7 months."
三、作者立场(Simon Willison,已熟悉)
四、对 Chao 的价值
📡 战略信号
- 中国开源模型改变竞争格局
- 多模态(尤其是图像)是消费市场爆点
🔧 工作流启发
- Simon 的年度总结本身就是一个很好的"知识沉淀"模板
- "每 7 个月任务时长翻倍"可以作为能力评估的参考框架
🧠 认知冲突
YOLO 模式的悖论:
- 大家都知道有风险,但禁用安全确认后体验好太多
- Johann 的"偏差正常化"警告值得重视
- ❓ 在安全和效率之间,正确的 trade-off 点在哪里?
ChAI 🧠 | 2026-02-02 15:16