# AI #151: While Claude Coworks

# 📄 AI #151: While Claude Coworks

> 来源: Zvi Mowshowitz | Jan 15, 2026 > 解读: ChAI v1.1

一、核心摘要 (TL;DR)

Claude Code/Cowork 增长太快，Anthropic 服务器承压 — Zvi 决定把 Claude Code 相关内容单独拆出去更新，因为占比太大了

LLM 证明数学新定理 — Terence Tao 确认 GPT-5.2 解决了 Erdos Problem #728；Gemini 2.5 的数学特化版证明了代数几何新定理

LLM 存在系统性偏见 — Manhattan Institute 研究显示 LLM 在决策中系统性偏向女性候选人，种族因素影响也比声称的更明显

Grok 色情 deepfake 事件 — Twitter 上一键生成真人色情图片引发多国调查，xAI 被迫限制功能，三名安全团队成员离职

Google 推出 Universal Commerce Protocol + Personalized Intelligence — 将 G-Suite 整合进 Gemini，潜力巨大但效果待验证

二、核心论证

Claude Code 现象级增长

这期周报的标题本身就是新闻：Claude Code 和 Cowork 相关内容太多了，Zvi 决定把它们单独拆出来更新。Anthropic 服务器都承受不住了。

> "Claude Code and Cowork are growing so much that it is overwhelming Anthropic's servers."

Olivia Moore 的评价：

> "Claude for Chrome is absolutely insane with Opus 4.5... IMO it's better than a browser - it's the best agent I've tried so far."

Zvi 的使用建议：让 Claude Code 来驱动 Claude for Chrome，而不是直接用浏览器扩展。

LLM 证明数学新定理（里程碑事件）

两个重要进展：

Terence Tao 确认 GPT-5.2 解决了 Erdos Problem #728 — 这是一个"按问题原意"解决的新问题，不是训练数据里有的

Gemini 2.5 数学特化版证明了代数几何新定理 — 美国数学学会主席 Ravi Vakil 评价：

> "Proof was rigorous, correct, and elegant... the kind of insight I would have been proud to produce myself."

这不是刷榜，是真正的数学研究能力。

LLM 的系统性偏见

Manhattan Institute 的研究发现 LLM 在决策中存在明显偏见：

性别偏见：

在"给予好处"的决策中，女性被选中的概率明显更高
这不是"微小差异"，而是 10%+ 的差距

种族偏见：

官方声称"种族影响很小"
Zvi 看数据后反驳：图表显示明显的模式
去掉明确的种族标记后情况改善，但没有完全消除

Zvi 的态度：

> "We're not frequentist statisticians here, and that's a very obvious pattern."

Grok Deepfake 危机

事件经过：

Grok 允许用户在 Twitter 上一键生成真人的"性感化"图片（如"给她穿上比基尼"）
这变成了公开骚扰工具
多国（UK、EU、法国、印度、加州）启动调查
马来西亚和印尼直接禁止 Grok
xAI 三名安全团队成员离职，包括产品安全负责人

最终结果：

1月9日：限制为付费用户
1月15日：完全禁止编辑 Twitter 上真人的图片

Zvi 的态度：私人生成什么图片管不了也不该管，但公开平台上一键骚扰是不可接受的。

各模型分工建议

Peter Wildeford 的 LLM 使用分工图被 Zvi 引用：

Claude Code: 编码
Claude: 思考/写作
ChatGPT: 搜索/多模态
Gemini: G-Suite 整合

Zvi 补充：等 Claude Cowork 稳定后，格局可能会变。

AI 生产力影响的数学

Ali Merali 的研究：

LLM 每年减少 8% 的任务时间
预测未来十年美国生产力提升 20%

Zvi 认为这个计算有问题：

AI 很快会覆盖更多任务（包括 agentic 任务）
175% 生产力增长的领域会有劳动力结构变化
某些任务会达到"完全自动化"（无限生产力）

三、作者立场（Zvi，已熟悉）

一如既往的直接，数据驱动
对官方声称的"没有偏见"持怀疑态度
对 Elon Musk/xAI 的安全态度明显批判
实用主义：承认 99% 置信度在学术界不够，但他自己 90% 就够行动了

四、对 Chao 的价值

📡 战略信号

Claude Code 是当前最热的 AI 产品

- 增长快到 Anthropic 服务器承压 - Zvi 把它单独拆出来做更新 - 🎯 关注点：这对 Anthropic 的商业模式和竞争格局意味着什么？

LLM 在数学研究上取得真正突破

- 不是刷榜，是证明新定理 - 🎯 关注点：这对"AI for Science"叙事的支持有多强？

AI 偏见是真实存在的，比官方声称的更严重

- 🎯 关注点：这对企业采用 AI 做决策有什么影响？合规风险？

AI 安全问题在产品层面爆发

- Grok 事件导致多国调查和直接禁令 - 🎯 关注点：其他 AI 公司会如何吸取教训？

🔧 工作流启发

Peter Wildeford 的模型分工图值得参考：不同模型擅长不同任务
Zvi 的信息密度控制：一篇周报太长时拆分，保持可读性

🧠 认知冲突

关于"统计显著性"的标准：

学术界需要 99%+ 置信度
Zvi 说 90% 就够他行动
❓ 在 AI 时代，我们应该如何调整决策的证据标准？

ChAI 🧠 | 2026-02-02 15:28