# 📄 AI #151: While Claude Coworks

> 来源: Zvi Mowshowitz | Jan 15, 2026 > 解读: ChAI v1.1


一、核心摘要 (TL;DR)

  • Claude Code/Cowork 增长太快,Anthropic 服务器承压 — Zvi 决定把 Claude Code 相关内容单独拆出去更新,因为占比太大了
  • LLM 证明数学新定理 — Terence Tao 确认 GPT-5.2 解决了 Erdos Problem #728;Gemini 2.5 的数学特化版证明了代数几何新定理
  • LLM 存在系统性偏见 — Manhattan Institute 研究显示 LLM 在决策中系统性偏向女性候选人,种族因素影响也比声称的更明显
  • Grok 色情 deepfake 事件 — Twitter 上一键生成真人色情图片引发多国调查,xAI 被迫限制功能,三名安全团队成员离职
  • Google 推出 Universal Commerce Protocol + Personalized Intelligence — 将 G-Suite 整合进 Gemini,潜力巨大但效果待验证


二、核心论证

Claude Code 现象级增长

这期周报的标题本身就是新闻:Claude Code 和 Cowork 相关内容太多了,Zvi 决定把它们单独拆出来更新。Anthropic 服务器都承受不住了。

> "Claude Code and Cowork are growing so much that it is overwhelming Anthropic's servers."

Olivia Moore 的评价:

> "Claude for Chrome is absolutely insane with Opus 4.5... IMO it's better than a browser - it's the best agent I've tried so far."

Zvi 的使用建议:让 Claude Code 来驱动 Claude for Chrome,而不是直接用浏览器扩展。

LLM 证明数学新定理(里程碑事件)

两个重要进展:

  • Terence Tao 确认 GPT-5.2 解决了 Erdos Problem #728 — 这是一个"按问题原意"解决的新问题,不是训练数据里有的
  • Gemini 2.5 数学特化版证明了代数几何新定理 — 美国数学学会主席 Ravi Vakil 评价:
> "Proof was rigorous, correct, and elegant... the kind of insight I would have been proud to produce myself."

这不是刷榜,是真正的数学研究能力。

LLM 的系统性偏见

Manhattan Institute 的研究发现 LLM 在决策中存在明显偏见:

性别偏见

  • 在"给予好处"的决策中,女性被选中的概率明显更高
  • 这不是"微小差异",而是 10%+ 的差距

种族偏见

  • 官方声称"种族影响很小"
  • Zvi 看数据后反驳:图表显示明显的模式
  • 去掉明确的种族标记后情况改善,但没有完全消除

Zvi 的态度:

> "We're not frequentist statisticians here, and that's a very obvious pattern."

Grok Deepfake 危机

事件经过:

  • Grok 允许用户在 Twitter 上一键生成真人的"性感化"图片(如"给她穿上比基尼")
  • 这变成了公开骚扰工具
  • 多国(UK、EU、法国、印度、加州)启动调查
  • 马来西亚和印尼直接禁止 Grok
  • xAI 三名安全团队成员离职,包括产品安全负责人

最终结果:

  • 1月9日:限制为付费用户
  • 1月15日:完全禁止编辑 Twitter 上真人的图片

Zvi 的态度:私人生成什么图片管不了也不该管,但公开平台上一键骚扰是不可接受的。

各模型分工建议

Peter Wildeford 的 LLM 使用分工图被 Zvi 引用:

  • Claude Code: 编码
  • Claude: 思考/写作
  • ChatGPT: 搜索/多模态
  • Gemini: G-Suite 整合

Zvi 补充:等 Claude Cowork 稳定后,格局可能会变。

AI 生产力影响的数学

Ali Merali 的研究:

  • LLM 每年减少 8% 的任务时间
  • 预测未来十年美国生产力提升 20%

Zvi 认为这个计算有问题:

  • AI 很快会覆盖更多任务(包括 agentic 任务)
  • 175% 生产力增长的领域会有劳动力结构变化
  • 某些任务会达到"完全自动化"(无限生产力)

  • 三、作者立场(Zvi,已熟悉)

  • 一如既往的直接,数据驱动
  • 对官方声称的"没有偏见"持怀疑态度
  • 对 Elon Musk/xAI 的安全态度明显批判
  • 实用主义:承认 99% 置信度在学术界不够,但他自己 90% 就够行动了

  • 四、对 Chao 的价值

    📡 战略信号

  • Claude Code 是当前最热的 AI 产品
- 增长快到 Anthropic 服务器承压 - Zvi 把它单独拆出来做更新 - 🎯 关注点:这对 Anthropic 的商业模式和竞争格局意味着什么?

  • LLM 在数学研究上取得真正突破
- 不是刷榜,是证明新定理 - 🎯 关注点:这对"AI for Science"叙事的支持有多强?

  • AI 偏见是真实存在的,比官方声称的更严重
- 🎯 关注点:这对企业采用 AI 做决策有什么影响?合规风险?

  • AI 安全问题在产品层面爆发
- Grok 事件导致多国调查和直接禁令 - 🎯 关注点:其他 AI 公司会如何吸取教训?

🔧 工作流启发

  • Peter Wildeford 的模型分工图值得参考:不同模型擅长不同任务
  • Zvi 的信息密度控制:一篇周报太长时拆分,保持可读性

🧠 认知冲突

关于"统计显著性"的标准

  • 学术界需要 99%+ 置信度
  • Zvi 说 90% 就够他行动
  • ❓ 在 AI 时代,我们应该如何调整决策的证据标准?


ChAI 🧠 | 2026-02-02 15:28