# PRD|AI 信息 Pipeline v1.0(迭代计划)
> 目的:为 Chao(AI 行业研究员)建立一个可持续的 AI + 半导体领域信息追踪和解读系统 > 负责人:ChAI > 创建日期:2026-02-02 > 状态:🟢 Phase 1 进行中
0. 固定前提
0.1 核心价值定位
- 不是:爬虫、信息聚合、最快的新闻
- 是:筛选后的精华 + 有深度的解读 + 长期积累的知识复利
- 参考定位:卓克《科技参考》的"均匀难度梯度 + 参考而非指南"
0.2 输出约束(硬)
- 所有 md 文件必须 UTF-8 with BOM(Android 兼容)
- 禁止使用 markdown 表格(普通查看器渲染不了)
- 使用层级缩进的 bullet points 表示结构
- 不存储原文,只维护链接索引和解读
0.3 解读框架(v1.1,已验证)
- 核心摘要 (TL;DR) — 3-5 个要点,30 秒抓住精髓
- 核心论证 — 叙述型,有逻辑线,关键处用 quote
- 作者立场 — 首次展开,后续按需(引用作者档案)
- 对 Chao 的价值 — 战略信号、工作流启发、认知冲突
- 附:上下文解码 — 术语/人物解释
0.4 更新节奏
- 目标:每 2-3 天一次解读推送
- 触发方式:Chao ping 或 cron 定时
1. 问题清单(当前状态)
| # | 问题 | 优先级 | 状态 | |---|------|--------|------| | 1 | 作者档案不完整,只有 8 个信源 | P1 | 进行中 | | 2 | 没有自动化检测新文章的机制 | P2 | 待开始 | | 3 | 解读产出依赖 Chao 手动触发 | P2 | 待解决 | | 4 | 缺少反馈收集和偏好学习机制 | P2 | 结构已建,未使用 | | 5 | 缺少主题/概念索引,无法跨文章关联 | P3 | 待开始 | | 6 | 中文信源未覆盖 | P3 | 待开始 |
2. 当前资产清单
2.1 目录结构
``
feeds/
├── PROJECT.md # 本文件
├── config.json # 信源配置
├── feedback.json # 反馈记录(待使用)
├── INTERPRETATION_FRAMEWORK.md # 解读框架
├── authors/ # 作者档案
│ ├── INDEX.md # KOL 图谱索引
│ ├── semianalysis.md
│ ├── irrational-analysis.md
│ ├── latent-space.md
│ ├── zvi.md
│ ├── bens-bites.md
│ ├── ahead-of-ai.md
│ ├── simon-willison.md
│ └── last-week-in-ai.md
├── interpretation-*.md # 解读文档
└── digest-*.md/html # 周报文档
`2.2 已完成的解读
interpretation-apple-tsmc-v3.md — SemiAnalysis, Apple-TSMC 合作
interpretation-simon-2025-year-in-llms.md — Simon Willison 2025 年度总结2.3 作者档案覆盖
- ✅ 已建档 (8): SemiAnalysis, Irrational Analysis, Latent Space, Zvi, Ben's Bites, Ahead of AI, Simon Willison, Last Week in AI
- ⬜ 待补充: Stratechery, Asianometry, Import AI, The Batch, The Gradient, Interconnects
3. Phase 1:基础建设(本周目标)
3.1 作者档案补全(P1)
目标:覆盖 15 个核心信源
待补充列表:
- Stratechery (Ben Thompson) — 科技商业分析
- Asianometry (Jon Y) — 半导体/亚洲科技
- Import AI (Jack Clark) — AI 政策/安全
- The Batch (Andrew Ng) — AI 入门级
- The Gradient — AI 研究
- Interconnects (Nathan Benaich) — AI 产业
每个档案必须包含:
- 主理人背景
- 定位/方法论
- 内容类型
- 已知 bias
- 阅读价值评级
验收标准:
- [ ] 15 个信源档案完成
- [ ] INDEX.md 更新
- [ ] 每个档案有 URL 可追溯
3.2 解读产出(P1)
目标:本周完成 5 篇解读
优先级排序:
- ✅ Simon Willison - 2025 Year in LLMs(已完成)
- ⬜ Zvi - 最近一期 AI 周报
- ⬜ SemiAnalysis - 最近一篇(TPU/Nvidia 相关)
- ⬜ Latent Space - Agent Labs Thesis 或 Brex 深度
- ⬜ Irrational Analysis - 最近一篇半导体投资
每篇解读必须:
- 遵循 v1.1 框架
- UTF-8 BOM 编码
- 发送给 Chao 并收集反馈
3.3 反馈机制启用(P2)
目标:开始收集和记录反馈
feedback.json 结构:
`json
{
"ratings": [
{
"article_id": "apple-tsmc-v3",
"date": "2026-02-02",
"rating": "useful",
"notes": "格式好,内容深度够"
}
],
"learned_preferences": {
"preferred_depth": "high",
"preferred_sources": ["SemiAnalysis", "Simon Willison"],
"avoid_topics": [],
"notes": ""
}
}
`验收标准:
- [ ] 每次推送后主动询问反馈
- [ ] 反馈记录到 feedback.json
- [ ] 每 5 篇解读后回顾一次偏好
4. Phase 2:自动化(2 月目标)
4.1 新文章检测
方案选择:
方案 A:Cron 定时抓取 archive 页面
- 每天 1-2 次检查各信源 /archive 页面
- 对比上次记录的最新文章
- 有新文章时通知 Chao
方案 B:RSS(如果可用)
- 部分 Substack 有 RSS feed
- 更轻量,但覆盖不全
推荐:先用方案 A,archive 页面抓取已验证可行
实现步骤:
- 建立
feeds/last_seen.json 记录每个信源的最新文章
设置每日 cron(早 9 点 + 晚 9 点)
检测到新文章时,生成待解读列表
发送通知给 Chao:"有 X 篇新文章,要我解读吗?" 4.2 解读工作流优化
当前流程(手动):
- Chao ping
- ChAI 抓取文章
- ChAI 写解读
- ChAI 发送
- Chao 反馈
目标流程(半自动):
- Cron 检测新文章
- ChAI 生成待解读列表
- ChAI 主动推送:"今天有 3 篇新文章,我挑了这 1 篇最值得看的,解读如下..."
- Chao 反馈
- ChAI 记录偏好
5. Phase 3:知识图谱(3 月目标)
5.1 主题索引
目标:建立跨文章的主题关联
结构:
`
feeds/topics/
├── INDEX.md # 主题列表
├── tsmc.md # TSMC 相关文章索引
├── nvidia.md # NVIDIA 相关
├── coding-agents.md # Coding Agent 相关
├── china-ai.md # 中国 AI 相关
└── ...
`每个主题文件包含:
- 相关文章列表(链接 + 一句话摘要)
- 关键人物/公司
- 观点演变时间线
5.2 趋势追踪
目标:识别持续出现的话题,标记观点变化
实现:
- 每篇解读标注
topics: [tsmc, apple, foundry]`
6. 验收与回顾节奏
6.1 每轮迭代周期
- 每 3-5 天一轮
- 每轮结束时:回顾完成情况、更新 PROJECT.md、调整下轮计划
6.2 Phase 1 验收标准
- [ ] 15 个信源档案完成
- [ ] 5 篇解读完成
- [ ] 反馈机制运转
- [ ] Chao 反馈"有用率" > 80%
6.3 成功指标(长期)
- 每周 2-3 篇高质量解读
- 作者档案覆盖主流 AI/半导体信源
- 形成可复用的主题知识库
- Chao 感觉"心中有数"
7. 当前 TODO(按优先级)
本轮(今天下午)
- [ ] 完成 Zvi 最近一期 AI 周报解读
- [ ] 补充 2-3 个作者档案(Stratechery, Asianometry)
- [ ] 更新 INDEX.md
下轮(明后天)
- [ ] 完成剩余 3 篇解读
- [ ] 设置新文章检测 cron
- [ ] 启用反馈记录
8. 变更日志
| 日期 | 版本 | 变更内容 | |------|------|----------| | 2026-02-02 | v1.0 | 初始版本,Phase 1 定义 |
最后更新: 2026-02-02 15:22 GMT+8