打破 AI 信息差,分享一个硬核海外新闻工具,Twitter数据也能爬!

嗨，我是Thea，打过ACM-ICPC世界总决赛，做过微软搜索算法工程师，去年手搓了月入万刀的AI应用，在这里记录我折腾的折腾我的AI✨

如果你和我一样，每天打开浏览器都要在 Hacker News、Reddit、各路 RSS、Telegram 频道、X 推文之间来回横跳，大概有过这种感觉：费了好几个小时，关上电脑却说不上来"今天到底发生了什么重要的事"。

问题不在信息少，而在信息太多、噪音太多、跨平台重复严重。一条 OpenAI 新模型发布，可能同时出现在 HN 头条、Reddit r/MachineLearning 帖子、好几个 RSS 博客还有好几个 Telegram 频道里。你刷的不是"最新动态"，而是同一件事的多个副本。

Horizon 就是为解决这个问题而生的：让 AI 替你做信息的初筛、去重、摘要和概要，每天只留真正值得读的东西，整理成一份双语简报递到你面前。

它不是另一个 RSS 阅读器，也不是套一个 LLM 壳子的产品，而是把"读新闻"这件事做成了一个可以自动化、可以配置、可以部署的流水线——每天定时跑一次，自动产出一份带摘要、评分、社区讨论和背景知识的简报，并发布成静态网站。项目目前已收获 222 颗 Star，Live Demo 站点每天自动更新，可以直接体验。

最最最关键的是，Twitter的数据也可以爬！

它具体做了哪些事：

●多源聚合：一次性从 Hacker News、RSS/Atom、Reddit 子板块、Telegram 公开频道、GitHub 用户事件与 Release 中抓取最新内容，基本覆盖了所有技术人日常获取信息的主要渠道。

●AI 智能评分：每条内容都会被大模型打 0—10 分，维度包括技术深度、新颖性和影响力，低于阈值（默认 6.0）的直接过滤掉。你看到的每一条都已经过 AI 的"质量门禁"。

●多模型支持：不绑定任何一家厂商，Claude、GPT-4、Gemini、DeepSeek、豆包，或任何 OpenAI 兼容 API 都能接入，配置文件改一行即可切换。

●双语摘要：同一份简报同时生成中文和英文版本。

●内容增强：对高分条目，联网补充背景知识，同时抓取 HN / Reddit 评论区的社区讨论摘要——把"标题党"和"真正有信息量的事件"区分出来。

●跨源去重：同一个 URL 出现在不同平台时自动合并，不会在简报里重复读到同一条新闻的三个副本。

●全自动部署：结合 GitHub Actions，可以定时执行抓取 → 评分 → 摘要 → 发布到 GitHub Pages 的全流程，完全无需服务器。

●单文件配置：所有源、阈值、模型、语言都在一个 JSON 配置文件里，零代码即可完成深度定制。

整个流水线七步串联：Fetch → Deduplicate → Score → Filter → Enrich → Summarize → Deploy。

每一步都是可中断、可跳过、可观测的——你可以只跑前几步看结果是否合心意，再决定要不要发布，也可以独立替换某一步的实现，比如换一个搜索引擎或换一个摘要 prompt。

技术上几个细节值得一提：它用 uv 做包管理而非传统 pip，启动速度和锁文件体验都更现代；AI Provider 封装成了抽象层，新增一家模型厂商基本只需写一个 adapter，不动业务代码；整条链路跑在 GitHub Actions 的免费额度上，零成本运行。

对于想学习"如何用 LLM 串联实际业务流水线"的开发者来说，Horizon 是一个很清晰的样本——代码量不大，但流水线、配置、部署、AI 抽象、多源聚合这几个工程要素都齐全。

我越来越相信，未来真正缺乏的不是"信息"，而是"被筛选过的信息"。"读什么"这个决策权，交给一个你能完全掌控、完全开源的系统，比交给某个不透明的算法推荐流覆盖靠谱得多。

Horizon 的定位正是如此：它不替你思考，但替你过滤掉那些根本不值得思考的东西。

项目地址：github.com/Thysrael/Horizon