一个自媒体人做了三年的AI信息筛选工具。
AI圈果然是只要你学得慢,就不用学。
琢磨各种抓取信息的工作流,今天卡神直接开源了
卡神把自己做了三年的一个AI信息筛选工具免费开放了。
AIHOT
他能帮你盯着全世界跟AI有关的信息,然后把值得看的挑出来,其他的帮你过滤掉。并且直接给你来一个干净整洁日报

卡神从2月份做到现在,评分策略迭代了整整11版,踩了一堆坑,才走到今天这个效果。这里面的故事,比工具本身有意思多了。
说说背景。做AI自媒体最耗精力的不是写文章,是找选题。找选题之前你得先知道世界上发生了什么,这一步听起来简单,实际做起来要命。
AI领域每天的信息量太大了。OpenAI发个东西,官网写一遍,官方推特发一遍,奥特曼转一遍,各路KOL评一遍,IT之家译一遍,同一件事能刷出七八条。你要是全看,一天光刷信息就得两三个小时,而且大部分都是重复的或者跟你没关系的。
卡兹克做这个工具的初衷就是解决这个问题,他自己每天要从信息海里捞选题,这个过程太痛苦了,所以自己动手做了一个来自动化。
他的逻辑其实很简单:先把信源筛好,再从筛好的信源里把值得看的挑出来。控制输入质量,控制输出密度,就这两步。

信源这块他目前持续监控168个,每一个都是自己亲手挑的。RSS订阅、爬HTML、调API、买三方数据接口,什么好使用什么。
关键是给信源分了三个等级:T1、T1.5、T2。
T1是最值得看的一手官方信息源,比如OpenAI官方博客、Anthropic工程博客、CMU博客这些。T1.5是官方社交媒体账号,比如OpenAI的推特,内容比官网杂一些,权重低一点。T2是大佬个人号、KOL、媒体、综合资讯站。
这个分级不是摆设,后面打分的时候直接影响权重——同一件事,T1源发的就是比T2源发的分高,官方的就是比二手转述的分高。
然后就是最折磨人的部分了:怎么打分。
卡兹克最初的想法特别朴素,写个Prompt让大模型给每条新闻打个分不就完了吗?打个分,设个阈值,过了的就精选出来,多简单。

结果跑了第一版,一塌糊涂。
究极硬核的论文动不动90分,他自己点开三秒就看不下去。Sam Altman转发了一个实习生的鸡汤推文,模型给了87分。同一件事被七家媒体报道,七条全进了精选。
然后他开始往Prompt里加规则:大佬转发降分、重复事件降分、营销软文降到50以下。加着加着Prompt涨到300多行。
到了3月份,他还搞了一套人类反馈标注机制,每天跟同事一起标记"这条精选对不对",系统把反馈喂回去持续迭代。同时配了一个内部评估机制,每次规则升级都拿过去500条新闻重新跑一遍,看新版比旧版准不准。
听着是不是挺标准的?模型+人类反馈+自动评估+持续迭代,教科书做法。
跑了一周,他差点崩溃。
规则加得越多,模型反而越笨。V7到V8那次迭代直接是负向优化。他又加了双维度评分、实体热度感知,结果全废了。
最后全面回滚,推倒重来。

转折点来了。
他说那一刻他想起来自己写过的一篇文章《能用脚本就别用Agent》。
这句话我觉得是整个项目最核心的东西。你不能把所有事情都交给模型,打分是它、权重计算是它、打标是它、判断精选不精选还是它。什么都交给模型,模型就什么都干不好。

所以他重构了。重构之后的设计是这样的:
大模型只做一件事,根据Prompt对每条信息打5个维度的分。不打最终分,不判断精选,不做任何其他事。Prompt从600行砍到200行,模型的任务被压到最纯粹的状态。
打完分之后的所有事情,信源权重计算、类型加权、是否过精选阈值,全部用代码写成明确的公式,拿着模型给的五维分直接套公式算。
是否精选也不由模型判断,而是根据最终质量分,用代码判断有没有过每个类别的精选阈值。比如OpenAI官网发的东西,60分已经值得看了,但一个博主的转发评测属于二手消息,60分可能就是普通水平,不一定需要展示。
这之后数值设计是他用量化方式跑了上百个回测调出来的,后续要调也很简单,改一下公式里的权重或者阈值,几秒搞定。
还有一个设计我觉得挺聪明:事件聚类。
昨天比如GPT-5.5 Instant发布了,除了OpenAI官方报道,还有一堆媒体和个人号同时发。不做聚类的话,精选页上同一件事能刷出十几条。

他用embedding把语义相近的条目聚到一个事件簇里,簇里选一条最权威的当主条,其他的折叠进去。官方源永远优先——官网比官方推特优先,官方推特比KOL优先。精选页上同一件事只展示一条,点开看所有相关报道。

还有一个小功能叫AI日报,每天早上北京时间8点自动把过去24小时的精选内容按版块整理好。版块分五块:模型发布/更新、产品发布/更新、行业动态、论文研究、技巧与观点。
这个日报不需要任何大模型来生成——因为精选、分类、翻译在信息入库的时候就已经全部做完了,日报只需要把处理好的条目分个桶排个序。每天1秒钟搞定。
思路和前面一样:能提前算好的就提前算好,别等展示的时候再让模型现算。
说几点我自己的感受吧。
“能用代码就别用模型"这句话我觉得值得每个做AI产品的人刻在脑门上。卡兹克踩的最大坑就是什么都交给模型,后来把能用代码做的全用代码做,模型只做它最擅长的那一步,效果反而大幅提升。
评分策略的迭代不是做加法,是做减法。从V1到V11,真正让他走出困境的不是往Prompt里加更多规则,而是把Prompt从600行砍到200行,把模型职责从“什么都干"压缩到“只干一件事"。
信源比信息重要。与其设计复杂的过滤算法去处理劣质信源,不如一开始就只接入优质信源。168个精选信源比10000个杂乱信源有用得多。
做给自己用的东西往往比做给别人用的更靠谱。AIHOT最初就是做给自己用的,解决的是自己的真实痛点,每一步迭代都有明确反馈,他自己就是用户,好不好用他最清楚。
网址:https://aihot.virxact.com/
直接打开就能用,不需要登录。
💬 交流群
扫码加群,加入 AI +测试编程实践交流群,和一群志同道合的朋友讨论。

📮获取:
• 最新技术推广文章• 核心技能速查表• 测试人转型 AI 训练师路线图
👍 觉得有用?
如果这篇文章对你有帮助:
点赞→ 让我知道你喜欢这类内容关注→ 你的关注就是我的最大动力在看→ 推荐给更多技术同行分享→ 分享到朋友圈或技术群

你的每一次互动,都是我持续输出干货的动力!
我是Jesse,专注 AI 工具实战与测试自动化,帮测试同行少走弯路。
我们下次见~
夜雨聆风