乐于分享
好东西不私藏

马斯克把X“扒光”了?开源算法源码全解析,这才是真正的流量密码!

马斯克把X“扒光”了?开源算法源码全解析,这才是真正的流量密码!

点击右上角,设为星标⭐ ,才能接收到实时推送哦


  石臻说AI报道  

编辑:石臻

导读: 哎呀,X的“For You”算法代码全开源了!基于GitHub仓库,咱们深入扒一扒Rust和Python写的核心逻辑。没编程基础也别慌,我用大白话一步步拆解,从用户请求到最终feed怎么生成。Grok transformer预测你会不会点赞啥的,全靠用户行为学,零手工规则。超级干货,小白速来!

背景:为什么X要开源这个算法?

X的“For You”feed,一直是大家刷屏的入口。它混了你关注的帖子(in-network)和AI挖出的新鲜货(out-of-network),然后智能排序。现在,xAI把整个生产系统代码扔到GitHub (https://github.com/xai-org/x-algorithm)上,用Apache 2.0许可,谁都能用。仓库主要Rust写(62.9%),Python补齐(37.1%),每4周更新一次。

开源目的?透明!让开发者研究大厂推荐系统,也能贡献代码。以前feed总被吐槽黑箱,现在代码全曝光,从Home Mixer协调到Phoenix打分,一目了然。基于用户互动数据学相关性,不是死规则。

核心原理:算法一步步怎么跑?

咱们像聊天一样,拆解代码逻辑。小白视角:想象feed像个AI管家,它先了解你(谁关注、最近点啥),然后拉帖子,挑好的排序给你。

整个流程靠Home Mixer管着,用Candidate Pipeline框架搭。没代码经验?Pipeline就像流水线:每个阶段干一件事,能并行跑,效率高。代码里定义了trait(接口),如Source拉帖子、Filter筛垃圾、Scorer打分啥的。出错?有配置,忽略或重试。

步步走:

  1. 查询准备(Query Hydration):拉你的历史互动、关注列表、偏好。代码用hydrator加载序列数据,比如最近点赞、回复。

  2. 拉候选帖(Candidate Sources):从Thunder拿熟人帖,从Phoenix搜全球帖。

  3. 丰富数据(Hydration):加元数据,如帖文、作者、媒体。确保帖子完整。

  4. 初筛(Filtering):剔除重复、旧帖、屏蔽的。代码有一堆filter类。

  5. 打分(Scoring):Grok transformer预测互动概率,然后加权算总分。

  6. 选帖(Selection):按分排序,取top K。

  7. 终筛(Post-Selection Filtering):再查删帖、垃圾啥的。

全靠ML学用户行为,没手工特征。代码Rust高效,Python管ML推理。

关键组件详解:Thunder和Phoenix是怎么配合的?

Thunder:你的“朋友圈”守护者

Thunder是内存存储高手,代码在thunder/目录。实时从Kafka吃帖创建/删事件,按用户分桶存原创、回复、转帖、视频。给feed时,从你关注的人拉最近帖,超快,毫秒级。不用数据库,内存trim过期帖。

小白比喻:像手机通讯录,只存熟人动态,随时翻。

Phoenix:AI“挖宝机”

Phoenix是ML明星,分检索和排序。代码phoenix/下。

检索用two-tower模型:用户塔编码你历史+特征,候选塔编码全网帖,用点积相似拉top K。哈希嵌入高效。

排序用Grok-1改的transformer:输入用户上下文+候选帖,用attention masking隔离候选(不互相影响,便缓存)。输出多概率:点赞、回复啥的。

小白:transformer像大脑,学你行为预测“这帖你会不会爱上?”。没规则,全数据驱动。

另外,Author Diversity Scorer防刷屏,OON Scorer调外部帖分。

打分和过滤:代码里藏的聪明劲儿

打分核心:Phoenix scorer跑transformer,吐出一堆概率。代码定义多动作:正面如点赞、回复加分,负面如屏蔽减分。然后Weighted Scorer加权:总分 = ∑(权重 * 概率)。权重学自数据。

表格看互动:

互动类型
正/负
代码描述
Favorite
点赞概率
Reply
回复概率
Repost
转帖概率
Quote
引用概率
Click
点击概率
Profile Click
作者页点击
Video View
视频看完
Photo Expand
图片展开
Share
分享概率
Dwell
停留时间
Follow Author
关注作者
Not Interested
不感兴趣
Block Author
屏蔽作者
Mute Author
静音作者
Report
举报概率

过滤超严。预打分filter表格:

Filter名
作用
代码点
DropDuplicates
去重ID
防重复
AgeFilter
剔旧帖
保新鲜
SelfpostFilter
除自家帖
别自夸
MutedKeyword
滤关键词
用户设置
AuthorSocialgraph
屏蔽作者
黑名单

后过滤:VF Filter防垃圾,DedupConversation崩线程。

小白:过滤像门卫,打分像评委,确保feed干净有趣。

影响:开源代码对咱们意味着啥?

对小白用户:feed更懂你,因为代码透明,社区能修偏见。开发者福音:复用Pipeline建app,学Rust+ML推荐。

长远:推AI透明,Grok适配recsys成范例。风险?有人分析刷屏,但开源利大于弊。代码每4周刷,保持新鲜。

结尾:小白也能掌握X算法精髓

聊到这,X算法没那么神秘吧?从代码看,全靠Grok学行为预测,Pipeline模块化跑。去GitHub瞅瞅,试试改改。未来,推荐会更智能,你我都能参与!

“代码不骗人:AI从你每一次互动学聪明,不是靠程序员猜。” —— 这开源的真谛。

参考来源

  • 信息源:https://github.com/xai-org/x-algorithm

标签#AI #科技 #未来 #争议 #干货 #热点

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

交个朋友

一键关注 👇 点亮星标

每日科技资讯和提效工具分享
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 马斯克把X“扒光”了?开源算法源码全解析,这才是真正的流量密码!

评论 抢沙发

1 + 9 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮