乐于分享
好东西不私藏

AI 与大数据:4 个硬核开源项目深度解析

AI 与大数据:4 个硬核开源项目深度解析


零延迟构建真实感 3D 场景,这个前馈模型有点东西

LingBot-Map 是一个前馈(feed-forward)3D 基座模型,专门从流数据实时重建场景。与传统基于优化的 SLAM 方法不同,LingBot-Map 无需迭代优化,输入图像序列即可直接输出稠密点云和相机位姿。

根据 GitHub 官方文档,该项目的主要特色在于:

  • • Geometric Context Transformer 架构:在单一流式框架内统一了坐标定位、稠密几何线索和长期漂移校正,通过锚点上下文、位姿参考窗口和轨迹记忆实现。
  • • 高效流式推理:借助 paged KV cache attention,在 518×378 分辨率下稳定达到约 20 FPS,支持超过 10,000 帧的长序列。
  • • 领先重建质量:在多个基准数据集上,优于现有的流式方法和基于迭代优化的方案。

使用场景上,LingBot-Map 适合需要实时 3D 重建的机器人导航、AR/VR 以及大规模环境建模场景。模型已发布在 HuggingFace 和 ModelScope,可直接下载使用。

WECHATIMGPH_1

pip install -e .python demo.py --model_path /path/to/checkpoint.pt \    --image_folder /path/to/images/ --mask_sky

GitHub: https://github.com/Robbyant/lingbot-map\⭐ Stars: 2.1k


把 DuckDB 变成分布式数据库:双重执行 + 差分存储

OpenDuck 是 MotherDuck 理念的开源实现——将 DuckDB 从单机分析引擎扩展为真正的分布式数据库,支持差分存储、混合(双重)执行和透明远程 Attach。

根据 GitHub 官方文档,OpenDuck 的核心架构包含三个部分:

差分存储(Differential Storage):Append-only 分层结构,底层是 PostgreSQL 元数据和对象存储。DuckDB 看到的是普通文件,OpenDuck 在后台以不可变 sealed layer 形式持久化到对象存储,每次写入路径统一,读端完全兼容。

混合执行(Hybrid / Dual Execution):单个 SQL 查询可以同时在本地和远程执行。Gateway 负责拆分查询计划,为每个算子标注 LOCAL 或 REMOTE 标签,在边界处插入桥接算子,只有中间结果跨网络传输。这意味着本地小表和远程大表的 JOIN 不再需要预先把远程数据拉到本地。

DuckDB 原生 Catalog:扩展实现了 DuckDB 的 StorageExtension 和 Catalog 接口,远程表是完整的一级 Catalog 条目,和本地表一样参与 JOIN、CTE 和优化器。

WECHATIMGPH_2

OpenDuck 采用 gRPC + Arrow IPC 作为传输层,协议定义在 execution.proto(4 个 RPC,数据面 2 个,Worker 生命周期 2 个),有意保持极简和开放,任何实现 ExecutionService 的后端都可以接入。

cargo build --workspacecd extensions/openduck && make# 启动 gatewaycargo run -p openduck -- -d mydb --token your-token
import duckdbcon = duckdb.connect(config={"allow_unsigned_extensions": "true"})con.execute("LOAD '/path/to/openduck.duckdb_extension';")con.execute("ATTACH 'openduck:mydb?endpoint=http://localhost:7878&token=xxx' AS cloud;")con.sql("SELECT * FROM cloud.users LIMIT 10").show()

GitHub: https://github.com/CITGuru/openduck\⭐ Stars: 450


大规模多模态 RL 后训练,一个异步引擎全搞定

Relax 是小红书 AI Infra 团队开源的异步强化学习后训练框架,专注于多模态大模型(文本、图像、视频、音频)的规模化 RL 微调。底层基于 Ray Serve 做服务编排,训练侧用 Megatron-LM,推理侧用 SGLang,Rollout 与训练完全解耦。

根据 GitHub 官方文档,Relax 的核心特色:

全模态训练:用一套框架覆盖文本、视觉和音频的 RL,支持端到端的多模态 RL 训练(包括 Qwen3-Omni 等全模态模型)。

服务化六层架构:Orchestration(Controller/Service/Registry)、Components(Actor/Rollout/Critic/ActorFwd/Advantages/GenRM)、Engine(SGLang + 可插拔 Reward)、Backends(Megatron-LM + SGLang)、Distributed(Ray Actor Groups + DCS NCCL 权重同步)。各角色均为独立 Ray Serve 部署,支持弹性调度和故障恢复。

全异步执行:Actor、Rollout、ActorFwd、Reference、Advantages 运行在独立 GPU 集群,通过 TransferQueue 流式交换数据,通过 DCS 进行异步权重同步,最大化 GPU 利用率,支持配置最大 staleness 控制 Off-policy 程度。

丰富算法支持:GRPO、GSPO、SAPO 和 On-Policy Distillation 开箱即用,内置 GenRM(LLM-as-judge)模式。

docker pull relaxrl/relax:latestdocker run -it --gpus all --ipc=host --network=host \  -v /path/to/your/workspace:/root relaxrl/relax:latest bashcd /root/Relax && pip install -e .bash scripts/training/text/run-qwen3-4B-8xgpu.sh

GitHub: https://github.com/redai-infra/Relax\⭐ Stars: 266


一句话让 Claude 变身安全情报专家,这个 MCP 服务器太实用了

cve-mcp-server 是一个生产级 MCP(Model Context Protocol)服务器,为 Claude 提供 27 个安全情报工具,涵盖 21 个数据源。安全工程师不需要在 NVD、EPSS、CISA KEV、Shodan、VirusTotal 等十几个标签页之间来回切换,直接用自然语言问 Claude,就能得到关联分析后的安全建议。

根据 GitHub 官方文档,该项目解决了安全运营中的一个核心痛点:单个 CVE 的研判需要查询 CVSS 评分(来自 NVD)、利用概率(EPSS)、在野利用状态(CISA KEV)、补丁信息(GitHub GHSA)以及恶意软件关联(VirusTotal),面对 50 个 CVE 时,一个人一天都做不完。cve-mcp-server 把这 21 个 API 全部封装成 MCP Tools,Claude 可以并行查询、交叉验证,输出复合风险评分。

27 个工具覆盖五大类:

  • • 核心漏洞情报(8个):CVE 详情、CVSS 解析、EPSS 概率、CISA KEV 状态、CWE 查询、引用链接提取、批量 CVE 查询
  • • 漏洞利用情报(4个):GitHub PoC 搜索、MITRE ATT&CK 映射、攻击模式分析
  • • 高级风险与报告(4个):复合风险评分计算、格式化报告生成、CVE 优先级排序、趋势 CVE 监控
  • • 网络情报(4个):IP 信誉查询(AbuseIPDB)、GreyNoise 扫描活动、Shodan 主机lookup、被劫持 DNS 查询
  • • 威胁情报(4个):VirusTotal 恶意软件扫描、MalwareBazaar 样本搜索、ThreatFox IOC 查询、勒索软件地址追溯

其中 8 个工具完全免费无需 API Key(EPSS、CISA KEV、OSV.dev、MITRE ATT&CK、CWE、CVSS 解析、Ransomwhere 和 NVD 基础速率),零配置即可体验。

git clone https://github.com/mukul975/cve-mcp-server.gitcd cve-mcp-serverpip install -e .cp .env.example .env  # 配置 API Key(可选)python -m cve_mcp.server

在 Claude Desktop 中配置:

{  "mcpServers": {    "cve-mcp": {      "command": "python",      "args": ["-m", "cve_mcp.server"],      "cwd": "/absolute/path/to/cve-mcp-server"    }  }}

GitHub: https://github.com/mukul975/cve-mcp-server\⭐ Stars: 238


今天分享的 4 个项目,覆盖了 3D 重建( LingBot-Map)、分布式数据查询(OpenDuck)、大规模多模态 RL 训练(Relax)和安全情报分析(cve-mcp-server)四个不同方向,各有各的技术亮点。如果你在这些方向有相关需求,不妨去 GitHub 深入了解一下。