AI日报丨Karpathy:软件3.0到来,提示词即代码与智能体工程时;Grok曾用OpenAI模型引争议;Codex开放并可连应用,自动完成电脑任务

AI 日报 · 2026年05月01日

AI资讯

1、DeepSeek灰测视觉推理：视觉基元入链降幻觉

2、Anthropic Mythos疑可自动入侵系统，印度急谈访问权

3、Karpathy：软件3.0到来，提示词即代码与智能体工程

4、AllenAI开源Molmo2视觉语言模型，助力社区创新

5、Anthropic启动Claude Jupiter红队测试，或将发布新模型

6、OpenAI Codex开放并可连应用，自动完成电脑任务

7、Gemini Embedding 2上线：多模态统一语义检索

8、马斯克称xAI训练Grok曾用OpenAI模型引争议

9、美众议院调查Airbnb使用中国AI模型

10、Anthropic联手AWS推Claude托管智能体服务

11、Stripe上线智能体钱包，打通OpenClaw与Hermes支付

12、DLSS 4.5上线：动态多帧生成与二代Transformer超分

📰 最新资讯

01 · DeepSeek灰测视觉推理：视觉基元入链降幻觉

　🏷 研究论文

DeepSeek灰度测试多模态视觉能力，并发布后又撤回《Thinking with Visual Primitives》。其核心是将点、框、路径等“视觉基元”纳入推理链，在计数、空间与拓扑任务中用显式标记锚定对象与关系，降低幻觉、提升可解释性，并通过视觉标记压缩提升效率，但仍受分辨率、触发方式与拓扑难度限制。

主要亮点：

• 提出“视觉基元入链”，弥合指代鸿沟提升可解释性
• 计数用边界框锚定对象，空间推理框出关键关系
• 点记录路径支持拓扑推理，并用标记压缩提升效率

详情链接：https://www.huxiu.com/article/4855324.html

02 · Anthropic Mythos疑可自动入侵系统，印度急谈访问权

　🏷 行业动态

Anthropic 的 Mythos 被曝具备自动扫描并入侵全球软件系统的能力，单次可发现5万漏洞，远超传统工具约500个，并能给出利用路径。因潜在攻击风险与防御价值并存，美国仅开放40家公司，印度紧急磋商并与美谈判争取接入，用于自查关键基础设施漏洞，凸显AI权限正上升为国家安全议题。

主要亮点：

• 单次扫描发现5万漏洞，数量远超传统安全工具
• 可识别漏洞利用方法，覆盖金融与政府基础设施
• 访问权高度受控，美国先行，印度紧急谈判争取接入

详情链接：https://x.com/heyshrutimishra/status/2050040510556123380

03 · Karpathy：软件3.0到来，提示词即代码与智能体工程

　🏷 行业动态

Karpathy提出“软件3.0”范式：以大模型为运行时，提示词成为源代码，上下文窗口充当内存，很多任务可绕开传统训练直接完成。他以MenuGen说明原生模型能力可替代中间层应用，并强调从“氛围编程”走向更重安全与可靠的智能体工程。未来软件接口将为智能体重写，机器可读与可验证性成为关键。

主要亮点：

• 软件3.0：提示词即代码，上下文窗口当内存
• MenuGen示例：原生模型能力直接替代中间层应用
• 区分氛围编程与智能体工程，强调可验证与安全可靠

详情链接：https://h5.ifeng.com/c/vivo/v002MLA–iqXmsb-_zFD37QAWf2osgNoFuu-_buVXE7cS01hm4__?isNews=1&vivoBusiness=browser&showComments=0

04 · AllenAI开源Molmo2视觉语言模型，助力社区创新

　🏷 开源项目

AllenAI发布新一代开源视觉语言模型Molmo2，延续初代Molmo在数据集、架构与训练流程全开源的策略，并进一步带来性能与工程可用性的提升。开放权重与架构细节降低研究与应用门槛，为开发者二次开发、快速实验及视觉语言应用探索提供坚实基座，推动社区加速迭代。

主要亮点：

• 延续全开源路线：数据、架构、训练过程透明可复现
• 开放权重与资源，便于研究者基于Molmo2二次开发
• 对比初代给出差异与优势，提升实验与应用落地效率

详情链接：https://debuggercafe.com/getting-started-with-molmo2/

05 · Anthropic启动Claude Jupiter红队测试，或将发布新模型

　🏷 模型发布

Anthropic 启动代号“Claude Jupiter V1”的内部红队测试，延续以行星名作发布前安全探测的惯例。时间点紧贴5月6日旧金山 Code with Claude 大会，或为新品公告加固。现有Opus 4.7领跑，而Sonnet/Haiku 4.7缺席，释放中高端迭代与新一代架构信号。

主要亮点：

• Jupiter V1为内部代号，发布前用于安全探测
• 紧邻开发者大会窗口，或预示新品/升级将至
• 红队覆盖越狱与宪法分类器压力测试，符合负责任扩展

详情链接：https://x.com/testingcatalog/status/2049896926997369194/photo/1

06 · OpenAI Codex开放并可连应用，自动完成电脑任务

　🏷 产品更新

OpenAI宣布Codex面向所有人开放，主打“一站式”完成各类电脑任务。用户可选择角色、连接常用应用，并借助系统建议提示词快速上手，覆盖调研、规划、写文档、做PPT与表格等场景。此更新强化了通用办公自动化能力，显著降低操作门槛，推动编程助手向通用数字员工演进。

主要亮点：

• Codex面向所有人开放，定位通用电脑任务助手
• 支持连接日常应用并选定角色，适配不同工作流
• 内置建议提示词，覆盖文档、PPT、表格与调研规划

详情链接：https://x.com/gdb/status/2049934863818494205

07 · Gemini Embedding 2上线：多模态统一语义检索

　🏷 模型发布

Google 正式发布 Gemini Embedding 2，可将文本、图像、视频、音频与文档统一映射到单一语义空间，并支持在一次请求中处理交错多模态输入。该能力显著增强 RAG 代理检索、视觉搜索与内容审核等任务效果，覆盖超100种语言，并提供任务前缀与 Matryoshka 降维，利于构建更高效可靠的智能体基础设施。

主要亮点：

• 统一语义空间：文本/图像/视频/音频/文档同嵌入
• 单请求支持交错多模态输入，提升RAG与视觉搜索
• 超100语言+任务前缀+Matryoshka降维，易部署扩展

详情链接：https://developers.googleblog.com/building-with-gemini-embedding-2/

08 · 马斯克称xAI训练Grok曾用OpenAI模型引争议

　🏷 行业动态

马斯克在法庭作证称，xAI在训练Grok时使用了OpenAI模型。该说法把焦点推向大模型训练的“借用”边界：是否涉及授权、数据与输出可否用于再训练，以及由此带来的知识产权与合规风险。事件或促使行业收紧训练规范，并影响后续判例与竞争格局。

主要亮点：

• 法庭证词首次点名：Grok训练用过OpenAI模型
• 引爆合规争论：模型输出再训练是否需授权
• 潜在判例效应：或重塑大模型训练与竞争规则

详情链接：https://techcrunch.com/2026/04/30/elon-musk-testifies-that-xai-trained-grok-on-openai-models/?utm_source=dlvr.it&utm_medium=twitter

09 · 美众议院调查Airbnb使用中国AI模型

　🏷 行业动态

美国众议院小组对Airbnb与Anysphere启动调查，审查其业务中部署中国AI模型的来源、选型依据与合规风险。事件指向AI供应链安全与跨境技术依赖的敏感性升级，或推动互联网平台强化第三方模型审计、数据治理与合规披露，行业监管门槛随之抬升。

主要亮点：

• 立法机构要求说明模型选型依据与技术来源
• 调查聚焦AI供应链中的中国技术组件与潜在影响
• 平台外部模型使用监管趋严，合规标准或重塑

详情链接：https://www.nextgov.com/artificial-intelligence/2026/04/house-panels-probe-airbnb-anysphere-over-use-chinese-ai-models/413207/

10 · Anthropic联手AWS推Claude托管智能体服务

　🏷 产品更新

Anthropic与AWS推出基于Claude的托管智能体服务，提供云端代理部署、配置与运维管理能力，覆盖推理执行与代理生命周期管理。该合作加速大模型能力与云基础设施融合，降低企业落地智能体门槛，推动标准化、可扩展的云端智能体运行环境形成。

主要亮点：

• 基于Claude构建，提供一站式托管智能体能力
• 在AWS上完成代理配置、部署与集中化管理
• 体现大模型厂商与云服务商加速基础设施整合

详情链接：https://thenewstack.io/anthropic-agents-managed-aws-claude/

11 · Stripe上线智能体钱包，打通OpenClaw与Hermes支付

　🏷 产品更新

Stripe推出面向智能体应用的钱包服务，并完成与OpenClaw、Hermes框架集成。基于Hermes的Monica智能体由此获得直接购物能力，可代表用户完成购买与资金管理，交易流程几乎无需额外配置。该举措将支付基础设施与AI代理深度耦合，推动智能体经济落地与商业任务自动化。

主要亮点：

• 钱包服务原生对接OpenClaw与Hermes智能体框架
• Monica智能体可直接下单支付，代表用户完成购物
• 免额外配置串联交易流程，降低智能体商业化门槛

详情链接：http://x.com/i/article/2021793846775226368

12 · DLSS 4.5上线：动态多帧生成与二代Transformer超分

　🏷 产品更新

NVIDIA DLSS 4.5 已开始被游戏开发者集成，新增动态多帧生成，最高实现6倍帧生成，并引入第二代变换器模型强化超分辨率。该技术在 CES 2026 亮相，瞄准AI驱动渲染升级，官方同步发布博文与开发资源，推动行业更高画质与更流畅体验落地。

主要亮点：

• 动态多帧生成最高6倍帧率提升，兼顾流畅与画面
• 二代Transformer模型加持超分辨率，画质细节更稳
• 官方提供集成资源与博文，开发者可快速落地部署

详情链接：https://developer.nvidia.com/blog/build-ai-powered-games-with-nvidia-dlss-4-5-rtx-and-unreal-engine-5/

🔭 最新开源

01 · Eventloom本地优先TS运行时：多智能体事件日志驱动

　🏷 开源项目

Eventloom 是面向多智能体系统的本地优先 TypeScript 运行时，以“仅追加”事件日志为核心组织与协作机制。它用可追溯、可回放的事件流统一状态与通信，便于离线运行、冲突处理与审计，为构建可扩展的智能体应用提供更可靠的工程底座。

主要亮点：

• 本地优先架构，支持离线与边缘场景运行
• 基于仅追加事件日志，状态可追溯可回放
• TypeScript 运行时定位，利于快速集成多智能体系统

详情链接：https://github.com/syndicalt/eventloom

02 · macOS端RTSP摄像头AI监控与分区告警开源工具

　🏷 开源项目

camai 是一款面向 macOS 的 RTSP 摄像头监控开源项目，集成 AI 目标检测、分区/区域告警与图像增强，并利用 Apple Neural Engine 提升本地推理效率。它为边缘端安防与隐私友好部署提供轻量方案，降低对云端依赖。

主要亮点：

• 本地AI目标检测，实时监控RTSP摄像头画面
• 支持分区/区域告警，减少误报提升可用性
• 借助Apple Neural Engine加速推理与图像增强

详情链接：https://github.com/benjismith677-png/camai

03 · 开源AI求职助手：多平台岗位匹配与简历优化

　🏷 开源项目

该开源AI求职助手可抓取并分析LinkedIn、Indeed等多平台岗位信息，借助MPNet向量嵌入计算匹配度，识别技能差距并给出简历与求职信建议。通过FastAPI与浏览器扩展打通检索、评估与追踪流程，提升求职决策效率与自动化程度。

主要亮点：

• 基于MPNet嵌入做岗位-简历语义匹配评分
• 自动识别技能差距并提供简历优化洞察
• FastAPI后端+浏览器扩展实现岗位追踪闭环

详情链接：https://github.com/manikandan-mk007/ai-job-assistant

04 · 开源AI职业助手：LLM驱动求职规划与面试辅导

　🏷 开源项目

GitHub Trending 上线开源 AI 职业助手机器人，基于 OpenRouter 接入大模型，为用户提供 AI 岗位解读、技能路线规划与面试问答训练。项目以 Python 构建，降低职业咨询门槛，便于企业与个人二次开发，推动智能化招聘与职业成长工具普及。

主要亮点：

• 通过OpenRouter调用LLM，实现对话式职业咨询
• 覆盖AI岗位、技能栈、简历与面试训练一体化
• Python开源实现，易部署并支持二次扩展集成

详情链接：https://github.com/Vishwam-Gawande/ai-career-chatbot

05 · Documind-ai：AI文档摘要与问答一体化开源工具

　🏷 开源项目

Documind-ai 登上 GitHub Trending，提供 AI 驱动的文档自动摘要与问答系统，面向长文阅读与知识检索场景。项目以 HTML 为主要语言，强调易部署与直观交互，帮助用户快速提炼要点并按需追问，降低信息获取成本，提升个人与团队的文档处理效率。

主要亮点：

• 摘要与问答合一，覆盖阅读提炼到追问验证全流程
• 面向长文档场景，快速定位关键信息与核心观点
• HTML 主导实现，易集成到网页端与内部知识系统

详情链接：https://github.com/SubradeepM/documind-ai

06 · Morph：以AST计划驱动的LLM代码重构CLI

　🏷 开源项目

Morph 是一款 AST 级别的 LLM 重构命令行工具，模型输出可类型化的操作计划（如重命名符号、移动函数、抽取模块）而非直接生成 diff。引擎会基于依赖图校验计划、原子化应用变更，并运行测试验证正确性，让自动重构更可控、更可靠，提升工程化落地价值。

主要亮点：

• LLM输出类型化重构计划，避免不透明diff
• 依赖图校验每步操作，降低破坏性改动风险
• 原子应用变更并自动跑测试，保障可回滚与正确性

详情链接：https://github.com/dakshjain-1616/Morph

07 · 高中团队开源仿脑动力学Python旧实验集

　🏷 开源项目

GoatCheeseWheel在GitHub Trending发布Old-ML-Experiments，收录2018至2022迭代完善的Python项目，尝试将生物脑动力学融入机器学习代码。项目展现从学生研究到可运行版本的工程演进，为仿脑建模与教学复现实验提供参考与素材。

主要亮点：

• 2018-2022多轮迭代，保留完整可运行最终版
• 以生物脑动力学为线索，探索仿脑式ML实现
• 开源实验集合便于学习、复现与二次开发扩展

详情链接：https://github.com/GoatCheeseWheel/Old-ML-Experiments-

以上内容由 AI 汇总，数据来源于网络公开平台。