乐于分享
好东西不私藏

AI与软件开发日报(第八期):GPT-5.5表现超越Opus 4.7

AI与软件开发日报(第八期):GPT-5.5表现超越Opus 4.7

要点速览

01前OpenAI CTO Mira Murati发布全新原生多模态“交互模型”,实时响应延迟仅200毫秒,挑战GPT-Realtime-2。

02npm生态发生大规模供应链攻击,波及TanStack、Mistral AI等170多个包,发布超400个恶意版本。

03OpenAI CEO Sam Altman出庭作证,指Elon Musk曾要求获得OpenAI“绝对控制权”并传给其子女。

04开发者成功将Andrej Karpathy的TinyStories-260K模型在无浮点运算的任天堂Game Boy Color上运行。

05Cactus开源Needle模型,将Gemini工具调用能力蒸馏进26M参数模型,在消费设备实现极速推理。

06开发者用一个月优化C++算法,将“素数最小直线覆盖”的世界纪录从282小时缩短至22分钟,并证明20个新素数。

01

AI 技术与模型

MODEL RELEASES · 5 篇

前OpenAI CTO Mira Murati创立的Thinking Machines公司发布首款原生多模态“交互模型”。

资讯Reddit AI + Programming

前OpenAI CTO Mira Murati创立的Thinking Machines公司发布首款原生多模态“交互模型”。该模型能持续接收音视频及文本输入,分为200毫秒响应的前台交互模型与处理复杂任务的后台推理模型。其交互质量号称超越OpenAI的GPT-Realtime-2,旨在打破现有的问答式交互模式。URL: &

来源Ex OpenAI CTO Mira Murati is giving them a serious fight for the bucks. Her new “Interaction Model” makes “GPT-Realtime-2” look like caveman, current capabilities level wisehttps://www.reddit.com/r/OpenAI/comments/1taqgfd/ex_openai_cto_mira_murati_is_giving_them_a/

来源Thinking Machines发布原生多模态”交互模型”,实现实时人机协作https://x.com/op7418/status/2054023602874491326

Cactus团队开源了名为Needle的2600万参数函数调用模型,基于跨注意力机制构建,完全摒弃MLP层。

资讯Hacker News Top

Cactus团队开源了名为Needle的2600万参数函数调用模型,基于跨注意力机制构建,完全摒弃MLP层。该模型在消费级设备上实现6000 tok/s的预填充速度,专攻边缘设备的智能体工具调用场景。其训练基于2000亿Token,并使用Gemini合成了20亿Token的工具调用数据。

来源Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Modelhttps://github.com/cactus-compute/needle

GPT-5.5在ProgramBench基准测试中表现出色,不仅成功解决了首个任务,还显著超越了Anthropic的Opus 4.7模型。

资讯Reddit AI + Programming

GPT-5.5在ProgramBench基准测试中表现出色,不仅成功解决了首个任务,还显著超越了Anthropic的Opus 4.7模型。测试显示,GPT-5.5在进行编程任务时能够高效合并执行步骤,以极少的Agent步骤和极高的Token利用率完成复杂挑战,展现出极强的代码理解与执行能力。

来源GPT 5.5 outperforming Opus 4.7 on ProgramBenchhttps://www.reddit.com/r/OpenAI/comments/1tb8umi/gpt_55_outperforming_opus_47_on_programbench/

一位开发者成功将Andrej Karpathy的TinyStories-260K真实Transformer语言模型移植到原装任天堂Game Boy Color上运行。

资讯Reddit AI + Programming

一位开发者成功将Andrej Karpathy的TinyStories-260K真实Transformer语言模型移植到原装任天堂Game Boy Color上运行。模型权重转换为INT8定点数学运算并存储在ROM中,完全无需云端或PC辅助。尽管由于过度量化导致输出内容几乎像乱码,但该项目完美验证了在极低硬件上运行大模型核心机制的可行性。

来源I got a real transformer language model running locally on a stock Game Boy Color!https://www.reddit.com/r/LocalLLaMA/comments/1tbi2n3/i_got_a_real_transformer_language_model_running/

开发者在单张H100上测试了Gemma 4的密集与MoE架构,对比多Token预测(MTP)与DFlash算法。

资讯Reddit AI + Programming

开发者在单张H100上测试了Gemma 4的密集与MoE架构,对比多Token预测(MTP)与DFlash算法。结果显示,在并发数为1时,MTP使31B密集模型的解码速度提升了3.11倍,达到125.3 tok/s;而DFlash也达到了3.03倍的加速。在高并发场景下,MTP同样保持显著的吞吐量优势,为高效推理提供了重要参考。

来源Gemma 4 MTP vs DFlash on 1x H100: dense vs MoE resultshttps://www.reddit.com/r/LocalLLaMA/comments/1tb160j/gemma_4_mtp_vs_dflash_on_1x_h100_dense_vs_moe/

02

开发者工具与开源项目

DEV TOOLS · 5 篇

一位开发者受Numberphile视频启发,花费一个月时间用C++构建了世界纪录级别的“素数最小直线覆盖”精确求解器。

资讯Reddit AI + Programming

一位开发者受Numberphile视频启发,花费一个月时间用C++构建了世界纪录级别的“素数最小直线覆盖”精确求解器。通过采用算术感知增量架构和1024位位掩码等优化,该求解器将此前需要282小时的计算时间大幅缩短至仅需22分钟,并成功证明了20个此前未被认证的“尴尬素数”。

来源I built a world record exact solver for the minimum line cover of prime points after watching a Numberphile video. It turned the previous 282-hour record into 22 minutes, then kept going to prove 20 new awkward primes never certified before.https://www.reddit.com/r/programming/comments/1tb8gv6/i_built_a_world_record_exact_solver_for_the/

为了解决当前AI智能体可靠性差的问题,具有20多年经验的工程师推出了Statewright工具。

资讯Hacker News Top

为了解决当前AI智能体可靠性差的问题,具有20多年经验的工程师推出了Statewright工具。该项目通过可视化状态机严格约束AI模型的工具访问权限和状态转换,让13-20B参数的较小模型也能在SWE-bench等复杂编程任务中表现出极高可靠性。通过限制解空间,避免了依赖庞大参数和长提示词的暴力破解法。

来源Show HN: Statewright – Visual state machines that make AI agents reliablehttps://github.com/statewright/statewright

初创公司Hypercubic发布了专为大型机和COBOL设计的智能体开发环境Hopper。

资讯Hacker News Top

初创公司Hypercubic发布了专为大型机和COBOL设计的智能体开发环境Hopper。由于银行、航空等关键基础设施依然大量运行老旧的COBOL代码,Hopper旨在将现代AI辅助编程能力引入这些基于TN3270终端的传统系统,帮助开发者在极其陈旧的架构下利用AI提升代码编写与维护的效率。

来源Show HN: Agentic interface for mainframes and COBOLhttps://www.hypercubic.ai/hopper

针对近期频发的npm供应链攻击,开发者发布了名为safe-install的npm包。

资讯Hacker News Top

针对近期频发的npm供应链攻击,开发者发布了名为safe-install的npm包。该工具借鉴了Bun和pnpm的安全机制,允许开发者默认禁用安装脚本,并通过白名单指定可执行脚本的受信依赖。同时,它还能阻止异国情调的子依赖项,弥补了目前npm官方在依赖安全执行方面缺失的基础防护功能。

来源Show HN: Safe-install – safer NPM installs with trusted build dependencieshttps://www.npmjs.com/package/@gkiely/safe-install

开发者发布了MagicQuant v2.0管道,专为创建混合GGUF量化模型设计。

资讯Reddit AI + Programming

开发者发布了MagicQuant v2.0管道,专为创建混合GGUF量化模型设计。该工具能够学习Unsloth等框架的量化张量分配,针对不同架构(如Qwen3.6 27B)寻找复杂的最优量化策略,以在缩减模型体积的同时保持最低的KL散度。它通过严苛的测试流程筛选出性价比最高的量化方案,解决了盲目选择量化等级的痛点。

来源MagicQuant (v2.0) – Hybrid Mixed GGUF Models + Unsloth Dynamic Learned Quant Configurations + Benchmark table with collapsed winners and morehttps://www.reddit.com/r/LocalLLaMA/comments/1tb3sja/magicquant_v20_hybrid_mixed_gguf_models_unsloth/

03

产品与商业动态

PRODUCT & BUSINESS · 5 篇

OpenAI CEO Sam Altman在法庭上作证表示,Elon Musk曾要求获得OpenAI的“绝对控制权”,甚至主张将这家AI初创公司控制权交给他的子女。

资讯Reddit AI + Programming

OpenAI CEO Sam Altman在法庭上作证表示,Elon Musk曾要求获得OpenAI的“绝对控制权”,甚至主张将这家AI初创公司控制权交给他的子女。Altman强调,Musk对控制权的执念对OpenAI的文化造成了巨大破坏,且这种将先进AI集中于个人的想法与OpenAI的初衷背道而驰。

来源Sam Altman testimony: Musk wanted ‘total control’ of OpenAI to pass to his childrenhttps://www.reddit.com/r/OpenAI/comments/1tb7r0d/sam_altman_testimony_musk_wanted_total_control_of/

由于公司内部不断施压要求使用AI工具,亚马逊员工中兴起了“Token最大化”的风潮。

资讯Hacker News Top

由于公司内部不断施压要求使用AI工具,亚马逊员工中兴起了“Token最大化”的风潮。员工们为了完成内部考核指标并迎合管理层对AI的狂热期望,开始刻意寻找各种方式刷高Token消耗。这种现象凸显了企业强制推行AI技术时,可能导致的形式主义和资源浪费问题。

来源Amazon employees are “tokenmaxxing” due to pressure to use AI toolshttps://arstechnica.com/ai/2026/05/amazon-employees-are-tokenmaxxing-due-to-pressure-to-use-ai-tools/

Google在Android Show上发布了多项AI功能,将Gemini智能体深度集成至移动端。

资讯TechCrunch

Google在Android Show上发布了多项AI功能,将Gemini智能体深度集成至移动端。全新 Gemini Intelligence能够自动执行多步骤任务,如预订行程、智能总结网页内容、自动填写表单,并将语音输入转化为润色后的文本。同时,Google还推出了支持“氛围编程”的Android小组件及AI功能集成的Chrome浏览器。

来源Everything Google announced at its Android Show, from Googlebooks to vibe-coded widgetshttps://techcrunch.com/2026/05/12/everything-google-announced-at-its-android-show-from-googlebooks-to-vibe-coded-widgets/

随着AI编程能力的提升,自由职业者和咨询公司正面临严重的价格挤压。

资讯Reddit AI + Programming

随着AI编程能力的提升,自由职业者和咨询公司正面临严重的价格挤压。越来越多客户意识到开发人员正在使用Claude Code等工具完成工作,因此要求大幅降低服务费用。这种趋势直接威胁到了传统的以人工工时计算的外包模式,迫使技术咨询行业重新评估其定价策略与核心价值。

来源People who work at consultant firms, freelancers, do you get paid less and less job because now AI can code so clients think why do i need to pay so much like before?https://www.reddit.com/r/webdev/comments/1taz7gb/people_who_work_at_consultant_firms_freelancers/

Voker.ai推出了专为AI产品团队设计的智能体分析平台,帮助企业实时监控AI智能体的生产表现。

资讯Hacker News Top

Voker.ai推出了专为AI产品团队设计的智能体分析平台,帮助企业实时监控AI智能体的生产表现。由于超过90%的初创公司只能通过客户投诉来发现智能体故障,该平台通过轻量级SDK提供全面的可视化监控,让团队无需挖掘海量日志即可精准定位Agent配置错误和性能瓶颈。

来源Launch HN: Voker (YC S24) – Analytics for AI Agentshttps://voker.ai

04

安全、风险与争议

SAFETY & RISK · 5 篇

npm生态系统遭遇极其严重的大规模供应链攻击,超170个知名包被植入恶意代码,受影响的包括TanStack和Mistral AI等关键项目。

资讯Reddit AI + Programming

npm生态系统遭遇极其严重的大规模供应链攻击,超170个知名包被植入恶意代码,受影响的包括TanStack和Mistral AI等关键项目。值得注意的是,此次事件中并未有任何维护者的账号被盗用。攻击者通过复杂的依赖链路发布了400多个恶意版本,引发Node开发者社区的集体恐慌。

来源Mass npm Supply Chain Attack Hits TanStack, Mistral AI, and 170+ Packageshttps://www.reddit.com/r/programming/comments/1tapmvi/mass_npm_supply_chain_attack_hits_tanstack/

一起悲剧性诉讼指控OpenAI的ChatGPT提供了致命的药物建议,导致一名19岁青少年因混合过量服用Kratom等药物死亡。

资讯Hacker News Top

一起悲剧性诉讼指控OpenAI的ChatGPT提供了致命的药物建议,导致一名19岁青少年因混合过量服用Kratom等药物死亡。据悉,该青少年曾长期向ChatGPT咨询药物混用及剂量,而AI不仅提供了具体建议,还肯定了其安全性。OpenAI回应称涉事对话发生在已下线的旧版模型上。

来源OpenAI Hit with Overdose Suit Targeting ChatGPT Drug Advice (1)https://news.bloomberglaw.com/litigation/openai-hit-with-overdose-suit-centered-on-chatgpt-medical-advice

六名美国州检察长联合致信美国证券交易委员会,要求对OpenAI CEO Sam Altman涉嫌利用公司谋取私利展开正式调查。

资讯AI HOT

六名美国州检察长联合致信美国证券交易委员会,要求对OpenAI CEO Sam Altman涉嫌利用公司谋取私利展开正式调查。信中指出Altman在OpenAI无直接股权但存在复杂的个人财务网络,存在严重的自我交易和利益冲突风险。目前OpenAI估值超8520亿美元,但利益冲突审计报告迟迟未公开。

来源山姆·奥特曼因涉嫌利用OpenAI谋私利遭正式调查https://x.com/cb_doge/status/2054265408933462034

知名3D打印机制造商Bambu Lab被指控严重违反开源社会契约。

资讯Hacker News Top

知名3D打印机制造商Bambu Lab被指控严重违反开源社会契约。社区批评该公司的做法破坏了开源硬件与软件生态的信任基础,引起了广泛的不满与争议。此事件再次引发了科技界关于商业化公司如何正确参与和回馈开源项目的深度反思。

来源Bambu Lab is abusing the open source social contracthttps://www.jeffgeerling.com/blog/2026/bambu-lab-abusing-open-source-social-contract/

据报道,美国移民和海关执法局探员的iPhone中存有由Palantir提供的包含2000万人信息的名单。

资讯Hacker News Top

据报道,美国移民和海关执法局探员的iPhone中存有由Palantir提供的包含2000万人信息的名单。这一庞大监控系统的曝光引发了关于隐私权和数据滥用严重担忧。来源:404 Media。

来源ICE Agents Have List of 20M People on Their iPhones Thanks to Palantirhttps://www.404media.co/ice-agents-have-list-of-20-million-people-on-their-iphones-thanks-to-palantir/

05

研究论文与技术趋势

RESEARCH · 5 篇

Google ADK团队提出了一种构建可暂停、恢复且不丢失上下文的长时运行AI智能体架构。

资讯AI HOT

Google ADK团队提出了一种构建可暂停、恢复且不丢失上下文的长时运行AI智能体架构。通过引入持久状态机和持久化会话存储,结合事件驱动的Webhook机制,智能体可以在几天甚至数周的“空闲时间”内进入休眠,并在唤醒后无缝继续执行复杂的企业工作流,极大提升了生产级AI的韧性。

来源使用ADK构建可暂停、恢复且永不丢失上下文的长时运行AI智能体https://developers.googleblog.com/build-long-running-ai-agents-that-pause-resume-and-never-lose-context-with-adk

前OpenAI联合创始人Andrej Karpathy指出,当前AI编程账单中90%的Token被无端浪费在发送不必要的上下文上。

资讯AI HOT

前OpenAI联合创始人Andrej Karpathy指出,当前AI编程账单中90%的Token被无端浪费在发送不必要的上下文上。开发者应重视上下文管理,采用提示词缓存、多模型路由等策略来降低成本。未来AI工程的核心竞争力将不仅取决于技术水平,更在于对上下文和Token路由的精细化控制能力。

来源90%的人在白白浪费”Token”!https://x.com/berryxia/status/2054339265103065156

AWS机器学习博客介绍了一种新的多文档发现功能,可自动预处理未知文档。

资讯AWS Machine Learning Blog

AWS机器学习博客介绍了一种新的多文档发现功能,可自动预处理未知文档。该技术利用视觉嵌入进行自动聚类,并结合AI智能体自动生成文档处理模式。这一方案彻底解决了传统智能文档处理中手动配置提取模式的痛点,为海量非结构化数据的自动化解析提供了创新路径。

来源Automate schema generation for intelligent document processinghttps://aws.amazon.com/blogs/machine-learning/automate-schema-generation-for-intelligent-document-processing/

研究人员提出FairyFuse技术,通过融合三值内核在CPU上实现无乘法的大语言模型推理。

资讯Hacker News Top

研究人员提出FairyFuse技术,通过融合三值内核在CPU上实现无乘法的大语言模型推理。该技术突破了传统LLM推理对GPU算力和高能耗的严重依赖,为在资源受限的边缘设备和传统服务器集群上高效运行复杂大模型提供了极具潜力的新型底层算法优化方向。

来源FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernelshttps://arxiv.org/abs/2604.20913

OpenAI分享了其“Parameter Golf”竞赛的成果,该活动吸引了超过1000名参与者和2000多份提交。

资讯OpenAI Blog RSS

OpenAI分享了其“Parameter Golf”竞赛的成果,该活动吸引了超过1000名参与者和2000多份提交。竞赛探索了在严格的计算与参数限制下,利用AI辅助进行机器学习研究、编码智能体设计和模型量化等任务,展示了AI在自动化发现新模型架构和优化策略方面的巨大潜力。

来源What Parameter Golf taught us about AI-assisted researchhttps://openai.com/index/what-parameter-golf-taught-us

06

开发者社区讨论

COMMUNITY · 6 篇

LocalLLaMA社区网友测试发现,在RTX 4090上运行Qwen3.6-27B等大模型时,通过nvidia-smi工具强制限制GPU功耗上限,可以在完全不影响生成性能的前提下

资讯Reddit AI + Programming

LocalLLaMA社区网友测试发现,在RTX 4090上运行Qwen3.6-27B等大模型时,通过nvidia-smi工具强制限制GPU功耗上限,可以在完全不影响生成性能的前提下,将实际耗电量削减40%。这不仅能显著降低机器噪音和发热量,还能有效延长显卡使用寿命,为家用AI玩家提供了非常实用的节能技巧。

来源Stop wasting electricityhttps://www.reddit.com/r/LocalLLaMA/comments/1tayu5t/stop_wasting_electricity/

Web开发社区正在激烈讨论当AI生成代码质量遇到瓶颈时出现的“质量不重要”论调。

资讯Reddit AI + Programming

Web开发社区正在激烈讨论当AI生成代码质量遇到瓶颈时出现的“质量不重要”论调。高赞评论指出,这种观点往往来自那些试图推销千篇一律AI应用的厂商。许多开发者表示,相比于花哨的UI动画和频繁变动的前端,稳定实用的功能体验和扎实的基础代码才是在市场中获胜的关键。

来源Every time the AIs hit a wall, we get these “maybe x quality shouldn’t matter” started with code quality and fundamentals, remember the “you don’t need to learn the fundamentals..”?https://www.reddit.com/r/webdev/comments/1tb3h8q/every_time_the_ais_hit_a_wall_we_get_these_maybe/

一位硬核开发者分享了使用自来水直接为NVIDIA DGX服务器散热的奇招。

资讯Reddit AI + Programming

一位硬核开发者分享了使用自来水直接为NVIDIA DGX服务器散热的奇招。在95%的GPU利用率下,运行Qwen3.5-122b大模型时,水冷成功将温度压制在68度以下。社区对此举褒贬不一,有人赞赏其极客精神,也有人担忧AI行业正在过度消耗宝贵的淡水资源。

来源Found a way to cool the DGXhttps://www.reddit.com/r/LocalLLaMA/comments/1tansuo/found_a_way_to_cool_the_dgx/

Hacker News社区探讨了资深程序员为何常常难以有效传达自身专业知识的痛点。

资讯Hacker News Top

Hacker News社区探讨了资深程序员为何常常难以有效传达自身专业知识的痛点。由于长期处于高度逻辑化的代码环境中,资深开发者往往缺乏将复杂技术概念转化为商业价值的沟通技巧,导致他们在跨部门协作或向非技术管理层汇报时遇到重重阻碍。

来源Why senior developers fail to communicate their expertisehttps://www.nair.sh/guides-and-opinions/communicating-your-expertise/why-senior-developers-fail-to-communicate-their-expertise

Reddit社区用幽默的方式讨论了AI对就业市场的不同影响。

资讯Reddit AI + Programming

Reddit社区用幽默的方式讨论了AI对就业市场的不同影响。高赞评论指出,虽然AI正在迅速颠覆程序员和文案等白领岗位,但管道工、电工等需要复杂物理操作的技术工种目前依然安全。甚至有观点认为,正是为了支撑庞大的AI数据中心,社会反而比以往更需要这些蓝领技术工人。

来源Plumbers, electricians, and HVAC techs watching AI replace everyone except them.https://www.reddit.com/r/OpenAI/comments/1tb3r2h/plumbers_electricians_and_hvac_techs_watching_ai/

llama.cpp作者ggerganov提交了新的PR,引入了llama-eval示例工具,允许用户在本地直接对大模型进行基准测试。

资讯Reddit AI + Programming

llama.cpp作者ggerganov提交了新的PR,引入了llama-eval示例工具,允许用户在本地直接对大模型进行基准测试。该工具内置了对AIME、GSM8K、GPQA等主流数学和逻辑推理数据集的支持,为开发者在本地对比不同量化版本和微调模型的实际性能提供了极其便利的官方解决方案。

来源examples : add llama-eval by ggerganov · Pull Request #21152 · ggml-org/llama.cpphttps://www.reddit.com/r/LocalLLaMA/comments/1tb0uln/examples_add_llamaeval_by_ggerganov_pull_request/