AI 与软件开发日报(第三期):OpenAI宣布GPT模型、Codex及Managed Agents正式登陆AWS

要点速览

微软与OpenAI正式结束独家及收入分成协议，AI合作模式生变。
Mercor遭遇严重数据泄露，4TB语音样本被盗，影响4万承包商。（参考：https://app.oravys.com/blog/mercor-breach-2026）
Mistral发布Medium 3.5 128B模型，具备256k上下文窗口处理能力。（参考：https://www.reddit.com/r/LocalLLaMA/comments/1sz1qer/mistralaimistralmedium35128b_hugging_face/）
OpenAI宣布GPT模型、Codex及Managed Agents正式登陆AWS。（参考：https://openai.com/index/openai-on-aws）
谷歌据报与美国五角大楼达成AI合作协议，允许“任何合法”用途。
传闻称中国领先的开源AI公司DeepSeek与Kimi正在筹备合并事宜。（参考：https://www.reddit.com/r/OpenAI/comments/1sz4jea/rumor_deepseek_and_kimi_are_merging_while_the_us/）
AI芯片产能挤压导致主板销量暴跌超25%，PC硬件市场遇冷。

Mistral发布Medium 3.5 128B模型，具备256k上下文能力，整合指令、推理和编码，取代前代3.1及Magistral。
https://www.reddit.com/r/LocalLLaMA/comments/1sz1qer/mistralaimistralmedium35128b_hugging_face/
DeepSeek开源V4预览版，支持高达100万tokens的超长上下文，并在代理能力和推理性能上有所提升。
https://technode.com/2026/04/24/deepseek-v4-preview-now-available-with-open-source-access/
Google DeepMind推出AlphaEvolve，这是一个由Gemini驱动的编码代理，其影响力正在扩展至多个领域。
https://deepmind.google/blog/alphaevolve-impact/
IBM发布Granite 4.1系列模型，包含3B、8B和30B参数版本，进一步扩展了其开源企业级AI模型家族。
https://www.reddit.com/r/LocalLLaMA/comments/1sz23wn/introducing_the_ibm_granite_41_family_of_models/
社区测试显示Qwen 3.6 27B模型表现优异，有开发者在双RTX 5060 Ti 16GB上实现204k上下文运行。
https://www.reddit.com/r/LocalLLaMA/comments/1sysyz2/qwen36_27b_on_dual_rtx_5060_ti_16gb_with_vllm_60/

Vercel Labs发布Open Agents开源模板，旨在帮助开发者快速构建基于云端的AI代理应用，极大简化云端部署流程。
https://github.com/vercel-labs/open-agents
LocalSend成为Hacker News热门，这是一个跨平台的开源AirDrop替代方案，无需联网即可传输文件。
https://github.com/localsend/localsend
开发者开源GitNexus引擎，这是一款零服务器依赖的浏览器端知识图谱生成器，支持Graph RAG代理。
https://github.com/abhigyanpatwari/GitNexus
名为Dirac的开源Agent在TerminalBench测试中击败Google官方及闭源模型，且声明未使用任何作弊手段。
https://github.com/dirac-run/dirac
微软开源VibeVoice前沿语音AI项目，为开发者提供构建高级语音应用的新工具，增强语音交互能力。
https://github.com/microsoft/VibeVoice

微软与OpenAI结束独家收入分成协议，标志着双方合作关系进入新阶段，可能影响行业格局。
https://www.bloomberg.com/news/articles/2026-04-27/microsoft-to-stop-sharing-revenue-with-main-ai-partner-openai
OpenAI宣布其模型、Codex及托管代理服务将登陆AWS，企业可在AWS环境中构建安全的AI应用。
https://openai.com/index/openai-on-aws
云平台Railway获1亿美元B轮融资，旨在凭借AI原生云基础设施挑战AWS等传统云服务商。
https://venturebeat.com/infrastructure/railway-secures-usd100-million-to-challenge-aws-with-ai-native-cloud
谷歌据报与美国五角大楼达成协议，允许军方“任何合法”使用其AI技术，引发广泛伦理争议。
https://www.theverge.com/ai-artificial-intelligence/919494/google-pentagon-classified-ai-deal
Perplexity宣布其面向Mac的Personal Computer应用向所有用户开放，进一步普及桌面端AI代理。
https://techcrunch.com/2026/05/07/perplexitys-personal-computer-is-now-available-everyone-on-mac/

AI初创公司Mercor遭遇严重数据泄露，高达4TB的语音样本被窃取，波及4万名AI承包商，引发隐私担忧。
https://app.oravys.com/blog/mercor-breach-2026
Hugging Face上名为Open-OSS/privacy-filter的模型被揭露为恶意软件，可通过Python脚本下载病毒。
https://www.reddit.com/r/LocalLLaMA/comments/1t6febk/warning_openossprivacyfilter_malware/
AISLE在OpenEMR医疗软件中发现38个CVE严重漏洞，该软件被超过10万名医疗服务提供者使用。
https://aisle.com/blog/aisle-discovers-38-critical-security-vulnerabilities-in-healthcare-software-used-by-100000-providers
中国发改委宣布禁止外国投资者收购通用AI代理项目Manus，要求立即取消相关交易活动。
https://technode.com/2026/04/27/china-bars-foreign-investment-in-manus-ai-project-as-scrutiny-on-ai-exports-grows/
谷歌Chrome浏览器撤回了关于“设备端AI不向服务器发送数据”的隐私声明，引发用户对数据安全的质疑。
https://old.reddit.com/r/chrome/comments/1t5qayz/chrome_removes_claim_of_ondevice_al_not_sending/

开发者撰文探讨AI代理架构，指出代理开发需要的是控制流而非仅仅是更多的提示词，引发行业思考。
https://bsuh.bearblog.dev/agents-need-control-flow/
arXiv论文提出LongSeeker框架，利用弹性上下文编排技术解决长时序搜索代理的上下文管理问题。
https://arxiv.org/abs/2605.05191v1
Qwen团队发布FlashQLA，基于TileLang构建的高性能线性注意力内核，专为个人设备上的代理AI设计。
https://www.reddit.com/r/LocalLLaMA/comments/1syx4sg/qwen_introduced_flashqla/
研究人员提出ClassEval-Pro基准，专门用于评估LLM在类级别代码生成（组合代码创建）方面的能力。
https://arxiv.org/abs/2604.26923
最新论文提出一种低成本黑盒方法，通过动力系统预测来检测大语言模型的幻觉，无需昂贵采样。
https://arxiv.org/abs/2605.05134v1

博客文章“AI Slop正在扼杀在线社区”在HN引发热议，讨论低质量AI生成内容对网络生态的负面影响。
https://rmoff.net/2026/05/06/ai-slop-is-killing-online-communities/
Reddit网友分享与“Vibe Coder”共事的经历，抱怨同事过度依赖Claude生成代码而缺乏深入理解。
https://www.reddit.com/r/webdev/comments/1t6eupy/ive_been_working_with_a_vibe_coder_and_this_has/
开发团队反思AI工具成本：5人团队每月在Cursor、Claude等工具上的花费达945美元，引发关于ROI的讨论。
https://www.reddit.com/r/webdev/comments/1sz5p6f/our_ai_stack_costs_more_than_i_realized/
开发者讨论在生产环境中认真使用Qwen 27B模型进行编码的体验，认为其能力惊人但仍有改进空间。
https://www.reddit.com/r/LocalLLaMA/comments/1szajgm/devs_using_qwen_27b_seriously_whats_your_take/
拥有12年经验的开发者发文称AI工具让自己变得低效且分心，质疑过度依赖AI对工作流的负面影响。
https://www.reddit.com/r/webdev/comments/1sz2ohi/ai_is_making_me_less_productive_and_more/