4/12/2026 AI速递 | AI编程新进展:谷歌、OpenAI及多家公司推出创新

研究人员通过将视频生成架构应用于训练实际计算机的世界模型,构建了一种名为“神经计算机”的新型系统。这种系统能够直接模拟计算机界面,从而实现与传统操作系统不同的交互方式。

用户输入如键盘敲击和鼠标点击,以及先前屏幕上的像素信息,被这些模型接收并用于预测和生成下一帧视频。这表明,无需依赖传统的操作系统,神经网络可以作为独立的视觉计算环境运行。
主要特点
- 仅基于录制的输入和输出轨迹进行训练。
- 成功学习了文本渲染和光标控制。
- 展示了神经网络在没有传统操作系统的情况下运行的可能性。
这项工作由Mingchen Zhuge、Juergen Schmidhuber等人完成,标志着计算、内存和I/O向学习运行时状态转移的新领域。研究者们提出了一种完全神经计算机(CNC)的概念,这是一种具有稳定执行、明确重编程和持久能力复用的通用神经计算机。
神经计算机的研究为未来的计算技术开辟了新的可能性,特别是在人工智能和机器学习领域,有望实现更高效、更智能的计算解决方案。
···

谷歌正在为其Mixboard实验开发新的语音模式和协作工具。
语音模式在Mixboard中的工作原理类似于Stitch,允许用户通过语音命令操作画布。用户可以通过语音生成和编辑图像,并可能实现图像的移动。
想象一下,在一个团队回顾会议上,每个人都可以通过语音命令直接表达他们的意见或反馈,这将极大地提高会议效率和参与度。
此外,Mixboard还将支持语音笔记功能,进一步丰富了用户的交互体验。
这些新功能不仅提升了用户体验,也为远程协作提供了更多可能性。通过语音控制,团队成员可以更灵活地进行项目管理和创意交流,特别是在多任务处理和快速迭代的场景中。
谷歌的这一举措展示了其在提升用户交互体验方面的持续努力,也反映了未来办公软件的发展趋势。
···

OpenAI正在为Codex开发一项新的实验性功能,名为Scratchpad。
该功能将允许用户从一个TODO列表视图中启动多个Codex聊天会话,并且这些会话可以并行执行。这将大大提高多任务处理的效率,尤其适用于需要同时进行多项编程任务的开发者。
Scratchpad将成为即将推出的Codex超级应用中的重要组成部分。在超级应用中,用户可以触发更广泛的任务来实现他们的目标,从而进一步提升生产力和工作效率。
尽管目前这一功能尚未正式推出,但其潜力已经引起了广泛关注。OpenAI希望通过Scratchpad的引入,帮助开发者更高效地完成复杂的编程任务,推动软件开发领域的创新。
预计在未来几个月内,OpenAI将提供更多关于Scratchpad的具体细节和发布时间。
···

现代职场中,每天处理大量邮件、会议和文档是常态,脑子里装着各种项目进展和人际关系。然而,每次使用AI工具时都得从头解释一遍背景,这无疑增加了工作负担。
最近发现了一个开源项目——Rowboat,它通过自动从我们的邮件和会议记录中构建知识图谱,基于这些积累的上下文帮助我们更高效地工作。与普通的AI助手不同,Rowboat不是每次临时搜索,而是持续积累我们的工作记忆,越用越懂我们。所有数据以Markdown文件形式存储在本地,可以随时查看和编辑。
GitHub链接: https://t.co/c3TFOb9GHT
例如,开会前只需说一句“帮我准备和Alex的会议”,Rowboat会自动整理过往决策、待办事项和相关邮件。此外,它还能直接生成演示文稿、起草邮件、追踪行动项,并支持创建实时笔记,自动跟踪某个人、公司或话题的最新动态。
Rowboat支持接入Gmail和Google日历,也支持本地模型或自带密钥的云端模型,提供Mac、Windows和Linux安装包,开箱即用。
如果你每天被信息淹没,希望AI助手能够真正理解你的工作全貌而不是每次都当陌生人,Rowboat值得你一试。
···

Perplexity已经开始提供之前宣布的**个人电脑(Personal Computer)**的早期访问。这款设备是一种全天候运行的本地化解决方案,能够24/7地为用户提供服务。

据预测,到2026年,企业自动化将成为最热门的人工智能话题之一。Perplexity推出的个人电脑正是这一趋势的一部分。
一位用户在推特上分享了他的体验,他在短短四周内花费了20,000美元用于Perplexity的个人电脑,以完全自动化他的业务。他收到了一封邮件,通知他已成为Perplexity的顶级用户,并将获得个人电脑的早期访问权限。他表示,这四周期间所实现的自动化成果改变了他的人生。
Perplexity的个人电脑通过集成先进的人工智能技术,帮助企业实现流程自动化,提高效率并降低成本。其应用场景包括但不限于客户服务、数据分析和报告生成等。
随着企业对智能化需求的增加,Perplexity的个人电脑有望成为推动企业数字化转型的重要工具。
···

使用本地大模型编写代码时,输出质量往往不稳定,需要反复调试和修改,这使得整个过程变得繁琐且耗时。相比之下,直接调用API可能更为省事。
然而,一个名为ATLAS的开源项目提供了一种新的解决方案:不通过微调模型,而是在模型外部包裹一层智能流水线,从而让本地小模型也能输出高质量代码。
ATLAS的关键特性包括:
- 自动生成多个候选方案,并通过沙盒验证和自我修复机制层层筛选出最优解。
- 整个过程完全离线运行,数据不出本机,确保了数据的安全性和隐私性。
- 只需要一张16GB显存的消费级显卡,就能达到接近前沿API模型的编码水平。
此外,ATLAS还提供了交互式命令行工具,用户只需在项目目录中敲入一条命令即可开始使用。对于复杂逻辑,系统会自动走完整个流水线;而对于简单文件,则可以迅速生成。
如果你希望在本地运行一个可靠的AI编程助手,而不依赖云端API或为token付费,ATLAS是一个值得考虑的选择。
···

当前,许多AI代理在前端开发方面表现出色,但在处理后端需求时却显得力不从心。一旦涉及到数据库、认证或存储等关键功能,这些代理往往无法胜任。
为解决这一问题,InsForge应运而生。这是一个专门为AI编码代理和编辑器设计的开源解决方案,通过提供一个语义层来暴露后端基础组件,如数据库、认证、存储和函数,从而使得AI代理能够理解、推理并操作整个后端流程。
InsForge 的核心优势在于其广泛的兼容性,无论你使用的是Cursor、Claude Code、Codex、OpenClaw还是Hermes,都可以无缝集成。
作为100%开源项目,InsForge鼓励开发者参与贡献,并在GitHub上获得了广泛关注。如果你对这个项目感兴趣,不妨访问其GitHub仓库并给予支持:https://github.com/insforge/insforge。
···

随着软件项目的规模和复杂度不断增加,代码之间的依赖关系和架构决策变得越来越难以理清。传统的手动翻阅文件的方式已经无法满足需求。
**graphify**是一个开源项目,它能够自动将整个代码库构建成知识图谱,使得AI助手能够真正“看懂”项目结构。用户只需在Claude Code、Cursor、Gemini CLI等主流AI编程工具中输入一条命令,即可生成可交互的知识图谱、架构报告和可查询的数据文件。
不仅如此,graphify还支持多种文件类型,包括PDF论文、截图、白板照片甚至视频音频,自动提取概念和关联,统一串成一张图。其代码部分通过本地语法树解析,不发送到云端,目前支持20种编程语言。
主要功能特点:
- 自动生成可交互的知识图谱
- 支持多种文件类型的导入
- 本地语法树解析,保障数据安全
- 显著减少token消耗,提高查询效率
对于大型项目而言,使用graphify可以极大地提升开发效率和代码质量。如果你的项目越来越大、文件越来越多,不妨试试这个工具。
GitHub地址:https://github.com/graphify-ai/graphify
···

当前,许多人使用AI辅助编写代码时,通常采取一对一的方式,即完成一个任务后再安排下一个,这种模式的实际效率往往低于预期。
最近开源的Multica平台提出了一种全新的思路,将AI编程助手转变为真正的虚拟团队成员。用户可以像给同事分配任务一样,在看板上发布需求,AI会自动接收并开始编程工作。执行过程中遇到问题时,AI会自动汇报并更新任务状态,彻底解决了手动监控的问题。
每次解决问题后,所采用的方法会被记录下来,形成可复用的技能库,帮助打造越来越高效的专属团队。Multica平台支持多种主流编程工具,如Claude Code和Codex,并且可以通过Docker进行本地私有化部署,确保数据安全。
对于已经使用AI编程助手的团队而言,从“一个人盯一个”转变为“一个人管一群”,Multica平台提供了一个极佳的选择。
···

Meta公司最新推出的Muse Spark在LM Text Arena中取得了第三名的好成绩,与Gemini 3.1 Pro并列。这是Meta自2025年初以来的首次重大发布。

此次发布标志着Meta在文本和视觉领域的双重突破。在文本领域,Muse Spark在LM Text Arena中排名第三,与Gemini-3.1-Pro和Claude-Opus-4.6并列;在视觉领域,它排名第二,与Claude-Opus-4.6并列。

Muse Spark在多个子领域表现出色:
- 硬提示(Hard Prompts):第四名
- 编程(Coding):第六名
- 创意写作(Creative Writing):第九名
- 指令遵循(Instruction Following):第十名
- 专家任务(Expert Tasks):第二十七名
此外,在商业、管理及金融运营方面,Muse Spark与Gemini-3.1-Pro并列第三;在法律与政府领域排名第七;在写作与文学领域则排名第十二。
Meta此次回归前沿技术舞台,展示了其在多模态模型方面的强大实力。这次里程碑式的成就不仅彰显了Meta在AI领域的持续创新能力,也进一步推动了行业的发展。未来,MSI将以何种频率推出新的模型更新,值得期待。

夜雨聆风