乐于分享
好东西不私藏

Claude Code Codex插件

Claude Code Codex插件

🔥 头条资讯

Claude Code Codex插件

🔗 https://x.com/reach_vb/status/2038670509768839458

Claude Code的Codex插件让用户能够轻松将Codex集成到工作流程中。这款插件功能全面,既能处理常规的Codex代码审查,也支持对抗性审查模式。当需要其他智能体二次复核时,还可将任务转交给Codex处理。

 插件通过本地Codex CLI和Codex应用服务器进行委托调用,完全兼容系统现有的本地认证、配置、环境及MCP设置。

QWEN3.5-OMNI:迈向规模化原生全模态AGI

🔗 https://qwen.ai/blog

Qwen3.5-Omni是一款全能型大语言模型,具备文本、图像、音频和视频的多模态理解能力。该模型支持处理长达10小时的音频输入,以及720P分辨率、每秒1帧的视频内容(最长可达400秒)。

其训练数据规模庞大,包含海量文本与视觉素材,以及超过1亿小时的音视频数据。在语音能力方面,模型支持113种语言及方言的识别,并能生成36种语言及方言的语音输出。 

Microsoft 365 Copilot新增”点评”与”议会”模式

🔗 https://www.testingcatalog.com/microsoft-365-copilot-gets-critique-and-council-modes/

微软365 Copilot新增了Critique和Council两种模式,显著提升了研究能力。其中:

  1. Critique模式采用双模型系统,既能生成研究草稿又能进行优化。在DRACO基准测试中,其表现比单模型方案高出13.88%。
  2. Council模式可以并行调用Anthropic和OpenAI的模型来生成报告,便于用户快速对比分析,汇总关键洞察。🧠

🔍 深度分析

大语言模型的镜像测试

🔗 https://www.lesswrong.com/posts/TfKM9PgztxieEcKiv/a-mirror-test-for-llms

这项”镜像测试”通过一个独特方法来评估大语言模型的自我意识水平:考察它们在无明确提示的情况下能否识别自身输出。测试结果显示,Anthropic的Opus 4.6模型表现突出,凭借独特的token输出模式展现出较强的自识别能力,明显优于OpenAI的GPT系列模型——后者完全无法辨认自身生成的token。 

虽然部分模型表现出尝试自我标记的迹象,但所有受测大语言模型都未能展现出持续稳定的自我意识。关键问题在于,它们都无法通过消息传递机制实现有效沟通。

2026年AI基础设施五大前沿领域

🔗 https://nextbigteng.substack.com/p/ai-infrastructure-roadmap-five-frontiers-for-2026

在AI发展的第一阶段,进步主要体现在参数量增加、数据规模扩大以及基准测试成绩提升。如今情况已大不相同。各大实验室正致力于开发能与现实世界互动的AI系统。

单纯追求规模和效率的基础设施已无法满足下一阶段需求。当前亟需的是能将AI系统与实际操作场景、真实体验和持续学习紧密结合的新型基础设施。

AI应用与垂直整合

🔗 https://www.tanayj.com/p/ai-applications-and-vertical-integration

AI应用公司正加速向”全栈化”发展,主要通过两种路径:向下深耕模型层,或向上拓展服务层。例如,Cursor和Intercom通过自研专有模型,在实现差异化的同时优化成本;Crosby AI和WithCoverage等企业则专注打造端到端服务。

随着AI技术持续进步,这种全栈战略不仅能提升性能、降低成本,还能为企业客户提供更完整的解决方案。


⚙️ 工程研究

Agent Labs:工作负载与智能体的完美适配

🔗 https://www.akashbajwa.co/p/agent-labs-workload-harness-fit

工作负载在多个维度上存在差异,包括数量、价值、验证属性和时间跨度等,这些差异直接影响智能体实验室的研究方向选择。通过工作负载分类体系,可以判断哪些终端市场值得投入训练资源,哪些更适合进行智能体工程优化。此外,实验室还需要精确计算实际执行成本。 TIMESFM(GitHub代码库) 

TimesFM是一个专门用于时间序列预测任务的预训练基础模型。该模型采用分块解码器风格的注意力机制,基于大规模时序语料库进行预训练,能够在不同历史长度、预测周期和时间粒度的场景下保持出色的预测性能。

COMPOSER 2 技术报告

🔗 https://arxiv.org/abs/2603.24477

Composer 2采用双阶段训练方法,结合持续预训练与强化学习,显著提升了长周期编码能力。该模型在软件工程基准测试中表现优异。


📌 其他资讯

人工智能时代的高薪工作机会充沛

🔗 https://www.noahpinion.blog/p/plentiful-high-paying-jobs-in-the-ff9

在AI时代,高薪工作可能不会消失。由于算力限制和能源消耗等现实约束,比较优势原则或将发挥作用——即便AI能力超群,但将所有任务都交给AI的机会成本过高,人类仍将在特定岗位保持优势。

随着AI技术的发展,人类角色可能发生转变。但新增任务和财富增长有望维持甚至提升人类工作的薪酬水平。

使用合规API审计Claude平台活动

🔗 https://claude.com/blog/claude-platform-compliance-api

Claude平台提供合规性API,帮助管理员实现以下功能: – 审计系统日志 – 监控用户活动 – 将数据整合到现有合规系统中 该API能够追踪两类关键信息: 1. 管理员执行的操作 

2. 资源变更记录(如文件创建和删除) 企业如需使用此功能,

需完成两个步骤: 

1. 联系专属客户经理

 2. 创建管理员API密钥


🔗 快速链接

DeepSeek中国区服务突发数小时宕机

🔗 https://www.siliconrepublic.com/enterprise/chinas-deepseek-suffers-rare-outage-lasting-several-hours

中国DeepSeek服务出现罕见中断,持续数小时之久。这是自其R1和V3模型发布后遭遇的最长时间故障,历时八小时才完全恢复。

星云科技(StarCloud)完成1.7亿美元A轮融资,将用于建设太空数据中心

🔗 https://techcrunch.com/2026/03/30/starcloud-raises-170-million-series-ato-build-data-centers-in-space/

StarCloud在A轮融资中获得1.7亿美元投资,公司估值达11亿美元。这笔资金将用于开发太空数据中心项目。

消费者AI现状报告·第三部分:时间即金钱

🔗 https://apoorv03.com/p/the-state-of-consumer-ai-part-3-time

消费级AI应用的市场前景广阔,其广告收入潜力可能超过订阅收入。 🚀 Transformers.js V4(GitHub代码库) Transformers.js v4引入了全新的WebGPU运行时环境。

这一改进使得开发者能够使用同一套transformers.js代码,在多种JavaScript环境中运行应用。