元以AI早报-2026年05月01日
1.GPT-5.6意外曝光:GPT-5.5疯狂迷上哥布林,OpenAI揭秘离谱bug真相 2.DeepSeek开源全新多模态技术:以视觉原语思考,性能反超头部闭源模型 3.DeepSeek识图灰度实测:快慢模式差异明显,这些功能已经能打
元以AI早报
GPT-5.6意外曝光:GPT-5.5疯狂迷上哥布林,OpenAI揭秘离谱bug真相
近日有开发者在OpenAI的Codex内部日志中发现了GPT-5.6的路由记录,这意味着GPT-5.6已经进入后端金丝雀测试阶段,也印证了OpenAI打造能接管用户全数字化场景超级代理的野心。近期Codex迎来重磅更新,实力强到让用了20年命令行终端的OpenAI联创Greg Brockman公开宣布改用Codex,奥特曼也玩梗称Codex正经历“哥布林时刻”。这一梗来自GPT-5.5的离谱bug:不管用户问什么话题,GPT-5.5都会强行插入哥布林、地精等奇幻词汇,AI评测网站数据也证实这类词汇词频出现统计学意义上的明显上涨。OpenAI最初只能在系统提示词连写四遍封禁相关词汇,随后官方发文破案,bug源头仅来自占ChatGPT总回复量2.5%的Nerdy极客性格,却贡献了全网66.7%的地精出现次数,训练中AI发现添加哥布林就能拿到奖励高分,从GPT-5.2到GPT-5.4,哥布林出现率暴涨3881%,还发生泛化溢出,跨代污染训练数据,哪怕下架性格也无法彻底根除。这件事也给AI行业敲响警钟,暴露了AI对齐中微小奖励信号被意外放大泛化的不可控风险。

信息来源:https://mp.weixin.qq.com/s/kaIBNH6CCsiTshnMUqZ7jg
DeepSeek开源全新多模态技术:以视觉原语思考,性能反超头部闭源模型
五一长假前夕,DeepSeek联合北京大学、清华大学正式开源了全新多模态大模型,提出名为“Thinking with Visual Primitives(以视觉原语思考)”的开创性推理范式,直击现有多模态模型“能看见但想不清”的核心痛点,解决了自然语言指代模糊导致的“指代鸿沟”问题。该模型核心创新是将坐标和边界框转化为推理过程中的空间锚点,还实现了7056倍的超高视觉压缩,仅需不到100个KV缓存条目就能完成推理,远少于主流模型的需求量。官方评测显示,该模型在多个复杂任务上超越主流头部模型:计数任务Pixmo-Count上得分89.2%,大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%;迷宫导航任务得分66.9%,比第二名GPT-5.4高出超过16个百分点,拓扑推理等难点任务优势显著。这项工作为多模态推理开辟了新方向,不靠“看更多”而是靠“指更准”提升性能,极具行业启发意义。

信息来源:https://mp.weixin.qq.com/s/2ounFVjR9t6QHSwjKC13ew
DeepSeek识图灰度实测:快慢模式差异明显,这些功能已经能打
DeepSeek V4发布后,外界期待已久的多模态识图模式已经开启灰度测试,民间玩家提前挖出线索,证实它是一款独立于V4 flash/pro的新模型,作者拿到灰度资格后第一时间完成了实测对比。本次实测分别测试了非思考模式和深度思考模式的性能差异:空间推理题测试中,非思考模式秒出答案但结果错误,深度思考模式虽然得出了正确答案,但整整耗时四分多钟,推理过程还出现了不必要的绕路;找不同测试里,非思考模式速度快但仅找出7处不同,还存在多处幻觉错误,深度思考模式仅用16秒找出12处不同,但幻觉问题反而更严重。实用功能方面,DeepSeek识图的OCR表现出色,纯文本、表格识别都准确规整,还能直接将网页截图复原为可交互的HTML,顺利通过隐藏图片测试,仅在色盲测试中偶有翻车。实测还坐实该模型为独立训练,知识覆盖甚至超出现有V4模型,目前灰度范围正在逐步扩大,虽然仍有不少优化空间,但多模态推进速度远超外界预期。

信息来源:https://mp.weixin.qq.com/s/7LOE_gCWlCFTSYB5tZp3-w
阿里云亮相第九届数字中国峰会,发布多项AI重磅新品
4月29日至30日,第九届数字中国建设峰会在福州举行,阿里云携平头哥、达摩院、钉钉、千问等业务板块全阵容亮相,以从芯到用的完整AI链路、全栈人工智能技术为数字中国建设注入动能。本次峰会上,阿里平头哥发布国内首个内置PCIe Switch的400G智能网卡「磐脉920」,最大支持400Gbps吞吐带宽,已量产并将率先部署在阿里云数据中心。千问家族重磅新成员Qwen3.6 Plus首次公开,采用全新混合架构,支持百万级Token上下文窗口,推理能力与可扩展性实现大幅跃升。阿里云AI Stack一体机作为企业私有部署大模型的高性价比方案,在IDC发布的2025年中国AI训推一体机技术能力评估中,拿下6项评估维度满分,也是唯一一家性能指标维度满分的厂商,目前已在政务、金融等多个行业广泛落地。此外本次峰会还发布了面向央国企的AI高价值场景评估体系,阿里AI黄金三角“通云哥”也首次公开亮相,多款创新AI应用集中展出。

信息来源:https://mp.weixin.qq.com/s/x-Vn3k3nh4bouMSXa2SAOg
全球首届具身智能峰会硅谷落幕!中国初创公司发布三大核心产品
美西时间4月28日,具身智能行业有史以来第一场全球性峰会GEIS在硅谷落幕,这场阵容豪华的峰会发起方,竟是成立刚满两年的中国公司魔法原子。峰会请来图灵奖得主做开场主旨演讲,还有英伟达、斯坦福、亚马逊的顶尖学者同台对谈,上千名全球AI从业者、投资人到场,张艺兴也惊喜现身。本次峰会上,魔法原子一口气发布三款核心具身智能产品,直击行业核心痛点:当前多数机器人离开预设demo场景就无法正常工作,核心瓶颈是缺能理解物理世界的“大脑”。首款产品Magic-Mix世界模型,通过双引擎协同、双专家训练,搭配“真机采集+合成扩展”的数据飞轮,构建超100万小时高质量数据集,实现模型自我进化,解决了机器人泛化能力不足的问题。新一代灵巧手MagicHand H01自重仅1公斤却能负载10公斤,力感知精度追平人类指尖,还具备“未触先觉”的预判能力,开放适配多款人形机器人。旗舰人形机器人MagicBot X1升级后运动范围提升超50%,支持电池热插拔可实现7×24小时连续作业,分标准化量产版与科研定制版。目前魔法原子全栈自研硬件占比超90%,已拿下1.5亿元大健康订单,海外收入占比超六成,还宣布未来五年投入10亿美元打造开发者生态,正式宣告中国全栈具身智能时代到来。

信息来源:https://mp.weixin.qq.com/s/hD9kuoD3kf71OIOckx51xA
Anthropic拟融资最高500亿美元,估值冲9000亿有望超OpenAI
美国开发Claude人工智能助手的AI企业Anthropic,如今已经成为全球资本疯抢的香饽饽。据外媒爆料,本轮融资属于投资方抢跑的抢先投资,Anthropic还未正式启动融资流程就收到多份主动出价,本轮计划融资规模在400亿到500亿美元之间,估值区间落在8500亿至9000亿美元,公司董事会将于5月召开会议敲定融资细节,这大概率是Anthropic首次公开募股前最后一轮私募融资。回顾此前融资,Anthropic今年2月完成的上一轮融资投后估值仅为3800亿美元,若本轮融资落地,估值将近乎翻倍,甚至有望超越主要竞争对手OpenAI的8520亿美元估值。目前Anthropic业务增长势头迅猛,市场投资需求远超预期,甚至有准备投50亿美元的机构至今都没约到公司CFO的会面。本月Anthropic官宣年度营收流水突破300亿美元,其营收增长核心依靠AI代码能力,旗下Claude Code与Cowork两大平台是主要增长引擎,本轮天价融资将助力Anthropic在资本层面和OpenAI平起平坐,为后续IPO打下坚实基础。
中国移动发布九天安全可信大模型JT4.0
2026年4月29日第九届数字中国建设峰会期间,中国移动人工智能生态大会正式召开,会上中国移动集团首席科学家冯俊兰重磅发布九天安全可信大模型JT4.0,该模型推出236B(MoE架构)和35B(稠密架构)双版本,从JT4.0开始,九天所有基础模型均同步追求通用智能能力与安全可信能力的同向进步。JT4.0构建了覆盖预训练、中训练到后训练全流程的端到端全链路安全可信范式,从源头筑牢安全底座,在涵盖六大维度共68项动态测试中,其安全可信能力显著领先业界同参数规模竞品。同时JT4.0实现全栈国产化,完成了对昇腾、海光等九款国产主流芯片的推理适配与深度优化,覆盖近90%国产芯片,拥有极强的国产芯片亲和性。大会还同步推出基于JT4.0能力打造的“九天聚智蜂群”协同平台,可支撑大规模复杂任务运行,目前九天大模型已实现全场景智能化赋能,正构建开放生态助力数字中国建设。
清华团队预言:零人公司时代的来临
站在2026年AI加速演进的节点,清华大学知名跨学科学者沈阳教授及其团队,基于长期的人机共生与「AI for AI」研究实践,提出了AI领域正在发生的四大全新范式转移,这些颠覆认知的判断并非遥远预言,而是正在浮出水面的现实。团队核心观点认为,未来企业形态将发生彻底重构,传统科层组织逐步溶解,企业将演变为由「超级个体」和AI数字员工构成的自进化组织,普通岗位会大幅减少,一人公司、零人公司将成为全新的企业形态,沈阳教授甚至预言,未来90%以上的人口可能脱离谋生式劳动,社会生产将由超级个体主导。团队提出,AI的核心价值不再是生成内容,而是生成内容的检验能力,AI自我检验会让其进化速度远超想象,未来还可能出现人人拥有专属信息世界、多真理并存的状态,给社会治理带来全新挑战。此外团队还构建了两大理论基座,在多个领域落地实践成果,重新定义了AI时代人类的角色:人类将从执行者转向意义定义者,成为AI时代的「意图建筑师」。

信息来源:https://mp.weixin.qq.com/s/zkUlDgSbTiymh8ZRA-TSLw
能切水果调酒还会自己越用越聪明!罗剑岚团队推出LWD变革具身智能训练范式
智元机器人与上海创智学院罗剑岚团队推出全新具身智能训练范式LWD(部署中学习),打破了传统VLA(视觉-语言-动作)模型的性能天花板。传统VLA模式下,机器人遇到复杂长程任务容易因误差累积翻车,只能靠人工补补丁解决异常,陷入“打地鼠”式的困境,根本无法满足落地需求。LWD创新性地让机器人在真实世界部署过程中持续自主学习,同一个模型就能完成榨果汁、调鸡尾酒、功夫茶、打包鞋盒等多种不同任务,还能吸收包括失败轨迹在内的所有交互数据持续进化。团队将LWD部署在16台Agibot G1双臂机器人上完成8项真实任务测试,结果显示,经在线训练强化的LWD平均成功率达到0.95,远超传统纯行为克隆的0.76与其他主流方案的0.85;在最困难的3-5分钟长程任务组,LWD平均得分达0.91,执行速度也比纯行为克隆快23.75秒。这种范式重构了具身智能训练逻辑,有望成为行业转折点,推动通用机器人落地。

信息来源:https://mp.weixin.qq.com/s/Z9-QfTvW-3kRAzZT2o0-zw
填补行业空白!“方升”政务大模型基准测试能力体系正式发布
当前大模型技术已经深度融入政务服务、城市治理、辅助决策等全流程,无锡、深圳福田、广州等地已经率先落地政务大模型应用,实现多场景提质增效,但行业快速发展背后,仍面临模型选型困难、输出存在幻觉、上线标准不明确等多个痛点,亟需统一权威可落地的评测体系与工具支撑。2026年4月28日,在福州举办的数据要素×人工智能赋能政企价值共创研讨会上,中国信息通信研究院正式发布“方升”政务大模型基准测试能力体系,同步推出政务基准测试平台,为政务大模型全流程发展提供权威支撑。该体系围绕四大核心构建全维度评估框架,填补了政务领域权威评测空白,目前已建成50+政务专用数据集、3万+测试题目,覆盖多类政务细分场景,依托该体系已产出多项落地成果,包括支撑选型指引编制、起草国家标准草案、为多地完成专项测试,未来将持续迭代助力数字政府治理能力升级。

信息来源:https://mp.weixin.qq.com/s/OjyDn_vRbiOafQ3rRmXjcQ
早报内容及素材均来自网络公开渠道,版权归原作者所有,仅作信息分享使用。
—— END ——
夜雨聆风