随着多模态大语言模型(MLLMs)的飞速发展,如何让模型从"被动理解图片"进化为"主动寻找证据并推理"的智能体(Agent),已成为当前AI领域竞争的核心。为了打破高质量训练数据、自动化轨迹合成路径以及详细训练配方缺失的僵局,腾讯混元联合加州大学洛杉矶分校(UCLA)、香港中文大学等机构的研究团队正式发布了OpenSearch-VL。这是一个完全开源的路线图,旨在通过强化学习(RL)技术打造具备前沿能力的深度搜索智能体。
研究团队创新性地开发了一套精细的数据固化流程,利用维基百科的超链接图谱进行路径采样,将复杂的实体关系转化为多跳(Multi-hop)问答,并通过模糊实体重写和基于源码锚点的视觉定位技术,强迫模型进行多步推理,避免"搜索捷径"。团队基于此构建了包含3.6万条指令微调轨迹的SearchVL-SFT数据库,以及8000条用于强化学习的SearchVL-RL数据库。
OpenSearch-VL还集成了一个多元化的工具环境,不仅包含网页搜索和反向图像搜索,还加入了OCR、图像裁剪、锐化、超分辨率重建以及透视校正等功能,使智能体能够像人类一样先通过"主动感知"修复不完美的视觉输入,确保后续搜索的精准度。
此外,项目提出了"多轮故障感知GRPO"训练算法,能够灵敏捕捉工具调用中的"致死点",保留故障发生前的有用逻辑,让模型从失败中学习。测试结果显示,OpenSearch-VL在七项主流多模态深度搜索基准测试中表现卓越,平均性能提升超过10个百分点,某些特定任务上已足以与顶级闭源商业模型相媲美。
国内大模型领军企业北京月之暗面科技有限公司(Moonshot AI)近期在知识产权布局上有了新动向。据天眼查公开信息显示,该公司已提交了多枚"KimiClaw"商标的注册申请。这些商标的国际分类涵盖了科学仪器、网站服务以及通讯服务等多个核心领域。目前,相关商标状态均处于"等待实质审查"阶段。
这一动作引发了业内对于Kimi未来产品形态的诸多猜想,尤其是在科学仪器分类下的布局,是否预示着公司将从纯软件算法向硬件设备或更具象的物理交互产品延伸。
北京月之暗面科技有限公司成立于2023年4月,由杨植麟领衔创办。作为一家专注于通用人工智能领域的初创公司,其创始团队成员包括周昕宇、吴育昕等行业资深人士。公司的经营范围十分广泛,除了核心的人工智能基础软件与应用软件开发外,还涉及软件销售等业务。
自成立以来,月之暗面凭借其长文本处理能力在AI圈迅速走红。近期更有消息传出,公司即将完成一笔规模达20亿美元的新融资,估值有望突破200亿美元大关。随着资本的持续加码和"KimiClaw"等新商标的出现,月之暗面在人工智能生态链上的野心正逐步显露。
暂无最新资讯
本周四,Google DeepMind宣布与著名科幻在线角色扮演游戏《EVE Online》(星战前夜)开发商达成合作,并收购了其部分股权,旨在利用这款全球最硬核的游戏研究"复杂、动态、玩家驱动的系统中的智能"。
此次合作正值《EVE Online》上线23周年纪念日,游戏开发商CCP Games宣布斥资1.2亿美元赎身独立,并更名为Fenris Creations。Fenris和DeepMind表示,EVE提供了一个"独一无二的丰富研究环境",尤其在开发使用"长远规划、记忆和持续学习"的人工智能系统方面具有巨大潜力。
DeepMind计划在本地服务器上运行的专门设计的离线版本游戏中对其AI模型进行受控实验,以避免直接影响在线玩家的游戏体验,并探索这些技术带来的全新游戏体验。
Google DeepMind长期以来一直将游戏作为机器学习模型的试验场,从AlphaGo在围棋上的突破,到AlphaStar在《星际争霸》等游戏中超越人类顶尖玩家。近期,世界模型在AI领域成为重要发展方向,DeepMind的一系列研究正在探索通过模拟环境的训练来帮助AI系统学会在现实世界中运行。
EVE Online以其庞大且真实的复杂系统、单服务器宇宙架构、完全由玩家驱动的沙盒特性,以及其内部合纵连横的经济、战争和政治演化,为AI智能体提供了前所未有的学习和演化环境。此前,EVE还曾通过"Project Discovery"项目将"公民科学"与游戏机制结合,让玩家协助科学家进行蛋白质图谱、系外行星搜寻和癌症数据分析等科研任务,其贡献甚至登上了《自然・生物技术》等学术顶刊。


在AI领域的激烈竞争中,Anthropic的估值近日在链上Pre-IPO市场飙升至惊人的1.2万亿美元(约合人民币8.7万亿元),首次反超OpenAI,成为全球AI新巨头。这一爆炸性消息震惊了全球AI圈,如果Anthropic以此估值顺利完成首次公开募股,它将直接空降全球第11大上市公司,缔造商业史上的新神话。
短短七天内,Anthropic估值暴涨20%,自2025年10月以来实现了900%的恐怖增长。估值暴涨的背后,是Anthropic真实业绩的火箭式攀升。CEO Dario Amodei在最近的旧金山开发者大会上透露,今年第一季度,Anthropic的年化收入和使用量同比实现了惊人的80倍增长,远超其原本10倍的规划。推动这场狂飙的引擎,正是2025年底上线的Claude Code,其在开发者群体中的扩散速度超出了所有人的预期。
面对超高速增长带来的算力基础设施压力,Anthropic获得了意想不到的盟友——埃隆·马斯克。Anthropic宣布与SpaceX达成独家合作,拿下其Colossus 1数据中心的全部算力,包含超过300兆瓦的计算能力和惊人的22万块英伟达顶级GPU。这些算力将在一个月内全部到位,极大地缓解了Anthropic的燃眉之急。
此外,Anthropic还与谷歌签署了一份为期五年、价值约2000亿美元的云服务协议,形成了AWS Trainium、谷歌TPU、英伟达GPU三线并进的算力格局。
然而,新王加冕的背后也隐藏着隐忧。Anthropic和OpenAI都计划在2029年前上市,但其1.2万亿美元的估值建立在2029年收入增长20至30倍的乐观假设之上,这需要每年翻倍的增长,意味着巨大的电力、芯片和资金消耗。


苹果公司近日就一起Siri人工智能相关的集体诉讼达成和解,支付金额为2.5亿美元。这起诉讼源于苹果在2024年全球开发者大会(WWDC24)高调发布的新一代Siri升级计划。新版Siri当时据称将依托Apple Intelligence架构,具备应用内深度操作、情境感知、连续对话等颠覆性能力,并随iPhone 16系列同步推向市场。
然而在去年3月,苹果突然宣布Siri AI功能延期,原定同步上线的核心AI能力被推迟至iOS 27版本,与2026年WWDC一同亮相。原告方在诉讼中指出,苹果宣传的是"当时不存在、短期内也无法实现"的功能,构成虚假宣传与不正当竞争,诱导用户购买未具备宣传能力的设备,侵害消费者与投资者权益。
根据和解条款,2.5亿美元赔偿金将面向2024年6月10日至2025年3月29日期间购买符合条件iPhone机型的美国用户发放,单台设备赔付标准为25美元,索赔人数低于预期时最高可达95美元。苹果在协议中未承认任何过错,称和解是为聚焦产品创新与用户服务。该案仍待法院正式批准生效。
作为全球首款消费级语音助手,Siri曾奠定行业标准,但过去十余年间迭代缓慢,理解准确率、复杂任务处理能力持续落后于谷歌Assistant、微软Copilot等竞品。2024年推出的Apple Intelligence曾被苹果寄予厚望,但遭遇代码老旧、跨部门协同低效、大模型适配困难等多重障碍,核心功能多次跳票。
值得注意的是,今年1月,苹果与谷歌曾达成一项多年期合作协议,苹果下一代基础模型将基于谷歌Gemini模型及云技术构建。这些模型将为未来苹果智能功能提供支持,包括预计于今年晚些时候推出的Siri重大升级版本。这一调整也标志着苹果从"全栈自研"向"平台开放"妥协。
甲骨文公司近日放弃了修建天然气发电厂为其最新一座数据中心供电的争议计划,转而选择与燃料电池制造商Bloom Energy公司合作,在园区内就地发电。这个名为"木星计划"的新墨西哥州园区,是甲骨文与人工智能公司OpenAI达成3000亿美元云计算合作项目的一部分。
数月来,"木星计划"潜在的环境影响一直受到当地社区的密切审视与多方猜测。甲骨文称,Bloom Energy的技术将为这座数据中心大幅减少用水量,并保护当地空气质量。此次计划的突然变更,折射出人工智能基础设施建设充满不确定性的现状,随着各大科技巨头争相新建数据中心、争夺日益稀缺的电力资源,这种不确定性还在不断加剧。
美国各地的公用事业电网已不堪重负,大量数据中心纷纷申请并网供电。为避免长达数年的并网等待周期,许多项目开发商转而采用自带供电(BYOP)模式,选择在园区内自行供电。甲骨文正大力押注自带供电模式,除"木星计划"外,该公司还宣布与OpenAI合作,计划在得克萨斯州另外两座数据中心项目中修建天然气发电厂。
此前,"木星计划"曾遭到联邦及州级监管机构的阻拦,以及地方民众的强烈抵制,主要担忧电厂对当地用水和空气质量的潜在影响。尽管燃料电池技术可适配多种燃料,但目前多数仍以天然气制取的氢气为能源。根据最新许可申请,"木星计划"的燃料电池仍将使用天然气作为燃料。
Bloom Energy辩称其技术能降低天然气使用过程中的碳排放,但目前,燃料电池技术从未在"木星计划"这类超大规模数据中心场景中落地应用过。甲骨文称,此次与Bloom Energy的合作项目,可为数据中心提供最高28亿瓦的电力,足以满足200多万户家庭的用电需求,这也是Bloom Energy迄今为止规模最大的数据中心合作项目。

xAI公司于今日宣布,正式面向开发者与企业团队推出Grok Imagine API的"质量模式"(Quality Mode)。这一重大更新标志着xAI在图像生成领域取得了实质性突破,尤其在画面写实度、文字渲染精度以及创意控制力三个核心维度上实现了跨越式升级。
新推出的质量模式显著提升了图像的细腻程度,能够捕捉极其自然的皮肤纹理、毛孔细节以及复杂的光影变化。无论是模拟中画幅社论摄影的胶片质感,还是还原意大利夏日午后斑驳的树影,新模型在材质表现和建筑构图上都展现出了更强的专业性,使得生成的图像不再具有明显的"AI感",而是更加趋向于真实摄影的视觉效果。
长期以来,图像生成模型在处理复杂文本时常会出现字符错误或排版混乱。质量模式针对性地解决了这一痛点,展现了强大的多语言文字渲染能力。开发者现在可以轻松生成带有清晰菜单说明、品牌标签甚至是特定历史解说的图像,且文字排版整洁、字迹精准。
在创意控制方面,新模型对提示词的遵循度更高,能够更准确地理解复杂的场景描述。无论是进行跨媒介的品牌视觉延展——如将一张车辆照片转化为火星主题的活动海报,还是保持人物面部一致性的UGC风格自拍,质量模式都表现出了极高的场景稳定性。
根据最新发布的Text-to-Image Arena竞技场排名,xAI的这一新模型已稳居全球顶尖梯队,在独立基准测试中表现亮眼。针对企业用户,该API提供了从产品可视化到自动化营销素材生成的全套解决方案。通过简单的Python SDK调用,企业开发者即可将高质量的图像生成能力集成到自有工作流中。
此外,质量模式还将进一步增强视频生成能力。通过与现有的视频模型配合,品牌方可以更高效地产出社交媒体资产、产品展示短片及各类商业广告。目前,Grok Imagine质量模式已正式上线API平台,开发者可通过查阅官方文档获取技术支持并开启试用。
夜雨聆风