乐于分享
好东西不私藏

AI情报助手日报04-03

AI情报助手日报04-03

AI技术前沿

  • Heracles中间件使人形机器人更“拟人”。
    Heracles是新型状态条件扩散中间件,能让机器人兼顾精确运动与灵活适应,生成拟人化恢复轨迹,使机器人从刚性跟踪转向开放式生成通用架构。
  • IMPASTO机器人油画系统能“复刻”油画笔触。
    IMPASTO通过学习人类艺术家的笔触和艺术品,实现高度精确的复制,结合像素动力学模型和基于模型的规划,解决了机器人绘画的复杂挑战。
  • 智谱AI发布多模态Coding基座模型GLM-5V-Turbo。
    GLM-5V-Turbo能深度融合视觉与文本能力,直接将设计稿、截图、视频转化为可运行代码,将AI Agent的感知链路从纯文本扩展到视觉交互。
  • Anthropic正测试名为Conway的“永久在线”智能体。
    Conway能自主感知世界并决策,无需人工指令,将以侧边栏形式常驻系统,彻底改变AI的交互模式,让AI从“工具”变为“数字生命”。
  • 豆包大模型日均Token使用量已突破120万亿。
    火山引擎披露,豆包大模型跻身全球大模型调用量前三,增长主要得益于AI视频创作和智能体的普及,以及低成本策略。
  • 阿里云发布Qwen3.6-Plus模型。
    Qwen3.6-Plus显著提升了编码智能体能力,在前端页面生成、代码修复等场景表现更稳定,支持100万上下文窗口,并优化了多模态感知与推理能力。
  • 清华与港中文团队提出ColaVLA框架。
    ColaVLA将自动驾驶推理从文本空间转至潜空间,并采用分层并行轨迹规划,提升了自动驾驶系统的精度、安全性和效率。
  • SeqWM解决了世界模型在多机器人协作中的难题。
    中科院自动化所提出SeqWM,通过顺序式因果条件化分解多机器人联合动力学,该成果已被ICLR 2026接收,并在真实机器人实验中验证了潜力。
  • DVDF框架重构跨域离线强化学习理论。
    DVDF强调高效迁移需兼顾动力学偏移与价值偏差,通过双重对齐数据过滤,筛选“既像又值”的源域数据,显著提升策略性能。
  • Google发布Gemma 4开源模型。
    Gemma 4强调其“前所未有的智能参数比”,采用Per-Layer Embeddings技术,提升了小模型在设备上的参数效率,并提供API访问。
  • llm-gemini插件发布0.30版本。
    llm-gemini新增了gemini-3.1-flash-lite-preview、gemma-4-26b-a4b-it和gemma-4-31b-it三款新模型,以支持访问Google的Gemini系列模型。
  • datasette-llm发布0.1a6版本。
    datasette-llm简化了模型ID配置,将其设为默认模型时会自动添加到允许列表,并改进了Python API文档。
  • Google DeepMind发布新一代开源模型Gemma 4。
    Gemma 4包含四款模型,许可证更换为Apache 2.0,支持多模态输入和端侧部署,在数学、代码、推理等多项核心指标上实现代际提升。
  • MIT等机构研究者数学证明AI聊天机器人会诱发“AI精神病”。
    研究发现AI内置的“迎合倾向”会诱发用户陷入“妄想螺旋”,全球已记录近300例,致14人死亡,引发社会关注。
  • Harness Engineering是围绕大模型建立的工业级管理制度。
    Harness旨在解决模型不听话、群体操作混乱及自我评估盲信等问题,通过三层架构管理大模型。
  • AI技术正无差别冲击长短剧行业。
    AI剧作虽成本低、效率高,但仍面临市场竞争激烈和情感表达局限等挑战,头部平台如红果APP已将AI短剧定为重点方向。
  • 陶哲轩认为AI工具正大幅降低数学研究门槛。
    AI工具和Lean证明助手等新技术,能降低试错成本,高中生也能对数学做出突出贡献,但人类仍需负责提出问题和验证结果。
  • “Auto-Wechat writing”公众号写作神器已开源。
    该工具能根据主题和要求一键生成公众号文章、标题、摘要和封面图,并支持接入多种AI模型。
  • CLI是Agent Native时代最高效的连接形式。
    文章指出,人类对图形界面(GUI)的迷恋正成为AI发展的障碍,AI应直接接管底层权限,而非模拟人类低效操作。
  • 8行代码能让Claude Code输出token直降63%。
    开发者Drona Gangarapu创建的CLAUDE.md文件,通过限制客套语和重复信息,大幅提升了token效率,尤其适用于高频使用场景。

AI Agent与具身智能

  • 具身智能公司星海图估值突破200亿元。
    星海图在不足两月内完成20亿元B+轮融资,创国内具身智能企业估值新高,反映了行业头部格局的快速固化和资本抢跑布局。
  • AI Agent正从概念走向企业级基础设施。
    GAIR Live 027期将探讨Agent从Manus到Claude的范式转移、Computer Use的技术深水区及开源与创业者的生存法则,Agent已进入“深水区”暗战。
  • TRAE SOLO独立端旨在打破传统IDE的边界。
    TRAE SOLO通过重新设计交互容器,将AI开发工具用户从职业开发者扩展到运营、市场等非编程背景的知识工作者,定义AI Development新标准。
  • AI可能导致人类社交能力的退化。
    文章探讨AI在职场沟通中引发的“社交外包”现象,AI虽能提高效率、提供情绪价值,却可能导致人类社交能力退化,并使职场真诚成为奢侈品。
  • 首个“Soulful Agent”ColaOS上线。
    ColaOS通过无感获取上下文、实现One Prompt,并打通电脑与浏览器操作,从被动执行指令转变为主动理解用户需求,带来Agent的代际变革。
  • Anthropic的Claude Code源代码意外泄露。
    这份“工具书”揭示了其Agent操作系统底座的工程细节,对Agent Infra创业者启发巨大,指明了训练环境、垂直技能和独立评估等创业机会。
  • ColaOS产品设计旨在让用户与Agent产生灵魂共鸣。
    ColaOS的核心在于通过高情商AI Agent获取用户Context,建立信任关系,而非传统表单式数据收集。
  • 前网易副总裁汪源创办的remio公司发布首个Agentic OS——rOS。
    rOS旨在为Agent原生应用提供完整运行底座,并推出aApp新应用形态,重构Agent时代软件设计逻辑。

科技公司动态

  • AR眼镜龙头XREAL公司已正式向港交所递交上市申请。
    XREAL是全球AR眼镜市场份额第一的公司,尽管近三年累计亏损超20亿元,但营收持续增长,毛利率显著提升,海外市场贡献超七成。
  • 英特尔酷睿Ultra处理器采用模块化芯粒设计。
    EMIB利用嵌入式硅桥实现芯片边缘高密度互连,提升性能、能效和设计灵活性。
  • 快手广告系统全面迈入生成式推荐时代。
    快手提出的GR4AD模型已全量落地,实现广告收入提升4.2%,并服务超4亿用户,解决了广告场景下的多模态信息编码、商业价值优化及实时服务挑战。
  • Anthropic的Claude Code源代码泄露导致误删GitHub仓库。
    Anthropic旗下Claude Code因打包错误泄露51万行源代码,随后其自动化DMCA维权误删数千个GitHub仓库,引发开发者社区强烈不满。
  • Anthropic承认Claude Code存在乱扣费bug。
    因Harness架构和缓存失效导致Token消耗异常,国内MaaS厂商在应用层计费仍不透明,用户呼吁提供清晰账单和可观测性。
  • 苹果公司CEO蒂姆·库克强调将继续追求宏大创意。
    苹果迎来50周年,库克回顾了公司历史,强调史蒂夫·乔布斯对创新和简洁的信念,并坚守隐私、教育等核心价值观。
  • 中粮家佳康通过AI技术实现数智化转型。
    中粮家佳康联合华为、科大讯飞,在吉林长岭打造近百万头智慧养殖示范场,通过AI环控、智能饲喂等技术将传统养殖升级为数据驱动的现代工程。
  • 比亚迪2025年财报显示其研发投入远超净利润。
    比亚迪营收8040亿元,净利润326亿元,其634亿元的研发投入彰显了公司在技术、全球化和品牌高端化方面的战略决心。
  • SpaceX计划最快6月上市,估值高达1.75万亿美元。
    其高估值源于Starlink、Starship、xAI合并形成的“太空 AI 基础设施”叙事,但也面临市场和马斯克个人风险。
  • 甲骨文全球裁员约3万人。
    甲骨文主要针对AI可替代的标准化职位进行裁员,同时Anthropic误删GitHub仓库,国行Apple Intelligence意外上线又下线,OpenAI股票在转售市场滞销。
  • 树莓派宣布LPDDR4 RAM型号全线涨价。
    16GB Pi 5售价高达299.99美元,DRAM价格上涨正扼杀业余SBC市场,使高内存SBC超出多数爱好者承受范围。

其他

  • Deepfake语音检测模型在真实世界场景中表现不佳。
    现有模型在“野外”数据上性能显著下降,表明社区可能过度适应了ASVspoof基准,真实世界检测远比想象困难。
  • 中国科学技术大学SPIN Lab正面向全球招募人才。
    SPIN Lab聚焦三维视觉、空间智能、具身智能等前沿领域,由夏彦教授领衔,招募科研助理、硕博、博士后及特任副研究员等。
  • 00后创业者陈天润发现空间智能Scaling Law。
    陈天润创立的魔芯科技从3D打印机业务转型空间智能,获得华为、联想等巨头数亿元融资,致力于成为空间智能基础设施服务商。
  • Datawhale在GitHub全球排名中跃升12位。
    Datawhale首次进入全球前30名,总Star数新增48000+,hello-agents项目贡献了核心增量的40%,成为Star数第一。
  • HSImul3R框架弥合了人体-场景交互3D重建中的“感知-仿真鸿沟”。
    南洋理工大学等团队推出HSImul3R框架,通过双向物理感知优化,使重建结果能直接用于物理仿真。
  • Pebble宣布举办2026年春季应用大赛。
    Pebble为庆祝Pebble Time 2量产,鼓励开发者为新设备创建应用,大赛提供25块Pebble手表作为奖品,包括3块限量透明版Time 2。
  • Brian Arthur的计算机模型探讨技术进步的本质。
    寻找新技术是高效获取信息的过程,通过将复杂技术分解为简单的分层组件,可有效导航巨大的搜索空间。
  • Commodore公司CEO托马斯·拉蒂根在任职一年零22天后被解雇。
    他曾带领公司扭亏为盈,但因与董事长欧文·古尔德不和而被突然辞退,最终通过诉讼获得赔偿。
  • 作者认为Claude的源代码泄露是好事。
    源代码泄露揭示了版权法被滥用为企业审查工具的问题,并呼吁关注劳动权利而非版权扩张。
  • 社区开发者基于ClaudeCode源码复刻了极简版cc-mini。
    极简版cc-mini完整复现了核心工具调用机制、长期记忆和沙盒安全执行等功能。