AI技术进展
Harness Engineering是人机协作的第三次进化。
Harness Engineering旨在通过系统性约束驾驭自主AI Agent,是继Prompt和Context Engineering后,人机协作方式的第三次进化。Google的Harness层面产品表现相对沉寂。
Google的核心问题在于组织执行力而非战略取舍,其重心可能放在基础设施和分发渠道上。Hermes能让AI Agent实现自我进化。
Hermes能让AI Agent自我编写技能文件、总结故障手册,实现自我进化,而OpenClaw则依赖人工纠正。斯坦福大学推出多智能体框架OctoTools。
OctoTools无需训练、用户友好且易于扩展,通过标准化工具卡和规划器-执行器工作流,在16项任务中比GPT-4o平均准确率提高9.3%。Google发布机器人推理模型Gemini Robotics-ER 1.6。
Gemini Robotics-ER 1.6显著提升了机器人在空间推理、物体计数、任务成功检测及仪表识别等方面的能力,使波士顿动力机器狗Spot更具自主性。上海AI Lab实现布料等柔体物理性质的真实再现。
SIM1研究通过弥合几何、物理与运动三重鸿沟,将仿真数据质量提升至可用水平,为具身智能提供了新数据范式。研究提出分类器引导的Prompt演化方法。
该方法通过多目标优化,在生成过程中引入演化选择压力和变异,使生成式AI能产生更符合用户偏好的多样化输出。研究发现微调大型语言模型能提升报告摘要质量。
该研究探讨了微调大型语言模型(LLMs)在报告摘要任务上的有效性,尤其是在缺乏真实摘要和计算资源有限的场景。Google发布文本转语音模型Gemini 3.1 Flash TTS。
Gemini 3.1 Flash TTS可通过提示词进行指导,通过标准Gemini API提供,仅支持音频文件输出。研究发现ReLU和Tanh在分类任务中表现优于Sigmoid。
该研究修正了ReLU激活函数起源的错误引用,并比较了ReLU、Tanh、Sigmoid在图像分类、文本分类和图像重建任务中的性能。研究团队推出Diffusion-based Crystal Omni (DAO)框架。
DAO框架集成了结构生成器DAO-G和能量预测器DAO-P,通过预训练和微调,显著提升晶体结构预测性能。
AI产品与应用
生数科技发布视频大模型Vidu Q3。
Vidu Q3上线“参考生视频”功能,在SuperClue榜单断层登顶,正从素材生成器转向最小化剧组单元,驱动整个内容生产流程。生数科技Vidu Q3推出参考生视频功能。
用户仅需几张图和Prompt即可生成包含特效、音效、旁白的国漫短剧,支持六大特效、五大音效和四大场景。李飞飞公司World Labs开源3DGS渲染器Spark 2.0。
Spark 2.0将超大规模高保真3D场景带入Web,支持流式加载亿级3DGS数据,可在多设备访问。李飞飞的创业公司WorldLabs发布Spark 2.0。
Spark 2.0是面向Web的动态3D高斯泼溅渲染器,其新增的细节层级系统,支持在任意设备流式加载并渲染超大规模3DGS世界。Claude Code推出Routines功能。
Routines允许用户将Prompt、代码仓库、连接器打包成Routine,通过定时、API或GitHub事件触发,在云端自动执行开发任务。Anthropic全面重构Claude Code。
Claude Code推出Routines(常规任务)功能,实现AI智能体在云端自动执行任务,支持API、GitHub事件和定时触发。抖音将投入5亿元专项资金扶持真人短剧。
抖音集团在第十三届中国网络视听大会上宣布,将投入5亿元专项资金扶持真人短剧内容创新和现实题材深耕。AI编程工具重塑软件开发。
资深程序员热情重燃,但代码质量、职业倦怠及技能退化引担忧。“不用则废”的隐性代价,促使行业直面AI带来的冲击与转型。AI时代Skill商店未能如预期成为分发中心。
微信公众号、小红书因其“种草”和信任背书成为主要Skills传播渠道,未来Skills评估体系需引入能力图谱、成本、可解释性等维度。
行业动态
OpenAI正经历战略变形。
OpenAI因高达1.2万亿美元的IPO估值预期,正经历战略变形,从C端转向B端企业市场,并削减Sora等前沿项目。国内大厂盲目卷视频大模型面临困境。
国内大厂盲目卷视频大模型面临算力瓶颈、商业化困境和版权风险,应转向底层模型能力提升、编程工具及Agent落地等更明确的AI商业化主线。英伟达迎来新一轮狂飙。
英伟达股价在十天内累计上涨超18%,创下自2023年以来最长连涨纪录。AI需求持续爆发,巨头争抢英伟达芯片。英伟达开源全球首个量子AI模型家族NVIDIA Ising。
NVIDIA Ising旨在通过AI加速量子纠错和校准,将AI作为量子计算机操作系统,推动量子系统实用化。NVIDIA在全美机器人周展示物理AI最新研究。
NVIDIA展示了仿真、合成数据、AI驱动机器人学习等领域的研究,推动农业、制造业、能源等行业机器人发展。DeepSeek核心研究员郭达雅已加入字节跳动。
郭达雅是DeepSeek多个重要大模型的代码与推理核心贡献者,他的离开引发业界对AI人才流动的关注。字节跳动启动最新一轮期权回购。
在职员工回购价为229.5美元/股,离职员工为201.96美元/股,在职员工回购价较上一轮提升约14.5%。匿名模型Elephant Alpha冲上OpenRouter平台趋势榜第二。
Elephant Alpha上线OpenRouter平台一天,登上趋势榜第二位,日榜第13名,token使用量日增长377%。2026酒仙桥论坛在北京启幕。
论坛聚焦AI赋能地方发展、驱动产业创新,发布了城市AI指数报告、星火·AI云2.0,并启动“AI中国行”计划。斯坦福大学2026年AI报告指出AI能力高速发展。
AI能解奥数却不会看钟,但其监管、透明度、公众信任、教育体系却未能同步,导致巨大裂缝。凯尔·金斯伯里预测未来将出现“肉盾”角色。
“肉盾”角色指对机器学习系统负责的人,这种问责制可能是内部的,也可能是外部的。OpenAI高管指责Anthropic虚增营收。
这揭示中美AI公司在竞争策略和资本结构上的差异,中国AI公司因复杂的股权关联和退出机制,倾向于“闷声赚钱”。
消费电子与硬件
英特尔推出首款赛扬266处理器。
最初的Covington核心赛扬因缺乏二级缓存性能不佳,但因超频潜力受硬件爱好者青睐。MOVA发布V70 Ultra Complete扫地机器人。
V70 Ultra Complete扫地机器人全球首创16cm极致外扩超级机械臂,突破性实现拖布组件大范围伸缩,能深入低矮或异形空间清洁死角。苹果真正的优势在于其平台拥有最佳应用。
这种优势正在减弱,因开发者缺乏动力为苹果平台独家开发优质原生应用。
arxiv论文
OmniRoam探索轨迹可控的长视频生成新范式。
该方法通过全景视频表示和分阶段生成框架,显著提升了长时序视频的空间一致性与时间连贯性。北京大学联合LLaMA-Factory推出DataFlex系统。
DataFlex系统将大模型训练中的数据选择、混合、加权能力纳入统一框架,使数据成为可调度优化对象,提升训练效率和模型性能。A2-DIDM提出去中心化身份审计方案。
A2-DIDM基于区块链和零知识证明,通过累加器技术实现轻量级链上所有权验证,同时保护数据和功能隐私,确保模型训练过程的计算完整性和可编程性。OmniHands提出通用Transformer方法。
OmniHands通过关系感知双手动词化和4D交互推理模块,实现从单目或多视图输入中鲁棒地捕捉交互式手部动作。研究详细描述了浅层ReLU网络在特定条件下的梯度流动力学。
结果表明,该梯度流收敛至零损失,并揭示了其对最小变异范数的隐式偏差。metasnf是一款R语言包。
metasnf将元聚类方法应用于基于相似性网络融合(SNF)的聚类工作流,能高效搜索聚类解决方案空间,并提供可视化、特征化和验证功能。CURE框架通过多范数训练实现通用认证鲁棒性。
CURE框架在MNIST、CIFAR-10等数据集上显著提升模型对多种扰动的防御能力。研究提出两种学习型增量非线性动态逆变(INDI)方法。
LINDI和NA-INDI利用神经网络预测残余力,无需专用传感器,提升了四旋翼飞行器(包括带悬挂载荷)的轨迹跟踪精度。
其他
影石Insta360开源四篇顶会论文核心算法。
影石十年积累的独有全景数据自带物理闭环几何约束,为空间AI训练提供了“防幻觉”机制,构成稀缺的数据金矿。作者探讨被动位置共享功能难以实现的原因。
现有社交应用无法有效解决用户在旅行中偶遇朋友的需求,该功能面临社交尴尬、隐私风险和技术去中心化等挑战。文章警示将法人格赋予AI聊天机器人可能削弱人类同理心。
文章探讨了“自然权利运动”与“公司法人格”的异同,并警示将法人格赋予AI聊天机器人可能重蹈公司法人格的覆辙。datasette-ports发布0.3版本。
新版本增加了显示每个实例的工作目录和数据库文件完整路径的功能。Zig编程语言发布0.16.0版本。
新版本引入了名为“Juicy Main”的依赖注入功能,允许 main() 函数通过 process.Init 参数访问实用属性。本周成都将举办多个特色市集。
市集包括手账、艺术、甜品、非遗等主题,大部分活动免费入场,市民可前往王府井、麓镇、玉林等地参与。中国大熊猫保护研究中心都江堰基地将暂时闭园。
都江堰中华大熊猫苑将于2026年4月23日起暂时闭园进行提升改造。
夜雨聆风