
技术动态
01
美团:开源数字人视频模型LongCat-Video-Avatar 1.5
5月22日,美团正式开源数字人视频模型LongCat-Video-Avatar 1.5。
LongCat-Video-Avatar 1.5通过升级Whisper-large音频编码器和DMD蒸馏技术,显著提升了唇形同步、长视频稳定性及推理效率。支持真人、动漫、动物等多类主体,并优化了多人对话场景的自然交互。技术亮点包括8步高效推理、GRPO优化手部动作,以及针对新闻、教育等场景构建的770人评估基准,在物理合理性等维度超越同类模型。
Github:
https://github.com/meituan-longcat/LongCat-Video
HuggingFace:
https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
Tech Report:
https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf

02
CMU、耶鲁等:发布Harness综述
5月22日,卡内基梅隆大学、耶鲁大学、亚马逊等机构的顶尖学者,联合发布了一篇Harness长文综述。
研究团队深度拆解了开源社区170多个代表性项目,提出了完整的ETCLOVG七层工程架构,涵盖执行、工具、上下文、生命周期、可观测性、验证评估与治理安全。七层及其主要子类别,系统化呈现了现代智能体基础设施的全貌。
论文地址:
https://picrew.github.io/LLM-Harness
https://github.com/Picrew/awesome-agent-harness
https://picrew.github.io/LLM-Harness/main.pdf

03
智谱:提出ZCube组网架构
5月21日,智谱、驭驯网络与清华大学联合提出ZCube组网架构,并在GLM-5.1 coding生产环境落地,破解PD分离推理中的结构性网络拥塞难题。
ZCube采用全网扁平化拓扑,结合单/多轨混合接入机制,在结构层面对PD流量进行全局解耦与离散化路由,从根本上降低了结构性拥塞的发生概率,实现全网交换机之间的流量负载均衡,从而极大提升集群的总体网络带宽。
Blog地址:
https://z.ai/blog/zcube

04
腾讯:开源混元翻译模型Hy-MT2
5月21日,腾讯开源混元翻译模型Hy-MT2,包含3个尺寸的模型Hy-MT2-1.8B、Hy-MT2-7B、Hy-MT2-30B-A3B,均支持33个语种互译,5种民汉/方言。
Hy-MT2首次引入混合专家架构,推出 Hy-MT2-30B-A3B,通过扩大总参数规模提升模型容量,同时控制每次推理时的激活参数量,在增强翻译质量的同时降低推理开销,相比单纯扩大稠密模型规模,这种设计更适合面向真实应用场景的高质量翻译系统。
HuggingFace:
https://huggingface.co/collections/tencent/hy-mt2
Modelscope:
https://modelscope.cn/collections/Tencent-Hunyuan/Hy-MT2
Github:
https://github.com/Tencent-Hunyuan/Hy-MT2

05
字节跳动:发布原生统一多模态模型Lance
5月20日,字节跳动发布原生统一多模态模型Lance,以3B参数实现图像和视频的生成、编辑及理解功能。
Lance采用dual-stream mixture-of-experts架构:理解路径主要处理文本token与语义视觉token,用于图像/视频理解、问答和推理;生成路径主要处理VAE latent token,用于图像/视频生成与编辑。两条路径共享统一的交错多模态上下文,但在能力建模上保持解耦,从而兼顾跨任务交互与任务专门化。此外,为了更好地协调统一序列中的异构视觉token,Lance引入了 Modality-Aware Rotary Positional Encoding(MaPE)。
arXiv:
https://arxiv.org/abs/2605.18678
GitHub:
https://github.com/bytedance/Lance
HuggingFace:
https://huggingface.co/bytedance-research/Lance

06
上海交通大学、小红书:联合推出多模态技能框架 MMSkills
5月18日,上海交通大学和小红书的研究团队联合推出了 MMSkills:一种面向通用视觉 Agent 的多模态技能框架。
MMSkills将可复用技能从纯文本步骤扩展为由文本流程、运行时状态卡片和多视角关键帧组成的多模态程序性知识,并通过 branch loading 在运行时高效调用这些视觉证据。创新点在于采用"分支加载"机制,避免AI僵化依赖旧截图,同时显著提升了Gemini等模型在OSWorld测试中的成功率。
论文地址:
https://arxiv.org/abs/2605.13527
项目主页:
https://deepexperience.github.io/MMSkills
代码 & Demo:
https://github.com/DeepExperience/MMSkills

行业动态
01
阿里:通义正式发布 Qwen3.7-Max
5月21日,阿里通义正式发布 Qwen3.7-Max,致力于成为全能的智能体基座。
Qwen3.7-Max 采用了“任务-运行框架-验证器”正交解耦设计的训练架构。核心优势在于智能体能力的广度与深度:编程方面,从前端原型开发到复杂的多文件工程均能驾驭;办公与生产力方面,通过 MCP 集成和多智能体协作实现工作流自动化;长周期自主执行方面,在一项长达 35 小时、超过 1000 次工具调用的全自主内核优化实验中保持了连贯推理,充分验证了其持久稳定的执行能力。

原文链接>> Qwen3.7-Max 重新定义 AI Agent 基座
02
谷歌I/O开发者大会举办
5月20日,一年一度的谷歌I/O开发者大会举办,谷歌接连发布2款新模型、谷歌搜索25年最大升级、Claude Code谷歌版开发平台Antigravity 2.0、AI眼镜等。
新发2款大模型:可基于任意输入形式生成各类模态输出内容的全能模型Gemini Omni亮相,其首款模型Gemini Omni Flash将率先支持视频输出;谷歌旗舰模型Gemini 3.5 Flash亮相。
开发平台Google Antigravity升级:谷歌基于Gemini 3.5 Flash升级了Google Antigravity、Gemini App上的全天候个人智能体Gemini Spark、谷歌搜索。
官宣AI眼镜新进展:联合三星展示了由眼镜品牌Gentle Monster和Warby Parker共同设计的两款新眼镜。谷歌纯音频AI眼镜将在今年晚些时候率先推出,带显示屏的版本将在明年推出。
其他:Gemini App中的日报智能体Daily Brief、购物中心智能体Universal Cart、 AI图像创建和编辑工具Google Pics、Google Flow智能体等。

03
腾讯:操作系统层级AI助手Marvis(马维斯)正式上线
5月20日,腾讯旗下操作系统层级AI助手Marvis(马维斯)正式上线,已开放Windows端、Mac端、安卓端版本下载。
Marvis将终端系统、文件、应用、算力和跨端连接纳入同一个AI中间层,用户只需要用一句话说明目标,Marvis即可理解任务、拆解步骤、调用对应Agent执行,并在涉及隐私、安全和支付等关键环节时交回给用户确认。在具体使用场景中,Marvis可以帮助用户做文件格式转换、合同信息审查、运营数据分析,甚至帮忙整理参考文献。

04
Cursor:发布编程模型Composer 2.5
5月19日,Cursor基于Kimi K2.5发布Composer 2.5编程模型。
Composer 2.5采用「定向文本反馈RL」破解信用分配难题,在长任务处理、复杂指令遵循和协作体验方面有显著提升,基于开源模型Kimi K2.5进行强化学习训练,支持云端智能体开发环境和异步子智能体等新功能。

05
腾讯云:发布大数据智能体工作台DataBuddy
5月19日,腾讯云发布大数据智能体工作台DataBuddy。
DataBuddy聚焦数据分析、治理、工程三大场景,构建六层知识体系,数仓建设从原本1-2周压缩至小时级交付,数据治理实现自动巡检和AI诊断。用户通过自然语言对话,即可完成数据接入、开发、治理、分析全链路任务,不用再在多个页面之间切换操作,一句话说清目标,Agent自己跑完全流程。

原文链接>> 欢迎新Buddy:DataBuddy
06
阿里云:QoderWork上线设计工作台Design Desk
5月18日,阿里云QoderWork正式上线设计工作台Design Desk,支持语音描述需求,内置百余种风格参考与数十个设计技能,实现「设计即代码」。
通过Questions结构化追问、Design Plan先计划再执行、Nudge参数化微调三大机制重构AI设计流程,降低信息损耗。覆盖设计师定向迭代、产品经理高保真原型、市场运营多场景物料等需求,产物可一键交付至Qoder IDE直接进入研发环节。

07
三大运营商齐推Token套餐
5月17日,中国电信、中国移动、中国联通纷纷推出面向个人、政企用户的词元(Token)套餐产品。不仅为普通消费者打开了AI普惠的入口,更将推动通信、算力和人工智能产业深度融合,催生数字经济发展的新机遇、新空间。
中国电信宣布推出系列试商用词元(Token)套餐,面向个人及家庭客户、开发者及中小微企业客户以及中国电信词元生态合作伙伴分别开放不同类型的资费套餐产品。这是首家从集团层面宣布推出词元套餐的电信运营商。
中国移动上海公司面向大众与办公场景,推出Token通用服务,实现“一号通用、跨平台使用、话费支付”。在此之前,广东移动、江苏移动、湖北移动等省公司也推出过Token套餐服务。中国移动尚未从集团层面推出全国统一的Token套餐。
中国联通上海分公司宣布针对OPC的Token服务,每位客户可免费畅领3000万Token测试额度(6月底截止使用),同时可享Coding Plan(是一种面向开发者的AI编程订阅套餐)、Token Plan(是一种AI大模型订阅服务或套餐计划)首购5折的专属权益。

原文链接>> 三大运营商,齐上线Token套餐
政策趋势
01
安徽:印发《安徽省住房城乡建设领域“人工智能+”行动方案》
5月19日,安徽省住房和城乡建设厅正式印发《安徽省住房城乡建设领域“人工智能+”行动方案》,旨在推动AI技术与住房城乡建设领域的深度融合。
《方案》提出,到2027年实现智能终端普及率超70%,打造60个智能建造试点、10个产业基地和50项标杆场景,并重点推进AI在“好房子”、城市更新、新型建造等七大领域应用。方案特别强调BIM、CIM、数字孪生等技术融合,要求实现从设计到运维的全流程智能化管理,同时通过“建采云”平台重塑建筑供应链体系。

02
山东:印发《山东省“人工智能+制造”行动方案(2026—2028年)》
5月18日,山东省十二部门联合印发《山东省“人工智能+制造”行动方案(2026—2028年)》。
《方案》提出,到2028年实现人工智能产业营收突破2500亿元、培育100家国家智能工厂等目标。重点实施六大行动:强化智能算力供给、开发行业大模型、推广智能终端、培育标杆企业、打造先锋应用场景、提升创新能力。

03
海南:印发《海南省支持人工智能OPC创新发展的若干措施》
5月18日,海南省四部门联合印发《海南省支持人工智能OPC创新发展的若干措施》,全力培育具有海南特色的“人工智能OPC”创新创业新生态。
《措施》明确了发展目标,形成以海口为核心引领,澄迈、三亚为双向支撑,其他市县特色错位发展的“一核两极、多点联动”OPC发展格局。2026年,先行培育3个左右优质OPC生态社区;到2028年,力争培育形成10个以上优质OPC社区、百余家优质OPC企业、汇聚千名OPC创新人才的海南自贸港人工智能OPC创新发展生态。

原文链接>> 最高奖励800万元!海南出台新政支持“一人公司”
04
杭州:印发《杭州市城乡建设领域“人工智能+”行动方案(2026—2028年)》
近日,杭州市城乡建设委员会印发《杭州市城乡建设领域“人工智能+”行动方案(2026—2028年)》。
《方案》明确提出“1个总体目标、8个重点方面、17项重点建设任务”的推进路径。到2026年底,聚焦城乡建设领域8个重点方面,建成不少于5个城乡建设领域高质量数据集,推进13项“人工智能+”重点应用场景和N个企业创新人工智能实践案例。到2028年底,8个重点方面“人工智能+”应用取得明显成效,基本建成杭州市城乡建设领域“人工智能+”生态体系。

05
青岛:印发《青岛市“人工智能+制造”行动方案(2026-2028年)》
近日,青岛市九部门联合印发《青岛市“人工智能+制造”行动方案(2026-2028年)》。
《方案》明确,聚焦智能化、绿色化、融合化发展方向,以高水平建设国家新型工业化示范区为抓手,分类突破研发中试、生产制造、工艺优化、供销服务、运营管理五个关键环节,全面赋能原材料、装备制造、消费品、电子信息四大重点行业,深入实施链群引领、创新突破、模数共振、产品跃升、场景示范、品牌创建、开放协同七大行动,着力构建人工智能技术与制造业应用“1547”赋能发展体系。

声明:资料素材均来源官方媒体/网络,如有侵权,请联系删除。
✦
✦
END
南京新一代人工智能研究院
Nanjing Research
Institute of Next-generation Artificial Intelligence

南京新一代人工智能研究院,是中国信息通信研究院在人工智能、大数据领域投资组建的控股企业,是江苏省人工智能产业公共技术服务平台的落地运营单位。
研究院以“服务国家战略实施,促进地方产业升级”为导向,在人工智能和大数据领域,开展前沿技术研究、标准制定、评测工具开发、实验能力建设等工作,可为企业提供全方位的诊断、咨询、培训、评估服务。

联系方式
吴老师 17788386765(微信同号)
杨老师 15221125491(微信同号)
夜雨聆风