乐于分享
好东西不私藏

可灵AI视频3.0升级;腾讯混元Hy3 preview发布并开源;阿里通义 Fun-ASR1.5 上线丨速递

可灵AI视频3.0升级;腾讯混元Hy3 preview发布并开源;阿里通义 Fun-ASR1.5 上线丨速递

Hi,

FUTURE

AIGC周报

Weekly AI NewsExpress

数字未来事务所

DIGITAL FUTURE AGENCY

2026.04.18-2026.04.24

本周AI行业前沿速递

PART.01

阿里通义 Fun-ASR1.5 上线

多语言+多方言实时转写

DFA

阿里通义实验室推出语音识别大模型Fun-ASR1.5,以统一架构兼顾通用性与高精度。模型覆盖全球30种主流语言,并深度适配汉语七大方言与20多种地方口音,在多语言、多方言及复杂语境中表现突出,提升跨地域语音转写与智能交互落地效率。

PART.02

Utopai Studios

发布3分钟AI生成影片

DFA

Utopai Studios发布全球首段3分钟AI生成影片,该视频以4K分辨率呈现完整叙事,角色与场景保持高度一致性,最多支持生成16个镜头。奥斯卡获奖编剧Roger Avary公开称赞其突破性,认为该技术已通过专业电影人的“图灵测试”。

PART.03

月之暗面开源 Kimi K2.6

长程任务与智能体双升级

DFA

月之暗面发布并开源Kimi K2.6,在HLE、SWE-Bench Pro、DeepSearchQA等基准上追平GPT-5.4、Claude Opus 4.6与Gemini 3.1 Pro,长程编码能力突破,可持续编码13小时、修改4000多行代码,在重构开源金融撮合引擎任务中实现185%吞吐量提升,Agent集群升级至300个子Agent并行完成4000步协作,同步开启人机协同的”Claw群组”小范围内测。

PART.04

OpenAI正式发布

ChatGPT Images 2.0

DFA

OpenAI发布ChatGPT Images 2.0,支持复杂视觉任务和高密度文本渲染,最高2K分辨率,宽高比可在3:1至1:3间灵活调整,模型首次引入”思考能力”,可联网获取实时信息,单次提示最多生成8张角色与元素保持一致的图像,多语言渲染显著增强,中日韩印地孟加拉语文本表现突出,已向ChatGPT、Codex与API全量用户开放。

PART.05

腾讯混元Hy3 preview

发布并开源

DFA

腾讯发布并开源 Hy3preview(295B总参、21B激活MoE),聚焦“体系化能力、真实评测、性价比”。在复杂推理、长文本理解、指令遵循、代码与智能体方面显著提升,SWE‑Bench、Terminal‑Bench等基准具竞争力;已接入元宝、QQ、腾讯文档等,并在 TokenHub 提供低价计费与套餐。

PART.06

可灵AI视频3.0升级

支持原生4K一键直出

DFA

可灵AI视频3.0系列新增4K选项,支持原生4K直出,每秒消耗30灵感值,告别超分后处理流程,呈现院线级清晰度与色彩层次,适配大屏展示、高清终端及专业制作,铂金会员限时8折优惠至6月30日,团队空间功能同步升级,支持个人空间向团队空间转移灵感值与资产,新增桌面端Win/Mac客户端和三级权限管控。

FUTURE

PART.07

字节Seed3D 2.0发布

几何精度与材质双SOTA

DFA

字节发布Seed3D 2.0,从单张图像生成高质量3D模型,几何生成与纹理材质两项核心指标均取得SOTA,几何生成引入Coarse-to-Fine两阶段DiT策略,解耦整体结构与细节生成;纹理统一PBR模型采用MoE架构并引入VLM先验,拓展部件级生成与场景组合能力,可输出URDF格式关节化内容,兼容Isaac Sim等物理仿真引擎,API已上线火山引擎。

本站作品均采用知识共享署名-非商业性使用-相同方式共享 4.0进行许可,资源收集于网络仅供用于学习和交流,本站一切资源不代表本站立场,我们尊重软件和教程作者的版权,如有不妥请联系本站处理!

 沪ICP备2023009708号

© 2017-2026 夜雨聆风   | sitemap | 网站地图