智象未来(HiDream.ai)发布的开源模型 HiDream-O1-Image,仅用80亿参数就在全球权威文生图榜单 Artificial Analysis 上登上开源模型前列,ELO 分数达到 1187,超过了 Z-Image Turbo、Qwen-Image、FLUX.2 [dev] 等主流模型。
更让人意外的是,这家公司的闭源商业版参数规模突破2000亿,却很少在社交媒体上看到它的宣传。低调得不像一家 AI 公司。
开源版 8B 参数登上开源榜单前列
闭源版 2000亿+ 参数刷新多项行业领先水平
原生全模态架构,文本/图片/视频统一建模
中文长文本渲染能力表现突出
一、什么是"原生全模态"?
传统图像生成模型的做法是:每种模态配一套独立的编解码器,文本归文本,图片归图片,各管各的。模型内部是多模块"拼接"起来的。
HiDream-O1-Image 的做法完全不同。它基于自主研发的 UiT(Unified Transformer)架构,把文本、图片、视频、空间、时序所有的信号一锅炖,直接喂进同一个模型管路。
用更通俗的话说:别人是"分工协作",它是"统一编码"。
这带来的直接好处是——模型在处理复杂指令时,不会出现各模块之间的理解割裂。比如输入"穿汉服的少女在樱花树下弹古筝",模型能同时理解人物姿态、服饰纹理、乐器结构、场景空间关系,生成结果符合物理规律,而不是"各管各的"导致细节错位。
二、开源版表现亮眼,行业怎么看?
5月8日,智象未来开源了 HiDream-O1-Image(8B 版本),代号"花生"。
随后它以匿名身份"Peanut"参加 Artificial Analysis 文生图竞技场评测,在超过3000个样本对比中取得 1187 ELO,位列总榜前列。
值得注意的是,这个8B参数版本是该榜单排名前20中公开参数量最小的模型。参数量最小,却排名前列,这让不少人开始重新审视"模型参数规模"这件事。
在6项公开基准测试中,HiDream-O1-Image 均达到行业领先水平:
GenEval — 图像生成质量
DPG — 提示词理解与遵循
HPSv3 — 人类偏好一致性
LongText-Bench — 长文本渲染
GEdit — 图像编辑能力
UniSubject — 多主体生成
特别值得一提的是中文长文本渲染能力。在 CVTG-2K 和 LongText-Bench 评测中,中文长文本得分 0.978,表现不错。对于需要生成中文海报、电商Banner的用户来说,这个数据值得关注。
三、闭源版2000亿参数,意味着什么?
开源版发布三周后,智象未来在5月19日举办了首届开放日,正式发布闭源商业版 HiDream-O1-Image-Pro。
参数规模超过2000亿,是开源版的250倍。
这不只是简单的"更大更好"。2000亿参数稀疏混合专家架构(MoE)让模型在处理高复杂度任务时能够动态激活相关专家模块,在保持推理效率的同时提升生成质量。
在实际测试中,HiDream-O1-Image-Pro 展现出了几个明显优势:
中文书法渲染 — 传统模型在渲染中文时经常出现笔画粘连、字形扭曲的问题。这个版本能够精准还原中文字形结构,甚至支持书法风格的文字生成。
多物体空间关系 — 输入"左侧放一个青花瓷瓶,右侧放一本线装书,前方有一盏油灯",模型能正确理解物体之间的空间位置关系,生成结果符合物理规律。
复杂语义理解 — 能处理嵌套的长指令,比如包含否定、递进、对比等多种语法结构的复合提示词。
同期,智象未来宣布完成新一轮亿级融资,但融资金额和投资方未对外披露。
四、为什么这家公司这么低调?
智象未来成立于2023年,创始人姚霆曾是快手视觉生成与大模型方向的技术负责人。公司的风格偏技术导向,很少做 PR。
但低调不代表没实力。
从技术路线来看,UiT 架构走的是"原生统一"而非"拼接集成"的路子。这个路线在学术上难度更高,但理论上能带来更好的模态融合能力。从实际评测结果看,确实也做到了。
不过,高调与否是战略问题,技术好不好是另一个问题。对行业来说,能有一个在开源榜单上正面竞争 FLUX 的中国模型,本身就是一件值得关注的事。
总结一下:
HiDream-O1-Image 的出现,证明了两件事:
第一,开源社区对"小参数高性能"的追求正在成为现实,8B参数赶超大模型不是天方夜谭。
第二,中国 AI 公司在多模态架构创新上,已经走出了自己的路线,不再只是跟随。
如果你关心 AI 图像生成,这个模型值得关注。如果你是从业者,Hugging Face 上已经有可玩的开源版本,不妨亲自试试。
GitHub仓库:https://huggingface.co/HiDream-ai/HiDream-O1-Image
夜雨聆风