OpenAI GPT Image 2 正在灰度
据说这个版本是全新的独立多模态架构,非扩散模型(Diffusion Model)。
分辨率:原生 4K 输出(2048×2048 或 4096×4096),支持 16:9 宽屏比例。
生成速度:预计 3 秒内生成。
文件支持:每张图像应小于 25MB 的 PNG、WEBP 或 JPG 文件,最多可通过数组提交 16 张图像。
生成一大特点:图片里的文字渲染可读、拼写正确。
中文书法、荧光汉字、韩文、阿拉伯文等密集文字内容,整体表现稳定。见图8。
另外一个特点极强的真实感,几乎跟我们日常看到真实世界拍照形成的图片差不多,在语境理解、物理规律、光照和材质属性方面的表现几可乱真。见图7。
最后一个角色一致性:在多轮生成或故事性场景中,能保持人物角色、物体特征的一致性,适用于漫画、故事板等内容创作。
图1-3来自官网,图4、5、6是网友测试和Nano Banana 2,Image 1 的对比。
已知缺陷:
空间推理缺陷:镜面反射颜色错误(魔方反射,见图9)、倒影界面文字方向错误("WOW" 的 O 变方)。
专业领域错误:医学解剖图存在多处结构性错误。
复杂文字场景:中文书法笔画衔接不自然、印章文字识别困难。
黄色滤镜问题:GPT-Image-1 遗留问题,GPT-Image-2 已改善但仍需验证。
OpenAI GPT Image 官方文档:
https://developers.openai.com/api/docs/guides/image-generation
其它金额
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
北京,26分钟前,
夜雨聆风