乐于分享
好东西不私藏

关于AI的二三事

本文最后更新于2026-04-27,某些文章具有时效性,若有错误或已失效,请在下方留言或联系老夜

关于AI的二三事

上个月底,OpenAI 正式将图像生成能力内置进 GPT-4o,不再依赖外部 DALL-E 调用,而是真正的”多模态原生”。

随后,热搜上就刷到很多用 GPT Image2 生成的老照片,评论区一片惊呼太可怕了。

看到AI能力提升不应该兴奋么,为什么会觉得可怕?

它又不吃人,我不理解。

保持好奇心是不落后于时代的唯一法门,尤其是这个日新月异的AI大时代。

新的大模型能力出来,应该去研究它具体进步在哪里,能应用在哪些工作上,能不能帮自己省时间,乃至能不能帮自己赚钱。

而不是看一眼热搜的照片,就惊呼AI太可怕了。


GPT Image2

说回正题,GPT Image2 的核心突破其实就三个。

1、文字渲染能力质变。

过去所有图像模型在图片里写字都是翻车重灾区,GPT-4o 图像生成几乎做到了”所见即所得”——海报、信息图、带字幕的场景图,基本能准确渲染。

2、指令跟随精度极高。

在多轮对话修图的时候,你说”把背景换成黄昏”、”把左边那个人的衣服改成红色”,它能精准执行,不会把整张图重新生成一遍。

3、对话连贯性。

上下文里聊了什么风格、角色,后续生图自动继承——真正意义上的”图文一体对话”。

这让 Midjourney 和 Stable Diffusion 社区压力陡增,因为普通用户不再需要学提示词工程,直接用自然语言就能出图。

至于让老照片的色调更加自然,一打眼看不出跟真实照片的差异,反而是最不重要的。


AI对话技巧

现在大部分AI助手都有专家模式,比深度思考更耗时,预期是给出的回答更全面和专业。

但这要分情况来看,并不一定比深度思考效果更好。

如果你要问的问题是比较确定的领域,并且给AI的提示词能把问题背景和范围描述的非常准确,那么得到的回答才有可能比较专业且有用。

也就是说,专家模式的 AI 有了明确的约束条件,它才能利用冗余算力在受限空间内寻找最优解。

但大部分情况下,我们不知道怎么准备描述问题,甚至在跟AI交流几轮之后才逐渐明确自己的问题,这就不适合使用专家模式。

这种情况,浪费时间不说,得到的回答也多半是AI靠猜测你的意图臆想出来的,意义不大。

当提示词模糊时,专家模式会陷入“过度推理”的陷阱。

AI 会尝试对你没说清楚的每一个可能性都进行深度发散。

结果就是,它花了几十秒甚至几分钟写了一大堆看起来很专业的废话,却没一句是你真正想要的。

大多数人的思维是发散的,有些复杂问题需要一个探索期来明确边界并理清思路。

这个阶段适合使用快速模式来跟AI对话,从而高效收敛问题定义。

简单来说,就是用不精确的多轮对话来生成更精准、更结构化的提示词。

用这个探索期对话生成的高质量的提示词,再去开启深度思考/专家模式,让AI给出最终答案。

不论是撰写代码、严密逻辑推理还是特定领域深度分析,都适用这个技巧。


AI 工作流编排

想要把AI训练成真正的工作助手,从而提升实际的生产效率,单靠问答是不行的。

即使掌握了我上一条说的那种技巧——「用不精确的多轮对话来生成更精准、更结构化的提示词」,也是远远不够的。

工作中实际遇到的问题,是不可能靠单轮或几轮会话来解决的。

比如:开发一个能上线的网站、执行一个法律合同审查。

里面通常都有大量的细节要权衡决断,如果只是几句话丢给AI,那它就只能把这些细节按自己的猜测来决策执行,最后的结果大概率的完全不可用。

实际上也是如此,以我本行软件开发为例,社交媒体上看到的一句话或者几句话生成的网站、游戏,都只能算是demo,是不可能进行生产部署的,其中缺失了大量的细节处理和生产环境的支撑组件。

就像你在海上看到一座冰山,它还有90%是在水面以下的,没有那90%的部分浮力支撑,就没有上面冰山的壮丽样貌。

那么如何把AI用到生产环节中提升效率,从而对赚钱或者省钱有帮助呢?

答案是引入工作流编排。

如果你只给大模型发一个提示词:“写一篇关于量子计算的文章”。

大概率会得到一篇中规中矩、但内容肤浅且缺乏最新数据的文章。

如果引入工作流编排,我们可以把这个任务拆解成一个四步走的协作流程:搜索数据 -> 拟定大纲 -> 写作内容 -> 交叉核验。

好处立竿见影,因为有了核查节点,不用担心模型胡编乱造。

可以给写作节点设置严谨的语气,给搜索节点设置高效的过滤算法,让它们各司其职。

下次你想写其他的主题,只需要换个关键词,这套高效的流水线依然能输出相对高质量的分析文章。

上面还只是一个纯文本操作的任务,有些需要跟现实世界交互的任务更是如此。

比如目前一些电商平台已经有了AI自动上架的效率提升系统。

流程是:扫码放品→25 秒拍 5 个角度→AI 抠图 / 修图→AI 虚拟模特生成主图 / 详情页→多语种翻译。

全程AI自动化,比之前的人工上架效率提升十倍以上。

工作流编排把 AI 从一个“碰运气”的对话框,变成了一个“工业级”的标准生产线。

各行各业都在如火如荼地引入AI提效,这个过程中必然导致被替代的人工岗位减少。

是被动地等着被AI淘汰,还是拥抱AI、驱动AI、利用AI,把AI变成手中的赚钱/省钱利器,答案很明显了吧?