嗨大家,我是GenAI共生人芋头小宝。
我最近用 Codex + Step 3.7 Flash 做了一个宠物社区 App。
从搭框架,到改 UI,再到来回优化功能页面,小半天的时间,总共花费6 块钱。
先给大家看下App最终的结构和功能页面:




接下来拆解实现流程:
- 主要使用的 Agent 工具和模型是:Codex + step-3.7-flash
Step1: 输入产品需求
提示词:
帮我开发一个遛狗社区app,专门面向养狗人士,大家可以在社区里交流养狗和遛狗心得,或者互帮互助,相约一起遛狗等,支持每天打卡签到,获得积分,分享裂变也可获得大额积分,积分可以加速解锁成长等级也可以用于在狗狗商城里兑换小礼品。
坦率地讲,第一个版本挺糙的。
这也正常,Agent 第一遍先把骨架搭出来,比一开始就追求完美更重要。
接着我就在网上搜一个比较好看的UI风格,截图发给它,让它参考这个样式来调整。
Step2: 优化产品UI

然后它就帮我改成了下面这个样子。
是不是美观多了。
而且比较惊艳我的是,页面里需要的一些图片资源,并不是提前准备的,而是 Agent 接入搜索工具后,由模型根据页面需求自行挑选并填入的。

Step3: Xcode构建iOS应用
基于Xcode构建后的iOS版:




Step4: 美化UI风格和功能页面
同样的操作,截图发给step-3.7-flash,最后调整为文章开头呈现的版本。
说实话,这个需求不算小。
社区交流,遛狗搭子,打卡签到,积分体系,裂变拉新,狗狗商城,这些都要有。
而step-3.7-flash基本上一轮就帮我把项目主体搭得七七八八了,后面我更多是在第一版的基础上进行微调。
而且全部做完,去看账单,才花了6块钱。
真是又好用又便宜了。
基于此,我对step-3.7-flash又做了一次成本对比测试。
回到我们日常打工人的视角,我们使用AI最常用的场景就是制作PPT或者查询信息、整理信息。
所以我选取这两个case来对比测试:
- 国外顶流flash:gemini-3.5-flash
- 国产新秀flash:step-3.7-flash。
模型一、gemini-3.5-flash
任务1. 制作PPT
## 任务目标:请使用 guizang-ppt-skill 制作一份名为《2026 年 AI Agent 行业发展趋势:企业智能化转型的战略新范式》的 PPT ## 基本信息 - 受众:企业负责人、中高层决策者(关注 ROI、降本增效、组织变革)- 时长:20 分钟演讲 - 篇幅:严格控制在 10 页以内 - 风格:高端、简洁、商务、极具科技感 ## PPT 内容大纲(共 10 页) 1. 封面:标题及副标题,展示 2026 年行业前瞻感 2. 核心论点:从 Copilot(助手)向 Agent(自主数字员工)的战略跃迁 3. 市场驱动:展示 2026 年 AI Agent 的市场规模爆发与企业渗透率预测 4. 技术趋势:重点阐述多智能体协同(Multi-Agent Orchestration)及自主决策架构 5. 核心应用:各行业(金融/制造/零售/职能部门)的典型落地场景及预期 ROI 6. 架构演进:从对话框模式向 AI 原生基础设施(AI-Native Infra)的转型逻辑 7. 治理红利:强调安全、可观测性与主权 AI 在规模化中的重要性 8. 风险挑战:分析当前部署中面临的伦理与技术痛点,并提出应对建议 9. 行动路线图:为企业决策者规划从试点(Pilot)到规模化(Scale)的 4 个季度路线图 10. 结语与问答:总结核心价值,留出交流空间 ## 制作要求 - 使用逻辑图表、数据对比,别全用纯文本堆砌 - 语言风格专业、干练,具有权威感 - 视觉上使用深色背景搭配科技青色,重点突出生成效果:
任务2. AI文章查询
/wechat-hot-article-pusher 查找近一月AI相关的低粉爆款文章
总花费:$0.7175 ≈ 4.86元

数据来源于openclacky
模型二、step-3.7-flash
任务1 PPT效果
生成AI文章查询效果:

总花费:≈ 0.83元

两者账单差了将近6倍。
同样flash,也不是每个flash都一样便宜。
除了性价比高以外,我翻了一下官网,发现这个模型还有一个生成速度快的亮点。
最高生成速度可达400 TPS,适合高频、多步骤、反复调用的工作流。
这里的TPS 你可以粗暴理解成,模型吐字的速度,单位时间里能生成多少 token。
Gemini-3.5-Flash 的 TPS 大概在 200 左右,而 Step-3.7-Flash 最高能到 400 TPS,基本就是前者的两倍。
说实话这个特点在企业高实时场景里很有应用价值。
企业里的AI工作流一般都是长链路:
- 一个客服 Agent,收到用户问题后,要先判断意图,再查知识库,再决定要不要调用工具,再组织回复。
- 一个销售助理 Agent,可能要解析客户录音,再基于录音理解意图,再搜索知识库,再组织回复。
这些长链路工作流,叠加个五步十步的AI节点,就把整个体验拖垮了。
设想如果客户发过去一条消息,系统总要磨蹭半天才给出回复,那客户估计早跑没影了。
所以模型的执行效率在这类场景里就非常有价值。
一次调用便宜一点,一轮生成快一点,放到高频、多轮、长期运行的工作流里,最后省下来的不是一点点。
最后,分享我的看法
以前大家聊 Flash,更多是在聊旗舰平替。
但如果放到 Agent 时代再看,真正重要的可能已经不是它是不是平替,
而是它能不能更快、更稳、更省地完成一整条真实任务链路。
而 Step-3.7-Flash 这次给我的感受,恰恰就在这儿。
它真正让我觉得有潜力的,不是某一个单点功能特别炸,而是它把几件对 Agent 很关键的事放到了一起。
多模态、低成本、高效率。
虽然当前做的还不是很完美,但是方向对了,未来就不愁用不起来。
夜雨聆风