大家好,我是陆徐洲,好久不见!
过去很长一段时间,我们聊 AI,更多是在聊模型、代码、Agent、MCP、Harness、Claude Code、Codex 这些技术话题。
这些东西重要,但它们离很多普通人仍然有点远。
如果一个人不写代码、不做产品、不研究模型,他应该从哪里开始感受到 AI 的价值?
我觉得答案不一定是“写一篇文案”,也不一定是“让 AI 画一张图”。更好的入口,可能是一个真实生活问题:
我想出去玩,但不想自己查半天攻略、车次、酒店、景点、美食。AI 能不能先帮我把这件事安排明白?
所以我做了这个小实验。
同一个旅行问题,我分别丢给 8 款手机端 AI App:千问、Kimi、元宝、豆包、智谱清言、讯飞星火、文心、DeepSeek。
测试问题如下:
我想和我其他几个朋友一起去嵩山玩之后去趟洛阳,当然假设周边有其他适合顺路一并游玩的也可以推荐给我。我们四个人,一个从北京出发,一个从上海出发,一个从杭州出发,一个从诸暨出发。为我安排5月1号到5月4号的行程、住宿、美食、游玩地点等。
这个问题看起来很普通,但其实很考验 AI。
它需要同时处理四地出发、节假日高峰、集合地点、嵩山和洛阳之间的动线、酒店位置、美食推荐、景区安排、返程交通。更关键的是,它不能只把话说漂亮,还要尽量能落地。
这次我心里的前三名是:
千问第一,豆包第二,Kimi第三。
这个排序不是说它们的模型绝对能力就是这个顺序,而是说,在“手机端帮普通人规划一次真实旅行”这个场景里,它们给我的综合体验是这个顺序。
第一名:千问,最像一个真的能办事的旅行助手
千问这次最突出的地方,不是文字写得最好,而是它真的开始“办事”了。
它在回答前先进入任务执行流程,理解需求、搜索背景知识、分析任务、生成行程表。这个过程不像普通聊天,更像一个手机端的任务助理。

更关键的是,它调了大量工具。截图里可以看到,这次任务助理自动完成了网页阅读和工具/API调用,并生成了一个完整的旅行规划文档。

这正是千问在旅游场景里的核心优势:它背后有阿里生态。
在我的测试里,它结合了飞猪、高德等本地工具生态,给出的酒店、景区、美食信息都比较详尽,而且很多内容可以链接到对应页面。它还在开头用地图方式标记了四天行程点位,这一点对普通用户特别友好。
旅游规划不是作文。你最终要看的是:能不能查地点,能不能看路线,能不能跳到酒店和景区,能不能继续往下订票、订房、查交通。
在这一点上,千问明显比纯文本型 AI 更接近真实出行助手。
当然,它也不是完美。
这次最大的问题是:从北京、上海、杭州、诸暨四地出发到河南的去程安排,没有真正链接到飞猪;中间从嵩山到洛阳的转程,也没有给出具体车次或更细的交通方案。换句话说,它对“到河南之后怎么玩”做得很好,但对“四个人如何精准抵达和转场”的细节还不够完整。
另外,首日行程也存在一些需要人工复核的地方。五一期间从多地抵达、集合、带行李、再赶景点,本身就很容易变得紧张。AI 给出方案后,第一件事不是照单全收,而是让它反过来自查首日和末日是否合理。
但即便有这些问题,千问仍然是这次最接近“能办事”的一个。
如果你要用手机 AI 规划旅行,我会优先建议从千问开始。
第二名:豆包,内容不算最长,但最容易让普通人看懂
豆包这次给我的感觉是:它没有千问那么强的本地生活跳转能力,也没有 Kimi 那么长的资料组织能力,但它的答案很清爽,普通人容易看下去。
它给出了大交通、住宿、美食、穿搭、门票、四人分工等信息,整体安排基本合理。

豆包还有一个优势:图文表达更自然。
比如在洛阳行程里,它会穿插景点图片、门票、游玩时间、美食安排。对普通用户来说,这比一大段纯文字更容易建立感知。

它的美食清单也比较接地气:登封烩面、少林素斋,洛阳水席、牛肉汤、浆面条、锅贴这些都有提到。最后还补了天气、门票预约、充电宝、防晒等提醒。

豆包的问题也很明显:内容偏少,缺少进一步跳转到本地生活服务的配套能力。它能告诉你“吃什么、住哪里、怎么玩”,但没有像千问那样自然地连接到高德、飞猪这类可执行入口。
所以我会把豆包定位成:普通人第一次用 AI 做旅行规划,很适合用它起步。
它不是最强的旅行执行工具,但它够直观、够轻、够好懂。
第三名:Kimi,最像认真做攻略的人
Kimi 的优势仍然是全面。
它给出的资料来源比较多,行程结构清楚,还把去程和回程的具体车次列了出来。这一点在 8 款 App 里很加分。

它也会把每天主题、核心地点、详细安排、美食清单、预算、注意事项整理成比较清晰的结构。

如果说千问像“旅行办事员”,豆包像“友好的生活助手”,Kimi 更像“认真做攻略的朋友”。
它不一定能帮你直接跳转到酒店、门票和地图,但它会尽量把攻略做完整。尤其是四地出发、车次建议、景区安排、预算提醒这些信息,Kimi 写得比较扎实。
这也是 Kimi 的典型优势:资料整理、长文档、结构化输出。
但在旅游这种场景里,纯攻略能力还不够。真正落地时,你仍然需要打开地图、12306、酒店平台、景区预约平台二次确认。Kimi 没有打通这些生态,所以它更适合作为“前期攻略生成器”,而不是“一站式旅行助手”。
其他几款:各有亮点,但短板也很明显
元宝的回答偏简洁。
它不是完全没用,住宿、美食、顺路景点都有提到,也有一些来源链接。但整体信息密度不够,作为旅行初稿可以看,作为完整规划不太够。

讯飞星火的结构还可以,也给出了路线、预算、门票提醒等内容。但资料引用偏少,而且来源集中,很多引用来自网易。这会影响我对信息可靠性的信心。
文心的正文部分没有明显引用资料,但因为有百度地图生态,补充了地图上的景点位置。这个能力很有价值,只是正文规划本身没有千问那么完整。

DeepSeek 的表现比较中规中矩。它能把路线、预算、注意事项说清楚,来源也不算单一,但整体是纯文字说明,缺少本地生活跳转和手机端交互优势。

智谱清言的回答最有“技术味”。它甚至用 Mermaid 图画了行程概览,这对技术用户可能挺有意思,但对普通人规划旅行未必是最自然的表达方式。

同时,它的资料来源比较有限,主要来自 cncn.net、toutiao.com 这类站点;行程上也出现了第一天洛阳、第二天登封、第三天洛阳这种来回折返的安排,动线不太理想。
为什么这次不是“谁模型最强”决定胜负
这次测试让我最明确的一点是:
生活场景里的 AI,不能只看模型会不会写。
尤其是旅行规划这种任务,模型只是其中一部分。
真正影响体验的,还有三件事:
第一,是否能接入真实世界的数据。比如地图、酒店、车票、门票、景区、餐厅。
第二,是否能把信息组织成普通人看得懂的形式。比如地图、表格、图片、日程、清单。
第三,是否能继续往下办事。比如跳转预订、查看路线、打开地图、复制行程、分工准备。
这也是为什么千问这次能排第一。它不是每个细节都完美,但它背后的飞猪、高德、阿里生活服务生态,让它更像一个能继续往下走的手机助手。
Kimi 文本很强,但没有生态闭环;DeepSeek 分析能力强,但更像纯文字顾问;豆包体验友好,但本地生活配套还不够深。
这就是“会聊天”和“能办事”的差别。
普通人应该怎么用 AI 规划旅行
如果你也想试,可以不要只问一次。
我建议分三步。
第一步,让 AI 先出初版:
我计划和朋友在5月1日到5月4日去嵩山和洛阳玩。我们分别从北京、上海、杭州、诸暨出发。请帮我安排集合城市、交通方式、住宿区域、每天景点、美食、预算和注意事项。要求节奏不要太赶,适合四人同行。
第二步,让 AI 自查不合理之处:
请检查上面行程中不合理的地方,重点看:1. 第一天到达时间和行李是否方便;2. 四地出发是否适合统一集合;3. 景点顺序是否绕路;4. 嵩山到洛阳转场是否有具体交通方案;5. 五一期间是否可能排队过久;6. 住宿位置是否方便第二天出行。
第三步,让 AI 输出执行清单:
请把最终方案整理成四个清单:1. 每个人需要买的往返车票;2. 每晚建议住在哪个区域;3. 必须提前预约的门票;4. 出发前需要准备的物品和四个人分工。
这三步比“直接问 AI 给我一份攻略”靠谱得多。
因为 AI 第一次回答,往往是“看起来合理”;经过自查和执行清单之后,才更接近“真的能用”。
我为什么想做这个系列
这篇是“AI生活实验室”的第一期。
我想把它从技术文章里单独拎出来,是因为 AI 不应该只属于程序员、产品经理、研究者和技术爱好者。
很多人并不需要理解什么是 Agent、MCP、上下文工程,也不需要知道 Claude Code 和 Codex 的区别。
他们真正需要的是:
孩子作业不会讲,AI 能不能帮我引导?
父母看不懂药品说明,AI 能不能说人话?
租房合同条款太复杂,AI 能不能帮我找风险点?
周末带孩子去哪玩,AI 能不能按天气、预算、年龄安排?
装修预算、家庭保险、旅行计划、菜单采购、手机故障、办事材料,这些才是 AI 进入普通人生活的入口。
过去,我们总是把 AI 讲得很宏大:模型、算力、失业、颠覆、重构。
但对大多数人来说,AI 最好的开始,可能只是让生活里某一件麻烦事,少查半小时、少纠结一晚上、少走一次弯路。
这也是我想做这个系列的原因:
用真实生活问题测试 AI,看看它到底能不能帮普通人把日子过得更美好一点。
我是陆徐洲,一家LIMS公司的AI算法负责人。关注我,让我们一起在AI落地实践的路上,走得更远。
感谢您阅读我的文章。有任何关于AI提效或者工程落地实践方面的问题都可以加我微信,交个朋友,一起探讨,共同进步。

夜雨聆风