统一需求测 AI:各家 AI 表现排行,从夯到拉-夜雨聆风

统一需求测 AI:各家 AI 表现排行,从夯到拉

日常网上冲浪时，发现了个有意思的网站 —— 掌机圈，里面整理了不少掌机相关信息，美中不足的是查询和对比功能不太好用。

比如对比只能两两对比，无法多条一起对比。查询条件不全面，比如屏幕尺寸没有4.7的选项。

于是需求就来了：把数据爬下来做成表格，方便筛选对比。

本着能躺着就不坐着的原则，这次没有手写代码，而是直接让 AI 免费打工，顺便也实测一波主流大模型的编码水平。

就这样，才有了今天这篇实测排行。

首先要告诉AI需求是什么，要尽量详细，不能是模糊的需求，比如下面这样的：

使用爬虫技术将这个网页及每个产品的详情页数据都整理出来成为一个excel表格：

https://zhangjiquan.com/handhelds/

想要让AI 写出好代码，需要先手工查看一下网页代码结构，找到关键标签的展示逻辑:

比如列表页每个产品链接的格式是<a href…

想要爬多页就需要知道分页链接：

详情页不同元素使用的标签不同，格式不同：

于是得到了以下的需求描述:

写一个python爬虫，爬取https://zhangjiquan.com/handhelds?page=1这个列表页面的所有产品链接，比如<a href=”/handheld/rg-vita-pro” title=”查看RG Vita Pro掌机详细参数”>这就是一个链接，点击它会打开这个页面https://zhangjiquan.com/handheld/rg-vita-pro。然后这个列表页面有20个产品链接，将他们都保存在一个数组中，此列表页下方还有分页链接比如<a class=”page-link” href=”/handhelds?page=2″>2</a>，点击它就会跳转到第二页，地址是https://zhangjiquan.com/handhelds?page=2。然后再爬取页的20个产品链接，保存在刚才的数组中，以此类推爬取共5页，保存在一个数组中。然后按顺序循环数组的每一条链接，访问链接页面，爬取<table class=”table table-striped table-hover table-content”>下的详细信息，每个<tr>是一行信息，整理成csv格式的表格数据，其中第一行是图片链接，取”https://upload.zhangjiquan.com/images/device/rg-vita-pro.webp”即可，<td class=”td1″>品牌</td>的值取 <td class=”td2″>下的<a>标签的值，<td class=”td1″>屏幕PPI</td>的值取<td class=”td2″>中的400.5即可，不需要取 <svg t=”1739514675313″…，<td class=”td1 vertical-middle”>处理器</td>值取<span>RockChip RK3576</span>中的值即可，<td class=”td1″>模拟器游戏支持</td>是最后一列，后面的tr不需要整理了，最终生成一个csv文件。注意生成的表格列顺序就是详情页tr的顺序，不要乱序。

发给各家AI，得到代码后本地都跑一遍，结果真是良莠不齐，我们挨个盘一盘：

豆包：爬取列表页时得到的结果数错误，应该是一页20条，而她爬到37条，多出的17条应该是头部查询条件链接，并且接下来的每页都是37条，最终就成了185条链接，由于错误链接不是详情页，所以到解析会报错，但不影响后续正确链接的解析

日志发现一条失败日志：解析详情页失败https://zhangjiquan.com/handheld/retroid-pocket-5：HTTPSConnectionPool(host=’zhangjiquan.com’, port=443): Max retries exceeded with url: /handheld/retroid-pocket-5 (Caused by ConnectTimeoutError(<HTTPSConnection(host=’zhangjiquan.com’, port=443) at 0x2f8f154f510>, ‘Connection to zhangjiquan.com timed out. (connect timeout=10)’))最终导致整理数据少一条。

csv表格检查：总计爬取产品数量99条，缺少一条，说明缺少重试逻辑，如果加大爬取任务规模，可能导致结果比预期少得更多。数据准确性方面除了图片链接列是空的，其余列数据准确。

评价：75分。总数量缺失扣5分，好在错误日志明确，可后续补救或重试。图片链接列为空且需求中有明确抓取方法，扣20分。表格勉强可用，给到人上人。

deepseek：爬取列表页产品链接准确，全程无报错。

csv表格检查：数据准确性方面有两列的部分数据不准确，是处理器列抓错了值，当处理器行有【处理器型号】和【多核得分】时取了【多核得分】，没有按照需求实现代码，属于bug，扣20分。屏幕PPI列如果是双屏掌机只取了上屏的数据，没有下屏数据，需求中没有明确抓取方法，其代码bug导致数据不可用，扣10分。有正确的图片链接，可打开，最后还多了一列产品链接，点击可直接跳转到对应产品详情页，比较方便，加2分，看来是比别家AI有更多的思考的。