统一需求测 AI:各家 AI 表现排行,从夯到拉
日常网上冲浪时,发现了个有意思的网站 —— 掌机圈,里面整理了不少掌机相关信息,美中不足的是查询和对比功能不太好用。
比如对比只能两两对比,无法多条一起对比。查询条件不全面,比如屏幕尺寸没有4.7的选项。

于是需求就来了:把数据爬下来做成表格,方便筛选对比。
本着能躺着就不坐着的原则,这次没有手写代码,而是直接让 AI 免费打工,顺便也实测一波主流大模型的编码水平。
就这样,才有了今天这篇实测排行。
首先要告诉AI需求是什么,要尽量详细,不能是模糊的需求,比如下面这样的:
使用爬虫技术将这个网页及每个产品的详情页数据都整理出来成为一个excel表格:
https://zhangjiquan.com/handhelds/
想要让AI 写出好代码,需要先手工查看一下网页代码结构,找到关键标签的展示逻辑:
比如列表页每个产品链接的格式是<a href…


详情页不同元素使用的标签不同,格式不同:


写一个python爬虫,爬取https://zhangjiquan.com/handhelds?page=1这个列表页面的所有产品链接,比如<a href=”/handheld/rg-vita-pro” title=”查看RG Vita Pro掌机详细参数”>这就是一个链接,点击它会打开这个页面https://zhangjiquan.com/handheld/rg-vita-pro。然后这个列表页面有20个产品链接,将他们都保存在一个数组中,此列表页下方还有分页链接比如<a class=”page-link” href=”/handhelds?page=2″>2</a>,点击它就会跳转到第二页,地址是https://zhangjiquan.com/handhelds?page=2。然后再爬取页的20个产品链接,保存在刚才的数组中,以此类推爬取共5页,保存在一个数组中。然后按顺序循环数组的每一条链接,访问链接页面,爬取<table class=”table table-striped table-hover table-content”>下的详细信息,每个<tr>是一行信息,整理成csv格式的表格数据,其中第一行是图片链接,取”https://upload.zhangjiquan.com/images/device/rg-vita-pro.webp”即可,<td class=”td1″>品牌</td>的值取 <td class=”td2″>下的<a>标签的值,<td class=”td1″>屏幕PPI</td>的值取<td class=”td2″>中的400.5即可,不需要取 <svg t=”1739514675313″…,<td class=”td1 vertical-middle”>处理器</td>值取<span>RockChip RK3576</span>中的值即可,<td class=”td1″>模拟器游戏支持</td>是最后一列,后面的tr不需要整理了,最终生成一个csv文件。注意生成的表格列顺序就是详情页tr的顺序,不要乱序。
豆包:爬取列表页时得到的结果数错误,应该是一页20条,而她爬到37条,多出的17条应该是头部查询条件链接,并且接下来的每页都是37条,最终就成了185条链接,由于错误链接不是详情页,所以到解析会报错,但不影响后续正确链接的解析

日志发现一条失败日志:解析详情页失败https://zhangjiquan.com/handheld/retroid-pocket-5:HTTPSConnectionPool(host=’zhangjiquan.com’, port=443): Max retries exceeded with url: /handheld/retroid-pocket-5 (Caused by ConnectTimeoutError(<HTTPSConnection(host=’zhangjiquan.com’, port=443) at 0x2f8f154f510>, ‘Connection to zhangjiquan.com timed out. (connect timeout=10)’))最终导致整理数据少一条。


csv表格检查:总计爬取产品数量99条,缺少一条,说明缺少重试逻辑,如果加大爬取任务规模,可能导致结果比预期少得更多。数据准确性方面除了图片链接列是空的,其余列数据准确。

评价:75分。总数量缺失扣5分,好在错误日志明确,可后续补救或重试。图片链接列为空且需求中有明确抓取方法,扣20分。表格勉强可用,给到人上人。
deepseek:爬取列表页产品链接准确,全程无报错。


csv表格检查:数据准确性方面有两列的部分数据不准确,是处理器列抓错了值,当处理器行有【处理器型号】和【多核得分】时取了【多核得分】,没有按照需求实现代码,属于bug,扣20分。屏幕PPI列如果是双屏掌机只取了上屏的数据,没有下屏数据,需求中没有明确抓取方法,其代码bug导致数据不可用,扣10分。有正确的图片链接,可打开,最后还多了一列产品链接,点击可直接跳转到对应产品详情页,比较方便,加2分,看来是比别家AI有更多的思考的。

评价:72分,由于抓取代码的bug导致处理器列数据不可用。表格不可用,只能给到NPC。
千问:爬取列表页产品链接准确,全程无报错。


csv表格检查:详情页数据准确,第一列图片链接正确,可打开。唯独缺少最后一列模拟器游戏支持列,看了代码虽然理解有误,但注释很清晰,很容易的重新提交了修改要求,再次生成代码,重新爬取得到正确可用的表格。扣5分。


评价:95分。只有少许理解瑕疵,同时代码注释清晰,容易修正,结果准确可用,给到夯!
智谱清言:爬取列表页产品链接准确,全程无报错。


csv表格检查:详情数据两列不准,机身颜色是会有多个值的,但只抓取了第一个值,扣10分。处理器列和deepseek一样的毛病,如果处理器有多核得分就抓了多核得分,没有按照需求实现代码,属于bug,扣20分。

评价:70分。有两列不准确,表格不可用,只能给到NPC。
元宝:和豆包爬列表页犯了同样的错误,爬到了非详情链接,每页同样得到37个链接,但做了去重,最终是117个链接,爬取前17个报错但不影响后续正确的产品链接爬取,最终成功得到100条数据。


csv表格检查:第一列图片链接都是同一个错误地址,没有按照需求实现代码,属于bug,扣20分,其他列都正确。

评价:80分。表格数据基本可用,给到人上人。
天工:爬取列表页产品链接准确,全程无报错。


csv表格检查:缺少图片链接列,没有按照需求实现代码,属于bug,扣20分。其他列数据准确。

评价:80分。表格数据基本可用,给到人上人。
Kimi:爬取列表页产品链接准确,全程无报错。


csv表格检查:屏幕PPI列如果是双屏掌机只取了上屏的数据,没有下屏数据,需求中没有给出抓取要求,其代码bug导致数据错误,扣10分,其他列数据准确。

评价:90分。表格数据基本可用,给到顶级。
幽默的来了:
秘塔AI:无法编写代码,只给出教学示例代码。

评价:还是过于保守了。给到拉。
文心一言:思考和作答超慢,最终也没有给出代码,而是直接给了个文件下载链接

下载打开一看,额。。。

评价:无需多言,拉。
最后总结:一张表格,高下立判

写在最后
当然,仅凭单一测试无法代表各家 AI 的全部实力。
本次测评纯属趣味整活、图一乐呵,不必过度较真。
也期待各大模型持续优化升级,不断精进,用更强的技术造福大家~
夜雨聆风