通用AI能打败专业选手吗?——九大AI数学解题横评(小学篇)
AI发展到现在,其实已经开始逐步改变我们的生活了,学习也是其中一部分,我个人觉得,五到十年之后,教育领域会随着ai的发展出现巨大的变化。当然具体到当下,AI在数学解题方面已经有了相当不俗的表现,所以这次我想要对各个AI以及某些APP的AI解题功能来进行一下实际评测。参加评测的有豆包、千问、deepseek、kimi、智谱清言,这五个算是AI工具,夸克(和千问算是同门)、作业帮、洋葱、九章这四个算是解题专属APP。在今后的一段时间,我会依次使用这九大AI解决小学、初中、高中的数学题目,来看看它们在数学解题方面的表现。这道问题来自于25年武汉华师一邱少班的选拔试卷中的一道题目,下载自菁优网,本质上是形成问题的一个变形,结合表面有一些新的变化,不算是很难的题目,但也有一定难度,又是小学比较难的应用题题型,算是比较好的一个例子。我们会从解题的时长,解题过程的质量(准确度和学生的接受度),附加功能三方面来进行评测。在这里我统一使用的都是手机客户端,同一部手机,都在应用商店更新到最新版,通用的AI采用的都是默认模式,如果有解题功能,那么就选择解题功能。豆包的过程是最简洁的,没有太多的流程性分析,但也包含了一些分析过程,强调了五点半之后和六点半之前两个重要的限制条件,最后运用比例关系来确定时长,很不错的思路,而且没有使用方程。千问的思路其实和标准答案思路一致,分析过程比较长,分的比较细,方便学生理解,但是思路就是常规思路,列方程求出时针分针夹角为九十度的时间节点,然后相减。老实说,deepseek这个过程我不是很满意,第一就是时间太久,第二就是过程太长。怎么说呢,你也不能说它做错了,但是它的思路明显属于是没有完全理解题意,而且在解题过程中出现的字母比较多,还出现了绝对值,对于小学生来说理解难度略高。夸克其实是阿里旗下,所以其AI有可能是和千问一样的,所以他们的方法也类似,过程特点也类似,但是毕竟这是专门的解题功能,应该是有题库储备或者优化过,所以非常快。智谱清言就一般了,我在上传图片的时候它还跳出了识图解题功能,但是我点了效果也就是如此,几乎完全不可用。Kimi的解答过程和deepseek差不多,都不是很令人满意。需要说明一下,作业帮我是有会员的,所以作业帮的很多功能我都是可以用的,但非会员未必能用。作业帮毕竟是专业的,识别题目出答案非常快,几乎是秒出,之所以是三秒不到,其实是我的反应时间,另外强调下,不管是哪一种AI在你点下开始之后,基本上都在同步开始出过程,我计算的时间是从开始思考到完成的时间。现在有一种思潮,觉得有了AI,就可以摒弃作业帮这类APP了,起码目前来看还不太行,因为人家也在进步,而且功能还比较全面。时间上比较短(可能是优化过),过程和千问、夸克类似。洋葱的AI不怎么为人所知,但的确是优化过的,虽然是列方程,但是思路的确是小学数学行程问题解题的常用思路这个还是不错的,而且切分成三部分,每一部分都有一个讲解按钮,可以让ai讲解一下。九章看起来名不见经传,但它是学而思旗下的解题模型,所以我还是蛮期待的。单纯从这一道题的测试来看,首先智谱清言不及格,就不再说了,下次评测初中我就不再看智谱清言了;其次第一梯队的我个人觉得还是专业扫题APP或者是数学学习类APP的AI功能更好,其中单论AI解题这方面,洋葱和九章是最好的,如果论功能多样,那么作业帮是最好的,夸克相对比较中庸,需要指出的是豆包的思路很不错,也值得表扬,虽然简洁但是不简单。其次像是deepseek和kimi,说实话,起码在这个题上有些水土不服的情况。但是这只是小学,如果是初中,又会是什么情况呢,下次我会在初中解题评测中找代数、几何与函数三道题目,来看看这些AI表现如何。你们想不到我也有课吧——安然的小酒馆课程介绍(最新)