不是测算力,不是比参数。我用一堂40分钟的语文课、一道数学分层陷阱题、一篇学生作文批改和一个班主任视角,考了考这些AI。一、为什么写这篇测评 过去半年,教师圈里关于AI的讨论明显多了。 有人用AI写教案,有人让它出题,有人试着让它批作文。但尴尬的是,大多数测评都是程序员视角——跑分、token、响应速度。这些东西对一线老师来说,意义不大。 一个AI写教案“快”但全是套话,和一个AI“慢”但真懂教学——老师要哪个?显然是后者。 所以我想做一件事:用教师的眼光,去考一考这些AI。 我选了目前大陆可免费使用的六个平台——DeepSeek、Kimi、文心一言、智谱清言、豆包、通义千问。给它们出了5道题,覆盖备课、出题、批改、学科思维、育人智慧五个维度。同样的prompt,同一时间,看它们各自的答卷。二、我考了什么五道题分别是: 测试1:为初二语文《背影》设计40分钟教案。看教学设计是否具体可操作,互动是否真有“触动” 测试2:为“一元二次方程”出3道梯度选择题。看难度递进是否合理,陷阱设计是否巧妙。 测试3:批改一篇初二学生当堂作文。看反馈是否有针对性,修改建议是否可操作。 测试4:回应学生"0.9循环不等于1"的质疑。看解释是否多角度,是否保护好奇心。 测试5:班主任如何跟状态下滑的女生谈话。看开场是否温和,是不是真懂教育。 测试1:《背影》教案。
Kimi的表现让人意外。它设计的互动环节叫“假如父亲有朋友圈”——让学生用父亲的口吻写买橘子时的心理活动,要求不能出现"爱"字,必须包含一个身体感受(腰/汗/喘)。这个限制条件要求着学生用身体感去体会父爱,而不是喊口号。而且它的教学主线不落俗套——"从'看不见'开始",追问"为什么不写正面?因为背影是留给追望的"。

文心一言 的切入角度巧——从一个"笨"字入手,主线是"越写笨,越见深情"。互动环节是"写一句说不出口的话"——纸条、匿名、一句话。简单,但极有力量。老师不需要太多道具就能在课堂上操作。
DeepSeek的教案设计了"我替父亲买一次橘子"的情境置换活动:A组按原文演,B组改成儿子去买,然后讨论"如果换成儿子去买,故事还叫《背影》吗?"
通义千问用跨越时空的对话角色代入,让学生分别以20岁和28岁的朱自清身份写内心独白,有巧思但结构偏传统。
智谱清言 的"匿名纸条上的笨拙背影"设计符合青春期心理——从"嫌烦"到"读懂",与文本情感结构同构,但整体呈现偏散。
豆包结构完整,但互动环节是固定的句式填空("我曾经觉得___很___,后来才明白___"),相比之下,太简单。
第一轮:Kimi ≥ 文心一言 >DeepSeek ≈ 通义千问 智谱清言 > 豆包
测试2:一元二次方程分梯度选择题
出三道题按难度递进——看起来容易,做起来不容易。因为梯度要体现在认知层次的变化上。
Kimi和文心一言在这一项上表现稳定。
Kimi的递进逻辑很清晰:第1题"识记与直接应用"→第2题"理解定义完整性"(绝对值+系数的双重陷阱)→第3题"分析、综合与转化"(同构方程+韦达定理)。尤其是第3题,计算量极小但思维量大——你不需要硬解,但要能"看出"两个方程同构。
文心一言的三题递进概括得很精当:"会算→会想→会转。第2题的陷阱设计是"两边同除以(x-3)会丢根",专门给"走捷径"的学生挖的坑,实战感强。

DeepSeek、智谱清言和 通义千问在出第3题时都出现了不同程度的"自我修正"——反复修改题目数据、调整选项。这说明:AI在复杂的设计任务中,逻辑还不够稳健。一个数学老师出题不会这样反复推翻自己。
豆包的第2题偏简单(考"整理成一般形式"),思维量不够;第3题结合一次函数图像的设计思路可以但略显繁琐。
第二轮:Kimi ≈ 文心一言 > DeepSeek > 智谱清言 > 通义千问> 豆包
测试3:作文批改
文心一言指出的问题是"最该细写的地方一笔带过",修改示范加了"手在发抖"的细节——把"湿透的衣服"这个大画面聚焦到"发抖的手"这个小特写上,指导思路很精准:"大而空不如小而准。"

Kimi的批改最懂学生。它抓住了两个问题:一是"妈妈的形象太标准"——换成任何一位妈妈都能代入,缺少只属于你的细节;二是"'觉悟'来得太顺"——从嫌唠叨到突然懂事,"像按了开关"。修改示范很有人味儿:
原文:我觉得自己太不懂事了。从那以后,我开始学着体谅妈妈。
改文:我想开口说"妈你冷不冷",话到嘴边却变成了"你怎么才来"。可话一出口我就后悔了。那天晚上,我偷偷把她的湿衣服洗了,没告诉她。
DeepSeek的批改也到位。它指出"妈妈形象太模糊"后给的修改示范加了触觉和声音(雨水滴落、嘴唇发紫、"等急了吧?快上来!")。总评有金句"少说'我懂了',读者自然就被你打动了。"
通义千问的修改示范有画面感("雨水顺着发梢往下滴,眼镜片上全是雾气"),但整体是正确的。
智谱清言和豆包在这道题上偏弱。前者修改方向对但不够具体("增加特写镜头"),后者评语偏简短笼统没有太多指导性。
第三轮:Kimi ≈文心一言> DeepSeek > 通义千问 > 智谱清言 > 豆包
测试4:学科思维——如果学生问"0.9循环不等于1"
Kimi用了"蛋糕比喻法"——每天吃剩下蛋糕的9/10,无限天后蛋糕还有剩余吗?关键追问是:"无论你说'还剩多少',我都能说'再过几天就吃得比那更少'。无限操作下,'剩余'被彻底消灭了。

文心一言用了三种方法:分数法、走路比喻、代数法。它的"走路比喻"讲得很清楚:"每一步走剩下路程的90%,你确实在无限步里走完了全程。"最后一句对学生的鼓励是"很多人背了'0.999…=1'就完了,但你问了'为什么'——这才是学数学最值钱的东西。"
通义千问的"找缝隙法"也很有力——让挑战者"找一个比0.999…大又比1小的数",找不到就说明它们之间没有距离。这种逻辑推理法干净利落。
DeepSeek的"丝带比喻"直观准确,语气中保护学生好奇心的意识很强。
智谱清言三种方法都讲到了但语气偏"讲道理",少了一点温度。豆包的回答依旧简短。
第四轮:文心一言≈ Kimi > 通义千问 ≈ 智谱清言> DeepSeek >豆包
测试5:育人智慧——班主任谈话
我最喜欢文心一言的回答:它把开场白每句话为什么要这样说都解释了一遍。后续跟进建议也温暖:作业本上写一句'这道题解得很漂亮'(不提之前的问题),让她知道老师没把她当'问题学生'看。

通义千问的回应质量不差,但结尾处附了一串推荐文章链接("初中生早恋,班主任的疏导思路来了"),有点搞笑,是推广吗?……
Kimi的回应以表格呈现,很专业。它给出"初二女生安静+成绩下滑+回避交流"的常见原因排序:家庭变故 > 同伴关系危机 > 学业焦虑 > 青春期情绪困扰。角色定位很OK:你的角色不是诊断,而是第一个发现异常并温柔接住她的人。
DeepSeek把问题分层为"客观→身体→人际→家庭→自我认知",层层递进。而且它精准地定位了第一次谈话的目标:"不是一次解决所有问题,而是让她感受到老师的关心而非责备,让她愿意下次再来找你。
智谱清言的"示弱/关心式" 开场建议还行,内容扎实但有些不真实。
豆包基本覆盖要点但分析和深度都不够。
第五轮:文心一言> 通义千问≈DeepSeek ≈ Kimi > 智谱清言 > 豆包
总体感受:平时用得很少的Kimi 和文心一言给了很大的惊喜,没想到,很好用;deepseek像一位逻辑性满分的理科生;智谱清言的排版非常漂亮,一目了然;通义千问有一种非常努力的感觉,每一个回答都很认真;豆包嘛~好像那种地主家的傻儿子,啥都知道,知道“一”点。
如果你最常做的是"备课 + 改作文"
首选 Kimi。它的教学设计有灵气,"朋友圈"那种设计不是套模板能套出来的。作文批改最能触到学生真实心理,给的修改建议不是"可以写得更生动",而是"话到嘴边变成了'你怎么才来'"——这种级别的理解力,优秀!
如果你重视"育人"——跟学生谈话、班会设计
DeepSeek 和文心一言各有千秋。 DeepSeek 的谈话方案更像一位有经验的班主任在你耳边说话,可以直接背下来用。文心一言的谈话方案好在"设计意图分析"——它告诉你为什么这样说,而不只是告诉你这样说。前者是鱼,后者是渔。两个都留着用。
如果你经常出题、做学情分析
文心一言和Kimi都行。文心一言的梯度设计意识强,"会算→会想→会转"的递进逻辑在实战中好用。Kimi的同构+韦达的设计思路更新颖。
如果你是日常轻量使用——写通知、做PPT大纲、翻译
豆包和通义千问完全可以胜任。豆包的优势在手机端体验流畅,随手用方便。通义千问的文档处理能力在备课资料整理上有优势。它们在深度教育场景中的表现不如前三者,但日常轻任务也够用了。
如果你关注"教育温度"
DeepSeek、Kimi、文心一言三者在回应学生的语气中,都能感受到一种"蹲下来跟你说话"的姿态。它们不急着给答案,先肯定学生的困惑、保护好奇心、把学生的"错误"正常化。这种东西算法算不出来,但它确实在回答中呈现了。
测评做完,有几个感受。
第一,这些AI平台在过去一年的进步速度太夸张了!去年这个时候,让AI设计《背影》教案,大概率是"体会父爱的伟大"那一套。现在它们已经能精准分析"攀/缩/倾"的动词张力,能设计出让学生有触动的互动环节。如果一个老师今天还在用三年前的教案上课,那确实应该有一些紧迫感。
第二,AI不是来替代教师的。测试5的谈话方案做得再好,也只是一个"参考方案"。真正面对那个沉默的女生时,老师眼神里的温度、语气里的关切、多年与学生相处的直觉——技术是手段,育人是目的。
第三,教师用AI,最好的姿态不是"膜拜"也不是"排斥",而是审辨式使用——让AI出初稿,你来判断、取舍、注入灵魂。就像测试中Kimi那个精彩的作文批改建议:它发现了学生的"觉悟来得太顺",但最终决定用什么语气跟这个学生说话、什么时候说、在作业本上写什么——这些判断,永远属于站在教室里的那个人。
测试日期:2026年5月
测试平台:DeepSeek / Kimi / 文心一言 / 智谱清言 / 豆包 / 通义千问
声明:所有平台均使用免费版测试,结果仅代表当前版本的体验
夜雨聆风