国内AI六天王教育视角大混战—

国内AI六天王教育视角大混战——结果有些意外

    不是测算力，不是比参数。我用一堂40分钟的语文课、一道数学分层陷阱题、一篇学生作文批改和一个班主任视角，考了考这些AI。

一、为什么写这篇测评

    过去半年，教师圈里关于AI的讨论明显多了。

    有人用AI写教案，有人让它出题，有人试着让它批作文。但尴尬的是，大多数测评都是程序员视角——跑分、token、响应速度。这些东西对一线老师来说，意义不大。

    一个AI写教案“快”但全是套话，和一个AI“慢”但真懂教学——老师要哪个？显然是后者。

    所以我想做一件事：用教师的眼光，去考一考这些AI。

    我选了目前大陆可免费使用的六个平台——DeepSeek、Kimi、文心一言、智谱清言、豆包、通义千问。给它们出了5道题，覆盖备课、出题、批改、学科思维、育人智慧五个维度。同样的prompt，同一时间，看它们各自的答卷。

二、我考了什么

五道题分别是：

    测试1：为初二语文《背影》设计40分钟教案。看教学设计是否具体可操作，互动是否真有“触动”

    测试2：为“一元二次方程”出3道梯度选择题。看难度递进是否合理，陷阱设计是否巧妙。

    测试3：批改一篇初二学生当堂作文。看反馈是否有针对性，修改建议是否可操作。

    测试4：回应学生"0.9循环不等于1"的质疑。看解释是否多角度，是否保护好奇心。

    测试5：班主任如何跟状态下滑的女生谈话。看开场是否温和，是不是真懂教育。

测试1：《背影》教案。

Kimi的表现让人意外。它设计的互动环节叫“假如父亲有朋友圈”——让学生用父亲的口吻写买橘子时的心理活动，要求不能出现"爱"字，必须包含一个身体感受（腰/汗/喘）。这个限制条件要求着学生用身体感去体会父爱，而不是喊口号。而且它的教学主线不落俗套——"从'看不见'开始"，追问"为什么不写正面？因为背影是留给追望的"。

文心一言的切入角度巧——从一个"笨"字入手，主线是"越写笨，越见深情"。互动环节是"写一句说不出口的话"——纸条、匿名、一句话。简单，但极有力量。老师不需要太多道具就能在课堂上操作。

DeepSeek的教案设计了"我替父亲买一次橘子"的情境置换活动：A组按原文演，B组改成儿子去买，然后讨论"如果换成儿子去买，故事还叫《背影》吗？"

通义千问用跨越时空的对话角色代入，让学生分别以20岁和28岁的朱自清身份写内心独白，有巧思但结构偏传统。

智谱清言的"匿名纸条上的笨拙背影"设计符合青春期心理——从"嫌烦"到"读懂"，与文本情感结构同构，但整体呈现偏散。

豆包结构完整，但互动环节是固定的句式填空（"我曾经觉得___很___，后来才明白___"），相比之下，太简单。

第一轮：Kimi ≥ 文心一言 >DeepSeek ≈ 通义千问智谱清言 > 豆包

测试2：一元二次方程分梯度选择题

出三道题按难度递进——看起来容易，做起来不容易。因为梯度要体现在认知层次的变化上。

Kimi和文心一言在这一项上表现稳定。

Kimi的递进逻辑很清晰：第1题"识记与直接应用"→第2题"理解定义完整性"（绝对值+系数的双重陷阱）→第3题"分析、综合与转化"（同构方程+韦达定理）。尤其是第3题，计算量极小但思维量大——你不需要硬解，但要能"看出"两个方程同构。

文心一言的三题递进概括得很精当："会算→会想→会转。第2题的陷阱设计是"两边同除以(x-3)会丢根"，专门给"走捷径"的学生挖的坑，实战感强。

DeepSeek、智谱清言和通义千问在出第3题时都出现了不同程度的"自我修正"——反复修改题目数据、调整选项。这说明：AI在复杂的设计任务中，逻辑还不够稳健。一个数学老师出题不会这样反复推翻自己。

豆包的第2题偏简单（考"整理成一般形式"），思维量不够；第3题结合一次函数图像的设计思路可以但略显繁琐。

第二轮：Kimi ≈ 文心一言 > DeepSeek > 智谱清言 > 通义千问> 豆包

测试3：作文批改

文心一言指出的问题是"最该细写的地方一笔带过"，修改示范加了"手在发抖"的细节——把"湿透的衣服"这个大画面聚焦到"发抖的手"这个小特写上，指导思路很精准："大而空不如小而准。"

Kimi的批改最懂学生。它抓住了两个问题：一是"妈妈的形象太标准"——换成任何一位妈妈都能代入，缺少只属于你的细节；二是"'觉悟'来得太顺"——从嫌唠叨到突然懂事，"像按了开关"。修改示范很有人味儿：

原文：我觉得自己太不懂事了。从那以后，我开始学着体谅妈妈。

改文：我想开口说"妈你冷不冷"，话到嘴边却变成了"你怎么才来"。可话一出口我就后悔了。那天晚上，我偷偷把她的湿衣服洗了，没告诉她。

DeepSeek的批改也到位。它指出"妈妈形象太模糊"后给的修改示范加了触觉和声音（雨水滴落、嘴唇发紫、"等急了吧？快上来！"）。总评有金句"少说'我懂了'，读者自然就被你打动了。"

通义千问的修改示范有画面感（"雨水顺着发梢往下滴，眼镜片上全是雾气"），但整体是正确的。

智谱清言和豆包在这道题上偏弱。前者修改方向对但不够具体（"增加特写镜头"），后者评语偏简短笼统没有太多指导性。

第三轮：Kimi ≈文心一言> DeepSeek > 通义千问 > 智谱清言 > 豆包

测试4：学科思维——如果学生问"0.9循环不等于1"

Kimi用了"蛋糕比喻法"——每天吃剩下蛋糕的9/10，无限天后蛋糕还有剩余吗？关键追问是："无论你说'还剩多少'，我都能说'再过几天就吃得比那更少'。无限操作下，'剩余'被彻底消灭了。

文心一言用了三种方法：分数法、走路比喻、代数法。它的"走路比喻"讲得很清楚："每一步走剩下路程的90%，你确实在无限步里走完了全程。"最后一句对学生的鼓励是"很多人背了'0.999…=1'就完了，但你问了'为什么'——这才是学数学最值钱的东西。"

通义千问的"找缝隙法"也很有力——让挑战者"找一个比0.999…大又比1小的数"，找不到就说明它们之间没有距离。这种逻辑推理法干净利落。

DeepSeek的"丝带比喻"直观准确，语气中保护学生好奇心的意识很强。

智谱清言三种方法都讲到了但语气偏"讲道理"，少了一点温度。豆包的回答依旧简短。

第四轮：文心一言≈ Kimi > 通义千问 ≈ 智谱清言> DeepSeek >豆包

测试5：育人智慧——班主任谈话

我最喜欢文心一言的回答：它把开场白每句话为什么要这样说都解释了一遍。后续跟进建议也温暖：作业本上写一句'这道题解得很漂亮'（不提之前的问题），让她知道老师没把她当'问题学生'看。

通义千问的回应质量不差，但结尾处附了一串推荐文章链接（"初中生早恋，班主任的疏导思路来了"），有点搞笑，是推广吗？……

Kimi的回应以表格呈现，很专业。它给出"初二女生安静+成绩下滑+回避交流"的常见原因排序：家庭变故 > 同伴关系危机 > 学业焦虑 > 青春期情绪困扰。角色定位很OK：你的角色不是诊断，而是第一个发现异常并温柔接住她的人。

DeepSeek把问题分层为"客观→身体→人际→家庭→自我认知"，层层递进。而且它精准地定位了第一次谈话的目标："不是一次解决所有问题，而是让她感受到老师的关心而非责备，让她愿意下次再来找你。

智谱清言的"示弱/关心式" 开场建议还行，内容扎实但有些不真实。

豆包基本覆盖要点但分析和深度都不够。

第五轮：文心一言> 通义千问≈DeepSeek ≈ Kimi > 智谱清言 > 豆包

总体感受：平时用得很少的Kimi 和文心一言给了很大的惊喜，没想到，很好用；deepseek像一位逻辑性满分的理科生；智谱清言的排版非常漂亮，一目了然；通义千问有一种非常努力的感觉，每一个回答都很认真；豆包嘛~好像那种地主家的傻儿子，啥都知道，知道“一”点。

如果你最常做的是"备课 + 改作文"

首选 Kimi。它的教学设计有灵气，"朋友圈"那种设计不是套模板能套出来的。作文批改最能触到学生真实心理，给的修改建议不是"可以写得更生动"，而是"话到嘴边变成了'你怎么才来'"——这种级别的理解力，优秀！

如果你重视"育人"——跟学生谈话、班会设计

DeepSeek 和文心一言各有千秋。 DeepSeek 的谈话方案更像一位有经验的班主任在你耳边说话，可以直接背下来用。文心一言的谈话方案好在"设计意图分析"——它告诉你为什么这样说，而不只是告诉你这样说。前者是鱼，后者是渔。两个都留着用。

如果你经常出题、做学情分析

文心一言和Kimi都行。文心一言的梯度设计意识强，"会算→会想→会转"的递进逻辑在实战中好用。Kimi的同构+韦达的设计思路更新颖。

如果你是日常轻量使用——写通知、做PPT大纲、翻译

豆包和通义千问完全可以胜任。豆包的优势在手机端体验流畅，随手用方便。通义千问的文档处理能力在备课资料整理上有优势。它们在深度教育场景中的表现不如前三者，但日常轻任务也够用了。

如果你关注"教育温度"

DeepSeek、Kimi、文心一言三者在回应学生的语气中，都能感受到一种"蹲下来跟你说话"的姿态。它们不急着给答案，先肯定学生的困惑、保护好奇心、把学生的"错误"正常化。这种东西算法算不出来，但它确实在回答中呈现了。

测评做完，有几个感受。

第一，这些AI平台在过去一年的进步速度太夸张了!去年这个时候，让AI设计《背影》教案，大概率是"体会父爱的伟大"那一套。现在它们已经能精准分析"攀/缩/倾"的动词张力，能设计出让学生有触动的互动环节。如果一个老师今天还在用三年前的教案上课，那确实应该有一些紧迫感。

第二，AI不是来替代教师的。测试5的谈话方案做得再好，也只是一个"参考方案"。真正面对那个沉默的女生时，老师眼神里的温度、语气里的关切、多年与学生相处的直觉——技术是手段，育人是目的。

第三，教师用AI，最好的姿态不是"膜拜"也不是"排斥"，而是审辨式使用——让AI出初稿，你来判断、取舍、注入灵魂。就像测试中Kimi那个精彩的作文批改建议：它发现了学生的"觉悟来得太顺"，但最终决定用什么语气跟这个学生说话、什么时候说、在作业本上写什么——这些判断，永远属于站在教室里的那个人。

测试日期：2026年5月

测试平台：DeepSeek / Kimi / 文心一言 / 智谱清言 / 豆包 / 通义千问

声明：所有平台均使用免费版测试，结果仅代表当前版本的体验