我之前做过四年的数学老师。
说实话,在我看来,作为主课老师,最大的工作量其实不是上课,而是批改。
每天都有作业要改,单元测试要改,期中、期末更不用说。尤其是到了考试季,改卷几乎成了每天最耗时间的一件事。
我记得刚参加工作那会儿,就经常幻想:有没有一种机器,能像打印机一样,把试卷放进去,自动就批改好了?
当时我甚至还认真和哈工大一位做程序的师弟聊过这个想法。可惜,那时候大家都没有足够的时间,也没有现在这么成熟的大模型技术,这件事最后也就停留在了想法阶段。

原来,这个梦想真的有人实现了

直到去年,我去光明区参加科技展时,第一次见到了真正的自动阅卷设备。
那台机器长得有点像打印机,把试卷放进去,它就能自动扫描、批改。
当时我还挺兴奋的,心里想"原来真的已经有人做出来了。"
最近一两个月,我发现新闻上报道已经有学校开始引进这套设备。我特意了解了一下,大概需要8万元购买机器,再加上三年的智能批改系统约16万元。
也就是说,一整套下来,至少需要24万元。
对于老师个人来说太贵了,不可能购买。对于很多学校来说,这也不是一笔小开支,而且几百个老师在一台机器前排队批改也很不方便。
真正让我开始思考,是学校的一次AI阅卷

这学期期中考试,我们科组也尝试了一套AI阅卷系统。
说实话,刚开始大家都挺期待的。
可真正用完以后,却发生了一件有意思的事情。
阅卷结束,我们没有继续使用它。
很多老师宁愿自己手改,也不愿意继续用AI。
后来我认真观察了一下原因。
客观题其实没什么问题。选择题、判断题这种,AI几乎不会出错。这类技术其实二十年前就已经很成熟了。
真正的问题,都出在主观题。
AI按照标准答案给分,非常严格,错了一丁点,就判0分。
老师如果觉得某个学生其实答得不错,想稍微宽松一点,系统往往做不到。
还有一些题目,必须提前放进系统,按照固定答案去判。
可现实中的老师并不是这样工作的。
有时候一句表达虽然和标准答案不完全一样,但意思到了,我们会给分。
有时候遇到本校学生,大家也会在合理范围内适当宽松一点。
这种尺度,其实每位老师心里都有一把自己的尺子。
而AI没有。
也正因为这样,老师们始终还是希望,最后的评分标准能够掌握在自己手里。
我开始重新思考另一条路

那段时间,我一直在想,要不要自己做一套阅卷系统,利用扫描机把试卷扫描上传批改。这里边既有软件知识也有硬件知识。
后来仔细想了想,又觉得不现实。
学校和教育局使用的阅卷系统,大多都是大型公司的产品。
就算我真的重新开发一整套阅卷平台,也很难推广。
后来有一天,我突然换了一个思路。
既然没必要重新做一个阅卷平台,那为什么不能直接利用现有的平台?
老师还是登录自己学校原来的阅卷网站。
我做的,只是一层"阅卷浏览器"。
它负责识别:
学生答题图片 系统登分位置 提交按钮
这样既不用改变学校原来的系统,也不用购买新的扫描设备。
老师依然按照自己的习惯阅卷,用老师自己的评分标准,只不过把那些重复、机械的操作交给AI去完成。
想到这里的时候,我突然觉得,这条路或许真的可行。
真正难的,其实不是AI批改

很多人以为,最难的是AI识别学生答案。
实际上,真正让我反复调试的,是评分标准。
老师每道题都有不同的要求。
尤其是语文、英语作文,几乎没有标准答案。
所以,我希望评分标准不是我来定,而是老师自己来定。
比如老师可以直接写一句:
只要学生写了内容,就给1分。
AI就按照这个标准去执行。
为了让模型真正理解老师的意思,我改了不知道多少版提示词。
一开始,仅仅是一道很简单的题甚至白卷,系统都会批改一两分钟。
后来不断增加限制条件,比如提前选择学科、限定输出格式、优化提示词,评分才慢慢稳定下来。
直到现在,我依然还在不断调整。
它不是替代老师,而是帮助老师

目前,我还是不敢说这个软件已经足够成熟。
AI也不会百分之百正确。
所以,我一直坚持保留人工确认。
整个流程,我建议老师这样使用:
先试批两三份试卷,看看AI的评分效果。 如果有不满意的地方,及时调整评分标准或题型。 确认没有问题后,再开启连续批改。
这样,老师去吃饭、备课或者处理其他事情的时候,AI可以24小时连续工作,自动完成批改。
与此同时,每一份试卷都会保留完整的批改记录。
老师随时都可以回看每一道题的扣分原因和评分过程。
我更希望,它只是老师身边一个不会累的助手。
AI负责干活。
最后的决定权,还是交给老师。
毕竟,真正了解学生的人,从来都不是模型,而是站在讲台上的老师。
关于模型和软件的一些设计

目前软件默认使用的是2026年6月发布的Qwen3.7-Plus模型,同时也内置了其他模型。
另外,我还保留了一个自定义模型接口。
如果以后老师觉得有更好的模型,或者自己有API,都可以直接接入。
目前Windows和Mac版本的安装包都已经完成,也已经放到了网站上:
https://classgarden.cn/xiaoge/ai-yuejuan/
现在软件仍然免费体验,老师可以直接使用我提供的Token额度进行测试。
当然,我也知道,目前它还有很多需要完善的地方。
如果老师在使用过程中发现识别错误、评分不准确,或者觉得哪里操作不方便,都欢迎告诉我。
只有不断收集真实的使用反馈,模型才能越来越接近老师真正需要的样子。
我觉得,这才是它真正的意义

回过头来看,我并没有重新开发一个阅卷平台。
也没有去和那些大型阅卷系统竞争。
我只是换了一种思路。
尊重学校原有的阅卷流程。
保留老师自己的评分标准。
把重复、机械的劳动交给AI。
这样既不用购买昂贵的扫描设备,也不用改变学校现有的阅卷网站。
我觉得,这才是这个软件最大的价值。
有时候,一个好的产品,不一定非要推倒重来。
找到那个真正困扰用户的问题,然后把它解决掉,就已经很有意义了。
从一个想法,到真正做出来

写到这里,我忽然想起7年前自己刚当老师时那个有点天真的想法。
"什么时候,才能有一台自动批改试卷的机器?"
没想到几年以后,我没有等到别人做出完全符合自己期待的产品,而是开始尝试把它一点一点做出来。
虽然现在还有很多地方需要完善,也还有很多老师提出新的建议。
但至少,它已经从一个停留在脑海里的想法,变成了一个真正可以运行的软件。
作为一名老师,我很开心自己还能继续用另一种方式,为老师们减轻一点点工作量。
我想,这也是我坚持把它继续做下去的原因。
夜雨聆风