我自己就是做教辅的。
平时就是给学校出单元复习卷、期中期末复习卷、寒暑假作业、真题模拟卷这些。
但轮到自家孩子,发现一个很现实的问题——小孩不爱拿笔做卷子,就爱抱着手机玩。
所以我想:既然他喜欢玩手机,那我就在手机上给他做个复习工具。
这小程序的初心就这么简单:一个懒爸爸,想让自己孩子能在手机上复习汉字。
写代码,只用了10分钟
用WorkBuddy,跟AI说了一通需求,大概10分钟,基础版就跑起来了。
按课复习、按单元复习、看拼音写汉字、看汉字写拼音……功能都有了。
我当时挺得意的,心想这不就做出来了嘛。
问题是我自己发现的
孩子用了一段时间,我陪他复习的时候,发现不太对劲。
我翻了一下他课本——人教版一年级下册,再对一下小程序里的字——有出入。
课文顺序不一样,课文名称不对,这个就不能同步掌握孩子学习习惯了。
我做教辅这么多年,最清楚这件事:教育类的东西,准确性是底线。
第一招:让AI自己搜现成的不行
最开始让AI自己去网上搜,工具从网上搜集了很多次,都不对。
又在鱼铺、淘X看了,都没有现成的整理好的MD格式的、只有截图版本的。
第二招:用OCR识别还是不行
网上搜不到对的数据,那我自己来。
我把教材截图,丢进WorkBuddy和WPS,用OCR去识别文字。
识别出来一看问题还是很多,好在不需要自己打拼音,说实在的还不知道怎么把拼音的音调打出来,后面我是把汉字输入给豆包,再从豆包里把拼音复制出来。
最头痛的是这个:OCR能认出字,但它不知道"这些字属于同一课"。
教材的排版是这样的——先列一课序号,然后横着排一堆生字。换行以后如果没有序号,那就是同一课的字接着排。但OCR不知道这个逻辑。它看到换行就觉得新开始了,结果一课的字被拆成好几段,各课的又混到一起。
而且截图质量参差不齐,有些生僻字直接跳过了不认,有些字"木"和"本"分不清。
OCR弄完,数据还是乱的。
第三招:最笨的办法打开识别出来的汉字,对照教材逐一核对
最后我用的方法,说出来你可能觉得土。
我找到小程序里那个存汉字的源文件,右键用记事本打开。
电脑开三个窗口,一个窗口是生字表、一个窗口是课文目录、最后一个是记事本对着人教版教材。右手在键盘上,一个单元一个单元地对照。
看到哪个字不对,在记事本里直接改。看到顺序乱了,手动重新排。
一年级上册,一年级下册,二年级上册,二年级下册……一册一册过。
改了多久?断断续续,超过两周,算下来将近一个月。
中间还踩了几个坑
二年级开始,课文结构变了。阅读单元和识字单元是交叉排的,两套编号。记事本里一行一行对,排着排着就乱了。六年级课文生字、词语部分又变了。这个只能人工核对。
写代码:10分钟。
搞定数据:预估两周,算下来这个小程序接近一个月。
不是AI不行。AI写代码是真的快。但这种复杂的“路面”数据,它确实不太好理解,AI可能更适合平坦大路的数据。
做教育类工具,一定得准确。
夜雨聆风