乐于分享
好东西不私藏

利用AI,搭建个性化英语口语练习工具(三)

利用AI,搭建个性化英语口语练习工具(三)

今年以来,因为一直在练习英语口语,这正好也成为我其中一个AI练习场,围绕我在口语练习中的痛点和需求,制作一些AI工具,来帮助我提升自学效率。

我越来越感受到,未来每个人的核心技能之一,就是知道自己怎样学习最有效率,然后利用AI来提供个性化的学习辅助

在口语练习上,影子跟读是非常有效的方法,帮助我练习发音、语调和流畅度。

以往通常是网上找名人演讲,或者影视作品片段来跟读,而我渐渐发现,利用跟自己生活和工作有关联的语料来练习,效果会更好,因为这些语料能直接使用。而且,现在利用AI,要整理个性化的语料变得很简单。

从这个出发,之前我做了一个口语练习工具ShadowPilot:
周末Vibe Coding了一个口语练习工具——个人专属口语书
AI助力英语口语练习:利用TTS,打造个人专属影子跟读语料库
这周末又来迭代,增加一个功能,通过YouTube视频链接,导入字幕文本,并切分成跟读语料。

因为平常还是会找一些YouTube上的视频来跟读,譬如Dan Koe关于个人成长的内容,还有黄仁勋的演讲,或者一些行业相关的内容——在跟读同时,熟悉业内的术语表达。

之前也有尝试过一个跟读软件,但在语句切分上,不太满意,我也有点厌倦了在不同的工具之间对比和纠结,感觉直接按照自己的需求做一个专属工具还更快,毕竟现在Vibe Coding效率已经很高了。

跟以往一样,我简单描述了使用场景,以及大致想到的功能需求,就让Claude规划和开发,但这次的功能涉及比较多的依赖,我还预留了本地的whisper模型,准备用来语音转录文字。

所以,开发过程中碰到的问题感觉比之前多,其中一个比较特别,是我发现音频波形图跟文字对不上,不过调整了几轮后,还是顺利解决了。

对于编程小白的我来说,从一开始有点忐忑,到看到这段分析,还是有点小震撼的。

现在ShadowPilot算是满足了我目前的主要练习需求,能录入个性化语料,也能导入YouTube。

而且YouTube视频基本上都有现成字幕,不太需要用到Whisper本地转录,所以生成的速度也很快。

只是时间戳不太准,断句也有些瑕疵,而且我希望复述的语块能长一点,而不是只有一句话。

所以,我专门做成了可手动微调单个区间的波形图的起始和终止点,截取一段满足我需求的语段,而且还可以编辑对应的文本。

这么处理后,就可以直接在练习页面,按照自己预设好的片段,来跟读练习,语音也是切分好的。

以上。