利用AI,搭建个性化英语口语练习工具(三)-夜雨聆风

利用AI,搭建个性化英语口语练习工具(三)

今年以来，因为一直在练习英语口语，这正好也成为我其中一个AI练习场，围绕我在口语练习中的痛点和需求，制作一些AI工具，来帮助我提升自学效率。

我越来越感受到，未来每个人的核心技能之一，就是知道自己怎样学习最有效率，然后利用AI来提供个性化的学习辅助。

在口语练习上，影子跟读是非常有效的方法，帮助我练习发音、语调和流畅度。

以往通常是网上找名人演讲，或者影视作品片段来跟读，而我渐渐发现，利用跟自己生活和工作有关联的语料来练习，效果会更好，因为这些语料能直接使用。而且，现在利用AI，要整理个性化的语料变得很简单。

从这个出发，之前我做了一个口语练习工具ShadowPilot：

这周末又来迭代，增加一个功能，通过YouTube视频链接，导入字幕文本，并切分成跟读语料。

因为平常还是会找一些YouTube上的视频来跟读，譬如Dan Koe关于个人成长的内容，还有黄仁勋的演讲，或者一些行业相关的内容——在跟读同时，熟悉业内的术语表达。

之前也有尝试过一个跟读软件，但在语句切分上，不太满意，我也有点厌倦了在不同的工具之间对比和纠结，感觉直接按照自己的需求做一个专属工具还更快，毕竟现在Vibe Coding效率已经很高了。

跟以往一样，我简单描述了使用场景，以及大致想到的功能需求，就让Claude规划和开发，但这次的功能涉及比较多的依赖，我还预留了本地的whisper模型，准备用来语音转录文字。

所以，开发过程中碰到的问题感觉比之前多，其中一个比较特别，是我发现音频波形图跟文字对不上，不过调整了几轮后，还是顺利解决了。

对于编程小白的我来说，从一开始有点忐忑，到看到这段分析，还是有点小震撼的。

现在ShadowPilot算是满足了我目前的主要练习需求，能录入个性化语料，也能导入YouTube。

而且YouTube视频基本上都有现成字幕，不太需要用到Whisper本地转录，所以生成的速度也很快。

只是时间戳不太准，断句也有些瑕疵，而且我希望复述的语块能长一点，而不是只有一句话。

所以，我专门做成了可手动微调单个区间的波形图的起始和终止点，截取一段满足我需求的语段，而且还可以编辑对应的文本。

这么处理后，就可以直接在练习页面，按照自己预设好的片段，来跟读练习，语音也是切分好的。

以上。