乐于分享
好东西不私藏

我用AI编程,给自己造了个语音转录软件

我用AI编程,给自己造了个语音转录软件

以前跟AI聊天,打字打到手软

以前跟AI对话,我都是纯打字。有时候为了把问题描述清楚、把上下文交代明白,指令一打就是好几百字。经常是我这边洋洋洒洒说了500字,AI那边迅速领会意图,200字就给我说明白了。这既显示出AI的聪明,也说明我把提示词写得够详细——但代价是,这500字要是纯靠手打,那真是费老劲了。

当初刚一上大学,学的全是理论,什么都不会。我赶紧报了个电脑班,在班里学会了DOS、Windows、打字、Word、PPT,还有些什么已经忘了。但最后悔的就是五笔字型。当初我是学会了的,而且学得还不错。有时候遇到五笔高手,打字特别快的那种,他拆不了的字根,我都能帮他拆出来。

可那时候学什么就练什么,学DOS练DOS,学Windows练Windows,学五笔练五笔,学Word练Word。五笔后来没学就没练,导致一直没真正掌握。工作以后,遇到会五笔的同事就特别羡慕,心想改天一定把五笔捡起来。这一晃二十多年过去了,五笔也没捡起来。

不过还好,我拼音打得也挺快。用的是电脑班老师教的国际标准指法,盲打没问题。但拼音输入法有个硬伤——同音不同字,得选字,速度一下子就慢下来了。所以这些年心里一直有个疙瘩:五笔没学会,拼音得选字,打字这件事总是不够痛快。

现在好了,有语音输入软件了,不用再研究五笔的事了。

有一种理论说,科技这东西,说到底是懒人推动的。有人懒得抄书,发明了印刷术;有人懒得走路,发明了汽车;有人懒得打字,于是就有了语音输入。工具就是为了让人省劲儿,语音转文字就是打字懒人的福音。

后来看直播,有高手推荐了 Typeless 这个软件。它是一个AI语音转录软件,说话自动变文字,还能智能纠错,把我说反悔的话、啰嗦的话理顺,分段也层次分明,用着真是舒服。

但是,免费版每周只能转8000字,这就不够用了。问题在于额度分配不均——有时一周根本用不完,有时需求大,周五就达到8000字了。这时候只能退回到打字聊天的界面,哎呀,那感觉太难受了。输入法还得现选字,有时候打错了还得删,费时费力。还是说话轻松啊,人家还能智能地给我修改不通顺的话。由俭入奢易,由奢返俭难呐。

开会员?一个月12美元,倒不是掏不起,是觉得有点用不上。

我的神奇体质

以前天天去一家面包店,他家生意特别好。后来办了张会员卡,结果办完就不怎么去了,可能之前想吃的都吃过了吧。过了好几周再去看,店黄了。

还有一次跟同事吃饭,办了一家湘菜馆的会员卡。那家店有个特点,点一份米饭就直接上一个小电饭锅,不是大锅盛好端过来的那种。我们一开始还想,这一电饭锅饭吃得了吗?结果他家的辣椒炒肉特别好吃,其实那天点了三四道菜,别的菜是什么我全忘了,就记着辣椒炒肉了。就着菜,大米饭一粒也没剩。其实我不能吃辣,稍微辣一点就得不停喝凉水,但那家的辣椒炒肉是真好吃,辣也值了。当场就办了张卡。过了一个月想再去吃,发现店也黄了。

所以不办卡的时候店开得好好的,一办卡,店就黄了。当然这是玩笑话,纯粹是巧合。不过我这个体质吧,确实让我对办卡这事儿有点阴影。为了 Typeless 的健康发展,我还是不办会员了。其实就是怕那个墨菲定律——一办卡就不怎么用了。

于是找平替,用上了通义千问。千问也能转文字,虽然转出来总是一大堆字堆在一起,有时有段落有时没段落,跟 Typeless 那种条理分明的感觉没法比,但千问能修改错别字,这点不错,值得肯定。总之,作为替补,它算是称职的。

科班出身的编程小白

我是成人教育计算机专业本科毕业,上学时学过C语言和Pascal语言,考试都及格了,但毕业后从未从事过软件开发,算是个门外汉。

其实去年12月29号的时候,我也尝试过编程。当时用手机上的蚂蚁灵光想开发一个天气预报软件,折腾了一两个小时也没整明白,不是这块不行就是那块不行,实时更新怎么也搞不定,一下子积极性就被打没了,再也不敢碰编程的事了。当然,可能那时候灵光也没有那么完善,说不定现在好用了,我不知道。反正后来就一直没用过,也没再研究过编程的事了。

所以冒出”自己开发一个语音转录软件”这念头的时候,心里特别矛盾。一方面想:既然别的软件用着不顺手,不如自己搞一个,既好玩又有成就感。另一方面又想:上次蚂蚁灵光都没整明白,这回能行吗?

要不是有 DeepSeek 和 Kimi 给我撑腰,我根本不可能再碰开发这件事。现在我遇到什么事,都会同时问这两个AI,防止一家之言有偏差,两个AI互相参考,心里更有底。有他俩作为左膀右臂,编程这事儿我也不怕搞不定。

两个AI,态度完全不同

我先问了 Kimi。

Kimi 给我的建议更务实。它先推荐了一个现成的开源软件 Buzz,基于 OpenAI 的 Whisper 模型,完全免费,本地离线运行,中文识别准确率很高,有图形界面,下载就能用。它说如果我只是想解决”8000字不够用”的问题,下载 Buzz 是最省事的方案,不用写一行代码。

如果铁了心想自己编程,Kimi 建议用一个免费的 AI 编程工具,搭配 Python 和一个本地模型来做。但它也给我打了预防针:做出一个命令行版本可能要一两天,做出带图形界面的版本要一两周,要做到实时转写、自动分段、智能纠错,可能要一两个月甚至更久。它说语音软件涉及音频硬件、模型加载、多线程,坑很多,别低估工作量。

总的来说,Kimi 态度偏谨慎,帮我算清了账,让我知道这事没那么容易。

然后我找到了 DeepSeek。

这里我得特别感谢它一下。它没给我分析利弊,也没给我打预防针,直接给了我一段完整的 HTML 代码,让我复制下来存成文件就能用。我一看,代码复制进去,打开界面还挺好看的,能用。这一下子就把我往前推了一步。说实话,如果DeepSeek也像Kimi那样只是给我分析分析,没有直接给我一个能跑的东西,我很有可能在这个时候就放弃掉了。但它直接甩代码过来,我一看到有东西了,那就接着往下走吧。这是我应该感谢它的地方。

拿到了代码,Kimi 那边我就先放一边了,后续所有调试、解决问题的过程,都是跟 DeepSeek 一起完成的。

出师不利,两度心凉

代码拿到了,我兴冲冲保存,双击打开,用360浏览器运行。

点”开始说话”——没反应。我心想,出师未捷身先死,这第一个程序怎么就出师不利?到底是程序有问题,还是DeepSeek写的代码不行?当时心里拔凉拔凉的。

换Chrome试试。还是不行。这次连红色录音图标都没弹出来,整个页面安安静静的,像什么都没发生过一样。心想,完了,360不行,谷歌也不行,这上半边身子都凉了。

好在我电脑里浏览器多。死马当活马医,打开Windows自带的Edge浏览器再试一次。

点”开始说话”,麦克风亮了;我随口说了一句”123123″,两个字——出来了

那一瞬间,上半边身子开始回暖了。就像修了半天不启动的车,突然打着火了,发动机轰的一声响起来。

但我不甘心,Chrome毕竟是著名浏览器,凭什么Edge行它不行?我决定死磕一下。

我回去问DeepSeek,Chrome到底怎么回事。它告诉我,Chrome对本地网页的麦克风权限卡得很严,需要手动去改一个隐藏设置。我按照它说的,在地址栏输入 chrome://flags/,找到那个权限选项,把 file:/// 路径加进白名单,重启浏览器。一通操作下来,Chrome终于弹出了那个红色录音图标——麦克风授权成功了!

我大喜,赶紧说话。结果——图标红彤彤地亮着,页面依然一片空白,一个字都不出。

这下好了,从心凉到上半边身子凉,从上半边身子回暖,到现在全身冰凉。

我马上又问DeepSeek。它告诉我:Edge背后是微软的语音服务,国内直连通常没问题。Chrome背后是Google的语音服务,绝大部分情况下,国内直接访问会被阻断,音频发不出去,或者识别结果回不来。所以麦克风是开了,但数据半路就断了,有录音没回字。

搞明白了这些,心里终于踏实了,全身热血沸腾。三个浏览器,有一个能跑通,就说明代码本身没问题,流程是对的。那两个不通,跟程序本身没关系,纯粹是浏览器的问题,是我控制不了的。只要有一条路通了,就证明这条路可行,以后沿着它走就是了。

有自己的东西,什么都不怕

在编程之前,我的思路很简单:Typeless 是主力,每周8000字的额度紧着它用,能用多少用多少。某一周聊多了,额度打满了,就切换到通义千问。千问虽然文字整理能力差一些,但识别得还行,还能改错别字,凑合着用没问题。

现在呢,情况有点变化了。

Typeless 可能还是主力,千问也还在备用名单上。但我多了一个选项——我自己做的那个语音转录程序。

用自己这个程序,跟用 Typeless、用千问的感觉完全不一样。心情好的时候,我会打开它,用着开心,这是锦上添花。心情不好的时候,我也会打开它,这是我自己的劳动成果,看着它跑起来,听着自己说的话变成屏幕上的字,那种感觉能让我从不开心变成开心,很奇妙。就算心情不好不坏、没什么兴致的时候,我也有可能把它调出来玩一下。它很小,很稚嫩,功能什么都没有,错别字不会改,标点符号有时候也不会加,但它是我的。

它就像我自己的孩子。别人的孩子再优秀,那是别人家的。自己家的孩子,哪怕还不会走路,只会在地上爬,你看着他也满心欢喜。而且,正是因为你天天用他、天天看他,你才最清楚他跟别人家孩子的差距在哪里。今天发现他不会自动加标点,明天发现他还不会分段——这些差距不会让我沮丧,反而会让我产生一种冲动:我想迭代他,我想完善他,我想让他变得更好。

我觉得这种冲动,就是开发者才会有的思维。你不是在用一个软件,你是在养一个软件。你看着他一点点长大,从啥也不会到能帮上忙,那种成就感不是用别人的成品能替代的。

所以现在我不怕任何软件收费、涨价。Typeless 涨价我不怕,千问收费我也不怕。我有自己的东西。哪怕它现在只能做最低级的功能,但它是我的。即使我不懂编程,但只要我想做,我就能靠AI一点一点把它做出来。

工具再厉害,人才是主语

这次经历让我想明白一件事。

之前听过一个 AI 高手的分享,他曾经是英语老师。他说,在英语里,主语最重要;但在 AI 这件事上,人才是主语。AI 只是工具,是被使用的对象,它永远不是主语。

蒸汽机厉不厉害?内燃机厉不厉害?计算机厉不厉害?量子计算机厉不厉害?生物计算机厉不厉害?人造太阳可控核聚变厉不厉害?当然厉害。但它们都是人发明的,也是人在使用的。它们从来没有自己当过一次主语。

我今天正好看到一条新闻,是关于脑机接口的。最新的技术已经能让失明的人重见光明了。这种技术够厉害了吧?但你再想想,它再厉害,也是为人服务的。它存在的意义,是让一个人重新看到这个世界。主语还是那个人。

所以说,不管工具先进到什么程度,使用工具的人的思想,才是最关键的。一个人如果没有思想,给他一艘航天飞船,他也只能趴在地球上当铁皮房子住,最多收个门票当旅游景区。但人如果有思想,就不一样了。你看中国空间站,航天员都能在天上吃烤鸡翅了——这不是科幻电影,是实实在在的技术做到了。有思想的人,能把最不可能的地方变成家的模样。

AI 也一样。它就是一个工具,跟锤子、汽车、轮船、飞机没什么本质区别。DeepSeek 也好,Kimi 也好,都是我手里的工具。它们能写代码,但它们不知道我想做什么。方向是我定的,需求是我提的,遇到岔路口是我拍板的。代码是它们写的,但软件是我的。

现在到处都在说”一人公司”,但没人说”纯AI公司”。为什么?因为AI再厉害,它也只是一个干活的,得听人安排。它不是老板,它是在你手底下打工的。它就是你的姜子牙、诸葛亮、刘伯温,负责出谋划策,但最后拍板的永远是你。你如果同时掌握几个趁手的AI工具,就等于有一群顶级谋士天天围着你转,你想干什么事都能找到思路。

所以,AI不是用来怕的,也不是用来崇拜的。它就是一个需要人来掌舵的船。设计船的是人,开船的是人,决定往哪儿开的还是人。未来不管技术怎么变,主语永远是你自己。

别人有金饭碗,不如自己会种地。我的这个语音转录程序,就是我的第一块田。虽然现在只是一小片荒地,但它是我自己的。而且我知道,只要我愿意,明年它能长庄稼,后年它能盖粮仓。

这个底气,是AI给的,更是我自己挣来的。

从打字打到手软,到自己造工具——这条路,走通了。