AI时代,工具退到幕后,自然语言来到台前

我依然记得第一次用代码助手时的震撼。

我跟它说，帮我写一个Python脚本，读取一个CSV文件，把第三列大于50的行挑出来，存成新的文件。

它就，真的就，写出来了。

我盯着那个脚本看了几秒。

。。

你知道这种感觉吗，就是你突然意识到，有些东西已经彻底变了。

我根本没有打开任何文档，没有查任何API，没有学任何新的工具。

我就是，说人话。

然后它就做了。

如果放在十年前，你跟一个程序员说，直接用自然语言就能让电脑写代码，他大概会觉得你在讲科幻小说。

不对，科幻小说都不一定敢这么写。

因为从计算机被发明出来的第一天起，人和机器之间的交互，就是由「工具」作为中介的。

你想让机器做事，你不能直接说，你得学它的语言。

打孔卡时代，你想让IBM 029读你的指令，你得在卡片上打洞。

一个洞打错了，整张卡片废掉。

后来有了命令行，你得记住grep、awk、sed，记住哪条命令后面跟什么参数。

再后来有了图形界面，GUI，你不用记命令了，但你要学「用鼠标点击哪个图标」「哪个菜单下面藏着什么功能」。

工具在进化，但工具始终在那里。

它从来没有消失过。

1979年，施乐PARC，硅谷历史上最传奇的研发中心之一。

史蒂夫·乔布斯被邀请去参观，他看到了Alto电脑，一台有着图形界面的、用鼠标操作的机器。

乔布斯后来回忆说，他进去看了十分钟，出来之后，整个人是懵的。

他知道，计算的未来就在这里。

然后他回去，搞出了Macintosh。

这是人机交互史上第一次大规模的革命，把命令行藏起来，让图标和鼠标变成人和机器之间的新中介。

比尔·盖茨后来也看到了，然后有了Windows。

所有人都在欢呼，图形界面太革命了。

但你想过没有，这场革命到底是在闹哪样。

不是鼠标比键盘好用，也不是图标比文字更直观。

说到底，是人在适配工具。

你要用图形界面，你就得学，哪些图标代表什么功能，菜单栏藏在哪，双击和单击有什么区别，右键菜单里有哪些选项。

工具换了，但「人需要学习工具」这件事，从来没变过。

然后时间快进到1995年。

微软做了一个东西，叫Microsoft Bob。

这个产品的想法非常前卫，甚至可以说，超前了整整三十年。

Bob的想法是，你不用学Windows的那些菜单和按钮了，你直接跟一个卡通的管家聊天，告诉它你想做什么，它帮你完成。

用自然语言，跟电脑交互。

1995年。

结果我们都知道，Bob惨败，被载入了「科技史上最失败的products」名单。

为什么失败了。

因为那时候的自然语言处理，根本撑不起这个野心。

Bob背后的技术，坦率的讲就是关键词匹配，你说「打开写字板」，它识别到了「写字板」这三个字，然后帮你点开。

你说稍微复杂一点的，比如「帮我给妈妈写封信」，它就傻了。

工具想退场，但技术还没准备好。

然后时间再快进，到2011年。

苹果发布了Siri。

「用自然语言跟手机交互」，这个Bob没做到的事情，苹果说，我来。

Siri刚出来的时候，全世界都疯了。

？？？

你可能不记得了，但当时人们真的觉得，这就是未来。

你对着手机说，帮我订一张明天去纽约的机票，它就能帮你订。

但后来呢。

Siri变成了，你跟它说「帮我订机票」，它会帮你打开携程。

然后你还是得自己操作。

Alexa也是一样，亚马逊花了几十亿美元，把Alexa塞进了几千万个家庭。

但它的使用场景，99%是「设个闹钟」「查个天气」「放首歌」。

你想让它做复杂一点的事情，它就会说，抱歉，我还不会这个。

问题出在哪。

出在，它们所谓的「自然语言交互」，说到底还是触发词匹配。

你说「Alexa, play music」，它播放音乐。

但你不能说「Alexa, 帮我挑一首适合雨天听的歌，要那种有点忧伤但不至于太丧的」。

它不是在理解你的自然语言，它是在匹配预设的指令集。

工具没有退场，它只是换了一件更友好的外衣。

然后，2022年11月。

ChatGPT发布了。

我不需要跟你复盘这件事的意义，因为你应该还记得，那种「卧槽」的感觉。

你第一次跟它对话，你发现，它真的在「理解」你。

不是匹配关键词，不是触发预设指令。

你可以用蹩脚的英语跟它聊，你可以用含糊不清的描述跟它说你的需求，它就能懂。

你跟它说，帮我写一个故事，主角是一个退休的杀手，现在在开面包店，有一天他以前的搭档找上门来了。

它就写了。

你跟它说，帮我分析一下这段代码的bug在哪，我怀疑是内存泄漏，但我找不到在哪。

它就分析了。

你甚至可以直接跟它说，我不知道怎么描述我的需求，但我给你看一个例子，你照着这个风格帮我做。

它也能懂。

这一次，工具是真的在退场。

你不需要学任何新的界面，不需要记住任何菜单的位置，不需要知道任何API的名字。

你只需要，说人话。

这就是「自然语言成为界面本身」的含义。

以前，界面是工具，自然语言是用来描述你想做什么的辅助手段。

现在，自然语言就是界面。

你不需要「学习如何使用AI」，你只需要「知道你想做什么」。

这两者之间的差别，比从命令行到图形界面的差别，还要大。

因为图形界面仍然要求你学习工具，而自然语言界面，要求的是工具来适应你。

这里面有一个很深的哲学问题，我想扯远一点。

维特根斯坦在《逻辑哲学论》里写过一句话，我的语言的界限，就是我的世界的界限。

这句话有很多层含义，其中一层是，语言不仅仅是表达思想的工具，语言本身就是思想的存在方式。

当你只能用命令行跟电脑交互的时候，你的思想必须被「翻译」成命令，才能被机器执行。

中间有一层翻译，这一层翻译就是工具。

当你可以直接用自然语言跟AI交互的时候，你的思想不需要被翻译，它直接就是输入。

工具消失了。

麦克卢汉说过，媒介即讯息。

当媒介（工具）足够透明的时候，内容（你的意图）就直接传递了。

AI做的事情，就是让「自然语言」这个媒介，变得足够透明。

透明到你觉得，你不是在跟一个工具交互，你是在跟一个，嗯，有点聪明的同事交互。

我是真的觉得，这很神奇。

然后再扯远一点。

人类历史上，每一次「媒介变得透明」的时刻，都是一次巨大的解放。

古腾堡印刷术，让知识的传播不再依赖手工抄写，知识变得透明了。

电报的发明，让信息的传递不再依赖马匹和船只，距离变得透明了。

互联网的出现，让信息的获取不再依赖图书馆和书店，搜索变得透明了。

每一次，都是工具退到幕后，人的意图走到台前。

但之前的每一次，工具退到幕后之后，还会有新的工具走到台前。

印刷术普及之后，你还是需要去图书馆才能获取知识。

电报普及之后，你还是需要去电报局才能发消息。

互联网普及之后，你还是需要学会用浏览器、用搜索引擎、用各种网站。

但AI不一样。

AI有可能，是第一次，让工具真正退场，而不再有任何新的工具取而代之。

因为AI本身就是工具，但它是一个「隐形的工具」。

它隐形的方法，就是让自己看起来不像一个工具，而像一个对话者。

说到这里，我想到一个很有意思的对比。

上一代最牛的产品经理，是什么样子的。

他们最值钱的能力，是「能把用户的需求，翻译成产品的功能」。

用户说，我想要一个能让我跟朋友分享照片的地方。

产品经理翻译成，做一个信息流，支持图片上传，支持点赞和评论。

然后再找设计师和工程师，把这个功能做出来。

这一整条链路里面，「翻译」是最核心的能力。

因为用户不会说「我要一个信息流」，用户只会说「我想分享照片」。

中间那层翻译，就是工具性的体现。

但今天呢。

用户直接跟AI说，帮我做一个网站，我要展示我的摄影作品，要简约大方的风格。

AI直接就做了。

翻译这一步，被省略了。

不是被人类产品经理省略了，是被AI自己完成了。

这带来了一个很深刻的改变。

以前，创造力是被工具门槛过滤过的。

你想拍一部电影，你得学摄影机怎么用、灯光怎么打、剪辑软件怎么操作。

你想写一本小说，你得学怎么排版、怎么投稿、怎么跟编辑沟通。

你想做一款游戏，你得学C++、学Unity、学美术资源的制作。

工具定义了创造力的边界。

你有创造力，但如果你跨不过工具门槛，你的创造力就无法变成作品。

但今天，工具门槛正在被自然语言消解。

你不会画画，但你可以跟Midjourney说，帮我画一个赛博朋克风格的城市夜景，要有霓虹灯和雨后的反光。

你不会写代码，但你可以跟Claude Code说，帮我做一个番茄钟应用，要有统计功能。

你不会剪辑，但你可以跟剪映的AI说，帮我把这段视频剪成一个30秒的短视频，要节奏感强的。

创造力，正在从「工具能力」的枷锁中解放出来。

但这里有一个问题，我想坦诚地说。

工具退场了，但「表达的能力」变成了新的门槛。

以前，你不会写代码，那是工具的门槛，你过不去。

现在，你不会写代码也没关系，你跟AI说就行了。

但如果你不知道怎么清晰地表达你的需求呢。

如果你说不清楚你想要什么样的网站、什么样的画、什么样的文章呢。

这就是一个很有意思的悖论。

工具退场了，但「用自然语言精确表达意图」这件事，变成了新的瓶颈。

以前是「我不会用这个工具」，现在是「我不知道怎么描述我想要的」。

哪种更难受。

我觉得是后者。

因为前者你可以学，后者需要你真正地、深刻地理解自己想要什么。

说到这里，我想到了一个典故。

亨利·福特说过一句话，如果我当年去问顾客他们想要什么，他们会告诉我，想要一匹更快的马。

这句话被引用了无数次，用来说明「用户不知道自己想要什么，你需要替他们发明」。

但我觉得这句话还有另一层含义。

顾客说「想要一匹更快的马」，这是他们能想到的最好的表达方式。

但他们真正的需求，是「更快地到达目的地」。

从「更快的马」到「汽车」，中间需要的不是更好的马，而是重新定义问题本身的能力。

AI时代也是一样。

当你跟AI说「帮我写一段代码」，这是一个粗糙的表达。

当你跟AI说「我需要一个能自动抓取网页数据并存入数据库的工具，要处理反爬虫机制」，这是一个精确的表达。

后者得到的结果，会比前者好十倍。

所以工具退场之后，来到台前的不仅仅是自然语言，更是「用自然语言精确表达复杂意图」的能力。

这种能力，其实人类已经追求了几千年。

古希腊的修辞学，坦率的讲就是在研究，怎么用语言说服别人。

孔子的「一言以兴邦，一言以丧邦」，也是在说语言的力量。

但以前的修辞学和语言表达，主要用在人与人之间的交流。

你要说服你的盟友，你要打动你的听众，你要用精准的语言表达你的思想。

今天，这种能力开始用在人与AI之间。

你要「说服」AI理解你的真实意图，你要「打动」AI生成你想要的内容，你要用精准的语言「 prompt 」AI给出最好的结果。

所以这个时代出现了一个很新奇的职业，叫「提示词工程师」。

但我觉得这个名字不太准确。

因为他们做的不是「工程」，他们做的其实是，「用自然语言精确地表达复杂意图」。

这更像是一个作家、一个导演、一个产品经理合体的工作。

然后再回到开头那个故事。

我让AI帮我写了一个Python脚本。

写出来之后我意识到，我从头到尾，没有碰过任何工具。

我没有打开编辑器，没有查过任何文档，没有编译过任何代码。

我就是，说人话。

然后它就做了。

这种感觉，就像你走进一家餐厅，你不需要知道厨房在哪、厨师用什么锅、食材从哪来。

你只需要，告诉服务员你想吃什么。

AI就是那个服务员，而且它还能把你的需求直接传达给厨房，甚至，它自己就是厨房。

工具退到了幕后，退到了你完全感知不到的地方。

你面对的，只有自然语言。

我想用一个小故事来收尾。

1927年，贝尔实验室，一个人站在一台巨大的机器前面。

这台机器叫「Voder」，是世界上第一台电子语音合成设备。

操作它的人，需要用手在键盘上弹奏，来控制音高、音色和节奏，从而「合成」出人类语音。

弹得好，它就说人话。弹得不好，它就是一堆噪音。

你可以把Voder理解为，人类试图让机器「说话」的第一次尝试。

操作人员需要大量训练，才能让它发出可理解的语音。

工具在那里，笨重、复杂、需要专业人士才能操作。

然后快进到2026年。

你对着手机说一句话，它就懂了。

你对着AI写一个请求，它就做了。

从Voder到ChatGPT，人类走了99年。

这99年里，我们一直在做同一件事，让工具越来越透明，让表达越来越自然。

工具退到幕后，不是一天发生的。

它是人类用了将近一个世纪，一步一步推着它退去的。

而现在，我们可能正站某个很特别的临界点上面。

从此以后，会说人话，就是会解锁电脑的任意功能。