以答案收敛性,解构 AI 的能力边界与应用潜力

AI是一款信息工具，不论我们带着什么样的需求或者问题，AI能够给出的就是信息，这个信息可以是文字，也可以是图画和视频，但终归是信息。对于AI潜力的判断，就绕不开对于需求和问题的分类。

问题分类的关键：答案是否收敛

比如我们让AI来生成一幅画、生成一首诗，接着将其与AI的其它任务进行对比，比如让AI解一道数学题、写一个编程；两者有什么不同呢？前者在传达一种感受，感受是确定性的，但是“确定”什么呢？其实确定的是给出的答案是否符合要求；之所以提出这个问题，是因为我想到有些答案我们无法判断，比如编程或者数学问题的解答是否准确，此时我们就需要关注解题的逻辑，这就涉及专业知识的掌握了，因此我认为一个人使用AI的效率取决于使用者的水平，那么AI对于效率的提升是有上限的；但是我又想到了，我们似乎非常满意计算器和Excel，即使我们不擅长数学，我们对于计算器和Excel的产出从来不怀疑。为什么？

其中的关键点就在于问题的解答是否可以确定的评价，即存在收敛点。从这个角度出发，我觉得问题可以分为三种：

基于个体感受，比如让AI产出的小说和图画，我们可以基于感受给出答案满意与否的判断；对于一些开放性问题，AI回答时会给出答题点，我们也会对于这些答题点进行评价。事实上，问题的评价尅收敛不等于有客观答案而个体的感受就是一个收敛点。
可以给出明确的标准且对于是否符合标准的判断比较简单（个体感受如果深究的话也是可以列出标准的，但是感受是一种复杂的心理，标准化后往往有一种缺失的感觉，因此如果只是基于个体的感受，无需进行个体间的转移的话，感受即是本身，是否需要拆出标准有待商榷），比如收益率和波动率的分布曲线或区间，比如新招聘员工的表现，评级模型的适用性等等；
其实是对于第二种的延伸，就是有明确标准但是对于是否符合标准的判断难度较高，也即无法验证答案正确与否，比如编写的程序是否符合功能性和安全要求，数学题的解答是否正确、病理的诊断对不对等等。

使用AI的瓶颈：当无法轻易判断答案时，对于AI的产出依赖专业能力

第三种问题的存在，是我对于AI的效用存在上限这种看法的来源，因为AI对于自己的产出可能有误但却不自知，之前让AI解数学题、编程和回答汉字的部首时都存在这个问题，AI目前给出的答案还不能做到如同计算器算数一样准确，这个时候我们就需要一定的专业能力深入AI回答的过程，比如对于编程的合理性、解题的合理性进行评价，虽然评价对于专业的要求低于解题，但是答案越难，对于其的评价能力也要求越高。也正是由于第三种问题的存在，使得AI在某些方面需要专门化，通过技术的成熟和市场的竞争迫使专门化的AI在应付某些方面的任务时达到计算器的水平。

借由问题的分类，我想回到AI是subordinate还是partner的问题，之前我认为如果是partner的话，我们可以接受他的结果，不过我忽视了使用AI的情境，事实上，即使找partner，也存在主次之分，因此，也需要评价partner；因此，不论是subordinate还是partner，都需要评价，不评判的接受结果源于信任，那么，AI是一个值得100%信任的partner吗？好的partner给出不确定的答案时，他会提示你这种不确定性，但是AI不会。所以，我们将AI视为partner，到底是对于其专业能力的信心，还是思维懒惰不想去评价？

从第一类问题看AI的潜力：受到专业能力和时间的限制

第一类问题答案的收敛点是个体的感受，这种情况下，AI给出的信息就是消费品，不论是图画、小说、广告还是视频，AI产出设计和创意，也即最终的消费品。AI在这个领域的作用非常明显，大大提升了效率，但是我觉得潜力有限，原因有以下几个方面：

设计和创意的好坏主要依赖于创作者的水平，AI可以提高低水平人员的产出水平，但是高质量的产出仍然与高水平绑定，而从市场供应来看，中低水平一直不缺，而高水平的设计和创作不在于生成过程，AI只是加快了生成，但是背后的构思、沟通、调整等核心创作能力仍然依赖于个人，因此，这里的AI更加类似于subordinate，产出的水平依赖于领导（使用AI的创作者）的水平，AI可以提升产出效率，却很难提升创作者的创作能力；举一个简单的例子，你让AI生成一个室内设计方案，你能感觉好不好看，但是设计的好坏远远大于好不好看，如果没有专业领域的实践，一般人是很难评价设计的好坏。
创意商品的消费对于时间依赖性较高，不论是视频还是有息，都需要很多的时间投入，根据豆包的回答，2015-2024年，我国军民日均电视-网络视听的得时间由约 3 小时增至5小时+，但同期短视频、微短剧、直播爆发，内容量10年增10倍+，一个人的时间总是有限的，所以，AI即使能大量生产小说、视频、游戏，但消费这些创意的时间却无法快速增长，面临市场规模的上限。当然，设计对于时间的依赖性较低，可能是一个值得安慰的事。

从第二类问题看潜力：通过提供创意和基于标准下的迭代优化，应用空间很大，能够助力R&D

我觉得这类问题有很大的潜力，因为deepmind之前开发的AlphaGo和AlphaFold都取得了非常大的成就，其背后一个重要的原因就是问题的评价标准很明确且简单，输赢、蛋白质预测是否真实，一目了然。这类问题下，AI可以在两种情境下提高效率：

输入问题中给定明确的判断标准，比如让AI构造一个投资组合，并用过去几年的月度数据来判断是否可以达到收益率和波动率的要求；或者让AI制定一个酒店和景点的安排，给出预算和时间限制，以及某些具体的偏好；或者让AI用四个数玩24点，看能否算出24。
问题中没有该处明确的判断标准，但是我们可以根据AI的建议进行判断，这个我自己有一个亲身经历的例子，之前我家的移动机顶盒看不了直播，移动的工程人员说现在只能用连接网线的形式观看，他给的方案是连一条明线连接机顶盒，这个方案很丑，事实上他应该用AI咨询下，给出的其中一个方案是字母路由器，我当时自己咨询了，但是判断不了，后来问了工程人员，他说这个方案可行，但是他当时没有想出来。

有时我们提问题或需求时，会给出限制性条件，这个输入1的范畴，相当于给出了一个明确的判断标准。这个第二类问题，AI可以扩展我们的方案选择范围，在我们没有具体方案时给出方案，或者给出一个我们没有想过的方案，而且AI的运行效率非常高。实际运用AI过程中，使用者会在1和2的情境中进行转换，随着问题沟通的进展，使用者会提出标准，或者在出现新的没有思路的问题。此时的AI更像一个有同样职责的partner而非不同分工的partner。

第二类问题中，有些问题的判断很简单，比如旅行的预算限制、日常安排的合理性等；有些的判断则需要一定的能力，比如机顶盒连线方案。跟第一类问题一样，AI的能力得到多大的使用，最终还是取决于使用者问出什么样的问题，不过，现实生活中，很多的R&D问题可以归结为第二类问题，需要寻找创意和基于标准下的方案优化和迭代，第二类问题的使用空间还是非常大的。

第三类问题：需要专业能力验证解题过程

AI具备全专业能力，很多人说AI将普通人在所有方面的能力都提高到了一个很高的水平，你不会编程，AI帮你编程；你不会外语，AI帮你翻译；你不会高等数学，AI帮你计算；你不会写作，AI帮你写；你不会做菜，AI给你食谱和操作步骤。一瞬间，普通人都成了多边形战士，但是专业=给出答案+判断答案，如前文提及，第一和第二类问题都属于容易判断的问题，但是我们生活中也经常碰到第三类问题，我们没有标准可以很好的判断答案的正确与否，比如让AI编写个程序计算概率，我判断不了程序运行结果正确与否；我让AI给出身体不适的诊断，我不清楚AI是否胡说；我让AI帮我解一道数学题，我不知道这个问题的答案。这种情境类似于，我们咨询财富专家、保险经纪人，然后我们不知道他们的答案是否合适，对于这个问题，解决的路径有两个：

自身具备专业能力，无法验证答案的情况下，可以深入解题的过程；虽然有专业的负担，但是有时AI给出的思路具有创新性，而且解题效率高，尤其是会看题，不等于会解题，AI能够提供解题能力的提升；
社会上有一些机制，提供可“信任”的解决方案，比如医生的从业资质，财富公司的品牌建设，稳定的供应链关系等等，核心解决的是“信任”问题；对于大模型，后续应该会有相应方向的优化，通过专业人士的背书为AI提供信任来源，最终达到计算器和Excel的信任水平。

AI处理第三类问题的效率奖面临专业的瓶颈，尤其是问题距离使用者能力较远的情况下，之前我以为不会编程就可以完全交给AI来处理，目前来看，具备一定的理想主义，如果程序输出结果好判断，倒是还好，这种就属于第二类问题，比如编写个程序用来识别图片，结果正确与否容易判断；但是真正的第三类问题，我们除了信任之外别无它法，这就回到了AI是subordinate还是partner的问题，不过，完全靠谱的partner是不存在的。

AI对于问题解决能力的提升是实实在在的，虽然面对不同的问题，其提升潜力面临的限制有很大差别，而具备较大潜力的第二类问题，也是很多白领从事的工作，难怪AI引发裁员的报道和忧虑一直有存在的空间，下次我们看AI潜力和替代人类时，可以从问题分类的角度看下AI要解决的是什么问题，然后再判断是言过其实还是有理有据：AI很强，不过并非万能，其潜力很多时候取决于使用者。