AI的缘起是互联网的迅猛发展,是互联网的应用产生了大规模的数据,这些数据越积越多形成了优质的矿山,于是迫切需要新技术能快速高效处理这些有些像垃圾的数据。
得益于神经网络的发展,特别是随着技术进步,人工智能开始涌现,这是庞大的量变引起的质变。一切开始展现出欣欣向荣的样子,仿佛人类已经开启了伟大的新时代,人类当中的每个人可以优雅地被人工智能伺候,比如替你赚钱,替你买菜,替你接电话,替你收快递,甚至替你阅读,替你看新闻,甚至Authropic还可以替你决策。不是么?美军生擒马杜罗,就是他的杰作。
然而,互联网数据再大,也有尽头,还不是真正的无穷,更与无所不在的神无关。
据悉,2028年全球互联网数据的基础挖掘就将消亡殆尽,AI就要快没东西吃了。也有数据说全球高质量文本300万亿Token,2026年耗尽。维基百科、论文、代码,已经被清洗训练了不下10次。
版权诉讼+欧盟AI法案+国内新规,靠爬虫的时代彻底结束,AI继续进化只有一条路——自己给自己做饭。
解法有啊,就是合成数据——AI生成的、用来训练下一代AI的数据。2026年里程碑:合成数据首次超过真实数据,占比58%。所有头部厂商投入超50%研发资源在这上面。
然而纯合成数据最多迭代3代,就将面临模型彻底崩溃的大好局面。过去拼谁爬的数据多,现在拼谁能生成更高质量的合成数据。
AI面临严重的断粮危机,现在是高质量数据集时代了,谁能搞到高质量数据集,谁的AI能活下去。
未来会怎么演绎呢?还是拼英伟达显卡么?
【星宇微尘研究,天空之程出品】
夜雨聆风