
百度飞桨社区:https://aistudio.baidu.com/datasetoverview
国家数据银行:https://www.scidb.cn/
魔塔社区:https://www.modelscope.cn/my/overview
opendatalab:https://opendatalab.com/
对于大语言模型来说,专用领域、小众领域的数据集甚少,不过与图像相比而言,文本类数据的采集、整理和标注难度较低。
比如你想要做中药(鲜草)识别与科普的应用,就需要到全国各地去拍摄,为了泛化性,同一种类需要不同角度光照拍摄多张(数量级一般为百),甚至是同一种类的不同生长周期也需要采集,并且还需要广阅文献,将其特征、禁忌配伍、药用价值、生长特性、历史、使用案例等信息一起找全。

比如你想要做虾类生理诊断的应用,就需要虾的各种生理状况的图像,如肌肉白灼、黑鳃、绿鳃、蓝鳃、空肠、肝肿大、肝萎缩、红肝、黑肝、红肠、断肠、断须、红须、红足、黄足、头胸甲缝隙、甲壳麻点等症状的图像,还需要对应症状的解决方案、多症状联合诊断分析报告、用药说明、水质调控数据库,虾类养殖数据库等等。这还没算上动态的情况,如飞机游、漂浮、靠边聚集。

再比如你想要做柑橘种植诊断的应用,就需要采集柑橘叶子各种生理状况的图像,如缺微量元素引起的黄叶(铁、锌、硼、镁、钾、钙)、红蜘蛛、介壳虫、黄龙病、溃疡、煤烟、炭疽,还需要采集柑橘果的疮痂、沙皮、果锈、日灼、油斑等图像,还要整合各种情况的应对措施、诊治病例、用药说明、柑橘种植数据库等。

从上面3个实践应用的例子就可以看出,特定领域、高质量数据的获取十分困难,不谈预处理和标注就已经是非常高的门槛了。并且,这些数据的采集需要人脉才行。
模型的结构和预训练权重都是公开的,模型的训练、验证、测试和APP的构建都可以借助AI实现。可以说,只要数据到位,构建特定领域的智能体不是问题。
当然,这只是我以一个做了多年产业融合的学生的看法。实际上,那些领域的专家,有部分都没有意识到AI可以赋能他们所在的产业,也没有数据留存、采集的意识,即使我们作为学生去提了这么一个点,这些专家的推动意愿并不高。我认识很多各个专业的学生,他们基本上都会很自然而然的有这么一个想法,奈何没有助力。
展望
当今时代,是AI的时代,更是数字化的时代。就产业融合、产业创新领域,拥有高质量的数据集就等于拥有推动产业升级的实力。随着AI不断发展,Deepseek v4的问世让token的使用成本大幅降低,而拥有某一特定产业的高质量的数据集就可以构建产业智能体,借助智能体就可以更方便的普惠广大产业人(果蔬种植户,畜禽水产养殖户),带动产业创新发展不断向前。

后话
借助此文章,希望让更多人可以意识到AI时代,数据为王的理念,AI应该作为一个工具去提高劳动生产率,惠及广大劳动人民。
在这里也分享一下我常用的数据获取方法:
网站下载
论文网站
抖Y、小红薯的视频或评论区爬图
实地采集
向第三方数据集采集公司定制
写在最后:这只是一个普通大学生的自我感悟,不提供任何建议
夜雨聆风