AI知识普系(五)
监督学习应用案例
目录
一、基础术语
二、课程核心算法:线性回归和逻辑回归
三、监督学习的应用场景
四、总结
一
基础术语

这里我们重点介绍一些基础术语,这些术语是理解算法和概念的基础。下面我们挑选出最核心、最常用的5个术语,搭配案例,结合场景,用通俗的语言拆解。
1
特征与特征向量:模型的“输入素材”
特征就是“描述样本的属性”,是模型用来“判断和预测”的依据,相当于我们做题时的“已知条件”。比如预测房价时,“房屋面积、房间数、楼层、朝向”都是特征;预测肿瘤时,“肿瘤大小、形状、纹理、生长速度”都是特征;预测考试分数时,“学习时长、复习次数、平时成绩”都是特征。特征可以是数字(比如面积80㎡、学习时长3小时),也可以是文字(比如房屋朝向朝南、肿瘤形状不规则),但最终都会被转换成模型能识别的数字形式。
而特征向量,就是把一个样本的所有特征,按固定顺序整理成的“向量”(简单理解就是“一组有序的数字”)。比如,一套房子的特征是“80㎡、2个房间、10楼、朝南”,我们把这些特征转换成数字(80、2、10、1,其中1代表朝南),那么它的特征向量就是(80, 2,10,1)——这样整理后,模型能更方便地进行计算和分析,也是代码分析中最常用的形式。
2
训练集与测试集:模型的“练习题”和“考试题”
在训练模型时,不能把所有收集到的数据都用来训练——就像我们学习时,不能只做练习题,还要做考试题来检验学习效果,否则就算把练习题背下来,遇到新题目也会出错。数据集通常会拆分成两部分,比例一般是7:3或8:2,各自的作用很明确:
1. 训练集:占整体数据的70%-80%,相当于“练习题”,用来让模型学习规律、调整参数。比如我们收集了100条房屋数据,其中70-80条用来训练模型,让它找到面积和房价的关系;
2. 测试集:占整体数据的20%-30%,相当于“考试题”,用来检验模型的泛化能力——这些数据从未被模型见过,能真实反映模型的预测水平。比如剩下的20-30条房屋数据,用来测试训练好的模型,看看它能不能准确预测这些新房屋的价格。
3
模型参数与超参数:模型的“核心部件”和“调节开关”
这两个术语是比较容易混淆的,很多人会把二者混为一谈。这里用一个通俗的比喻区分,结合案例分析:
1. 模型参数:相当于模型的“核心部件”,是模型在训练过程中“自动学习”的,不需要我们人工设定。比如线性回归中,“面积每增加10㎡,价格增加10万”,这里的“10万”就是模型自动学习到的参数;再比如,模型通过训练发现“学习时长每增加1小时,考试分数增加5分”,这里的“5分”也是模型参数。参数是模型的核心,训练模型的本质,就是找到最优的参数值。
2. 超参数:相当于模型的“调节开关”,是训练模型前,人工设定的参数,无法通过训练自动学习。比如梯度下降法中的“学习率”,就像我们学习的“节奏”——节奏太快(学习率太大),模型容易“学偏”,无法找到最优参数;节奏太慢(学习率太小),模型学习效率太低,需要花费很长时间才能收敛。除此之外,迭代次数、特征数量等,也属于超参数,需要我们手动调整到最合适的状态。
4
假设函数与损失函数:模型的“预测公式”和“纠错标准”
这两个函数是监督学习的核心,这里暂不关注复杂的公式推导,重点理解它们的作用即可:
1. 假设函数:就是模型的“预测公式”,用来根据输入特征,计算预测输出。比如单变量线性回归的假设函数是“hθ(x)=θ₀+θ₁x”,其中x是输入特征(比如房屋面积),θ₀和θ₁是模型参数,输入x(比如80㎡),就能通过这个公式,算出预测的房价。简单来说,假设函数就是模型“思考和预测”的方式。
2. 损失函数:就是模型的“纠错标准”,用来衡量模型的预测值和真实值之间的偏差。损失函数的数值越小,说明模型预测得越准,模型训练的核心,就是让损失函数的数值最小化。比如我们预测房价为85万,真实房价为80万,损失函数就会计算出这个偏差(5万),并指导模型调整参数,下次预测时减少偏差。一般模型中,线性回归常用的损失函数是均方误差,逻辑回归常用的是对数似然损失。
5
过拟合与欠拟合:模型的“学习误区”
在训练模型时,这里重点强调两个概念,提醒大家避开——这也是后续模型调优的基础,简单理解就是:
1. 过拟合:模型“死记硬背”了所有训练数据,包括数据中的噪声和偶然特征,导致在训练集上预测得特别准,但在测试集上预测得很差。就像学生死记硬背练习题答案,遇到新的考试题就不会做了;比如模型记住了“80㎡对应80万、100㎡对应100万”,但遇到90㎡的房屋,却无法准确预测,这就是过拟合。
2. 欠拟合:模型太“简单”,无法捕捉输入特征和标签之间的真实规律,导致在训练集和测试集上预测的都很差。就像学生没有掌握解题方法,不管是练习题还是考试题,都做不对;比如模型没有找到“面积和房价的线性关系”,预测80㎡的房价为50万,和真实值偏差很大,这就是欠拟合。
对于这两种现象都有具体的优化技巧,比如过拟合可以通过以下方法进行优化:正则化(L1/L2)、Dropout、早停(Early Stopping) 等,也可以增加训练数据、减少特征;欠拟合可以通过增加特征、提升模型复杂度来缓解。
这里需要明确两个关键操作的含义:所谓“减少特征”,核心就是减少特征的数量,具体是剔除与预测目标关联不大、冗余甚至带有噪声的无效特征(比如预测房价时,剔除“房屋业主姓名”这类无关特征),避免模型过度关注无用信息而陷入死记硬背的误区;而“增加特征”,就是增加特征的数量,补充与预测目标相关、能帮助模型捕捉真实规律的有效特征(比如预测房价时,补充“房屋所在学区、周边配套设施”等特征),让模型能更全面地学习数据规律,从而改善欠拟合问题。简单来说,减少特征和增加特征,本质就是根据模型问题(过拟合/欠拟合),调整输入特征的数量,保留有用特征、剔除无用特征,让模型更贴合数据规律。
二
课程核心算法:线性回归和逻辑回归

这两个是监督学习的入门算法,虽不如神经网络、决策树等复杂,却也是比较重要的基础算法,很多模型和方案都是在此算法基础上的应用和拓展,这里我们暂时略过复杂的数学推导,只关注核心思想。
1、线性回归:解决回归问题的“入门算法”
线性回归的核心思想特别简单:用一条直线(单变量)或一个超平面(多变量),拟合输入特征和连续标签之间的线性关系。比如,我们用“房屋面积”预测“房价”,线性回归就是找到一条最合适的直线,让这条直线尽可能贴近所有训练数据点——这条直线,就是我们训练好的模型,后续就能用这条直线预测新的房价。
这里重点讲解下线性回归的参数优化方法——梯度下降法,这也是监督学习中最基础、最常用的优化方法,这里暂不关注公式推导,简单理解就是“逐步调整参数,让损失函数越来越小”。就像我们下山,想要找到山谷(损失函数最小的点),我们会一步步调整方向和步伐,每走一步都离山谷更近一点,直到到达谷底。梯度下降法的核心,就是“逐步调整模型参数,每次调整都让损失函数减小,直到找到最优参数值”。
2、逻辑回归:解决二分类问题的“入门算法”
很多人会被“逻辑回归”的名字误导,以为它是回归算法——其实不是,它是专门解决二分类问题的分类算法,名字里带“回归”,只是因为它的核心逻辑和线性回归有相似之处。它的核心思想很简单,分为三步:
第一步,通过线性函数计算输出(和线性回归类似);第二步,通过一个“激活函数”(Sigmoid函数),把线性输出映射为0-1之间的概率值;第三步,设定一个阈值(比如0.5),概率大于0.5就预测为1(正类),小于0.5就预测为0(负类)。比如,用逻辑回归判断肿瘤是良性还是恶性,模型会先根据肿瘤特征计算一个数值,再通过Sigmoid函数,把这个数值转换成“恶性肿瘤的概率”——如果概率是0.8,大于0.5,就预测为恶性(1);如果概率是0.3,小于0.5,就预测为良性(0)。
三
监督学习的应用场景
很多朋友会问:“学监督学习,到底能用来做什么?”其实,监督学习早已融入我们的日常生活,很多应用场景都是我们每天都会接触到的。
01
生活服务类
外卖配送时间预测(平台根据距离、天气、订单量,预测外卖配送时长,让我们知道什么时候能收到外卖)、网约车价格预测(根据距离、拥堵情况、时间段,预测打车费用,提前知晓价格)。
02
医疗健康类
疾病筛查(医院根据体检数据,预测患者是否患有某种疾病,实现早发现、早治疗)、药物疗效预测(根据患者体质、病情,预测药物的治疗效果,帮助医生制定个性化治疗方案)。
03
互联网运营类
广告点击预测(平台根据用户兴趣、浏览记录,预测用户是否会点击某条广告,精准推送,减少无效广告)、用户流失预测(APP根据用户行为,预测用户是否会卸载APP,针对性推出福利,留住用户)。
04
金融风控类
信用卡盗刷识别(银行根据用户消费习惯、消费地点,预测交易是否为盗刷,及时提醒用户,保障资金安全)、信贷风险评估(金融机构根据用户征信、收入,预测用户是否会逾期,降低信贷风险)。
05
工程造价咨询类
工程造价咨询依托监督学习算法,可高效解决核心业务难题。一是造价超支风险预判,运用逻辑回归算法,提取变更、签证等特征,动态监测并量化超支概率,辅助提前管控风险;二是工程量算量偏差智能校核,利用分类模型批量审核算量成果,自动识别高估低估及定额错套,大幅提升审核效率与准确率;三是建材价格趋势预测,基于线性回归模型结合多维辅助特征,精准预判价格涨跌,有效规避预算失真。


总结
监督学习在人工智能领域至关重要,是机器学习入门与发展的核心基石,为后续复杂算法(如深度学习)奠定基础,是机器学习的核心范式。其基于基础算法的模型应用场景极广,涵盖生活服务、医疗、金融、互联网、工程咨询等多个领域,房价预测、垃圾邮件过滤,疾病筛查、风控识别等。是工业界应用最广泛的机器学习范式之一。
THE END
作者:闫乃哲
编辑:宋田雨
往期回顾:
1、分类施策激活生态家底:基于现行政策的七大特定地域单元VEP价值转化解析
3、人工智能的知识赋能底座——知识图谱

夜雨聆风