AI知识谱系(五)——监督学习应用案例

AI知识普系（五）

监督学习应用案例

一、基础术语

二、课程核心算法：线性回归和逻辑回归

三、监督学习的应用场景

四、总结

一

基础术语

这里我们重点介绍一些基础术语，这些术语是理解算法和概念的基础。下面我们挑选出最核心、最常用的5个术语，搭配案例，结合场景，用通俗的语言拆解。

特征与特征向量：模型的“输入素材”

特征就是“描述样本的属性”，是模型用来“判断和预测”的依据，相当于我们做题时的“已知条件”。比如预测房价时，“房屋面积、房间数、楼层、朝向”都是特征；预测肿瘤时，“肿瘤大小、形状、纹理、生长速度”都是特征；预测考试分数时，“学习时长、复习次数、平时成绩”都是特征。特征可以是数字（比如面积80㎡、学习时长3小时），也可以是文字（比如房屋朝向朝南、肿瘤形状不规则），但最终都会被转换成模型能识别的数字形式。

而特征向量，就是把一个样本的所有特征，按固定顺序整理成的“向量”（简单理解就是“一组有序的数字”）。比如，一套房子的特征是“80㎡、2个房间、10楼、朝南”，我们把这些特征转换成数字（80、2、10、1，其中1代表朝南），那么它的特征向量就是（80， 2，10，1）——这样整理后，模型能更方便地进行计算和分析，也是代码分析中最常用的形式。

训练集与测试集：模型的“练习题”和“考试题”

在训练模型时，不能把所有收集到的数据都用来训练——就像我们学习时，不能只做练习题，还要做考试题来检验学习效果，否则就算把练习题背下来，遇到新题目也会出错。数据集通常会拆分成两部分，比例一般是7:3或8:2，各自的作用很明确：

1. 训练集：占整体数据的70%-80%，相当于“练习题”，用来让模型学习规律、调整参数。比如我们收集了100条房屋数据，其中70-80条用来训练模型，让它找到面积和房价的关系；

2. 测试集：占整体数据的20%-30%，相当于“考试题”，用来检验模型的泛化能力——这些数据从未被模型见过，能真实反映模型的预测水平。比如剩下的20-30条房屋数据，用来测试训练好的模型，看看它能不能准确预测这些新房屋的价格。

模型参数与超参数：模型的“核心部件”和“调节开关”

这两个术语是比较容易混淆的，很多人会把二者混为一谈。这里用一个通俗的比喻区分，结合案例分析：

1. 模型参数：相当于模型的“核心部件”，是模型在训练过程中“自动学习”的，不需要我们人工设定。比如线性回归中，“面积每增加10㎡，价格增加10万”，这里的“10万”就是模型自动学习到的参数；再比如，模型通过训练发现“学习时长每增加1小时，考试分数增加5分”，这里的“5分”也是模型参数。参数是模型的核心，训练模型的本质，就是找到最优的参数值。

2. 超参数：相当于模型的“调节开关”，是训练模型前，人工设定的参数，无法通过训练自动学习。比如梯度下降法中的“学习率”，就像我们学习的“节奏”——节奏太快（学习率太大），模型容易“学偏”，无法找到最优参数；节奏太慢（学习率太小），模型学习效率太低，需要花费很长时间才能收敛。除此之外，迭代次数、特征数量等，也属于超参数，需要我们手动调整到最合适的状态。

假设函数与损失函数：模型的“预测公式”和“纠错标准”

这两个函数是监督学习的核心，这里暂不关注复杂的公式推导，重点理解它们的作用即可：

1. 假设函数：就是模型的“预测公式”，用来根据输入特征，计算预测输出。比如单变量线性回归的假设函数是“hθ(x)=θ₀+θ₁x”，其中x是输入特征（比如房屋面积），θ₀和θ₁是模型参数，输入x（比如80㎡），就能通过这个公式，算出预测的房价。简单来说，假设函数就是模型“思考和预测”的方式。

2. 损失函数：就是模型的“纠错标准”，用来衡量模型的预测值和真实值之间的偏差。损失函数的数值越小，说明模型预测得越准，模型训练的核心，就是让损失函数的数值最小化。比如我们预测房价为85万，真实房价为80万，损失函数就会计算出这个偏差（5万），并指导模型调整参数，下次预测时减少偏差。一般模型中，线性回归常用的损失函数是均方误差，逻辑回归常用的是对数似然损失。

过拟合与欠拟合：模型的“学习误区”

在训练模型时，这里重点强调两个概念，提醒大家避开——这也是后续模型调优的基础，简单理解就是：

1. 过拟合：模型“死记硬背”了所有训练数据，包括数据中的噪声和偶然特征，导致在训练集上预测得特别准，但在测试集上预测得很差。就像学生死记硬背练习题答案，遇到新的考试题就不会做了；比如模型记住了“80㎡对应80万、100㎡对应100万”，但遇到90㎡的房屋，却无法准确预测，这就是过拟合。

2. 欠拟合：模型太“简单”，无法捕捉输入特征和标签之间的真实规律，导致在训练集和测试集上预测的都很差。就像学生没有掌握解题方法，不管是练习题还是考试题，都做不对；比如模型没有找到“面积和房价的线性关系”，预测80㎡的房价为50万，和真实值偏差很大，这就是欠拟合。

对于这两种现象都有具体的优化技巧，比如过拟合可以通过以下方法进行优化：正则化（L1/L2）、Dropout、早停（Early Stopping）等，也可以增加训练数据、减少特征；欠拟合可以通过增加特征、提升模型复杂度来缓解。

这里需要明确两个关键操作的含义：所谓“减少特征”，核心就是减少特征的数量，具体是剔除与预测目标关联不大、冗余甚至带有噪声的无效特征（比如预测房价时，剔除“房屋业主姓名”这类无关特征），避免模型过度关注无用信息而陷入死记硬背的误区；而“增加特征”，就是增加特征的数量，补充与预测目标相关、能帮助模型捕捉真实规律的有效特征（比如预测房价时，补充“房屋所在学区、周边配套设施”等特征），让模型能更全面地学习数据规律，从而改善欠拟合问题。简单来说，减少特征和增加特征，本质就是根据模型问题（过拟合/欠拟合），调整输入特征的数量，保留有用特征、剔除无用特征，让模型更贴合数据规律。

二

课程核心算法：线性回归和逻辑回归

这两个是监督学习的入门算法，虽不如神经网络、决策树等复杂，却也是比较重要的基础算法，很多模型和方案都是在此算法基础上的应用和拓展，这里我们暂时略过复杂的数学推导，只关注核心思想。

1、线性回归：解决回归问题的“入门算法”

线性回归的核心思想特别简单：用一条直线（单变量）或一个超平面（多变量），拟合输入特征和连续标签之间的线性关系。比如，我们用“房屋面积”预测“房价”，线性回归就是找到一条最合适的直线，让这条直线尽可能贴近所有训练数据点——这条直线，就是我们训练好的模型，后续就能用这条直线预测新的房价。

这里重点讲解下线性回归的参数优化方法——梯度下降法，这也是监督学习中最基础、最常用的优化方法，这里暂不关注公式推导，简单理解就是“逐步调整参数，让损失函数越来越小”。就像我们下山，想要找到山谷（损失函数最小的点），我们会一步步调整方向和步伐，每走一步都离山谷更近一点，直到到达谷底。梯度下降法的核心，就是“逐步调整模型参数，每次调整都让损失函数减小，直到找到最优参数值”。

2、逻辑回归：解决二分类问题的“入门算法”

很多人会被“逻辑回归”的名字误导，以为它是回归算法——其实不是，它是专门解决二分类问题的分类算法，名字里带“回归”，只是因为它的核心逻辑和线性回归有相似之处。它的核心思想很简单，分为三步：

第一步，通过线性函数计算输出（和线性回归类似）；第二步，通过一个“激活函数”（Sigmoid函数），把线性输出映射为0-1之间的概率值；第三步，设定一个阈值（比如0.5），概率大于0.5就预测为1（正类），小于0.5就预测为0（负类）。比如，用逻辑回归判断肿瘤是良性还是恶性，模型会先根据肿瘤特征计算一个数值，再通过Sigmoid函数，把这个数值转换成“恶性肿瘤的概率”——如果概率是0.8，大于0.5，就预测为恶性（1）；如果概率是0.3，小于0.5，就预测为良性（0）。

三

监督学习的应用场景

很多朋友会问：“学监督学习，到底能用来做什么？”其实，监督学习早已融入我们的日常生活，很多应用场景都是我们每天都会接触到的。

生活服务类

外卖配送时间预测（平台根据距离、天气、订单量，预测外卖配送时长，让我们知道什么时候能收到外卖）、网约车价格预测（根据距离、拥堵情况、时间段，预测打车费用，提前知晓价格）。

医疗健康类

疾病筛查（医院根据体检数据，预测患者是否患有某种疾病，实现早发现、早治疗）、药物疗效预测（根据患者体质、病情，预测药物的治疗效果，帮助医生制定个性化治疗方案）。

互联网运营类

广告点击预测（平台根据用户兴趣、浏览记录，预测用户是否会点击某条广告，精准推送，减少无效广告）、用户流失预测（APP根据用户行为，预测用户是否会卸载APP，针对性推出福利，留住用户）。

金融风控类

信用卡盗刷识别（银行根据用户消费习惯、消费地点，预测交易是否为盗刷，及时提醒用户，保障资金安全）、信贷风险评估（金融机构根据用户征信、收入，预测用户是否会逾期，降低信贷风险）。

工程造价咨询类

工程造价咨询依托监督学习算法，可高效解决核心业务难题。一是造价超支风险预判，运用逻辑回归算法，提取变更、签证等特征，动态监测并量化超支概率，辅助提前管控风险；二是工程量算量偏差智能校核，利用分类模型批量审核算量成果，自动识别高估低估及定额错套，大幅提升审核效率与准确率；三是建材价格趋势预测，基于线性回归模型结合多维辅助特征，精准预判价格涨跌，有效规避预算失真。

总结

监督学习在人工智能领域至关重要，是机器学习入门与发展的核心基石，为后续复杂算法（如深度学习）奠定基础，是机器学习的核心范式。其基于基础算法的模型应用场景极广，涵盖生活服务、医疗、金融、互联网、工程咨询等多个领域，房价预测、垃圾邮件过滤，疾病筛查、风控识别等。是工业界应用最广泛的机器学习范式之一。

THE END

作者：闫乃哲

编辑：宋田雨

往期回顾：

1、分类施策激活生态家底：基于现行政策的七大特定地域单元VEP价值转化解析

2、造价人的 AI 知识库：RAG+X 全链路架构升级方案

3、人工智能的知识赋能底座——知识图谱