文档内容
第 34 节 统计
基本技能要落实
考点一 求线性回归方程
【例1】(2022·四省八校双教研联考)越接近高考学生焦虑程度越强,四个高三学生中大约有一个
有焦虑症,经有关机构调查,得出距离高考周数与焦虑程度对应的正常值变化情况如下表:
周数x 6 5 4 3 2 1
正常值y 55 63 72 80 90 99
(1)作出散点图;
(2)根据上表数据用最小二乘法求出y关于x的线性回归方程y=bx+a(精确到0.01);
(3)根据经验观测值为正常值的0.85~1.06为正常,若1.06~1.12为轻度焦虑,1.12~1.20为中度焦
虑,1.20及其以上为重度焦虑,若为中度焦虑及其以上,则要进行心理疏导,若一个学生在距高考
第二周时观测值为103,则该学生是否需要进行心理疏导?
其中b=,y=1 452,=91,a=-b.
i i
[解] (1)
(2)=×(6+5+4+3+2+1)=3.5,=×(55+63+72+80+90+99)=76.5,=267.75,b=≈-8.83,a
=76.5+8.83×3.5≈107.41,
∴线性回归方程为y=-8.83x+107.41.
(3)≈1.14>1.12,∴该学生需要进行心理疏导.
【方法技巧】
线性回归分析问题的类型及解题方法
1.求线性回归方程(1)利用公式,求出回归系数b,a.
(2)待定系数法:利用回归直线过样本点的中心求系数.
2.利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数b.
【跟踪训练】
1.(2022·福州市第一学期抽测)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以
后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:
个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研
究,现收集了该种药用昆虫的5组观测数据如下表:
日期 2日 7日 15日 22日 30日
温度x/℃ 10 11 13 12 8
产卵数y/个 23 25 30 26 16
(1)从这5天中任选2天,记这2天药用昆虫的产卵数分别为 m,n,求事件“m,n均不小于
25”的概率.
(2)科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x
的线性回归方程,再对被选取的2组数据进行检验.
①若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,
求出y关于x的线性回归方程;
②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2个,则认为得到的
线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?
附:回归直线的斜率和截距的最小二乘估计公式分别为b=,a=-b.
解:(1)依题意得,m,n 的所有情况有{23,25},{23,30},{23,26},{23,16},{25,30},
{25,26},{25,16},{30,26},{30,16},{26,16},共10个.
设“m,n均不小于25”为事件A,则事件A包含的所有情况有 {25,30},{25,26},{30,26},
共3个,
所以P(A)=,
故事件“m,n均不小于25”的概率为.
(2)①由已知数据得=12,=27,(x-)(y-)=5,(x-)2=2,
i i i
所以b==,
a=-=27-×12=-3.
所以y关于x的线性回归方程为y=x-3.
②由①知,y关于x的线性回归方程为y=x-3.
当x=10时,y=×10-3=22,|22-23|<2,
当x=8时,y=×8-3=17,|17-16|<2.所以①中所得的线性回归方程y=x-3是可靠的.
考点二 相关系数及其应用
【例2】(2019·合肥市第二次质量检测)为了了解A地区足球特色学校的发展状况,某调查机
构统计得到如下数据:
年份x 2014 2015 2016 2017 2018
足球特色学校数y/百个 0.30 0.60 1.00 1.40 1.70
(1)根据表中数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱(已知:0.75≤|r|
≤1,则认为y与x线性相关性很强;0.3≤|r|<0.75,则认为y与x线性相关性一般;|r|≤0.25,则认
为y与x线性相关性较弱);
(2)求y关于x的线性回归方程,并预测A地区2019年足球特色学校的个数(精确到个).
参考公式及数据:r=,
(x-)2=10,(y-)2=1.3,≈3.605 6,b=,a=-b.
i i
[解] (1)=2 016,=1,r===>0.75,
∴y与x线性相关性很强.
(2)b===0.36,
a=-b=1-0.36×2 016=-724.76,
∴y关于x的线性回归方程是y=0.36x-724.76.
当x=2019时,y=0.36×2019-724.76=2.08,
即A地区2019年足球特色学校约有208个.
【方法技巧】
模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数R2越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
【跟踪训练】
(2022·贵阳市第一学期监测)互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中
不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲、乙两家网络外卖企业(以下简
称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日 2日 3日 4日 5日
外卖甲日接单x/百单 5 2 9 8 11
外卖乙日接单y/百单 2 3 10 5 15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,y与x之间具有线性关系.①请用相关系数r对y与x之间的相关性强弱进行判断(若|r|>0.75,则可认为y与x有较强的线
性相关关系(r值精确到0.001));
②经计算求得y与x之间的回归方程为y=1.382x-2.674,假定每单外卖业务,企业平均能获取
纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围(x
值精确到0.01).
相关公式:r=.
参考数据:(x-)(y-)=66,
i i
≈77.
解:(1)由题可知==7(百单),
==7(百单).
外卖甲的日接单量的方差s=10,外卖乙的日接单量的方差s=23.6,
因为=,s0.75,
所以可认为y与x之间有较强的线性相关关系.
②令y≥25,得1.382x-2.674≥25,解得x≥20.02,
又20.02×100×3=6 006,
所以当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润大约不低于6 006元.
考点三 独立性检验
【例3】(2019·福州市质量检测)中国房地产业协会主办的中国房价行情网调查的一份数据显
示,2018年7月,大部分一线城市的房租租金同比涨幅都在10%以上.某部门研究成果认为,房租
支出超过月收入的租户“幸福指数”低,房租支出不超过月收入的租户“幸福指数”高.为了了解
甲、乙两小区租户的幸福指数高低,随机抽取甲、乙两小区的租户各100户进行调查.甲小区租户
的月收入以[0,3),[3,6),[6,9),[9,12),[12,15](单位:千元)分组的频率分布直方图如图所示.
乙小区租户的月收入(单位:千元)的频数分布表如下:
月收入 [0,3) [3,6) [6,9) [9,12) [12,15]
户数 38 27 24 9 2
(1)设甲、乙两小区租户的月收入相互独立,记 M表示事件“甲小区租户的月收入低于6千元,
乙小区租户的月收入不低于6千元”,把频率视为概率,求M的概率;(2)利用频率分布直方图,求所抽取的甲小区100户租户的月收入的中位数;
(3)若甲、乙两小区每户的月租费分别为2千元、1千元.请根据条件完成下面的2×2列联表,
并说明能否在犯错误的概率不超过0.001的前提下认为“幸福指数与租住的小区”有关.
幸福指数低 幸福指数高 总 计
甲小区租户
乙小区租户
总 计
附:临界值表
P(K2≥k) 0.10 0.010 0.001
k 2.706 6.635 10.828
参考公式:K2=.
[解] (1)记A表示事件“甲小区租户的月收入低于6千元”,记B表示事件“乙小区租户的月
收入不低于6千元”,
甲小区租户的月收入低于6千元的频率为(0.060+0.160)×3=0.66,
故P(A)的估计值为0.66.
乙小区租户的月收入不低于6千元的频率为=0.35,
故P(B)的估计值为0.35.
因为甲、乙两小区租户的月收入相互独立,
事件M的概率的估计值为P(M)=P(A)P(B)=0.66×0.35=0.231.
(2)设甲小区所抽取的100户的月收入的中位数为t,
则0.060×3+(t-3)×0.160=0.5,
解得t=5.
(3)设H:幸福指数与租住的小区无关,
0
幸福指数低 幸福指数高 总 计
甲小区租户 66 34 100
乙小区租户 38 62 100
总 计 104 96 200
根据2×2列联表中的数据,
得到K2的观测值k=≈15.705>10.828,
所以能在犯错误的概率不超过0.001的前提下认为“幸福指数与租住的小区”有关.
【跟踪训练】2.(2019·郑州市第二次质量预测)为推动更多人去阅读和写作,联合国教科文组织确定每年的4
月23日为“世界读书日”,其设立目的是希望居住在世界各地的人,无论你是年老还是年轻,无
论你是贫穷还是富裕,都能享受阅读的乐趣,都能尊重和感谢为人类文明做出过巨大贡献的思想大
师们,都能保护知识产权.为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查
了200名居民,这200人中通过电子阅读与纸质阅读的人数之比为 3∶1.将这200人按年龄(单位:
岁)分组,统计得到通过电子阅读的居民的频率分布直方图如图所示.
(1)求a的值及通过电子阅读的居民的平均年龄;
(2)把年龄在[15,45)的居民称为中青年,年龄在[45,65]的居民称为中老年,若选出的200人中通
过纸质阅读的中老年有30人,请完成下面2×2列联表,并判断是否有97.5%的把握认为阅读方式
与年龄有关?
电子阅读 纸质阅读 总计
中青年
中老年
总计
附:
P(K2≥k) 0.150 0.100 0.050 0.025 0.010
0
k 2.072 2.706 3.841 5.024 6.635
0
K2=.
解:(1)由题中频率分布直方图可得10×(0.01+0.015+a+0.03+0.01)=1,
解得a=0.035,
所以通过电子阅读的居民的平均年龄为
20×10×0.01+30×10×0.015+40×10×0.035+50×10×0.03+60×10×0.01=41.5(岁).
(2)这200人中通过电子阅读的人数为200×=150,通过纸质阅读的人数为200-150=50.
因为(0.01+0.015+0.035)∶(0.03+0.01)=3∶2,
所以通过电子阅读的中青年的人数为150×=90,
中老年的人数为150-90=60.
2×2列联表为电子阅读 纸质阅读 总计
中青年 90 20 110
中老年 60 30 90
总计 150 50 200
由表中数据,得K2=≈6.061>5.024,
所以有97.5%的把握认为阅读方式与年龄有关.
达标检测要扎实
一、解答题
1.某校高一年级学生全部参加了体育科目的达标测试,现从中随机抽取40名学生的测试成绩,整
理数据并按分数段[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]进行分组,
假设同一组中的每个数据可用该组区间的中点值代替,则得到体育成绩的折线图(如图).
(1)体育成绩大于或等于70分的学生常被称为“体育良好”.已知该校高一年级有1000名学生,试
估计高一年级中“体育良好”的学生人数;
(2)现从体育成绩在[60,70)和[80,90)的样本学生中随机抽取2人,求在抽取的2名学生中,体
育成绩在[60,70)的学生人数X的分布列及数学期望.
【解析】(1)由折线图知,样本中体育成绩大于或等于70分的学生有30人
所以该校高一年级学生中,“体育良好”的学生人数大约为 人.
(2)从体育成绩在[60,70)的样本学生有2人,在[80,90)的样本学生有3人,从这两组中随机
抽取2人,体育成绩在[60,70)的学生人数X的可能取值为:0,1,2.
,
,, 的分布列为:
0 1 2
所以 .
2.某新型智能家电在网上销售,由于安装和使用等原因,必须有售后服务人员上门安装和现场教
学示范操作,所以每个销售地区需配备若干售后服务店.A地区通过几个月的网上销售,发现每月利
润(万元)与该地区的售后服务店个数有相关性.下表中x表示该地区的售后服务店个数,y表示在
有x个售后服务店情况下的月利润额.
x(个) 2 3 4 5 6
y(万元) 19 34 46 57 69
(1)求y关于x的线性回归方程.
(2)假设x个售后服务店每月需消耗资金 (单位:万元),请结合(1)中的线性回归
方程,估算A地区开设多少个售后服务店时,才能使A地区每月所得利润平均到每个售后服务店最
高.
附:回归直线的斜率和截距的最小二乘法估计公式分别为: , .参考
数据: .
【解析】(1)根据题意,可得: , ,
,∴ , ,回归直线方程为 .
(2)每月的净利润为 ,其平均利润为 (万元),当且仅当 时,取等号.
∴开设4个售后服务店时,才能使A地区每月所得利润平均到每个售后服务店最高.
3.某校为引导学生学习党史,校党委宣传组织了党史知识竞赛,对前来参赛的150名学生(男生
100人,女生50人),成绩不低于80分的学生为“党史达人”,成绩低于80分的学生为“非党史
达人”,统计了他们的成绩情况,结果如下:男生中有60人被评为“党史达人”,女生中有40人
被评为“党史达人”.
(1)完善列联表,并判断:是否有99%的把握认为党史成绩优秀与否与性别有关?
性别 党史达人 非党史达人
是否为党史达人
男生
女生
(2)如果用这150名学生中,男生和女生“党史达人”的频率分别代替该校男生和女生被评为“党史
达人”的概率,且每位学生是否被评为“党史达人”相互独立,现从该校学生中随机抽取3人(2
男1女),设随机变量 表示“3人中党史达人”的人数,试求 的分布列和数学期望.
附: .
【解析】(1)根据已知数据,完善列联表如图,
性别 党史达人 非党史达人
是否为党史达人
男生 60 40
女生 40 10因为 所以没有99%的把握认为党史成绩优秀与否与性别有关.
(2)由已知得该校男生和女生被评为“党史达人”的概率分别 ,
的取值有0,1,2,3
所以, 的分布列为:
0 1 2 3
的期望为
4.某花圃为提高某品种花苗质量,开展技术创新活动, 在实验地分别用甲、乙方法培训该品
种花苗.为观测其生长情况,分别在实验地随机抽取各50株,对每株进行综合评分,将每株所得
的综合评分制成如图所示的频率分布直方图.记综合评分为80 及以上的花苗为优质花苗.(1)求图中 的值,并求综合评分的中位数.
(2)填写下面的列联表,并判断是否有99%的把握认为优质花苗与培育方法有关.
优质花苗 非优质花苗 合计
甲培优法 20
乙培优法 10
合计
附:下面的临界值表仅供参考.
(参考公式: ,其中 )
【解析】(1)由直方图的性质可知: ,解得
,
因为 ,所以中位数位于 之间,
设中位数为 ,则有 ,解得 ,
故综合评分的中位数为 ;
(2)根据第一问,优质花苗的频率为0.6,样本中优质花苗的数量为60,
得如下列联表:优质花苗 非优质花苗 合计
甲培优法 20 30 50
乙培优法 40 10 50
合计 60 40 100
所以 ,
所以有 得到把握任务优质花苗与培育方法有关;
5.在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长. 已知某地区
2014年底到2021年底新能源汽车保有量的数据统计表如下:
201
年份(年) 2014 2015 2016 2018 2019 2020 2021
7
年份代码x 1 2 3 4 5 6 7 8
保有量y/千辆 1.95 2.92 4.38 6.58 9.87 15.00 22.50 33.70
参考数据: , ,其中
(1)根据统计表中的数据画出散点图(如图),请判断 与 哪一个更适合作为y关于
x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回
归方程:
(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的
百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保
有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.参考公式:对于一组数据 ,v), ),…, ,其经验回归直线 的斜率和
1
截距的最小二乘估计公式分别为 , ;
【解析】(1)根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是 ,令
,则
因为 ,
所以, ,
,所以 ;
(2)设传统能源汽车保有量每年下降的百分比为r,依题意得, ),解得
,设从2021年底起经过x年后的传统能源汽车保有量为y千辆,则有
x,设从2021年底起经过x年后新能源汽车的数量将超过传统能源汽车,
则有
,所以 ,
解得 ,故从2021年底起经过7年后,即2028年底新能源汽车的数量
将超过传统能源汽车.
6.伴随经济的飞速发展,中国全民健身赛事活动日益丰富,公共服务体系日趋完善.据相关统计数据显示,中国经常参与体育锻炼的人数比例为37.2%,城乡居民达到《国民体质测定标准》合格以
上的人数比例达到90%以上.健身之于个人是一种自然而然的习惯,之于国家与民族,则是全民健
康的基础柱石之一,某市一健身连锁机构对去年的参与了该连锁机构健身的会员进行了统计,制作
成如下两个统计图,图1为该健身连锁机构会员年龄等级分布图,图2为一个月内会员到健身连锁
机构频数分布扇形图
若将会员按年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或40岁及以上)两
类,将一月内来健身房锻炼16次及以上的会员称为“健身达人”,15次及以下的会员称为“健身
爱好者”,且已知在“健身达人”中有 是“年轻人”.
(1)现从该健身连锁机构会员中随机抽取一个容量为100人的样本,根据上图的数据,补全下方
列联表,并判断依据小概率值 的独立性检验,能否认为是否为“健身达人”与年龄有关;
年轻
类别 非年轻人 合计
人
健身达人
健身爱好者
合计 100
临界值表:(2)将(1)中的频率作为概率,连锁机构随机选取会员进行回访,抽取3人回访.
①若选到的3人中2人为“年轻人”,1人为“非年轻人”,再从这3人中随机选取的1人,了解到
该会员是“健身达人”,求该人为非年轻人的概率;
②设3人中既是“年轻人”又是“健身达人”的人数为随机变量X,求X的分布列和期望值.
【解析】(1)根据年轻人标准结合图1可得年轻人占比为80%,则年轻人人数为 ,
则非年轻人为20人,根据图2表格得健身达人所占比60%,所以其人数为 ,根据其
中年轻人占比 ,所以健身达人中年轻人人数为 ,则非年轻人为10人;
健身爱好者人数为 ,再通过总共年轻人合计为80人,则健身爱好者中年轻人人数为
,3根据非年轻人总共为20人,则健身爱好者中非年轻人人数为 ,具体表
格填写如下.列联表为
年轻
类别 非年轻人 合计
人
健身达人 50 10 60
健身爱好者 30 10 40
合计 80 20 100
零假设 ,是否为“健身达人”与年龄无关.
所以,依据 的独立性检验,不能认为“健身达人”与年龄有关;
(2)①设事件 为:该人为年轻人,事件 为:该人为健身达人,故此人为“非年轻人”的概率
为则②由(1)知,既是年轻人又是健身达人的概率为 ,
,
故X的分布列:
0 1 2 3
的数学期望值 .
7.我国北方广大农村地区、一些城镇以及部分大中城市的周边区域,还在大量采用分散燃煤和散
烧煤取暖,既影响了居民基本生活的改善,也加重了北方地区冬季的雾霾天气.推进北方地区冬季
清洁取暖,是重大民生工程、民心工程,关系北方地区广大群众温暖过冬,关系雾霾天能不能减少,
是能源生产和消费革命、农村生活方式革命的重要内容.2017年9月国家发改委制定了煤改气、煤
改电价格扶植新政策,从而使得煤改气、煤改电用户大幅度增加.图1所示的条形图反映了某省
2018年1~7月份煤改气、煤改电的用户数量.
(1)在图2给定坐标系中作出煤改气、煤改电用户数量y随月份t变化的散点图,并用散点图和相关系数说明y与t之间具有线性相关性;
(2)建立y关于t的回归方程(系数精确到0.01),预测11月份该省煤改气、煤改电的用户数量.
参考数据: , , .
【解析】(1)作出散点图如图所示.
由条形图数据和参考数据得,
, , ,
,
所以 .
y与t的相关系数近似为0.99,说明y与t的线性相关性相当高,
从而可以用线性回归模型拟合y与t的关系.
(2)由 ,又由(1)得 ,
,
所以y关于t的回归方程为 .
将 代入回归方程得 .
所以预测11月份该省煤改气、煤改电的用户数量达到2.02万户.
8.某网络电视剧已开播一段时间,其每日播放量有如下统计表:开播天数x(单
1 2 3 4 5
位:天)
当天播放量y
(单位:百万 3 3 5 9 10
次)
(1)请用线性回归模型拟合y与x的关系,并用相关系数加以说明;
(2)假设开播后的两周内(除前5天),当天播放量y与开播天数x服从(1)中的线性关系.若每百
万播放量可为制作方带来0.7万元的收益,且每开播一天需支出1万元的广告费,估计制作方在该
剧开播两周内获得的利润.
参考公式: , , .
参考数据: xiyi=110, =55, =224, ≈10.5.
注:①一般地,相关系数r的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关
性较弱.②利润=收益-广告费.
【解析】(1)由题得 .
所以 .
所以 .
所以线性回归方程为 .
相关系数 ,
所以每日的播放量和开播天数线性相关性较强.
(2)解:设利润为 ,则
所以估计制作方在该剧开播两周内获得的利润为 万元..答:估计制作方在该剧开播两周内获得的利润为 万元..
9.文旅部门统计了某网红景点在2022年3月至7月的旅游收入 (单位:万),得到以下数据:
月份 3 4 5 6 7
1
旅游收入 12 11 12 20
0
(1)根据表中所给数据,用相关系数 加以判断,是否可用线性回归模型拟合 与 的关系?若可以,
求出 关于 之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,随机抽查了200名游客,得到如下列联表,请填写下面的
列联表,依据 的独立性检验,能否认为“游客是否喜欢该网红景点与性别有关联”.
喜欢 不喜欢 总计
男 100
女 60
总计 110
参考公式:相关系数 ,参考数据: .线性回归方程:
,其中 , .
临界值表:
【解析】(1)由已知得: ,
,因为 ,
说明 与 的线性相关关系很强.,可用线性回归模型拟合 与 的关系,,则 关于 的线性回归方程为: .
(2) 列联表如下所示:
喜欢 不喜欢 总计
男 70 30 100
女 40 60 100
总计 110 90 200
零假设 :游客是否喜欢该网红景点与性别无关联,
根据列联表中数据, ,
依据小概率值 的独立性检验,我们推断 不成立,
即游客是否喜欢该网红景点与性别有关联.
10.在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的前提下有序恢复生产,生
活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文旅产品,得到消费
者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格x(单位:
元)与购买人数y(单位:万人)的数据如下表:
城市展馆科技 乡村特色 齐鲁红色 登山套 游园套 观海套
旅游类别
游 游 游 票 票 票
套票价格x(元) 39 49 58 67 77 86
购买数量y(万
16.7 18.7 20.6 22.5 24.1 25.6
人)
在解析数据、描点绘图中,发现散点 集中在一条直线附近,其中
附:①可能用到的数据: .
②对于一组数据 ,其回归直线 的斜率和截距的最小二乘估
计值分别为(1)根据所给数据,求y关于x的回归方程;
(2)按照文旅部门的指标测定,当购买数量y与套票价格x的比在区间 上时,该套票受消费者
的欢迎程度更高,可以被认定为“热门套票”,现有三位同学从以上六款旅游套票中,购买不同的
三款各自旅游.记三人中购买“热门套票”的人数为X,求随机变量X的分布列和期望.
【解析】(1) 散点 集中在一条直线附近,设回归直线方程为
由 ,则 ,
,
变量 关于 的回归方程为 ,
,
, ,
综上,y关于x的回归方程为 ;
(2)由 ,解得 ,
,
乡村特色游,齐鲁红色游,登山套票,游园套票为“热门套票”,
则三人中购买“热门套票”的人数X服从超几何分布, 的可能取值为 ,
的分布列为:
1 2 3
P.