文档内容
[基础题组练]
1.根据如下样本数据:
x 3 4 5 6 7 8
y 4.0 2.5 0.5 0.5 0.4 0.1
得到的线性回归方程为y=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析:选B.根据给出的数据可发现:整体上y与x呈现负相关,所以b<0,由样本点(3,
4.0)及(4,2.5)可知a>0,故选B.
2.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,
得出y与x具有线性相关关系,且回归方程为y=0.6x+1.2.若某城市职工人均工资为5千元,
估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
解析:选D.因为y与x具有线性相关关系,满足回归方程y=0.6x+1.2,该城市居民人均
工资为x=5,所以可以估计该城市的职工人均消费水平y=0.6×5+1.2=4.2,所以可以估计
该城市人均消费额占人均工资收入的百分比为=84%.
3.在一组样本数据(x,y),(x,y),…,(x,y)(n≥2,x,x,…,x 不全相等)的散点图中,
1 1 2 2 n n 1 2 n
若所有样本点(x,y)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为(
i i
)
A.-1 B.0
C. D.1
解析:选D.所有点均在直线上,则样本相关系数最大,即为1,故选D.
4.(2019·黑龙江哈尔滨模拟)千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、
实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才
的培养力度,据不完全统计:
年份(届) 2014 2015 2016 2017
学科竞赛获省级一等奖
51 49 55 57
及以上的学生人数x
被清华、北大等世界名校
103 96 108 107
录取的学生人数y
根据上表可得回归方程y=bx+a中的b为1.35,该校2018届同学在学科竞赛中获省级一
等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人
数为( )
A.111 B.117C.118 D.123
解析:选B.因为x=53,y=103.5,所以a=y-bx=103.5-1.35×53=31.95,所以回归直
线方程为y=1.35x+31.95.当x=63时,代入解得y=117,故选B.
5.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某
机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线 一线 总计
愿生 45 20 65
不愿生 13 22 35
总计 58 42 100
由K2=,
得K2=≈9.616.
参照下表,
P(K2≥k) 0.050 0.010 0.001
0
k 3.841 6.635 10.828
0
下列结论正确的是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
解析:选C.因为K2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有
关”,故选C.
6.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并
得到y关于x的回归直线方程:y=0.245x+0.321,由回归直线方程可知,家庭年收入每增加1
万元,年饮食支出平均增加________万元.
解析:x变为x+1,y=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增
加1万元,年饮食支出平均增加0.245万元.
答案:0.245
7.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、
物理成绩(单位:分)对应如下表:
学生编号 1 2 3 4 5 6 7 8
数学成绩 60 65 70 75 80 85 90 95
物理成绩 72 77 80 84 88 90 93 95
给出散点图如下:根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,
则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为________.
解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有
线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲
同学的数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物
理成绩高,故③错误.综上,正确的个数为1.
答案:1
8.在一组样本数据(x,y),(x,y),…,(x,y)的散点图中,若所有样本点(x,y)(i=1,
1 1 2 2 6 6 i i
2,…,6)都在曲线y=bx2-附近波动.经计算∑x=11,∑y=13,∑x=21,则实数b的值为
i i
________.
解析:令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时t==,y==,
代入y=bt-,得=b×-,解得b=.
答案:
9.某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等
于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个
文科班全部110人中随机抽取1人为优秀的概率为.
优秀 非优秀 总计
甲班 10
乙班 30
总计 110
(1)请完成上面的列联表;
(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”.
参考公式与临界值表:K2=.
P(K2≥k) 0.100 0.050 0.025 0.010 0.001
0
k 2.706 3.841 5.024 6.635 10.828
0
解:(1)列联表如下:
优秀 非优秀 总计
甲班 10 50 60乙班 20 30 50
总计 30 80 110
(2)根据列联表中的数据,得到
K2=≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.
10.(2019·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,
收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:
月份 1 2 3 4 5 6
广告投入
2 4 6 8 10 12
量/万元
收益/万元 14.21 20.31 31.8 31.18 37.83 44.67
他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差
分析,得到如图所示的残差图及一些统计量的值:
x y xy x
i i
7 30 1 464.24 364
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由.
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除;(ⅰ)剔除异常数据后,求出
(1)中所选模型的回归方程;
(ⅱ)广告投入量x=18时,(1)中所选模型收益的预报值是多少?
附:对于一组数据(x,y),(x,y),…,(x,y),其回归直线y=bx+a的斜率和截距的最小
1 1 2 2 n n
二乘估计分别为b==,a=y-bx.
解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模
型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.
(2)(ⅰ)剔除异常数据,即3月份的数据后,得x=×(7×6-6)=7.2,
y=×(30×6-31.8)=29.64.
xy=1 464.24-6×31.8=1 273.44,
i i
x=364-62=328.
b====3,
a=y-bx=29.64-3×7.2=8.04.
所以y关于x的回归方程为y=3x+8.04.(ⅱ)把x=18代入(ⅰ)中所求回归方程得y=3×18+8.04=62.04,
故预报值为62.04万元.
[综合题组练]
1.中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休
年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部
从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延
迟退休”的人数与年龄的统计结果如下:
年龄 [15,25) [25,35) [35,45) [45,55) [55,65]
支持“延迟
退休”的人 15 5 15 28 17
数
(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的
不同人群对“延迟退休年龄政策”的支持度有差异;
45岁以下 45岁以上 总计
支持
不支持
总计
(2)若以45岁为分界点,从不支持“延迟退休”的人中按分层抽样的方法抽取8人参加
某项活动.现从这8人中随机抽2人.
①抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率;
②记抽到45岁以上的人数为X,求随机变量X的分布列及数学期望.
参考数据及公式:
P(K2≥k) 0.100 0.050 0.010 0.001
0
k 2.706 3.841 6.635 10.828
0
K2=
解:(1)列联表如下:
45岁以下 45岁以上 总计
支持 35 45 80
不支持 15 5 20
总计 50 50 100
因为K2===6.25>3.841,
所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.
(2)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁以上的应抽2
人.
①抽到1人是45岁以下的概率为=,抽到1人是45岁以下且另一人是45岁以上的概
率为=.
故所求概率为=.
②X=0,1,2.
P(X=0)==,P(X=1)===,
P(X=2)==.
可得随机变量X的分布列为
X 0 1 2
P
故E(X)=1×+2×=.
2.(2019·洛阳第一次联考)随着移动互联网的快速发展,基于互联网的共享单车应运而
生.某市场研究人员为了了解共享单车运营公司M的经营状况,对该公司6个月内的市场占
有率进行了统计,并绘制了相应的折线图.
(1)由折线图可以看出,可用线性回归模型拟合月度市场占有率y与月份代码x之间的关
系.求y关于x的线性回归方程,并预测M公司2017年4月份(即x=7时)的市场占有率.
(2)为进一步扩大市场,公司拟再采购一批单车.现有采购成本分别为1 000元/辆和1
200元/辆的A,B两款车型可供选择,按规定每辆单车最多使用4年,但由于多种原因(如骑
行频率等)会导致车辆使用年限各不相同.考虑到公司运营的经济效益,该公司决定先对两款
车型的单车各100辆进行科学模拟测试,得到两款单车使用年限频数表如下:
使用年限
1年 2年 3年 4年 总计
车型
A 20 35 35 10 100
B 10 30 40 20 100
经测算,平均每辆单车每年可以带来收入500元.不考虑除采购成本之外的其他成本,
假设每辆单车的使用年限都是整数,且以频率作为每辆单车使用年限的概率.如果你是M公
司的负责人,以每辆单车产生利润的期望值为决策依据,你会选择采购哪款车型?参考公式:回归直线方程为y=bx+a,其中b=,a=y-bx.
解:(1)由数据计算可得x==3.5,
y==16.
由公式计算可得,b=2,a=16-2×3.5=9.
所以月度市场占有率y与月份代码x之间的线性回归方程为y=2x+9.
当x=7时,y=2×7+9=23.
故M公司2017年4月份的市场占有率预计为23%.
(2)法一:由频率估计概率,每辆A款车可使用1年,2年,3年和4年的概率分别为0.2,
0.35,0.35和0.1,
所以每辆A款车产生利润的期望值为
E(X)=(500-1 000)×0.2+(1 000-1 000)×0.35+(1 500-1 000)×0.35+(2 000-1
000)×0.1=175(元).
由频率估计概率,每辆B款车可使用1年,2年,3年和4年的概率分别为0.1,0.3,0.4和
0.2,
所以每辆B款车产生利润的期望值为
E(Y)=(500-1 200)×0.1+(1 000-1 200)×0.3+(1 500-1 200)×0.4+(2 000-1
200)×0.2=150(元).
所以E(X)>E(Y),
所以应该采购A款单车.
法二:由频率估计概率,每辆A款车可使用1年,2年,3年和4年的概率分别为0.2,
0.35,0.35和0.1,
所以每辆A款车可使用年限的期望值为
E(X)=1×0.2+2×0.35+3×0.35+4×0.1=2.35(年),
所以每辆A款车产生利润的期望值为2.35×500-1 000=175(元).
由频率估计概率,每辆B款车可使用1年,2年,3年和4年的概率分别为0.1,0.3,0.4和
0.2,
所以每辆B款车可使用年限的期望值为
E(Y)=1×0.1+2×0.3+3×0.4+4×0.2=2.7(年),
所以每辆B款车产生利润的期望值为2.7×500-1 200=150(元).
所以应采购A款单车.