class: center, middle, inverse, title-slide .title[ # 逻辑斯蒂回归 ] .subtitle[ ## 社会统计学——第11讲 ] .author[ ### 李代 ] .institute[ ### 中国政法大学社会学院 ] .date[ ### 2025-05-06 ] --- class: center, middle, inverse <!-- background-image: url("images/cool.png") --> # 逻辑斯蒂回归 ## 比数比 ## 逻辑斯蒂回归 ## 注意 --- # 比数比 ## 线性回归 线性回归模型,是对变量之间相关关系的一种设想。它认为,变量之间存在“线性”的关系。也就是说,一条直线可以描述自变量与因变量之间的关系。 $$ y = \beta_0 + \beta_1 x_1 + \epsilon$$ 该模型认为,x每增加1单位,y增加 `\(\beta_1\)` 单位。当 `\(x=0\)` 时, `\(y = \beta_0\)`。 --- # 比数比 ## 线性回归模型的使用条件 1. 因变量是连续变量(定距、定比)。 1. `\(x\)` 和 `\(y\)` 之间的关系是线性的(能写成一次方程的形式)。 1. 独立:误差( `\(\epsilon_i\)`)之间不相关。(Durbin-Watson检验) 1. 同分布:误差 `\(\epsilon_i\)`的分布相同,均值 `\(E(\epsilon_i) = 0\)`, 方差 `\(Var(\epsilon_i) = \sigma^2\)`。 1. 正态分布:误差 `\(\epsilon_i\)`符合正态分布 `\(\epsilon_i \sim N(0, \sigma^2)\)`。(Q-Q图) --- # 比数比 ## 线性回归不适用怎么办? 如果因变量不是连续变量,应该怎么办? 例如: 二分类变量:性别、好恶、中外…… 多分类变量:爱好、品牌、国籍…… 定序变量:教育程度、满意程度…… --- # 比数比 ## 比数比 发生比、比数:odds What are the **odds**? [国足仍有世界杯夺冠赔率 1赔3501倒数第二压泰国](https://www.163.com/sports/article/BJG7MT7700051C8M.html) 用1元钱赌中国队夺冠,中国队如果真的夺冠了,拿回来3501元钱。 odds: 1:3501 --- # 比数比 ## 升学率 假设有n个学生考大学,考上大学的人数是x。 升学率,是一个百分比,proportion。 `\(Proportion = \frac{x}{n}\)`. 概率,probability。概率不可观测,但可以通过统计推断推算。 `\(p = \frac{x}{n}\)`. 比数,也就是事件发生的概率比事件不发生的概率: `\(odds = \frac{p}{1-p}\)`. --- # 比数比 ## 升学率 .pull-left[ <!-- --> ] .pull-left[ <!-- --> ] --- # 比数比 ## 谁更占优势? 假设有m个男学生考大学,考上大学的男生人数是x。 假设有n个女学生考大学,考上大学的女生人数是y。 假如男生的升学率比女生大,是否说明男生更占优势? $$ p_1 - p_2 = \frac{x}{m} - \frac{y}{n} $$ $$ \frac{p_1}{p_2} = \frac{\frac{x}{m}}{\frac{y}{n}} $$ --- # 比数比 ## 谁更占优势? <!-- --> --- # 比数比 ## 比数比 odds ratio 男生升学的发生比是: `\(\frac{p_1}{1 - p_1}\)` 女生升学的发生比是: `\(\frac{p_2}{1 - p_2}\)` 比数比是: `\(\frac{\frac{p_1}{1 - p_1}}{\frac{p_2}{1 - p_2}}\)` --- # 比数比 ## 比数比 <!-- --> --- # 比数比 ## 比数比的对数 (log odds ratio) <!-- --> --- class: center, middle, inverse <!-- background-image: url("images/cool.png") --> # 逻辑斯蒂回归 --- # 逻辑斯蒂回归 ## 泰坦尼克号 <!-- --> --- # 逻辑斯蒂回归 ## 泰坦尼克号 <div class="tabwid"><style>.cl-8996b098{}.cl-898f2db4{font-family:'Arial';font-size:11pt;font-weight:normal;font-style:normal;text-decoration:none;color:rgba(0, 0, 0, 1.00);background-color:transparent;}.cl-89922d8e{margin:0;text-align:left;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);padding-bottom:5pt;padding-top:5pt;padding-left:5pt;padding-right:5pt;line-height: 1;background-color:transparent;}.cl-89922da2{margin:0;text-align:right;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);padding-bottom:5pt;padding-top:5pt;padding-left:5pt;padding-right:5pt;line-height: 1;background-color:transparent;}.cl-89924f30{width:0.75in;background-color:transparent;vertical-align: middle;border-bottom: 1.5pt solid rgba(102, 102, 102, 1.00);border-top: 1.5pt solid rgba(102, 102, 102, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-89924f3a{width:0.75in;background-color:transparent;vertical-align: middle;border-bottom: 1.5pt solid rgba(102, 102, 102, 1.00);border-top: 1.5pt solid rgba(102, 102, 102, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-89924f3b{width:0.75in;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-89924f44{width:0.75in;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-89924f45{width:0.75in;background-color:transparent;vertical-align: middle;border-bottom: 1.5pt solid rgba(102, 102, 102, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-89924f4e{width:0.75in;background-color:transparent;vertical-align: middle;border-bottom: 1.5pt solid rgba(102, 102, 102, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}</style><table data-quarto-disable-processing='true' class='cl-8996b098'><thead><tr style="overflow-wrap:break-word;"><th class="cl-89924f30"><p class="cl-89922d8e"><span class="cl-898f2db4">class</span></p></th><th class="cl-89924f3a"><p class="cl-89922da2"><span class="cl-898f2db4">No</span></p></th><th class="cl-89924f3a"><p class="cl-89922da2"><span class="cl-898f2db4">Yes</span></p></th><th class="cl-89924f3a"><p class="cl-89922da2"><span class="cl-898f2db4">p</span></p></th><th class="cl-89924f3a"><p class="cl-89922da2"><span class="cl-898f2db4">1-p</span></p></th><th class="cl-89924f3a"><p class="cl-89922da2"><span class="cl-898f2db4">odds</span></p></th><th class="cl-89924f3a"><p class="cl-89922da2"><span class="cl-898f2db4">or</span></p></th><th class="cl-89924f3a"><p class="cl-89922da2"><span class="cl-898f2db4">log or</span></p></th></tr></thead><tbody><tr style="overflow-wrap:break-word;"><td class="cl-89924f3b"><p class="cl-89922d8e"><span class="cl-898f2db4">1st</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">122</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">203</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.625</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.375</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">1.664</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">5.282</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">1.664</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-89924f3b"><p class="cl-89922d8e"><span class="cl-898f2db4">2nd</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">167</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">118</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.414</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.586</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.707</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">2.243</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.808</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-89924f3b"><p class="cl-89922d8e"><span class="cl-898f2db4">3rd</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">528</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">178</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.252</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.748</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.337</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">1.070</span></p></td><td class="cl-89924f44"><p class="cl-89922da2"><span class="cl-898f2db4">0.068</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-89924f45"><p class="cl-89922d8e"><span class="cl-898f2db4">Crew</span></p></td><td class="cl-89924f4e"><p class="cl-89922da2"><span class="cl-898f2db4">673</span></p></td><td class="cl-89924f4e"><p class="cl-89922da2"><span class="cl-898f2db4">212</span></p></td><td class="cl-89924f4e"><p class="cl-89922da2"><span class="cl-898f2db4">0.240</span></p></td><td class="cl-89924f4e"><p class="cl-89922da2"><span class="cl-898f2db4">0.760</span></p></td><td class="cl-89924f4e"><p class="cl-89922da2"><span class="cl-898f2db4">0.315</span></p></td><td class="cl-89924f4e"><p class="cl-89922da2"><span class="cl-898f2db4">1.000</span></p></td><td class="cl-89924f4e"><p class="cl-89922da2"><span class="cl-898f2db4">0.000</span></p></td></tr></tbody></table></div> 因为 `\(OR > 1\)` 或者 `\(log or > 0\)`,乘客跟船员比都更容易幸存,一等舱最容易幸存,其次是二等舱,再次是三等舱。 --- # 逻辑斯蒂回归 ## 泰坦尼克号
Characteristic
log(OR)
1
SE
(Intercept)
-1.2***
0.079
Class
Crew
—
—
1st
1.7***
0.139
2nd
0.81***
0.144
3rd
0.07
0.117
AIC
2,597
No. Obs.
2,201
Abbreviations: CI = Confidence Interval, OR = Odds Ratio, SE = Standard Error
1
*p<0.05; **p<0.01; ***p<0.001
--- # 逻辑斯蒂回归 ## 星球大战角色的性别与身高 <!-- --> --- # 逻辑斯蒂回归 ## 线性关系可以很好的描述两个变量之间的关系吗? <!-- --> --- # 逻辑斯蒂回归 连接函数是logit函数的回归: `\(logit(p) = log(\frac{p}{1-p})\)` <!-- --> --- # 逻辑斯蒂回归
Characteristic
log(OR)
1
SE
(Intercept)
-15**
5.42
height
0.09**
0.031
AIC
57.0
No. Obs.
64
Abbreviations: CI = Confidence Interval, OR = Odds Ratio, SE = Standard Error
1
*p<0.05; **p<0.01; ***p<0.001
--- # 逻辑斯蒂回归 ## 定类变量vs连续变量 泰坦尼克号的结果是把定类变量作为虚拟变量放入模型得到的。可以把它看成是logit函数的一种特殊情况。 假如自变量 `\(x\)`的取值是 `\(0 = 船员, 1 = 一等舱\)`。 当 `\(x = 0\)`时, `\(log(\frac{p_0}{1-p_0}) = \beta_0\)`。此时对等式两边同时取指数,可得 `\(or_0 = \frac{p_0}{1-p_0} = e^{\beta_0}\)`,这是船员幸存的比数。 当 `\(x = 1\)`时, `\(log(\frac{p_1}{1-p_1}) = \beta_0 + \beta_1\)`。此时对等式两边同时取指数,可得 `\(or_1 = \frac{p_1}{1-p_1} = e^{\beta_0 + \beta_1}\)`,这是一等舱乘客幸存的比数。 两个比数如果相除,会得到什么? $$ \frac{or_1}{or_0} = \frac{e ^{\beta_0 + \beta_1}}{e^{\beta_0 }} = e^{\beta_1} $$ --- # 逻辑斯蒂回归 ## 定类变量vs连续变量 所以说,通过logit函数作为连接函数得到模型系数,这个系数恰好是**比数比的对数**。在写作中,有时不报告模型系数而是**比数比**,亦可。
Characteristic
OR
1
SE
(Intercept)
0.00**
5.42
height
1.10**
0.031
AIC
57.0
No. Obs.
64
Abbreviations: CI = Confidence Interval, OR = Odds Ratio, SE = Standard Error
1
*p<0.05; **p<0.01; ***p<0.001
--- class: center, middle, inverse <!-- background-image: url("images/cool.png") --> # 注意 --- # 注意 比较若干个模型的系数时需要注意。参考下文: [Logistic模型的系数比较问题及解决策略:一个综述](https://www.society.shu.edu.cn/CN/Y2015/V35/I4/220)