class: center, middle, inverse, title-slide .title[ # 抽样 ] .subtitle[ ## 社会调查方法——第4讲 ] .author[ ### 李代 ] .institute[ ### 中国政法大学社会学院 ] .date[ ### 2023-04-04 ] --- class: center, middle, inverse <!-- background-image: url("images/cool.png") --> # 抽样 ## 抽样的逻辑基础 ## 概率抽样 ## 非概率抽样 ## --- # 抽样的逻辑基础 ## 作业1(15%) .pull-left[ 1. 写出一个公开的抽样调查(中英文均可) + 名称(链接) + 年份(如有好几波:第几波) 1. 采用的抽样方法是什么?(可从说明文档找到现成的) 1. 选取至少5个变量进行描述 + 内容(态度/行为/属性) + 尺度(定类/定序/定距/定比) + 取值(例如“0=女,1=男,9=缺失值”) 1. 说出该抽样调查至少一个不足之处 ] .pull-right[ 1. 提交 + 截止时间:2022-04-18 23:59 + 文件格式:docx,xlsx,rmd,pdf均可 + [提交链接-点我](https://send2me.cn/CVvvNTso/TA2JbaSeQ8ocmA) 1. 评分标准 + **认真**完成作业要求 = 12 + 如果没有其他人选取同一个数据:+3 ] --- # 抽样的逻辑基础 ## 抽样 > 从研究对象的整体中选出一部分代表加以调查研究,然后用所得结果推论和说明总体的特征 从部分到整体,从个别到一般 1. 部分含于整体之中 1. 部分与整体有类似的特征、现象、关系及过程 1. 部分能够为研究者提供一个有关整体的信息 --- # 抽样的逻辑基础 ## 抽样程序 1. 界定研究总体和调查总体 1. 制定抽样框 1. 决定抽样方案 1. 实际抽取样本 1. 评估样本质量 --- # 抽样的逻辑基础 ## 总体与样本 总体 > 总体是理论上明确界定的个体的集合体;它可以受到几个方面的限定:内容、单位、范围、时间 **总体不能被观测到** 抽样 > 从组成总体的所有元素集合中,按一定的方式选择或抽取一部分元素的过程 样本 > 从总体中按一定方式抽取的一部分元素的集合 --- # 抽样的逻辑基础 ## 抽样单位与抽样框 抽样单位 > 1. 就是一次直接的抽样所使用的基本单位 1. 抽样各阶段中考虑选取的某个元素或某组元素 1. 复杂抽样中,需要采用不同层次的抽样单位 抽样框 > 抽样框又称作抽样范围,它指的是一次直接抽样时总体中所有抽样单位的名单 --- # 抽样的逻辑基础 ## 抽样单位与抽样框 抽样单位:学校、院系、专业、学生 抽样框: 1. 所有学校的名单 1. 学校样本中所有学院的名单 1. 学院样本中所有专业的名单 1. 专业样本中所有学生的名单 --- # 抽样的逻辑基础 ## 样本容量 > 样本中的元素的多少 社会统计学通常以30为界限,把样本分为大样本和小样本 当样本规模大于30时,大数定理和中心极限定理勉强可用 需要注意 1. 样本对总体的推测能力,与总体中包含多少无关。也就是说:不管总体是1000个人还是100000个人,抽取100个人作为样本,推断能力是一样的 1. 由于存在拒答、无效问卷等情况,计划的样本容量往往大于最后的实际样本容量 --- # 抽样的逻辑基础 ## 维数诅咒 > 变量(维数)增加时,样本容量成指数级增长 .pull-left[ <table class="table table-striped" style="margin-left: auto; margin-right: auto;"> <caption>100个样本的性别分布</caption> <thead> <tr> <th style="text-align:left;"> 性别 </th> <th style="text-align:right;"> 频数 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 男 </td> <td style="text-align:right;"> 49 </td> </tr> <tr> <td style="text-align:left;"> 女 </td> <td style="text-align:right;"> 51 </td> </tr> </tbody> </table> ] .pull-right[ <table class="table table-striped" style="margin-left: auto; margin-right: auto;"> <caption>100个样本的性别、户口分布</caption> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:right;"> 非农 </th> <th style="text-align:right;"> 农业 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 男 </td> <td style="text-align:right;"> 21 </td> <td style="text-align:right;"> 28 </td> </tr> <tr> <td style="text-align:left;"> 女 </td> <td style="text-align:right;"> 30 </td> <td style="text-align:right;"> 21 </td> </tr> </tbody> </table> ] --- # 抽样的逻辑基础 相关分析和卡方检验要求每一小类的子样本容量不小于10 回归分析中样本大小要根据自变量的个数增减 1. 当项目很多时,应对其中最终的一些项目分别求精度要求,然后逐项确定所需要的样本的大小 1. 如果各项目的子样本大小差不多,变取最大的作为总体样本容量 1. 如果各项目的子样本相差很大,这时要降低某些项目的精确度要求或取消分析项目 --- # 抽样的逻辑基础 ## 影响样本规模确定的因素 1. 估计的精确性要求 1. 总体规模和异质度 1. 分析要求 1. 抽样方式与回收量 1. 研究资源——经费、人力、精力 --- class: center, middle, inverse <!-- background-image: url("images/cool.png") --> # 概率抽样 --- # 概率抽样 > 使总体的每一个个体都有机会被抽中,而且被抽中的概率是已知的 1. 概率抽样又分为**等概率抽样**和**不等概率抽样** 1. 随机样本的代表性最高,虽然随机样本不会完全与总体一致,但它能确定抽样误差,能正确说出样本的统计量在多大程度上代表总体 --- # 概率抽样 ## 简单随机抽样 简单随机抽样又分为**重复抽样**(有放回)和**非重复抽样**(无放回) 简单抽样有两种常用的方法: 1. 当总体元素较少时,类似于抽签或者抓阄的方法 1. 当总体元素较多的时候,随机数表的方法 当有了电脑之后,就用电脑自动抽取了 “口袋中有4个红球、6个白球,从中有放回随机抽取6次,抽到3个红球的概率是多大?” --- # 概率抽样 ## 分层抽样 > 分层抽样是将总体依照一种或几种特征分为几个子集,每个子集称为一层,然后从每一层中随机抽取一个子样本。将它们合在一起,即为总体的样本,称为分层样本  --- # 概率抽样 ## 分层抽样 1. 当一个总体其内部分层明显时,分层抽样能够克服简单随机抽样的缺点 1. 采用分层抽样的最基本目的,正是在于把异质性较强的总体分成一个个同质性较强的子总体,以便提高抽样的效率,达到更好的抽样效果 1. 分层抽样可以提高总体参数估计值的精确度 1. 有些研究不仅要了解总体的情形,而且还要了解某些类别的情形,分层抽样可以同时满足这两个要求,因为我们可以将每一类(层)看做一个总体。此外,对总体的不同部分还可以采用不同的抽样方法。 --- # 概率抽样 ## 分层抽样 1. 以调查所要分析和研究的主要变量或相关的变量作为分层的标准 1. 以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量 1. 以那些已有明显层次区分的变量作为分层变量 --- # 概率抽样 ## 分层抽样 按比例分层 > 按照各种类型或层次中的单位数目同总体单位数目间的比例来抽取子样本的方法 不按比例分层 > 便于对不同层次的子总体进行专门研究或进行相互比较,但若要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理 --- # 概率抽样 ## 多级抽样 多级抽样又称多段抽样或分段抽样 > 按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行 从总体中随机抽取若干大群,从大群中抽取小群,一层层抽,抽到最基本的抽样元素为止 例如: 从中国抽取10个省,从10个省各抽3个市,从30个市各抽2个区,从60个区各抽100人 --- # 概率抽样 ## 多级抽样 在运用多级抽样方法时,需要注意的是要在类别和个体之间保持平衡,保持合适的比例 方案1: 从中国抽取10个省,从10个省各抽3个市,从30个市各抽2个区,从60个区各抽100人 总共抽取了6000人 方案2: 从中国抽取4个省,从4个省各抽5个市,从20个市各抽3个区,从60个区各抽100人 总共抽取了6000人 哪个方案好? --- # 概率抽样 ## 多级抽样 1. 每个群按照其规模(其所含元素的数量)被给予大小不等的抽取概率。大的群具有比小的群更大一些的概率 1. 从每个抽中的群中都抽取同样多的元素(也是不等概率的) 1. 总体中的每一个元素最终都具有同样的被抽中的概率 群a:6个人。群b:4个人。以60%的概率抽a、40%概率抽b 群a中每个人被抽到的概率:$$ \frac{6}{10} \times \frac{1}{6} = \frac{1}{10} $$ 群b中每个人被抽到的概率:$$ \frac{4}{10} \times \frac{1}{4} = \frac{1}{10} $$ --- # 概率抽样 ## 多级抽样 1. 多级抽样的方法适用于总体范围特别大、对象的层次特别多的社会研究 1. 由于它不需要总体的全部名单,各阶段的抽样单位数一般较少,因而抽样比较容易进行 1. 但由于每级抽样时都会产生误差,故这种抽样方法的误差较大,这是它的主要不足 1. 在同等条件下减少多段抽样误差的方法是:相对增加开头阶段的样本数而适当减少最后阶段的样本数 --- class: center, middle, inverse <!-- background-image: url("images/cool.png") --> # 非概率抽样 --- # 非概率抽样 > 总体中每一个个体被抽中的概率是未知的抽样 采用非概率抽样,最大的理由是可操作性 概率抽样需要对总体有一定了解,才能形成抽样框 总体既然是不可观测的,哪来的总体的抽样框? --- # 非概率抽样 ## 偶遇抽样 偶遇抽样又称方便抽样或自然抽样 > 研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象。可以用于试调查。 偶遇抽样的优点是方便省力,但是样本的代表性差,有很大的偶然性 偶遇抽样中,每个元素被抽中的机会是不一样的 “我们采取了随机抽样的方法:用问卷星做一个调查问卷,在朋友圈里发一下,让同学帮忙分享一下。” --- # 非概率抽样 ## 滚雪球抽样 > 研究者根据现实情况,以自己方便的形式抽取一批人作为调查对象,在进行调查之后请他们推荐有类似特征的人进行第二波调查,以此类推 > 如同滚雪球一样我们可以找到越来越多具有相同性质的群体成员 1. 滚雪球抽样主要用于研究总体未知或隐蔽性很强的调查对象,例如艾滋病患者、同性恋者等等 1. 偶遇抽样中,每个元素被抽中的机会是未知的 --- # 非概率抽样 ## 定额抽样 定额抽样又称配额抽样 > 研究者尽可能地依据那些有可能是影响研究变量的各种因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例。然后依据这种划分以及各类成员的比例寻找调查对象 1. 当研究的主要目标不是去推断总体状况,而主要是为了检验理论、解释关系或比较不同性质的群体时,通常不需要进行严格的随机抽样,不需要得到对总体有代表性、有概括性的样本 1. 此时抽样标准不追求代表性,而更适合按事先规定的条件,有目的地寻找。 1. 定额抽样之所以分层分类,其目的在于要抽选出一个总体的“模拟物”,其方法则是通过主观的分析来确定和选择组成这种模拟物的成员。也就是说,定额抽样注重的是样本与总体在结构比例上的表面一致性。 --- # 非概率抽样 ## 定额抽样与分层抽样的差别 在层内进行概率抽样(分层抽样)还是非概率抽样(定额抽样) 1. 分层抽样进行分层,一方面是要提高各层间的异质性与同层中的同质性,另一方面也是为了照顾到某些比例小的层次,使得所抽样本的代表性进一步提高,误差进一步减小 1. 分层抽样的方法完全依据概率原则,排除主观因素,客观地、等概率地到各层中进行抽样 1. 这与定额抽样中“按事先规定的条件,有目的地寻找”的做法是完全不同的 分层抽样: 已知总体中男生占60%,女生占40%。决定研究100名学生,拿到全校学生名单后随机抽取60个男生、40个女生 定额抽样: 已知总体中男生占60%,女生占40%。决定研究100名学生,到食堂门口拦访60个男生、40个女生 --- # 非概率抽样 随机抽取数字: ```r sample(seq(1,9), 5, replace = T) ``` ``` ## [1] 2 7 3 7 4 ``` ```r sample(seq(1,9), 5, replace = T) ``` ``` ## [1] 7 5 1 5 5 ``` ```r sample(seq(1,9), 5, replace = T) ``` ``` ## [1] 1 4 7 5 5 ``` ```r sample(seq(1,9), 5, replace = T) ``` ``` ## [1] 7 5 1 1 4 ``` --- # 非概率抽样 随机抽取行: ```r # install.packages("tidyverse") library(tidyverse) nrow(mtcars) ``` ``` ## [1] 32 ``` ```r sample_n(mtcars, size = 2) ``` ``` ## mpg cyl disp hp drat wt qsec vs am gear carb ## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1 ## Fiat X1-9 27.3 4 79 66 4.08 1.935 18.90 1 1 4 1 ``` --- # 非概率抽样 随机抽取行: ```r # install.packages("tidyverse") library(tidyverse) nrow(mtcars) ``` ``` ## [1] 32 ``` ```r sample_frac(mtcars, size=0.1) ``` ``` ## mpg cyl disp hp drat wt qsec vs am gear carb ## Dodge Challenger 15.5 8 318.0 150 2.76 3.52 16.87 0 0 3 2 ## Merc 450SE 16.4 8 275.8 180 3.07 4.07 17.40 0 0 3 3 ## Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.25 17.98 0 0 3 4 ``` --- # 非概率抽样 伪随机与种子: ```r set.seed(1) sample(seq(1,9), 5, replace = T) ``` ``` ## [1] 9 4 7 1 2 ``` ```r set.seed(1) sample(seq(1,9), 5, replace = T) ``` ``` ## [1] 9 4 7 1 2 ``` ```r set.seed(1) sample(seq(1,9), 5, replace = T) ``` ``` ## [1] 9 4 7 1 2 ```