研究方法笔记-郭中实
因果关系的三个(必要和充分)条件:
1)时序性 temporal sequence 因一定要发生在果之前
2)共异性 co-variance 因的变化一定带来果的变化
3)非伪性 non-spuriousness 果的所有变化全部来自因
几乎所有社会科学研究都输在第三点上
常见的误区:
1)共因:
冰淇淋销量与溺亡关系——共因:炎热的天气;
家长暴力导致子女暴力——共因:暴力基因(2011年,Plain brain)
2)潜因:
善良心肠导致施舍行为——潜因:虚荣心
3)中介:
抽烟导致肺病——中介:尼古丁/焦油
(中介变量含在自变量里)
4)调节/条件变量
(调节变量在自变量之外,和自变量共同影响因变量,两个变量互为调节变量,哪个是主变量,哪个是调节变量由研究目的决定)
由于共因、潜因、中介、调节变量的数量接近无穷,所以任何因果关系都是不(可能)完整的。
非因果关系:相关关系
在相关关系中,我们只知道两个变量之间的共异关系,但不知因果。相关关系往往带有欺骗性
符号:r(rxy = -0.36)
关系:两个连续变量(方向和强度)
关系系数:-1.0 和 +1.0 之间(-1.0,0,+1.0 均为理论值,现实生活中没有)
相关性和线的角度没有关系,和离散程度有关系
概念定义:
所有概念都是人想象出来的,抽象的
概念的定义主要分为以下几类:
日常生活的定义;
字典定义;
政治定义;
哲学定义;
学术定义
……
任何概念的内涵和外延都极其宽泛和丰富,无法用一个定义囊括,所有的定义都是相对的(相对于另一个概念、语境、文化、意义、符号、意识形态等)
因为概念是人造的,所以概念的定义是随时代的变化而变化的,所以我们永远无法定义单一概念
两个抽象概念,一对关系 = 理论
概念定义是理论阐释的一部分
时间维度、控制维度、知识维度、信息维度
概念-维度-指标 concept-dimension-index CDI
从抽象到具象
概念单一,维度指标众多
维度可有可无,指标不可或缺
可有多层维度
指标就是变量
概念和变量的设定是人为的
结构模型 横着的
测量模型 竖着的
信度指的是测同一个指标的
效度指的是不同指标之间的
有没有一个文化框架,每年做一次,测量文化迁移的趋势
语境与概念:借尸还魂
尸 是场景语境,魂 是概念
关系的性质
线性
非线性
弱关系
强关系
四种测量层次:
定类(排他性/完备性)
新闻类别、媒体类别
定序
定距
定比
所有测量层次都是武断的,人为制定的
除了定类,其它三个测量层次都具有连续性
这样分层的目的:与社科对现实的分类相连;与不同的理论视角挂钩,与不同统计分析方法相匹配
根据不同研究/理论需要,同一变量可以划分为不同的测量层次
同维度的指标相关系数越“高”越好,
跨维度的指标相关系数越“低”越好,理想情况应该是0,但是取决于具体问题——效度
内部效度越高,外部效度越低
代表性:样本中的数值和规律同样存在于母本里
确保样本代表性是抽样调查数据质量最最最最最重要的衡量标准
统计针对的是样本,参数针对的是母本,我们用统计来计算母本的参数
抽样框
实证研究的结论基本上都是针对母本的,抽样框就是含该母本中全部个体要素的一个名单/列表,每个要素只能出现一次。通常采用以下方法:
1)依靠机构/付费获取
2)自己收集
3)分层
4)分成+整群
样本越大抽样误差越小(1300的样本量,神奇的数字)
用中位数回归去测量知识鸿沟???
所有的抽样分布都是正态分布
抽样分布的均值就是母体均值,它符合正态分布的一切特征与属性
在样本分布里,1,2,3叫作标准差 deviation
在抽样分布里,1,2,3叫作标准误 error
相关分析,分析的是标准差
问卷设计:
抽样调查和控制实验方法
1、问卷具有双重主观问题:研究者的主观和受访者的主观
2、大部分学术问卷背后有机构研究经费支撑
3、研究者和受访者对问题的兴趣差异巨大
4、敏感度、社会期望值——系统误差
5、受访人的言行(无论是什么)均不应该受到研究人员的指责
几个错误的假设前提:
1、每个社会成员都具有同等的生产和表达意见的能力。❌
2、受访者表达出来的意见是真实的。❌
3、每个表达出来的意见具有同等价值。❌
4、问卷中的问题是值得问的。❌
5、拒答不一定是随机误差(有可能是对问题的抵触。❌
问卷中的每一个问题必须有其理论地位!