因果关系的三个(必要和充分)条件:

1)时序性 temporal sequence 因一定要发生在果之前

2)共异性 co-variance 因的变化一定带来果的变化

3)非伪性 non-spuriousness 果的所有变化全部来自因

几乎所有社会科学研究都输在第三点上

常见的误区:

1)共因:

冰淇淋销量与溺亡关系——共因:炎热的天气;

家长暴力导致子女暴力——共因:暴力基因(2011年,Plain brain)

2)潜因:

善良心肠导致施舍行为——潜因:虚荣心

3)中介:

抽烟导致肺病——中介:尼古丁/焦油

(中介变量含在自变量里)

4)调节/条件变量

(调节变量在自变量之外,和自变量共同影响因变量,两个变量互为调节变量,哪个是主变量,哪个是调节变量由研究目的决定)

由于共因、潜因、中介、调节变量的数量接近无穷,所以任何因果关系都是不(可能)完整的。

非因果关系:相关关系

在相关关系中,我们只知道两个变量之间的共异关系,但不知因果。相关关系往往带有欺骗性

符号:r(rxy = -0.36)

关系:两个连续变量(方向和强度)

关系系数:-1.0 和 +1.0 之间(-1.0,0,+1.0 均为理论值,现实生活中没有)

相关性和线的角度没有关系,和离散程度有关系

概念定义:

所有概念都是人想象出来的,抽象的

概念的定义主要分为以下几类:

日常生活的定义;

字典定义;

政治定义;

哲学定义;

学术定义

……

任何概念的内涵和外延都极其宽泛和丰富,无法用一个定义囊括,所有的定义都是相对的(相对于另一个概念、语境、文化、意义、符号、意识形态等)

因为概念是人造的,所以概念的定义是随时代的变化而变化的,所以我们永远无法定义单一概念

两个抽象概念,一对关系 = 理论

概念定义是理论阐释的一部分

时间维度、控制维度、知识维度、信息维度

概念-维度-指标 concept-dimension-index CDI

从抽象到具象

概念单一,维度指标众多

维度可有可无,指标不可或缺

可有多层维度

指标就是变量

概念和变量的设定是人为的

结构模型 横着的

测量模型 竖着的

信度指的是测同一个指标的

效度指的是不同指标之间的

有没有一个文化框架,每年做一次,测量文化迁移的趋势

语境与概念:借尸还魂

尸 是场景语境,魂 是概念

关系的性质

线性

非线性

弱关系

强关系

四种测量层次:

定类(排他性/完备性)

新闻类别、媒体类别

定序

定距

定比

所有测量层次都是武断的,人为制定的

除了定类,其它三个测量层次都具有连续性

这样分层的目的:与社科对现实的分类相连;与不同的理论视角挂钩,与不同统计分析方法相匹配

根据不同研究/理论需要,同一变量可以划分为不同的测量层次

同维度的指标相关系数越“高”越好,

跨维度的指标相关系数越“低”越好,理想情况应该是0,但是取决于具体问题——效度

内部效度越高,外部效度越低

代表性:样本中的数值和规律同样存在于母本里

确保样本代表性是抽样调查数据质量最最最最最重要的衡量标准

统计针对的是样本,参数针对的是母本,我们用统计来计算母本的参数

抽样框

实证研究的结论基本上都是针对母本的,抽样框就是含该母本中全部个体要素的一个名单/列表,每个要素只能出现一次。通常采用以下方法:

1)依靠机构/付费获取

2)自己收集

3)分层

4)分成+整群

样本越大抽样误差越小(1300的样本量,神奇的数字)

用中位数回归去测量知识鸿沟???

所有的抽样分布都是正态分布

抽样分布的均值就是母体均值,它符合正态分布的一切特征与属性

在样本分布里,1,2,3叫作标准差 deviation

在抽样分布里,1,2,3叫作标准误 error

相关分析,分析的是标准差

问卷设计:

抽样调查和控制实验方法

1、问卷具有双重主观问题:研究者的主观和受访者的主观

2、大部分学术问卷背后有机构研究经费支撑

3、研究者和受访者对问题的兴趣差异巨大

4、敏感度、社会期望值——系统误差

5、受访人的言行(无论是什么)均不应该受到研究人员的指责

几个错误的假设前提:

1、每个社会成员都具有同等的生产和表达意见的能力。❌

2、受访者表达出来的意见是真实的。❌

3、每个表达出来的意见具有同等价值。❌

4、问卷中的问题是值得问的。❌

5、拒答不一定是随机误差(有可能是对问题的抵触。❌

问卷中的每一个问题必须有其理论地位!