一、数据可视化
最基础的数据可视化方法就是统计图。一个好的统计图应该满足四个标准:准确、有效、简洁、美观。
1)准确是统计图最基本的要求,即要使用正确的统计图去描述不同类型的数据。比如,
对于离散型变量(性别、职业等),可以画饼图或者柱状图;
对于连续性变量(年龄、工资等),可以画直方图或箱线图;
对于时间序列变量(GDP,CPI等),可以画折线图。
2)有效是让统计图能够清晰地展示数据,支撑观点。
3)简洁:在画图阶段,过于技术的细节,如果一句话说不清,就不要展示。
4)美观

1. 柱状图
柱状图是针对离散型数据(比如性别)所作的统计图。每根柱子代表一个类别(男性或女性),柱子的高度是这个类别的频数(男性或女性有多少人),有时也是百分比。

Ps:柱状图的柱子最好不要超过10根;柱子之间要留出空隙;柱子从高到低排序

一个完整的统计图包含以下要素或注意事项:
1)要有图表题,一般在图的下方,标题要简洁明了。
2)报告中的统计图要有标号。横轴和纵轴要标注清楚(如横轴:性别;纵轴:频数)。如果有单位的话,需要注明。
3)图的标题、横轴、纵轴等,出现的文字要统一和准确。
4)图的比例要协调,别太胖或太瘦,太高或太矮。
5)图的内容要正确、简明,避免出现不必要的标签、背景灯。
6)注意图的配色。
7)画完图要有适当的评述,尤其是在报告里。
8)不是所有的数据描述都要通过画图来完成。

堆积柱状图:
堆积柱状图和柱状图的本质一样,都是在展示频数。只不过简单的柱状图只涉及一个离散型变量(比如性别),而堆积柱状图涉及两个离散型变量(比如性别和职称)。
1)堆积柱状图也可以展示一个离散型变量和一个连续型变量,甚至两个连续型变量,前提是将连续型变量离散化,比如将年龄分成若干离散区间。
2)采用堆积展示的手段,不太适合在柱子上标注出交叉频数,会显得混乱。
注意:首先,不要每个统计变量都展示一遍,均值、中位数、方差、标准差,一个变量画出好几个柱状图展示不同的统计量。要展示读者最关心的,或者最能讲出故事的那些统计量,做到少而精。其次,要注意视觉上产生的错觉,避免接受错误信息。

2. 饼图
饼图和柱状图一样,都是针对离散型数据的统计图。柱状图多用于展示频数,饼图多用于展示频率(也就是比例)。

注意:
1)若因变量取值比较少,信息量有限,建议直接写成一句话。
2)若饼的块数过多的时候,有两种改进方法:一种是将比例不到5%的,归为一类,叫作其他。可以在饼的下方写个注释或者在行文中提及“其他”都包括什么。另一种是画条形图。由于平时写报告的纸张,纵向较长,所以条形图比柱状图更适合展示类别数较多的离散型变量。
3)饼的标签一般只标注百分比,很少标注频数或者两者都标注。建议在饼的旁边对应着标注类别+比例。
4)当饼图太丑时,可以巧妙使用复合饼图。
5)饼的配色,建议面积大的区块用浅色,面积小的用深色。

3. 直方图
直方图最大的用处是观察数据分布的形态,了解数据的取值范围。关于数据分布,主要分为对称、右偏和左偏三种。

4. 折线图
三种常见的数据类型:
1)横截面数据:是指在某一个时加点上,在多个对象上采集到的数据。
2)时间序列数据:是指在一些时间点上,针对某个对象采集的数据,反映事物随时间的变化。
3)面板数据:是指在多个时间点上,对于同一批对象采集的数据。

这里重点介绍时间序列数据。时间序列数据的典型特征是带有时间标签,因此折线图的横轴是时间(顺序不能乱),纵轴是某一指标取值。将每个时间点上采集到的指标取值标在图上,相邻的两个点用直线连接起来,就形成了折线图。

折线图有三大特点:
1)看趋势。指标随着时间的变化,呈现递增、递减还是持平的趋势。
2)看周期。指标的取值是否呈现一定的周期规律。
3)看突发事件。指标的取值是否因为某个事件的发生,出现波峰或者波谷。

另外,折线图也可以用来对比多个指标的变化,也就是一张图里有多条折线。

5. 散点图
散点图是用于展示两个(连续型)变量的一种常用统计图。用来解读两个变量的相关关系,一般有正线性相关、负线性相关、非线性相关与不相关。需要注意的是,相关关系不等于因果关系,人们渴求因果关系,但常用的许多统计工具探求的只是相关关系。

从散点图上,还能发现一些“异常”的信息,也就是“离群点”。

当数据有多个连续型变量时,可以两两画散点图,形成散点图“矩阵”。

如果数据中有很多连续型变量,散点图矩阵会让人抓不到重点。这时可以两两计算相关系数。但如果把相关系数的数值展示成矩阵,并不直观。在此,可以将相关系数矩阵可视化。

6. 箱线图 boxplot
箱线图是一种针对连续型变量的统计图。箱线图的三个基本要素:
1)箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。
2)箱子的上下限,分别是数据的上四分位数和下四分位数,意味着包含50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度。
3)在箱子的上方和下方,又各有一条线。有时代表最大或最小值;有时会有一些点“冒出去”。如果点冒出去,应理解为“异常值”。

箱线图的用法是,配合定性变量画分组箱线图,作比较。如果只有一个定量变量,很少用一个箱线图去展示其分布,更多选择直方图。

7. 茎叶图
茎叶图可以同时展示原始数据和分布的形状,图形由“茎”和“叶”两部分组成。通常以数据的高位数字作为树茎,低位数字作为树叶。

二、回归分析
回归分析主要包括五类:线性回归、0-1回归、定序回归、计数回归以及生存回归。

1. 线性回归
线性回归,更严格地说是普通线性回归,其主要特征是:因变量Y必须是连续型数据,而对解释性变量X没有太多要求。主要应用于股票投资、客户终身价值、医疗健康等领域。

2. 0-1回归
0-1回归就是因变量Y是0-1型数据的回归分析模型。0-1型数据是指只有两个可能取值的数据类型,例如性别等。

0-1型的因变量最常见的分析方式包括逻辑回归Logistic Regression & 概率单位回归 Probit Regression。相关的重要应用很多,比如互联网征信、个性化推荐、社交好友推荐等。

3. 定序回归
定序回归就是因变量Y为定序数据的回归分析模型。定序数据就是关乎顺序的数据,但是又没有具体的数值意义,例如喜好程度等。这类数据没有数值意义,不能做任何代数运算,且顺序很重要。

定序回归常见的应用场景有:各种关于消费者偏好的市场调研(李克特1~5点量表);豆瓣上对电影的打分评级(1~5分);电商平台上对商品或商家的满意程度(1~5颗星)等等。

4. 计数回归
如果因变量Y是一个计数数据,那么对应的回归分析模型就是计数回归。计数数据,就是数数的数据——非负的整数。例如各家庭孩子、宠物的数量等。

常见的应用有:客户关系管理中,一个经典的FRM模型,其中这个F,就是frequency,指的是一定时间内客户到访的次数;医学研究中,一个癌症病人体内肿瘤的个数;社会研究中,一对夫妻最后选择生育孩子的个数等。

5. 生存回归
生存回归是生存数据回归的简称,即因变量Y为生存数据的回归分析模型。其中生存数据就是刻画一个现象或个体存续生存了多久,也就是常说的生存时间。为此需要清晰定义:什么是“出生”?什么是“死亡”?

以人的自然出生为“出生”,以人的自然死亡为“死亡”,就定义了一个人的寿命,这就是一个典型的生存数据,该数据对寿险精算非常重要;以一个电子产品第一次使用为“出生”,最后报废为“死亡”,就定义了产品的使用寿命;以一个消费者的注册成为会员为“出生”,到某天流失不再登录为“死亡”,就定义了一个消费者的生命周期;以一个企业的工商注册为“出生”,破产注销为“死亡”,就刻画了企业的生存时间;以一个创业团队获得A轮融资为“出生”,创业板上市为“死亡”,就刻画了风险投资回报的周期。

生存数据大多为截断的数据censored data,例如年龄60+等。