数理统计(数理统计技术 )
数理统计博大精深,分为频率和贝叶斯两大学派。不过作为面向商业运用的数据科学家,对入门级选手的数理统计要求并不高,只要具备文科高等数理统计的基础足矣,比如被广泛采用的《经济数学第三册》,或者任何一本商业统计学、社会统计学,教育统计学等教程。
1.2.1描述性统计分析
描述性分析是每个人都会使用的方法。比如新闻联播中每次提及人民的收入情况,报告的永远是均值,而不是一一念出每个人的收入。企业财务年报中经常提及的是年收入、利润总额,而不是每一笔交易的数据。这些平均数、总和就是统计量。描述性分析就是从总体数据中提炼变量的主要信息,即统计量。日常的业务分析报告就是通过标准的描述性分析方法完成的,其套路性很强。做这类分析只要明确分析的主题和可能的影响因素,确定可量化主题和影响因素的指标。根据这些指标的度量类型选择适用的统计表和统计图进行信息呈现即可。下图展现了统计表的类型和对应的柱形图。
图1-4描述性统计分析方法
关于描述性统计分析详细的内容,大家可以阅读第4.2节的制作报表与统计制图的内容。这些内容看上去枯燥也没什么用处,那我们以一个例子表现其用途。目前商业智能的概念比较流行,图1-5 是某知名商业智能软件的截图,看上去高大上,其实就是图1-4中方法的运用。比如最下面的“普通小学基本情况”报表就是“汇总表”的直接运用。比如左下角的“普通小学专任教师数”是柱形图的变体,使用博士帽的数量替代柱高;右下角的“各省份小学学校数量占比”中,使用起泡的大小代表各省小学数量的占比情况。
图1-5 某商业智能软件的截图
学习描述性统计分析很简单,一上午就可以学完这些知识,并可以胜任95%以上的业务分析报告编写工作。剩下的难点完全是对业务理解和寻找数据了,要靠多读分析报告积累业务经验。
1.2.2统计推断与统计建模
统计推断及统计建模,含义是建立解释变量与被解释变量之间可解释的、稳定的,最好是具有因果关系的表达式。在模型运用时,将解释变量带入该表达式,用于预测每个个体被解释变量的均值。目前针对统计推断,广泛存在两个误解:
1、统计推断无用论:认为大数据时代只作描述性分析即可,不需要统计推断。由于总体有时间和空间两个维度的,即使通过大容量与高速并行处理可以得到空间上的总体。但是永远无法获取时间上的总体,因为需要预测的总是新的客户或新的需求。而且更为重要的是,在数据科学体系中,统计推断的算法往往是复杂的数据挖掘与人工智能算法的基础。比如特征工程中大量使用统计推断算法进行特征创造与特征提取。
2、学习统计推断的产出/投入比低:深度学习大行其道的关键点是产出/投入比高。实践表明,具有高等数学基础的学生可以通过两个月的强化训练掌握深度学习算法,并投入生产。而培养同样基础的人开发可商业落地的统计模型的培训时间至少半年。原因在于统计推断的算法是根据分析变量的度量类型定制开发的,这需要分析人员对各类指标的分布类型有所认识,合理选择算法。而深度学习算法是通用的,可以在一个框架下完成所有任务。听上去当然后者的产出/投入比更高。但是效率与风险往往是共存的,目前来自于顶尖IA公司的模型开发人员已经发现一个问题:解决同样问题,统计模型开发周期长而更新频次低;深度学习算法开发周期短而优化频次高。过去深度学习所鼓吹的实时优化给企业造成了过度的人员投入。因此深度学习的综合受益不一定高,而本书的目的之一就在于降低统计推断学习的成本。读者将来只要按照下表根据分析数据按图索骥即可,大大缩减学习时间。
表1-2统计推断与建模方法
被预测变量Y 预测变量X |
分类(二分) |
连续 |
|
单个变量 |
分类(二分) |
列联表分析|卡方检验 |
双样本t检验 |
分类(多个分类) |
列联表分析|卡方检验 |
单因素方差分析 |
|
连续 |
双样本t检验 |
相关分析 |
|
多个变量 |
分类 |
逻辑回归 |
多因素方差分析|线性回归 |
连续 |
逻辑回归 |
线性回归 |
数据资管出品