如何快速掌握统计？统计学习理论与方法概述

欧非资源网：安全、免费、专业放心的资源下载站！ 最新软件|软件分类

您的位置：欧非资源网 > 其他专区 > EndNote > 如何快速掌握统计？统计学习理论与方法概述

如何快速掌握统计？统计学习理论与方法概述 时间：2022-03-08 12:59作者：admin来源：未知人气：259我要评论(0)

今天我们了解统计学习的基础内容：统计学习算法的理念与分类。

一、什么是统计学习（Statistical Learning）

现如今，数据的产生更迅速、数据的搜集方式更多样、数据的分析方法也更丰富。身处大数据时代的我们，也都对“统计学”、“统计学习”、“数据挖掘”、“机器学习"等概念有所耳闻。对于这些概念的详细含义，我并不打算去加以界定，作为一名统计学背景并打算长期“入坑统计”的小同志，我在学习的过程中始终是对模型算法从数据处理的思想方法这一角度上进行理解，因此相比于“机器学习”，我更愿称之为“统计学习”。

要注意的是，“统计学习”并与传统的统计学存在一定的区别。个人拙见：统计学是一门从有关数据的搜集、整理、分析、决策的方法论科学，涵盖很多研究领域，其下有很多的学科分支；而统计学习是有关基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。也就是说，统计学习往往建立在已有数据的基础上，根据数据格式与分析目的，再去选择适合数据的模型与算法并对模型和算法加以改进与优化。

用数学语言来讲，我们对数据进行建模时，通常采用如下范式：

其中，称为输入变量、预测变量、自变量、属性（特征），常用下标区分不同的变量，如；称为输出变量、相应变量、因变量。是随机误差项。

这里的并非显式函数，可以代表映射、规则等将和彼此连接的一种关系，而统计学习算法则是研究如何有效准确挖掘这种关系的方法集合。比如非常经典的身高问题，就是用一些统计算法分析儿童身高与多种影响因素（比如父母身高、营养水平、运动量）之间的关系，可供使用的算法比如线性回归、神经网络、决策树等。这些算法各有优势，在以后的文章中会和大家共同学习。

根据ISLR书中的定义，统计学习是关于估计一系列方法，但是在估计的过程中会涉及到很多细节内容，比如数据的清洗、数据格式的整理转换、算法子类的具体选择、参数的选择与优化等等。

下载 (1).jpeg

二、统计学习方法效果评价与选择

正如，我们对数据构造的模型算法往往不能捕捉到数据和间的全部关系，会存在一些偏差与方差。此外，我们建模的目的并非局限于捕捉现有的数据间的关系，更希望对未观测数据进行预测。

从微观角度讲，在统计学习算法中，我们往往通过交叉验证（Cross Validation，简称CV）对算法的具体效果进行评价。

尽管交叉验证也可细分，但其思想就是将现有的观测数据根据一定比例拆分成子集，将大部分数据用于训练模型，剩余数据用于测试模型的效果，有时会再拆分出一部分子集用于确定超参数；用于训练模型的数据集通常称为训练集，用于测试效果的数据集通常称为测试集。根据分配比例的不同，交叉验证方法有k折交叉验证、留一交叉验证等等。交叉验证有时也用于模型选择。

下载 (2).jpeg

上图为留一交叉验证方法，在每个训练集上将一数据点视为测试集，其余数据视为训练集，对训练集构造模型并在测试集上对算法进行效果评价，最终将每次算法的评价效果进行平均以代表总体的模型性能。

具体到评价指标的选择，不同的学习任务下对应的评价指标各异。如回归问题常常采用、等，具体的指标会在之后的学习笔记中出现。

从宏观角度讲，模型效果评价与模型选择息息相关。对同一问题Q，为何选择算法A而非算法B，需要从多种角度出发考虑，比如计算成本、内存要求等，这其中有一个重要因素便是模型的可解释性。

以前在学计量经济学时，老师曾说现有的机器学习算法与传统计量经济学最大区别在于模型的可解释性。更为严苛地讲，二者构建模型的思路存在不同，前者是算法模型，而后者则是数据模型。统计学习算法中亦是如此，有些问题我们并不完全在意模型的预测准确性，但在乎的是模型的可解释性与逻辑性。比如在研究儿童身高问题时，我们能够根据神经网络这种复杂算法构造出预测儿童身高的模型，实际中我们可能更需要分析的是儿童身高的影响因素，比如儿童发育期饭量与身高的关系，得出按时按量吃饭有助于长高的结论，从而指导儿童加油干饭。

此外，在现实生活中我们要研究事物间的关系，比如居民收入与支出、学习时间与考试成绩、空气质量与气象因素等等，此时模型可解释性的重要性则更为凸显。

“奥卡姆剃刀”（Occam’s razor）定理在统计学习算法中非常著名，其核心思想为“若非必要，勿增实体”。有些热门算法经常会被提及，有些看似简单的方法会受到冷落，但奥卡姆剃刀定理告诉我们的道理是：如果两个模型A和B对数据的解释能力完全相同，那么选择较为简单的那个模型。数据分析的关键点在于根据所要达到的目的选择相应的算法，就好比削苹果用倚天剑和屠龙刀哪个更好？答案是都不用，用小苹果刀就可以解决这种问题。个人认为这里的核心问题还是在于待研究问题的分类。

三、统计学习方法的分类

统计学习的算法研究一直是热门领域，虽然具体算法推陈出新，但大体上可分为三类：监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）、半监督学习（Semi-Supervised Learning）。

我们仍以与的关系来举例。在监督学习中，是必然存在的（通常将称为标签），我们研究的目的是挖掘与之间的关系，从而可以根据去推断或预测。根据取值属性的不同，监督学习可再分为分类（classification）与回归（regression）问题。当取值离散时，称为分类问题，比如医学中根据化验指标判断某人是否患病、根据消费习惯判断某人是否为潜在客户。当取值连续时，称为回归问题，比如根据父母身高预测儿童身高、比如根据以往考试分数预测下次分数。

与监督学习相对的是无监督学习，也是在受老师影响下我最喜欢研究的领域。无监督学习的情形下不存在标签，也就是说我们没有任何先验信息对数据加以分类，我们要探索的是大量数据内在的潜在关系。

无监督学习可分为降维（dimensionalityreduction）与聚类（clustering）。

聚类(clustering)是将数据对象进行分类的过程，使同一簇中的对象之间具有很高的相似度，而不同簇中的对象高度相异。聚类算法是我最喜欢的研究领域。

下载 (3).jpeg

个人认为无监督学习方法是更为高级的一种学习方法，因为待研究问题都是从数据出发从而挖掘数据间的潜在联系。以人的性别分类来举例，我们从出生就知道自然人可分为男人和女人，那么我们又是根据什么准则来对人的性别进行划分是人体器官？思考方式？又或是情感脆弱程度？也就是说，我们现在掌握的很多标签信息都是在既往认识的基础上所得到的，而无监督学习算法若能从数据角度出发，合理有效地挖掘出模式与分类，某种程度上可能会挖掘超出人类认知水平的结论。

作为监督学习与无监督学习的折中，半监督学习逐渐成为近些年研究的热点话题。因为实际生活中得到数据标签是需要较大的人力财力与时间成本。比如某些罕见与疑难病例，可供我们研究的病人数量较少；又比如生物试验得到某试验结果需要较长的周期，我们需要根据以往信息来辅助数据分析任务。此时，半监督学习的优势则发挥出来，并存在相关研究表明：在无监督问题中，适当有标签的信息可以提高学习准确度。

文章评论

查看所有0条评论>>

分类索引