欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
统计学知识大梳理(终极篇)复见老子

统计学知识大梳理(终极篇)

作者介绍@大师兄混迹数据江湖十余载。主要负责大数据商业变现和产品运营工作。学好统计学,让你成为高富帅,迎娶白富美,走上人生巅峰,不是不可能,但可能性只有0.00001%。从统计学的角度,这是小概率事件。但是学好统计学的现实好处多多,我就随便举几个例子给大家听听。学会看问题,懂得数字的意义。新闻报道上,各种各样的数字随处可见,如果你不想被各种数字蒙骗,最好学点统计学。学过统计的人,当看到这样的数字的时候,就会多问几个为什么,就能明白数字背后的真实含义了。用数据说话,让你的说服力爆表。现在职场上的人们,谁不要给领导汇报工作,或者团队之间讨论问题。当你汇报和讨论的时候,光说,“我觉得”,“我保证”,“根据我的经验”,这些个词太没有信服力了。必须说数据,摆事实。利用清晰的数据传达具有强有力说服的信息。体验一种与众不同的思维方式。很多人的思维方式,非黑即白。但世界上的很多事物并不是非黑即白。统计学的思维就是永远不肯定这个世界到底是什么样子的。统计学永远是讲概率的,就是可能性。这就是一种概率思维方式。懂因果,知报应。统计学常常研究两个因素之间的关系,叫做因果关系。例如,你的学历对你收入的影响。统计学家可能会说,学历每提升一个层次,年收入将提高1.2万元。所以不要相信读书无用论,你要相信概率。如果你相信自己能成为比尔盖茨,那读书对你确实没意义,同样,这只是小概率事件,基本不会发生在你身上。既然统计学这么厉害,这么牛逼,这么重要。作为统计学专业的我,我就忍不住要给大家好好梳理下统计学的知识框架,并且带着大家一点一点的学习下统计学和概率论的知识。在今后的关于统计学的文章中,我努力实现以下几个小目标。目标一:构建出统计学需要掌握的知识框架,让读者对这个知识体系一览无余。目标二:尽量阐述统计学每个知识在数据分析工作中的使用场景以及边界条件。目标三:为读者解答数据分析中碰到的各种统计学问题。今天这篇文章,主要还是带大家从宏观的层面理解下统计学。概率与概率分布稍微关注过统计学的人,可能会这么一个疑问。为什么大学里会有这样两门课,《概率论与数理统计》,《统计学》,它们有什么区别?我的理解,《概率论与数理统计》更专业一些,偏理工科,会有大量公式的推导,知其然,知其所以然;而统计学这本书更基础,侧重于概念现象的解释,一般会直接给出结论,而不要求掌握结论的数理推导过程,文理科皆可用。但不管是哪门课程,前期都是先讲概率和概率分布。概率论是统计学的基础,而随机事件的概率是概率论研究的基本内容。统计学不研究统计,它研究的是不确定性。我们的世界是一个充满不确定性的环境,整个世界并非严格按照某个制定好的路线运行的。多数事物之间也并非有因必有果,万物之间充满了不可控的随机事件,我们不会因为今天努力了明天就一定会成功。不确定性事件唯一的规律就是概率,独立随机事件我们没办法预测或控制它在某个时刻一定会发生,但却可以用概率来描述它发生的可能性。以概率论作为理论基础,为我们提供了认识不确定世界的方法。这一章节,需要大家掌握几个核心概念:随机事件概率概率分布数字特征用图表演示数据今年疫情期间,待在家里除了陪伴家人以外,每天讨论最多、关注最高的事件莫过于疫情的新动态,这些动态的展现形式大家有没有注意到,各种专业、好看、直观的图表和数据图,让数据呈现得一目了然。是的,工作中,一名数据分析师拿到了数据后,第一步要做的是数据初步探索,这也叫数据的预处理,这个时候,更多的就是利用各种图表探索数据。图表的好处是它可以很直观的看到数据的分布以及趋势,更有效的观察数据。这一章节,需要大家掌握几个核心概念:数据类型统计表统计图数据的概括性度量利用上面所讲的图表展示,我们可以对数据分布的形状和特征有一个大致的了解,但要全面把握数据分布就要反映数据分布特征的代表值。通常包含分布的集中趋势、分布的离散程度、分布的形状。数据分析中,最常见的场景,就是你手上拿到一组,一批或者一坨数据。不懂统计学的人,可能会不知所措,或者说,你不做些加工和处理,你不知道这些数据有啥用。这个时候,就需要通过这些概括性的度量指标,来帮我们从宏观上把握数据中的初步信息。这一章节,需要大家掌握几个核心概念:众数/平均数方差/标准差偏度/峰度统计量及其抽样分布抽样好懂,抽样分布不好懂。抽样,就是从研究的总体中抽取一部分个体作为我们真正的研究对象,可以简单把样本理解为总体的一个子集,通过样本的结果来推测总体情况。比如我们想知道中国成年男性的平均身高,理论上最准确的办法是调查中国所有成年男性的身高,然后计算平均数。很显然,没人这样做。实际的做法总是抽取一部分人,然后计算这部分人的平均身高,由这个平均身高来大致估计总体的平均身高。理解了抽样,再来理解抽样分布。抽样分布说的是对谁的分布?答案是样本统计量,比如样本均数或者样本比例。以样本均数为例,一般说样本均数的抽样分布如何如何,这里,样本均数被当成了一个随机变量来看待。我们最希望大家记住的要点:样本均数是一个随机变量,但对于初学者,这确实是比较反直觉的。为何样本均数可以被当做一个随机变量?因为样本均数是依赖样本计算得出的:每抽取一组样本都可以计算出一个样本均数,而且这些样本均数或多或少都会有些差异。由此,样本均数会随着抽样的不同而随机变动。只是现实生活中我们一般只抽取一组样本,计算一个样本均数,因此,会觉得样本均数不变。这一章节,需要大家掌握几个核心概念:统计量抽样抽样分布参数估计当初大学里,学数理统计的时候,到了这块就感觉越来越难了,学习的过程中可以说就是囫囵吞枣,似懂非懂。但现在,经过漫长的实践过程,对统计学的知识有了更深一步的理解。统计推断,说白了,就两件事。第一个,参数估计。第二个,各类假设检验。学习到这里,假如你是做数据挖掘,机器学习的,你就会强烈意识到,数据挖掘和统计学之间是存在千丝万缕的联系。参数估计,顾名思义就是对参数进行估计,那什么是参数呢?就是你假设分布的参数就是说你认为或者知道某个随机过程服从什么分布,但是不确定他的参数是什么,那怎么办?你采样、采很多样本(实际值),通过这些样本的值去估计分布的参数就是参数估计。这一章节,需要大家掌握几个核心概念:参数点估计区间估计假设检验上面讲到,统计推断就需要明白两件事,一件是参数估计,另外一件是假设检验。假设检验是什么?说白了,假设检验就是先对总体猜一个参数值,然后利用样本的数据检验这个参数值准不准。互联网生产实践中的ABTEST方法,就经常会应用到假设检验的思想。举一个简单的例子:学而思网校App进行了改版迭代,现在有以下两个版本版本1:首页为一屏课程列表 版本2:首页为信息流如果我们想区分两个版本,哪个版本用户更喜欢,转化率会更高。我们就需要对总体(全部用户)进行评估,但是并不是全部存量用户都会访问App,并且每天还会新增很多用户,所以我们无法对总体(全部用户)进行评估,我们只能从总体的用户中随机抽取样本(访问App)的用户进行分析,用样本数据表现情况来充当总体数据表现情况,以此来评估哪个版本转化率更高。这一章节,需要大家掌握几个核心概念:假设检验P值回归分析大学里学习统计学的时候,最喜欢学回归分析,也是学的最明白的一部分。因为它的易懂性,也因为它的实用性。但随着自己数据分析经验的积累,对回归分析的理解也越来越深,它不是简单的回归模型求解那么简单,它更是一种日常工作中解决问题的思路和方法论。数据挖掘中使用的各种高深的模型,任何模型都可理解成回归模型,包含因变量Y和自变量X,求解参数。在我看来,回归分析由两部分组成:业务分析和技术分析。其中,业务分析属于“道”的层面,而技术分析属于“术”的层面。从“道”的层面来看,回归分析是业务分析,其分析的不是数据,而是业务,是业务中的不确定性。通过业务分析,获得对业务不确定性的理解,进而将抽象的不确定性业务问题转换成一个具体的数据可分析问题。什么是数据可分析问题?一个业务问题,只要有清晰定义的因变量Y(不管是看得见的,还是看不见的)和清晰定义的自变量X,这就是一个数据可分析问题。一旦把业务问题规范成一个具体的数据可分析问题(有清晰定义的Y和X),那么接下来就是技术分析,属于回归分析“术”的层面。在这个层面,人们关心对于一个既定的Y和X,要研究其中的不确定性,应该选择什么样的模型设定,线性模型还是非线性模型,一元模型还是多元模型,简单的决策树还是随机森林,普通的神经网络还是深度学习。模型设定确定下来后,还需思考应该用什么方法估计,如何调优,等等。以上是对回归分析的一种广义上的理解,狭义上理解回归分析,需要理解以下几个核心概念:相关系数回归分析最小二乘法显著性检验多重共线性拟合优度当然,统计学的知识还包含很多,比如方差分析,时间序列分析,统计指数等等,这些知识在特定的应用场合,也有着广泛的应用,只是相比以上的知识点,应用范围更小点。一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。

金踊跃曰

麻省理工大学统计学你了解多少?

虽然统计学从属于数学类,但是从美国大学的设置来看,统计已经慢慢从数学系中独立出来,成为单独的统计系。现在越来越多的学校成立统计系就是最好的证明。 在科学技术飞速发展的今天,统计学广泛吸收和融合其他学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。 今天的统计学已展现出强有力的生命力。因此统计学研究方向也是百花齐放,但是由于统计本身已经是数学的一个分支,因此统计学研究方向显得很分散。 参考美国几所典型的统计学学校,我们可以对统计学研究方向加以总结。统计学研究方向基础方面包括:(再)样本设计、数据挖掘、随即过程、建立统计模型、模型的选择、时间序列、非参数统计方法、蒙特卡罗法、生存分析、空间统计、贝叶斯推论、 各种经典的统计模型的学习、各种概率论理论等等。   统计学研究方向应用方面包括:生物统计、环境统计、金融统计、经济统计、遗传统计、农业统计等等。 这些是统计在其他领域的应用而形成的研究分支。其中生物统计的发展非常快,现在很多学校都专门设立了独立的生物统计系。 美国统计学有两个专业方向。 今天,我们来对统计与生物统计两个专业的就业情况做一简要分析。首先要明确的是,统计肯定比生物统计广泛,不用什么大道理,光看两个专业的名字就知道了。 统计不仅仅应用在生物上,有些领域比如教育,也有教育统计这个分支。统计学专业就业主要在制药类和金融类两个大方向,其他的都是小分支小应用小规模。 众所周知,金融类现在一蹶不振,加上h1b的限制,光是这个限制就足以让很多人饮恨了,所以最近这1-2年找工作,可能把重心放在制药行业更稳妥。 如果制药行业成了重点,统计和生物统计也就没太大区别了。 制药的底蕴还是很充足的,也比较有钱。但是也要看到,下面的合并肯定会带来更多的裁员,今年到明年年初之间,应该会有很多负面消息,就业形势肯定不怎么样。 等风波过去,应该会稳定很多。这些大公司的合并,不仅仅是为了丰富制药手段,增加pipeline/ new drug,也可以强强合并,更能抵抗经济危机影响。非制药行业的职位一直都是有的,即使是金融/保险类公司,也不会彻底机会断绝,不过,对于绝大多数硕士毕业生来说,就业还是瞄准职位最多的行业和地区比较好。总的来说统计学专业就业不太难。受金融和制药行业的影响,统计/生物统计类专业今年毕业的硕士,应该有很多找不到工作的,当然现在各个专业情况都是如此。 也会有很多人转而申请这两个专业的博士,申请也会很受影响。以上就是智课选校帝为大家整理的,有关麻省理工大学统计学的一些内容,希望对大家有所帮助。了解更多出国留学相关信息及最新动态尽在智课选校帝,祝大家学习进步,一切如意。

灵公说之

统计学专业实力最强的30所大学,毕业生就业率高,待遇很不错!

统计学以前是属于数学里面的一个分支,但由于近些年来经济活动的活跃,统计学的重要性也日益凸显。于是现在的统计学已经逐渐脱离数学的范畴,而更具有经济属性。现在高校开设的统计学专业里面,学生一般都要学习金融学、经济学、管理学等相关的课程,单纯的只是从数学理论来研究统计学的高校已经变得非常少。因此,今天的统计学专业排名也是从经济学的角度来分析,具有经济学科属性的统计学专业就业率是相当的高,广受社会的认可。下面就带大家来看一下统计学专业实力最强的30所高校。在第四轮学科评估当中,中国人民大学和北京大学的统计学学科都是A+,这两所大学也代表着统计学的不同的研究方向。北大的数学是全国第一,所以统计学的实力也是相当的强,另一方面,北大的经济学科在全国排名第一。因此,具有数学属性,也具有经济属性的交叉学科—统计学,理所当然的也能排在全国的榜首。而中国人民大学的统计学则更是偏向于经济学的研究究范畴,培养的是学生在经济活动当中利用统计学分析、解决问题的能力。相比于北大,人大缺少一定的数学基础,所以在排名当中只能屈居第二。从这30所高校的性质可以发现,统计学实力较强的高校,要么是本校的数学学科很厉害,要么是本校的经济类学科实力很强。如果数学和经济学两个学科都非常强的高校,两学科交叉所产生的统计学,非常实力也是相当的强。比如综合性大学,南开大学和厦门大学等,既有非常好的数学功底,经济学的学科能力也很强,因此,统计学的实力也很强,毕业生就业率也很高,待遇也不错。由于现在的统计学是一个交叉性的学科,所以在不同的高校学习的课程和研究的方向也会有很大的不同,毕业时也会被授予不同的学位。毕业以后,想进入银行、证券公司等金融类机构工作的话,则可以报考授予经济学学位的大学,比如中国人民大学、西南财经大学、对外经济贸易大学等。如果毕业以后想,进入互联网或者是数据类的公司,则可以选择授予理学学位的大学,比如北京师范大学、华东师范大学、中国科学技术大学等。统计学是一个需要深入研究的专业,本科的学历想要进入大型的公司是不够的。想要进入大型公司的总部工作,那么起码要具备研究生以上学历,如果有条件的话,可以报考统计学的专硕,即应用统计学,来提升自己的专业能力。

白箱

统计学:大数据时代的新宠!

00:49什么是统计学专业?大部分人对统计学的认识只停留在表面阶段,认为统计学就是简单的收集、整理和记录数据。其实不然,统计学不仅仅是简单的收集整理数据,它是一门通过分析挖掘数据内在数量规律性的科学,是一门研究如何解释、分析和应用数据的方法论科学,是一门融合自然科学和社会科学的学问。浙江大学数学系苏中根教授说:“统计学专业是学习和研究随机现象(不确定现象)规律的一门学科。随机现象广泛出现在自然界、人类社会活动和科学试验中,它通常具有三个基本属性:可重复性;不确定性;统计规律性。随机现象的规律用概率模型描述;因此,统计学旨在准确刻画和运用概率模型,包括模型建立、参数推断、假设检验、预测预报等。”统计学是通过搜索、整理、分析数据等手段,以达到推断所预测对象的本质,甚至预测对象未来的一门综合性学科。统计学专业学什么?统计学是应用数学的一个分支,无论是数理统计还是经济统计,统计推断都牢牢建立在数学基础之上。所以各校开设的课程中,数学课程都是统计学的基础课。这部分课程主要有:高等数学、线性代数、概率论与数理统计,有些要求较高的院校还会开设数学分析、解析几何、常微分方程、偏微分方程、复变函数等。另一部分是专业课,专业课的重点更多是让学生从统计的角度来思考问题。主要课程有:多元统计分析、抽样调查、运筹学、统计软件应用等。虽然在本科专业目录中,经济统计学不属于统计学类,但目前各高校的统计专业偏重经济方向的很多,课程设置也会根据培养方向有所差异。相近专业介绍应用统计学本专业培养具有良好职业道德,具备系统的统计学知识、了解统计学理论、掌握统计学的基本思想和方法,具有利用计算机软件分析数据的能力,能在经济、管理、生物、医药、金融、保险、工业、农业、林业、商业、信息技术、教育、卫生、医药、气象、水利、环境和减灾等相关领域工作的高素质、复合型的统计应用人才。经济统计学本专业培养德才兼备、站在时代前列,具有高度社会责任感,具备厚实的经济统计学理论方法与经济学理论基础和较强的创新与实际工作能力,具有广泛适应性的复合型高素质经济管理统计人才。本专业毕业生既能胜任企业和政府部门的统计业务,又能从事数据采集、数据分析、经济预测、经济信息分析和其他管理工作,还可进一步攻读硕士学位。统计学专业就业就业方向我国高校的统计学专业最初是面向政府培养人才。在满足政府统计人才需求的同时,各个高校统计学专业纷纷转为面向企业,面向社会,培养应用型统计人才。总的来说,统计学专业的就业范围较广,可以在各行业从事信息搜集、整理和分析工作,从事市场调研工作。就业职位涉及:统计分析员、数据统计员、调研员、精算师、会计、仓库管理、公务员、教师、人事专员等等。着重说四个方向:一是政府部门、统计局、各级管理部门等。政府部门一直是统计学毕业生比较理想的就业方向。主要从事普查、各种指数计算、报告编写等。二是银行、保险、证券公司等金融部门。主要从事金融行业的用户分析、风险分析,如一些高校开设了风险管理与精算方向,毕业生可以从事精算师等非常热门的职业。想要在这个方向发展需要学好各种模型、统计软件并补充一些经济、证券、财务等知识。三是市场调查公司、咨询公司、各公司的市场调研部门、各公司的人力资源部门和工业企业的质量监测部门等。这一方向主要是各公司的调研部门从事问卷设计、整理和分析数据、撰写数据报告等工作,也是该专业比较传统的就业方向。四是互联网行业。这一方向主要是在互联网公司做数据挖掘。从事这一方向除了传统统计学外,还要掌握一些编程、数据库语言的知识。统计学专业排名信息来源于高考GPS系统听听过来人的声音(仅供参考)“选择广”作者:今天不想洗头了(知乎网友)本人统计学专业在读,专业开设在数学科学学院,相对偏数学,不同学校开设院系可能不同。众所周知,随着大数据时代的到来统计学专业会很吃香。统计学强就强在开设不是很早,好多地方缺乏这类人才,普通本科大多数毕业去银行或一些与专业不匹配公司。统计学是以数学为基础,所以选择也很广,可以转其他专业。研究生毕业就业前景非常好,高校也缺乏统计学类的教师。需求广作者:知乎网友伴随着大数据的浪潮,如今各行各业都需要统计学的人才。从目前国内就业情况来看,金融类仍是高薪产业,也是很多统计专业学生最中意的行业。而具有统计学背景的学生相对于金融和经济专业的毕业生,专业知识更为定位明确,更富竞争力。报考指南需要较好的数学基础在《普通高等学校本科专业目录(2012年)》中,理学中的统计学类分为统计学和应用统计学,毕业后授予理学学士;在经济学类中,设有经济统计学,毕业后授予经济学学士学位。现在高校开设的统计学主要分为两个方向,一个是数理统计方面的,一个是经济方面的。其中,数理统计主要针对统计学基本理论和方法进行研究,比较偏纯理论,一般设在数学院较多;经济统计是运用统计学基础知识来科学调查、搜索经济信息、描述数据、分析数据,比较偏应用。无论是数理统计还是经济统计,都是以数学为基础的,且要求学生同时具备较高的计算机分析处理能力。目前,绝大部分高校统计学专业只招收理科学生。即使高考改革省份取消文理分科,选择该专业考生最好有一定的数学基础或本身对数学感兴趣为佳。看清院校的招生大类在高考填报志愿中,考生需要注意一下选择的大类。大多数学院的统计学是按专业名称或统计学大类招生。如北京师范大学、中央财经大学、天津财经大学、上海财经大学等。例如,中央财经的统计大类包含统计、经济统计、应用统计(金融统计)。考生在报考时只要了解一下大类中包含了哪几种统计学方向即可。但还有一些高校的统计专业包含在数学大类中招生。如北京大学、南开大学、南京大学、厦门大学等高校的统计学专业是包含在数学大类或理科实验班类中招生的。以北京大学为例,北大统计学专业设在数学科学学院的概率统计系中。数学科学学院按数学大学科招生,入学两年后学生可自由选择进入五个系之一学习。考生在报考时,一定要仔细阅读招生专业目录和高校院系专业介绍,以免造成不必要的疏漏。如何快速查看都有哪些高校招统计学专业?登陆高考GPS,在专业详情页,点击【查看招生【统计学】的院校】。*高考GPS给出了专业大类和专业小类的详细说明,今年有哪些大学招生这个专业、今年有哪些大类招生中包含这个专业都有说明,同一个专业在不同院校的设置有何不同,考生在选择时更加准确、减少遗漏。截图信息来源于计桥高考GPS来源:文章整理自高考GPS系统、知乎网友、网络,院校截图来源于计桥高考GPS系统,仅供参考。刊载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请及时与我们联系,我们将及时更正、删除或依法处理。

民本

统计学专业介绍,专业说

近年来,随着互联网以及人工智能行业的迅速崛起,加之金融行业的持续升温,统计学逐步跻身于比较热门的专业之一,人们意识统计学及数学是从事诸多行业的重要基础,不管是做大数据、做机器人还是金融精算,都离不开统计知识的学习,因此许多数学基础比较好的同学都将统计学纳入了报考专业的考量范围,但实际上统计学与大家心目中所想的可能还是有所差异的,社会上也普遍存在一些片面的理解,那我们今天就来聊一聊,统计学是个什么样的专业、需要学习哪些课程、以后就业前景如何。 专业介绍统计学是数学专业的一个分支,一般设立于数学科学学院,主要用来处理数据中的变异性,包括对数据的收集、分析、解释、演示及运用。统计学关注于开发和研究“收集、分析、解释和呈现数据”的方法,强调利用各种数学和计算工具来开发和研究统计学的基础理论和方法。作为一个高度跨学科的专业,统计学具有很强的交叉性,几乎所有的科学领域都有统计学应用的身影,同时各种科学领域的研究问题也促进了统计理论的发展和新方法的产生。同时,它的应用性也很强,统计学的研究通常从实际应用问题开始,经过加工提炼形成概率统计模型,最终能够指导实践。一个问题的完整解决往往需要设计试验、数据处理分析、撰写总结报告等。因此,统计学专业学生需要具备良好的文理综合素质,需要良好的动手能力以及一定的组织协调能力。培养方案本科生阶段,课程学习的重点在于打下坚实的数学基础,培养创造性的科研创新能力,以及了解和掌握丰富的现代统计方法,为日后读研深造打下坚实基础,或为毕业生就业锻炼实践能力。以浙江大学的统计学专业为例,对于统计专业毕业生的要求具体有以下七点:① 面向各行业发展的重大需求,具备强大数据分析思维和能力;② 具有深厚数学基础,掌握扎实数理统计基础专业知识;③ 具备正确收集数据、整理数据的能力,掌握熟练处理和分析各种数据的技术;④ 精通统计软件编程、统计计算,并具有熟练处理大数据的能力;⑤ 具有将统计专业知识应用于其他学科的科研能力,例如保险精算学、金融数学、生物统计学、数据科学等领域;⑥ 具有自学能力,特别是统计知识自我更新的能力,具有创新意识和国际视野;⑦ 具有适应实际统计工作的能力,具备到高等院校、科研机构、金融证券、保险、医药等企事业单位以及政府部门从事统计调查、统计信息管理、数据分析等研发、应用和管理工作。综合来看,本科阶段的培养方案对于学生的统计知识基础、分析问题能力、统计调查和数据开发能力、科学研究能力以及应用统计技术能力等都提出了较高的要求。方案中也可以体现统计学专业交叉性与应用性的显著特征。核心课程低年级阶段,学生以通识类课程的学习为主,主要包括:思政类课程、大学英语、计算机科学基础、语言程序设计、数学分析、高等代数、大学物理等。通识课程涵盖的内容比较广泛和基础,旨在让学生掌握专业学习的基本知识与技能、培养学生的学习与思考能力,为日后进入专业领域后的深入学习做准备,比如外语类与计算机类课程,在学生日后的学习和研究生涯中,这已经不仅仅是需要掌握的学科知识,更是一件实用的研学工具,不管在文献研究还是设计实践中都是必不可少的技能,所以在低年级阶段同学们务必认真学习通识基础课程。进入专业领域学习后同学们会接触到统计学专业核心课程,主要包括:解析几何学、概率论、数理统计、随机过程、时间序列、回归分析、多元分析、抽样调查、实变函数、复变函数、统计计算(软件)、常微分方程、金融风险管理、保险精算、生物统计等等。统计学类的课程主要靠要分为三种类型,数学理论、计算机编程以及统计应用。根据这些复杂的课程名称就可以大致了解,统计学专业学生需要进行很多理论学习,这对于学生良好的抽象逻辑思维能力和严密的计算能力都有比较高的要求,所以数学基础较为薄弱的学生,在理论学习上一时会难以适应,报考时需要审慎考虑。计算机编程语言的学习对于统计专业学生是非常重要的,在使用统计学软件和编程语言,比如SAS, SPSS, R等进行数据处理和分析时,计算机编程都是作为最基本的工具而存在的。此外也需要提醒大家,在利用统计知识进行建模应用时,由于统计学本身是一门应用性较强的学科,所以建立合理的统计模型需要考虑到计算方便、应用性广等等多项因素,并不一定数学理论上的正确为唯一标准,所以平时同学们除了要专注于课程内容的学习,也要扩充自己的各方面知识,提高对应用性问题的敏感性,使模型能够准确切中实际问题的实质。毕业前景数学学院的毕业生一般在国内外享有非常好的声誉,许多高等学府都愿意接受他们继续攻读研究生,在就业人才市场上竞争力也非常强劲。如果选择读研深造,主要专业方向主要有数理统计和金融统计,其余还有交叉类的比如医药统计、生物统计、生物信息、电子商务等等。数理统计方向国内最好的院校是北京大学,北大统计学专业在2017年第四轮学科评估中傲居榜首,实力无需质疑,但同时想要报考北大研究生所要面对的竞争也将是难以想象的激烈,有此意向的学生在本科阶段就需要好好准备了。其他推荐院校还有中国科学技术大学、复旦大学、南开大学、华东师大等等,实力也都不容小觑。经济统计方向最好的是中国人民大学,人大在数据挖掘、精算、经济统计还有国民经济方面都很强,它的统计专业在学科评估中排到第二,也是非常抢手的专业院校。其他还有厦门大学和上海财经大学等也都不错。(第四轮学科评估统计学类排名)本科毕业即直接就业的学生在统计学专业还是占到比较少数的,大部分同学都会选择读研深造或者国外留学,但统计学专业毕业生本身就业面非常广,而且入职对于学历的门槛一般不会非常严格,更加看中毕业生个人的统计分析应用能力。本科毕业生主要能够到金融证券、保险、银行、海关、行政机关、企事业、科研等单位直接就业,从事统计调查咨询、数据分析、决策支持和信息管理等工作。就业流向主要可以分为以下几类:1、科研、教育部门(高等院校、研究院等)。主要从事研究和教学工作,涉及的专业门类可能有数理理论研究、生物实验统计、医学实验统计等等,此类职业就业门槛一般来说都很高,对于从业者的学历、学术经验、科研能力等要求较为严格。2、政府部门(统计局等)。主要从事行政调查和统计分析工作,相较于其他行业在政府部门工作是比较稳定的选择,许多毕业生们也都纷纷涌向这里,需要面对的竞争压力必然不小。3、银行、保险公司、证券公司等金融部门。这项职业主要关注于统计部门如何对各项金融业务的活动情况和资料进行调查、收集、整理和分析从而提供统计信息和统计咨询意见进行金融统计管理和监督,一般面向于金融统计方向的毕业生们,工作要求较高但同时薪资待遇也是很不错的,因此也是统计专业学生们心仪的职业意向之一。4、市场调查公司、咨询公司、各公司的市场研究部门。这些岗位的从业者主要从事统计调查、统计信息管理、数量分析、市场研究、质量控制以及高新技术产品开发、研究、应用和管理等工作,主要面向经济统计专业方向的毕业生,现在这类岗位上存在着很大的人才缺口,因此就业的前景是非常可观的。5、计算机服务等互联网企业。目前人工智能、机器学习、数据挖掘等领域的应用前景非常广泛,对具有突出的计算机以及统计专业技能的高端人才需求也越来越大,因此互联网行业也非常受统计学专业背景的毕业生们的青睐。总结来说,统计学作为当今非常热门的专业之一,受到许多学生和家长的追捧,它凭借着自身交叉性与应用性都很强的特征也有着非常广泛的就业前景,统计专业的毕业生们往往受到各行各业的欢迎,是一个非常不错的专业选择。但也需要特别注意,统计学专业的学习对于数理基础以及计算机编程能力的要求非常高,有意向报考的同学们一定要慎重地思考和选择。

金环蚀

数据分析:浅谈统计学在生活中的应用,看完长见识了!

浅谈统计学在生活中的应用统计学并不是一门独立存在的学科,它是以数学知识和数理统计作为基础,将数理统计方法和其他学科专业知识交叉融合形成的具有极强推断性的一种分析方法。现阶段,随着科学技术的快速发展,为了加强对自然社会各个领域现象的判断和整理能力,将统计学应用在生活各个方面已经成为现阶段的数理统计的一种便捷方法。   一、统计学的概念   统计学指的是调研人员通过一些列的手段对整理出来的数据信息进行整理分析,从而推断出调研对象本质,甚至可以对未来的类似事情进行预判的一门综合性学科。在进行统计学整体分析的过程中需要用到大量的数学知识以及其他相关学科的专业知识,统计学由于其自身独特的性质,在社会科学和自然科学的各个领域几乎都可以使用。   二、统计学在生活中的应用分析   (一)统计学在经济学中的重要应用   运用统计学对生活中的数据信息进行整理分析,首先要学习统计学的基础知识以及数据统计个分析等学科,这些基础知识和方法都是在开展统计学应用活动之前调研人员所必须掌握的。统计学课程的学习作为经济学学科当中的重要分支,在经济学课程中经常被应用,例如,经济学的计量统计就需要根据统计学在金融里面的重要意义和地位作为基础,将金融知识和统计学知识相结合,将金融计量和时间的序列进行结合,对收集到的金融数据进行整理分析,最后得出金融计量和时间序列的一定关系。   统计学在金融经济学中有着十分重要的工具性作用,主要包括两个方面,分别是:在思想上而言,统计学是对数据统计分析结果进行研究,最后得出研究对象的判断结果,为了保证研究结果的准确可靠性,统计学在进行数据整理分析过程中必须是带着严谨的科学态度,这种严谨的科学态度对于经济学的相关理论分析具有十分重要的指导地位,这是由于研究人员在对金融量进行数学分析的过程中,为了保证金融数学分析结果的准确可靠性就必须保证金融量数据收集分析等预处理过程是科学合理的;其本收集整理次,统计学是经济学进行科学试验研究最优化的选择,经济试验研究活动的多样性以及研究对象之间错综复杂的关系导致经济学的试验研究活动受到诸多限制,运用统计学进行经济学试验研究活动,使得经济学实验研究的对象变得简洁明了,降低试验研究的成本支出。从统计学在经济学中的应用我们可以看出,经济学当中的统计学应用主要是运用了统计学当中经济必然性的思想,使得经济学当中的统计结论不具备复杂的思想成本。   (二)统计学在医学中的重要应用   统计学在医学中应用的主要原因就是生物医学中存在的不确定性和变异性。生物医学主要的研究目标就是与人体健康相关的不确定因素,也就是通常所说的医学变异现象,变异现象在生物体当中是普遍存在的,例如,对于外在条件基本相同的两个病人,在相同的条件下进行治疗时,却有可能出现有的病人被治愈,有的病人治疗效果不明显,甚至还会出现死亡的现象。造成这些外在条件相同的生命体却出现不同程度治愈的主要原因就是生物医学中存在的不确定性或者是人体中存在的错综复杂的随机因素,客观差异存在的原因是因为某种偶然性的潜在的揭露必然性的发现。   在医学临床统计中发现,对于同一种病因的客观性规律进行调查,对于健康人的共同作用的交织与疗效的考查的病人很少。在医学当中运用统计学最主要的就是通过观察不同疗效病人的医疗诊断效果,将实际的医学诊断治疗效果与医学理论和假设进行验证,运用概率论以及数学方法对对比结果进行分析、判断,运用电子计算机等相关软件设备对研究对象的指标进行记录,并绘制相应的图表等,通过综合运用多种数理统计方法,得出与研究对象相关的研究结果。将统计学应用到医学当中,可以促进统计方法和多变量分析法在医学试验研究中的应用,对未知病因所造成的医疗诊断事故进行分析,可以促进医疗诊治手段的不断创新發展。   (三)统计学在体育比赛中竞技指标的应用。   统计学在体育比赛中的应用主要是用统计的职业联赛的数字反应比赛队伍能否成为世界顶级,这是因为在体育比赛中应用统计学可以对比赛中的胜率进行分析,主要是将每个队员在每个赛季比赛的分数和常规赛场上的分数进行统计,通过一系列的数学计算分析,制定出每个队员得分平均值和标准差之间的正态分布图,通过正态分布图的稳定性来判断队员的技术稳定性。以众所周的NBA篮球比赛为例,NBA比赛中由于明星球员众多,在运用统计学进行数据整体分析时,需要依据本质上的规律进行数据统计,而不是随意的选择数据进行统计,例如在进行篮球比赛发球这一项双方队员的进攻和防守的概率时,在进行指标选择时就涉及到随机事件的发生概率,因此,可以运用统计学统计球员在每一场比赛上的均得分,通过这些数据指标的正态分布图来确定球员的技术稳定性。   三、结束语   在日常生活中应用统计学对数据进行管理分析,可以极大提高生产生活中对研究对象的管理效率,使得研究对象变得明确,降低管理成本。在实际的生产生活中应用统计学时,调研人员需要通过多次的试验和随机概率对比来确定事件发生的概率,通过定量定性的数理统计分析工作,充分发挥统计学对生产生活的促进作用。

寒武纪

你真的懂了什么是统计学吗?其实统计学也是科学思维的训练

该来的医学统计学考试还是来了。掐指一算,距离上次我参加这门课程的考试已经有七年时间了。七年前,我怀揣着对于医学统计的巨大热忱、神秘感和好奇心以及对于数学的些许畏惧进入了这座神圣的殿堂,而结果竟然造就了我大学时代分数最低的一门课——63分,这让我久久难以释怀。七年之后,为了不再继续大学时代的噩梦以及洗刷多年来的耻辱,伴随着硕士研究生公共基础课网络教学新试点的步伐,我成为了一个完全意义上的统计学“自学人”,这听起来难免有那么点讽刺。这期间,看视频、做习题和与小伙伴儿的互相讨论成为了我学习的日常,在接近两个月的学习过程中我似乎又重拾了对于医学统计学的信心。过程中我结识了很多新人,与大家一起探讨问题的日子永远是快乐、美好、烧脑而又难忘的,我一方面暗自庆幸自己“笨鸟先飞”的正确抉择,另一方面又对自己思考和学习的不够深入而暗暗自责。虽然最后的考试并不是那么尽如人意,但是我觉得恰恰是这最后的考试,才能暴露出自己的问题,也才能进一步指导自己今后的学习之路。孙振球主编的医学统计学 医学统计学其实是一门非常考验个人逻辑思维能力的学科。从医学统计学的定义里我们可以完全贯穿基础统计学的所有章节。从统计描述到统计推断,各个章节内容严整,无毫发爽。好比我们学习每一种疾病,都要从发病机制到流行病学再到临床表现和治疗预后。但是作为临床医生,我们需要的并不是梳理单一疾病的知识而是要做到快速诊断和鉴别诊断。其实医学统计学也是如此,我们不仅仅需要掌握每一种统计学方法的定义、使用条件,更需要的是在实验设计阶段或者在给出的待处理的数据面前找到适合它们的正确的统计学方法,这才不失为一个成功运用统计学的医学人才。这里面不仅仅需要完整的贯穿于整个基础统计的逻辑思维,也需要我们能够“照方抓药”,我觉得这是非统计学专业的医学工作者学习医学统计学的最根本的目标。 说到存在的问题,我想无外乎以下几点。第一是基本概念仍然把握不清,很多时候对于概念的把握理解是最要命的东西,尽管我们自己认为整个学科只注重应用,须知应用的前提条件是正确理解,我们失去了这道防线肯定要在今后的工作中输掉某场战争,而这种对于概念的正确理解我个人觉得是网络课程远远不能解决的问题。第二是对于细节问题仍然不够清楚,其实我个人觉得这套卷子出的很好,基本概念是有的,同时又有很多的细节问题,你不能说这个细节不重要,打个比方,就是刚巧搔到你痒的那个部位,然而可怕的事实却是我根本在之前没有关注过它。第三我觉得我思考的不够深入,对于某些问题依然浅尝辄止,相比常旺同学的那种深入思考的能力我只能有“河伯不及海若”之感,研究生的“精进”能力还是没有培养出来,我觉得似乎又不能简单的归结为脑子够不够用的问题。第四我觉得是我太低估统计学教研室的实力了,我没想到他们大题居然也可以出原题,白纸黑字,真真儿的原题,这在根本上就犯了毛主席“战略上藐视敌人,战术上重视敌人”的错误,说白了也是一种能力的欠缺,看来人果然是会被同一块石头绊两次脚的。回过头讲考试的事情,我觉得既可以说重要也可以说不重要,重要的是分数,但其实它又是最不重要的,我们的关注点应该在“经世致用”上,也就是我们对于这门课程究竟能够运用多少?考试其实是我们自己的一个“反物质”,是我们的敌人,彰显我们的缺点,我们需要的是在今后的工作学习中避免重蹈覆辙,仅此而已。三联生活周刊911期 最近恰巧在读三联生活周刊的911期《巴黎高师:法国精英制造——共和国传统与知识分子摇篮》,使我对于法国教育体制的敬仰之情有如滔滔江水延绵不绝,它颠覆了我对于法兰西这个国家的印象——原来法国不仅是只有红酒和香槟而已。他们的“双轨制”的精英人才的培养模式让我一个所谓的“中国式精英”汗颜,更让我作为一个中国教育的反思者叹为观止。回过头来看我们的教育,就拿这门医学统计学的课程而言,我们到底离精英式的培养模式相差多远?前不久结束的研究生辩论赛中孙校长还在提作为二医大研究生应该具有的两种属性“静若处子、动若脱兔”和研究生应该培养的五种思维模式即“系统思维”“逻辑思维”“辩证思维”“创新思维”“逆向思维”,回忆起《医学统计学》课本里开篇绪论里提到的关于“统计思维”的培养,我突然觉得有很大的挫败感,试问我们两个月里都学到了些什么呢?或者说什么是真正意义上的统计思维?是要求我们质疑一切,要让所有的数字游戏都在统计学面前揭开它们伪善的面纱吗?我,不得而知。 随着考试结束铃声的响起,我们似乎都认为我们完成了某项浩大的工程,连我自己都为之一振。 然而,我觉得,我们,离真正意义上的统计思维的培养依然任重而道远。

人之初

数据分析必备——统计学入门基础知识

编辑导语:不论在什么岗位,都要懂得本岗位的基础知识,打牢基础后面才能稳步发展;数据分析也是如此,数据分析必须要掌握统计学的基础知识;本文是作者分享的关于统计学入门基础的知识,我们一起来学习一下吧。要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析必须掌握的基础知识,即通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外;因此扎实的统计学基础是一个优秀的数据人必备的技能。但是,统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识;对于具体的知识点,本文就不一一介绍了,感兴趣的同学请参考《深入浅出统计学》、《统计学:从数据到结论》等等专业书籍。统计学分为描述性统计学和推断性统计学。一、描述性统计定义:使用特定的数字或图表来体现数据的集中程度和离散程度。1. 集中趋势集中趋势集中趋势是指一组数据所趋向的中心数值,用到的指标有:算数均数、几何均数、中位数。算数均数:即为均数,用以反映一组呈对称分布的变量值在数量上的平均水平。几何均数:常用以反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。中位数:适用于偏态分布资料和一端或两端无确切的数值的资料,是第50百分位数。百分位数:为一界值,用以确定医学参考值范围。2. 离散趋势离散趋势是反映数据的变异程度,常用指标有极差、四分位间距、方差与标准差、变异系数。极差:为一组数据的最大值和最小值之差,但极差不能反映所有数据的变异大小,且极易受样本含量的影响。常用以描述偏态分布。四分位数间距:它是由第3四分位数与第1四分位数相减得到,常和中位数一起描述偏态分布资料的分布。方差与标准差:反映一组数据的平均离散水平,消除了样本含量的影响,常和均数一起用来描述一组数据中的离散和集中趋势。变异系数:也称作异常值,多用于观察指标单位不同时,可消除因单位不同而不能进行比较的困难。例如箱线图就可以很好反映其中部分重点统计值:3. 抽样方法和中心极限定理抽样方法:我们在做产品检验的时候,不可能把所有的产品都打开检验一遍看是否合格,我们只能从全部的产品中抽取部分样本进行检验,依据样本的质量估算整体的产品质量,这个就是抽样,抽样的定义是为了检验整体从整体中抽离部分样本进行检测,以样本的检测结果进行整体质量的估算的方法。抽样有多种方法,针对不同的目的和场景,需要运用不同的方法进行检测,常见的抽样方法有:1)概率抽样简单随机抽样;分层抽样;整群抽样(先将总体中若干个单位合并为组,这样的组称为群,再直接对群进行抽样);系统抽样(将总体中所有单位按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后再按事先指定好的规则确定其他样本单位);阶段抽样(先抽群,然后在群内进行二阶段抽样)。2)非概率抽样方便抽样(依据方便原则自行确定);判断抽样(依据专业知识进行判断);自愿样本(调查者自愿参加);滚雪球样本(类似树结构);配额样本(类似分层抽样);3)两者抽样方法之间的比较:非概率抽样适合探索性的研究,为更深入的数据分析做准备,特点是操作简便、时效快、成本低;而且对于抽样中的统计专业技术要求不是很高;概率抽样的技术含量更高,调查成本更高,统计学专业知识要求更高,适合调查目的为研究对象总体,得到总体参数的置信区间。4)中心极限定理:若给定样本量的所有样本来自任意整体,则样本均值的抽样分布近似服从正态分布,且样本量越大,近似性越强。以30为界限,当样本量大于30的时候符合中心极限定理,样本服从正态分布;当样本量小于30的时候,总体近似正态分布时,此时样本服从t分布。样本的分布形态决定了我们在假设检验中采用什么方法去检验它。二、推断性统计定义:根据样本数据推断总体的数据特征。1. 基本步骤产品质检的时候用的几乎都是抽样方法的推断性统计,推断性的过程就是一种假设检验,在做推断性统计的时候我们需要明确几点:明确后可以对应我们假设检验的几个步骤了:提出原假设(H0)和备选假设(H1),确定显著性水平(原假设为正确时,人们把它拒绝了的概率);选择检验方法,确定检验统计量;确定P值,作出统计推理;假设对于某一个器件,国家标准要求:平均值要低于20。某公司制造出10个器件,相关数值如下:15.6、16.2、22.5、20.5、16.4、19.4、16.6、17.9、12.7、13.9。运用假设检验判断该公司器件是否符合国家标准:1)设假设:2)总体为正态分布,方差未知,样本为小样本,因此采用T检验。3)计算检验统计量:样本平均值17.17,样本标准差2.98,检验统计量为 (17.17-20)/(2.98/√10)=-3.00314)当置信度选择97.5%,自由度为9,此时为单尾检验,临界值为2.262。5)由于-3.0031<-2.262,拒绝原假设,因此接受备择假设,该器件满足国家标准。2. 假设检验类型单样本检验:检验单个样本的平均值是否等于目标值;相关配对检验:检验相关或配对观测之差的平均值是否等于目标值;独立双样本检验:检验两个独立样本的平均值之差是否等于目标值;3. 统计检验方法Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数>平均数的差异是否显著。T检验:用于样本含量较小(例如n<30),总体标准差σ未知的正态分布样本。F检验:F检验又叫方差齐性检验。在两样本t检验中要用到F检验。检验两个样本的方差是否有显著性差异 这是选择何种T检验(等方差双样本检验,异方差双样本检验)的前提条件。(T检验用来检测数据的准确度,检测系统误差 ;F检验用来检测数据的精密度,检测偶然误差。)卡方检验:主要用于检验两个或两个以上样本率或构成比之间差别的显著性,也可检验两类事物之间是否存在一定的关系。4. 双尾检测和单尾检测这个和我们提出的原假设相关,例如我们检测的原假设:器件平均值>=20。我们需要拒绝的假设就是器件平均值<20,此时就是单尾检验;如果我们的原假设是器件平均值>20,则我们需要拒绝的假设就是器件平均值<20和器件平均值=20,此时就是双尾检测。5. 置信区间和置信水平在统计学中,几乎都是依据样本来推断总体的情况的,但在推断的过程中,我们会遇到各种各样的阻碍和干扰;所以我们推断出的结果不是一个切确的数字,而是在某个合理的区间内,这个范围就是置信区间。但整体中所有的数据都在这个范围也不现实,我们只需要绝大多数出现在置信区间就可以了,这里的绝大多数就是置信水平的概念,通常情况我们的置信水平是95%。置信区间[a,b]的计算方法为:(z分数:由置信水平决定,查表得。)a = 样本均值 – z*标准误差,b = 样本均值 + z*标准误差志在必得。不学自知,不问。自晓,古今行事未之有也!就数据分析而言,我们通过统计学可以用更富有信息驱动力和针对性的方式对数据进行操作;更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构确定数据分析的方法,来获取更多的信息。本文由 @木兮擎天@ 原创发布于人人都是产品经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议

双城记

统计学知识梳理

本文为PMCAFF专栏作者大山里人出品前言道德经云:”道生一,一生二,二生三,三生万物“。学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。笔者结合自己对统计学和概率论知识的理解写了这篇文章,有以下几个目标目标一:构建出可以让人理解的知识架构,让读者对这个知识体系一览无余目标二:尽l量阐述每个知识在数据分析工作中的使用场景及边界条件目标三:为读者搭建从“理论”到“实践"的桥梁注意:本文不涉及对概念及方法公式的推导,读者有兴趣可以自行查阅《概率与统计》概述你的“对象” 是谁?此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。分析就像在给 “爱人” 画肖像从外观的角度描述一个姑娘,一般是面容怎么样?身段怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象”在描述性分析中也是通过两个维度去来描述即,“集中趋势---代表值”,“分散和程度”。看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值”,“方差”之类的。下面我们进入正题,笔者将详细阐述整个知识架构。第一部分对“数据”的描述性分析数据分析中最常规的情况,比如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述”从这些数据中获取的信息,通常可以从两个维度去描述:1集中趋势量度:为这批数据找到它们的“代表”均值(μ)均值的局限性均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ;例如下面一组数据就不太适合用均值来代表这5个人的年龄均值是:31.2岁很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不合适的,那么我们该如何准确的表征这组数据呢???中位数中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。中位数的局限回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。那么我们在看一下下面一组数据,中位数的表现又如何?中位数:45这组数据的中位数为:45,但是中位数45并不能代表这组数据。因为这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。众数众数是样本观测值在频数分布表中频数最多的那一组的组中值。平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。2分散性与变异性的量度(全距,迷你距,四分位数,标准差,标准分)全距=max-min全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。全距的局限性全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。四分位数所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。迷你距 也叫“四分位距”迷你距。它是一组数据中较小四分位数与较大四分位数之差。即:迷你距= 上四分位数 - 下四分位数迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。方差方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。标准差标准差为方差的开方。通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?标准分——表征了距离均值的标准差的个数标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。第一部分小节描述一批数据,通过集中趋势分析,找出其“代表值” ;通过分散和变异性的描述,查看这批数据的分散程度。集中趋势参数:均值,中位数,众数分散性和变异性参数 : 全距,四分位距,方差,标准差,标准分第二部分关于“事件”的研究分析概率论1一个事件的情况为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。事件:有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。概率:每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!!概率分布:我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布期望:表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)方差:表征了事件不同结果之间的差异或分散程度。2细说分布理想很丰满,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。因此,为了能更快更准确的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。“离散型”数据和“连续性”数据差异在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异?离散数据:一个粒儿,一个粒儿的数据就是离散型数据。连续数据:一个串儿,一个串儿的数据就是连续型数据。好啦,开个玩笑!!!别打我,下面分享干货!!!其实上述描述并没有错误,离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。举个例子人这个单位,对于一个家庭来说,就离散型数据,一个家庭可能有 3个人,4个人,5个人....等等。对于一个国家来说,就是连续型数据,我们的国家有14亿人口,那么以个人为单位在这个量级的数据群体里就是连续型数据。清楚了离散型和连续型数据的差异,我们接下来一块科普这几种常用的特殊分布。离散型分布离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。连续型分布连续型分布本质上就是求连续的一个数据段概率分布。正态分布f(x)----是该关于事件X的概率密度函数μ ---均值σ^2 ---方差σ ---标准差绿色区域的面积 ---该区间段的概率正态分布概率的求法step1 --- 确定分布和范围 ,求出均值和方差step2 --- 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?)step3 ---查表找概率离散型分布 → 正态分布 (离散分布转化为正态分布)精彩的地方在这里,笔者已经阐述了连续型数据和离散型数据是一对相对的概念,那么这就意味着在某种“边界”条件下,离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了(编公式快吐了!!!!)3多个事件的情况:“概率树”和“贝叶斯定理”多个事件就要探讨事件和事件之间的关系对立事件:如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件穷尽事件:如何A和B为穷尽事件,那么A和B的并集为1互斥事件:如何A和B为互斥事件,那么A和B没有任何交集独立事件:如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。例子:10个球,我随机抽一个,放回去还是10个球,第二次随机抽,还是10选1,那么第一次和第二次抽球的事件就是独立的。相关事件:如果A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。例子:10个球,我随机抽一个,不放回去还是10个球,第二次随机抽是9选1,那么第一次和第二次抽球的事件就是相关的。条件概率(条件概率,概率树,贝叶斯公式)条件概率代表:已知B事件发生的条件下,A事件发生的概率概率树 --- 一种描述条件概率的图形工具。假设有个甜品店,顾客买甜甜圈的概率是3/4 ;不买甜甜圈直接买咖啡的概率是1/3 ;同时买咖啡和甜甜圈概率是9/20。从图中我们可以发现以下两个信息1. 顾客买不买甜甜圈可以影响喝不喝咖啡的概率,所以事件甜甜圈与事件咖啡是一组相关事件2. 概率树每个层级分支的概率和都是1贝叶斯公式 ----提供了一种计算逆条件概率的方法贝叶斯公式用于以下场景,当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。第二部分小节1. 事件,概率,概率分布之间的关系2. 期望,方差的意义3. 连续型数据和离散型数据之间的区别和联系4. 几何分布,二项分布,泊松分布,正态分布,标准正态分布5. 离散分布和正态分布可以转化6. 多个事件之间的关系,相关事件和独立事件,条件概率和贝叶斯公式第三部分关于“小样本”预测“大总体”现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。1抽取样本总体:你研究的所有事件的集合样本:总体中选取相对较小的集合,用于做出关于总体本身的结论偏倚:样本不能代表目标总体,说明该样本存在偏倚简单随机抽样:随机抽取单位形成样本。分成抽样:总体分成几组或者几层,对每一层执行简单随机抽样系统抽样:选取一个参数K,每到第K个抽样单位,抽样一次。2预测总体(点估计预测,区间估计预测)点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。场景1:样本无偏的情况下,已知样本,预测总体的均值,方差。(1) 样本的均值 = 总体的估算均值(总体均值的点估计量) ≈ 总体实际均值(误差是否可接受)(2)总体方差 估计总体方差 场景2:已知总体,研究抽取样本的概率分布比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布”。样本的比例就是随机变量。举个栗子:已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布” ,样本的均值就是随机变量。中心极限定理:如果从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则图片.png的分布近似正态分布。区间估计量--- 点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。举个栗子:今天下午3点下雨;今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确,你会使用那句话术?如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材)求置信区间简便公式(直接上皂片)关于C值参数:置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58待补充知识一(t分布)我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。这里笔者直接放张图,不做拓展了。待补充知识二(卡方分布)----注意待补充不代表不重要,是笔者水平有限,目前还不能用简单的语言概述其中的精髓。卡方分布的定义若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。卡方分布的应用场景用途1:用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;用途2:检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:3验证结果(假设检验)假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误第一类错误:拒绝了一个正确的假设,错杀了一个好人第二类错误:接收了一个错误的假设,放过了一个坏人第三部分小节1. 无偏抽样2. 点估计量预测(已知样本预测总体,已知总体预测样本)3. 区间估计量预测(求置信区间)4. 假设检验第四部分相关与回归(y=ax+b)这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归,非线性回归这里不暂不做拓展。散点图:显示出二变量数据的模式相关性:变量之间的数学关系。线性相关性:两个变量之间呈现的直线相关关系。最佳拟合直线:与数据点拟合程度最高的线。(即每个因变量的值与实际值的误差平方和最小)误差平方和SSE:线性回归法:求最佳拟合直线的方法(y=ax+b),就是求参数a和b斜率a公式:b公式:相关系数r:表征描述的数据与最佳拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关)r公式:结束语笔者这里梳理了统计与概率学最基础的概念知识,尽量阐述清楚这些概念知识之间关联的关系,以及应用的场景。底层概念是上层应用的基础,当今浮躁的“机器学习”,“神经网络”,“AI自适应”这些高大上的关键字满天飞。笔者认为踏踏实实的把“基础”打扎实,才是向上发展的唯一途径。笔者水平有限,概念理解有偏差的地方欢迎批评指正。

墓志铭

本科统计学专业是否可以读大数据方向的研究生

大数据专业是一个典型的交叉学科,基础学科包括数学、统计学和计算机学,另外辅助经济学、社会学、医学等学科,所以统计学是大数据专业最为直接的相关学科之一,因此统计学专业的本科生在读研的时候是完全可以选择大数据专业的。统计学专业的相关知识在大数据时代依然起着非常重要的作用,以大数据分析为例,目前大数据的分析方式主要以统计学方式和机器学习方式为主,而且统计学方式与机器学习方式相比在某些领域更加成熟,理论体系也相对完备,所以大数据专业的学生通常都要系统的学习统计学相关知识,从这个角度来看,统计学专业读大数据方向还是具备一定优势的。在大数据时代,统计学有了进一步的发展和变化,这个变化就来自于数据本身的变化。统计学的分析方式通常以“抽样”为主,通过对样本的分析来寻找整体的规律,从而得出分析结论。通过大量的历史经验来看,如果样本的选择没有问题的话,统计学的分析方式具有非常高的准确度。但是在大数据时代,数据从抽样变成了“全样”,数据分析的方式和方法都产生了较大的变化,这对于统计学来说就需要积极的适应这种变化,并积极顺应大势时代的发展,投入到大数据领域的研发中。从目前大数据行业的发展来看,统计学确实对于大数据的发展做出了重要的贡献,大量的统计学专业人才陆续投入到大数据领域,也进一步完善并丰富了大数据的知识结构。近些年来,我多次作为评委,参与了不同类型的研究生大数据专业大赛,其中有大量的选手来自财经类大学的统计学专业,这给我留下了较为深刻的印象,其中也有不少学生取得了不错的成绩。我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。如果有互联网方面的问题,也可以咨询我,谢谢!