欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校

转:大数据到底要研究什么?

爱会赢
世俗之人
外行人一看就知道是要让所有东西都联上因特网。后来,又是云计算,说是要把计算放到云里去。云在哪里呢?反正在远处,也还可以理解。最近,在计算机软件领域,到处都在喊大数据。这有点不好理解。数据(data)是个不可数名词,怎么来大小了?我自己也一样,最近大致学习了一下,看大数据究竟要研究什么?提出来抛砖引玉吧!何谓“大”数据?70年代若干兆字节(MB)就算大量数据了,以后是千兆字节(GB)、兆兆字节(TB),而现在已经到了PB级(1PB=1024TB),而高端数据仓库已达EB级(1EB=1024PB)。反正是千倍千倍的往上翻。想想,光是全世界各地装的摄像头有多少,每时每刻都在产生数据。唱歌、通话、录音产生多少数据。多少亿人上网、发微博,多少数据!有了因特网,这些数据就都在网上流通,而不是死在那里。票子不流通就没有价值,数据也一样。数据不利用也毫无价值。所以,的确每天都产生大量的数据,需要处理。所以有大数据,而且需要处理。这一点,没有疑义。 在计算机领域,早就有数据库分支,后来发展到数据仓库,也有人叫海量数据处理。现在又提出所谓“大数据”。有了因特网以后,数据的一个重要特征是互动性和动态性,就是说任何用户既可以下载,也可以上传,也可以实时对话。例如在线商务,政府的群众情绪分析,卫生部门的流行病疫情分析,社会科学家研究社会网络如何扩散社会呼声及如何有效处理。但是,这些都属于大数据技术的应用,虽然每一个都需要一个应用程序,但不属于大数据技术本身。可这些都要求支持大量数据的计算、搜索和存储。因此,大数据分析和管理成为当今计算领域最关键性的挑战。 有人认为,大数据主要是数理统计,对大量同类型数据进行统计分析。这属于数理统计学科,不属于计算学科。也有人认为,大数据主要是数据挖掘、机器学习。这倒有点靠谱。但是,数据挖掘、机器学习是另外两个学科领域。不能把数据挖掘、机器学习包括在大数据的研究范围之内。大数据是数据库发展而来的。数据库要做的是数据的组织、存储和管理。关系数据库比较容易创建和存取,而且容易扩充。在数据库创建之后,一个新的数据种类能被添加而不需要修改所有的现有应用软件。并行数据库的SQL语言应运而生。但是,大数据来了以后,没有一个设备能存储这么大量的数据,它必须存储在许多的存储设备中。一个硬盘即使能存1TB,对于EB的数据也无济于事。而且,读写都很费时。串行地组织、管理、搜索这么大量的数据,用多么快的计算机都无能为力。因为超级计算机可以计算得很快,但与存储设备的输入输出快不了。所以,串行根本是不可取的,必须并行化。当前的大数据基本都运行于网络化的计算机群(Cluster of computers)上,每一个都有自己的处理器、存储器和硬盘。数据分布在多个计算机机群上,通常采用哈希分块,或者按范围、随机分块,或者队列,其处理一般用并行基于哈希的分而治之的算法。这里,“分布”和“并行”成了两个关键词。不可想象,能有一个计算机来管理整个计算机机群。更新、搜索数据都必须是分布式的,而且不能串行,一个一个地来做。Google开发了一个谷歌文件系统(GFS),可以在成百上千的机群里进行基于字符串的文件搜索。用户可以并行地加入数据,也可以实时地把数据加入到某一类中(MapRece)。Yahoo和其他Web公司,譬如Facebook,搞了一个谷歌大数据栈的开源软件,从而产生了现在很时髦的Hadoop平台及HDFS存储层。为了要实现在线事务处理(OLTP),容错不可少。由于上亿用户的同时使用,OLTP系统必须很快查找、更新用户资料,任务很多,要快、不能错、防攻击,而且还不能太贵。Google和Amazon都开发了他们自己的系统。今天,Hadoop和HDFS已经成为大数据分析占有统治地位的平台了。数据分析不能停留在MapRece水平,而是要更高层次的说明性语言,更容易表达、书写、找错。这样的语言大家都在搞。这样,问题就来了:我们是跟着这些大公司,跟踪和改进Hadoop,还是另辟蹊径。我们搞跟踪搞了几十年了,基本都用人家的,然后搞汉化。人家搞汉化甚至比我们还快。我们搞出来的东西常常没人家好用,市场就先入为主,被人家占领了。另外搞一个类似的东西,既抢不到市场,学术价值也不大。这时候,科学研究就见功力了。抓不住基础性问题,没有全新的想法,就很难出原始创新的成果。 归根结底,基础性问题是大数据的分布存储,并行处理。就像一个人有一个任务,需要许多人参与才能完成,而且他们互不相识,任何个人都完不成。应该怎么做?大家想想,也许能把这个问题说得更加确切一些。

大数据主要学什么

乃知尔丑
金钱梦
大数据分析挖掘与处理、移动开发与架构、软件开发、云计算等前沿技术等。主修课程:面向对象程序设计、Hadoop实用技术、数据挖掘、机器学习、数据统计分析、高等数学、Python编程、JAVA编程、数据库技术、Web开发、Linux操作系统、大数据平台搭建及运维、大数据应用开发、可视化设计与开发等。旨在培养学生系统掌握数据管理及数据挖掘方法,成为具备大数据分析处理、数据仓库管理、大数据平台综合部署、大数据平台应用软件开发和数据产品的可视化展现与分析能力的高级专业大数据技术人才。 扩展资料:越来越多的行业对大数据应用持乐观的态度,大数据或者相关数据分析解决方案的使用在互联网行业,比如百度、腾讯、淘宝、新浪等公司已经成为标准。而像电信、金融、能源这些传统行业,越来越多的用户开始尝试或者考虑怎么样使用大数据解决方案,来提升自己的业务水平。在“大数据”背景之下,精通“大数据”的专业人才将成为企业最重要的业务角色,“大数据”从业人员薪酬持续增长,人才缺口巨大。参考资料来源:百度百科-大数据技术与应用

大数据技术包括哪些

大工匠
民知力竭
大数据技术包括数据收集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现。1、数据收集:在大数据的生命周期中,数据采集处于第一个环节。根据MapRece产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。2、数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化数据。第2类主要面对的是半结构化和非结构化数据。第3类面对的是结构化和非结构化混合的大数据,3、基础架构:云存储、分布式文件存储等。4、数据处理:对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。6、数据挖掘:目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。7、模型预测:预测模型、机器学习、建模仿真。8、结果呈现:云计算、标签云、关系图等。

大数据分析能干什么?

其视下也
无住
大数据能做如下:一、对信息的理解。你发的每一张图片、每一个新闻、每一个广告,这些都是信息,你对这个信息的理解是大数据重要的领域。二、用户的理解。每个人的基本特征,你的潜在的特征,每个用户上网的习惯等等,这些都是对用户的理解。三、关系。关系才是我们的核心,信息与信息之间的关系,一条微博和另外一条微博之间的关系,一个广告和另外一个广告的关系。一条微博和一个视频之间的关系,这些在我们肉眼去看的时候是相对简单的。大数据专业术语:1、apache软件基金会(asf)提供了许多大数据的开源项目,目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的apache项目与子项目中,所发行的软件产品都遵循apache许可证。2、apachemahoutmahout提供了一个用于机器学习和数据挖掘的预制算法库,也是创建算法的环境。换句话说,是一个机器学习的天堂环境3、apacheoozie在任何编程环境中,需要一些工作流程系统来以预定义的方式和定义的依赖关系来安排和运行工作。oozie提供的大数据工作以apachepig,maprece和hive等语言编写。

大数据是什么,大数据能做什么

不祭先祖
摩雅傣
大数据能做如下:一、对信息的理解。你发的每一张图片、每一个新闻、每一个广告,这些都是信息,你对这个信息的理解是大数据重要的领域。二、用户的理解。每个人的基本特征,你的潜在的特征,每个用户上网的习惯等等,这些都是对用户的理解。三、关系。关系才是我们的核心,信息与信息之间的关系,一条微博和另外一条微博之间的关系,一个广告和另外一个广告的关系。一条微博和一个视频之间的关系,这些在我们肉眼去看的时候是相对简单的。大数据专业术语:1、apache软件基金会(asf)提供了许多大数据的开源项目,目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的apache项目与子项目中,所发行的软件产品都遵循apache许可证。2、apachemahoutmahout提供了一个用于机器学习和数据挖掘的预制算法库,也是创建算法的环境。换句话说,是一个机器学习的天堂环境3、apacheoozie在任何编程环境中,需要一些工作流程系统来以预定义的方式和定义的依赖关系来安排和运行工作。oozie提供的大数据工作以apachepig,maprece和hive等语言编写。

什么是大数据 大数据是什么

土里土气
银土
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好,想要的东西,从而得到他们想要的,比如精准营销,征信分析,消费分析等等

什么叫大数据分析

利根
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好,想要的东西,从而得到他们想要的,比如精准营销,征信分析,消费分析等等

数据分析和大数据分析有什么区别,什么样的数据才能称

青空
其于人也
大数据分析:指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据分析指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理,因此不用考虑数据的分布状态(抽样数据是需要考虑样本分布是否有偏,是否与总体一致)也不用考虑假设检验,这点也是大数据分析与一般数据分析的一个区别。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。大数据分析与数据分析最核心的区别是处理的数据规模不同,由此导致两个方向从业者的技能也是不同的。在CDA人才能力标准中从理论基础、软件工具、分析方法、业务分析、可视化五个方面对数据分析师与大数据分析师进行了定义。我们可以用几个关键词对大数据做一个界定。首先,“规模大”,这种规模可以从两个维度来衡量,一是从时间序列累积大量的数据,二是在深度上更加细化的数据。其次,“多样化”,可以是不同的数据格式,如文字、图片、视频等,可以是不同的数据类别,如人口数据,经济数据等,还可以有不同的数据来源,如互联网、传感器等。第三,“动态化”。数据是不停地变化的,可以随着时间快速增加大量数据,也可以是在空间上不断移动变化的数据。这三个关键词对大数据从形象上做了界定。但还需要一个关键能力,就是“处理速度快”。如果这么大规模、多样化又动态变化的数据有了,但需要很长的时间去处理分析,那不叫大数据。从另一个角度,要实现这些数据快速处理,靠人工肯定是没办法实现的,因此,需要借助于机器实现。最终,我们借助机器,通过对这些数据进行快速的处理分析,获取想要的信息或者应用的整套体系,才能称为大数据。

学习完大数据可以从事什么方面的工作

秃而施发
成年礼
大数据是众多学科与统计学交叉产生的一门新兴学科。大数据牵扯的数据挖掘、云计算一类的,所以是计算机一类的专业。分布比较广,应用行业较多。零售业:主要集中在客户营销分析上,通过大数据技术可以对客户的消费信息进行分析。获知客户的消费习惯、消费方向等,以便商场做好更合理商品、货架摆放,规划市场营销方案、产品推荐手段等。金融业:在金融行业里头,数据即是生命,其信息系统中积累了大量客户的交易数据。通过大数据可以对客户的行为进行分析、防堵诈骗、金融风险分析等。医疗业:通过大数据可以辅助分析疫情信息,对应做出相应的防控措施。对人体健康的趋势分析在电子病历、医学研发和临床试验中,可提高诊断准确性和药物有效性等。制造业:该行业对大数据的需求主要体现在产品研发与设计、供应链管理、生产、售后服务等。通过数据分析,在产品研发过程中免除掉一些不必要的步骤,并且及时改善产品的制造与组装的流程。