欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
今年两会热点有些啥?大数据分析来了!中居

今年两会热点有些啥?大数据分析来了!

02:0000:00监审:葛素表监制:李代祥、安涛策划:焦旭锋统筹:张书旗、路滨琪编辑:陶虹

2020年中国大数据产业市场分析:政策推动产业规模快速增长垂直细分领域潜力巨大

中国大数据产业规模日趋成熟2015年左右,大数据相关政策规划密集出台,同期为大数据企业新增数量顶峰时期。近年来,我国大数据产业迎来新的发展机遇期,产业规模日趋成熟。大数据产业主体从“硬”设施向“软”服务转变的态势将更加明显,面向金融、政务、电信、医疗等领域的大数据服务将实现倍增创新。1、中国大数据企业数量持续增长,增速与政策出台密切相关根据IT桔子统计,大数据企业的快速增长阶段出现在2013-2015年,增长速度在2015年达到最高峰。2015年后,市场日趋成熟,企业新增开始趋于放缓,大数据产业逐渐走向成熟。大数据新增企业数量的变化与新政策的出台密不可分。2015年8月国务院颁布《促进大数据发展行动纲要》,大数据由此正式上升为国家发展战略。2016年工信部印发了《大数据产业发展规划(2016-2020年)》,推动大数据产业进一步发展。另一方面,新一代信息技术、智慧城市、数字中国等发展战略逐步推动社会经济数字化转型,大数据的产业支撑得到强化,应用范围加速拓展,产业规模实现相应快速增长。2、中国大数据企业地域分布以北上广为主根据中国信息通信研究院监测统计,当前我国活跃的大数据企业超过3000家。我国大数据企业主要分布在北京、广东、上海、浙江等经济发达省份。受政策环境,人才创新,资金资源等因素影响,北京大数据产业实力雄厚,大数据企业数量约占全国总数的35%。依托京津冀大数据综合试验区,天津、石家庄、廊坊、张家口、秦皇岛等地大数据产业蓬勃发展,依靠良好的政策基础、科研实力、地理位置和交通优势,分别形成了大数据平台服务和应用开发、数字智能制造、旅游大数据等创新企业集聚中心,在信息产业领域形成了竞争优势。3、行业应用领域丰富,企业服务、医疗健康、金融等细分领域前景可期根据中国信通院对1404家涉及行业大数据应用的企业进行的统计整理,从中可以看出,金融、医疗健康、政务是大数据行业应用的最主要类型。除此之外依次是互联网、教育、交通运输、电子商务、供应链与物流、农业、工业与制造业、体育文化、环境气象、能源行业。从融资细分领域分布来看,大数据行业融资企业分布在近20个领域,大数据行业迎来历史新机遇,在企业服务、医疗健康、金融等垂直细分领域的大数据应用展现出巨大潜力。大数据产业增量蓝海市场正在逐步打开,截止到2019年,企业服务领域的企业获投占比最高为62%,金融行业次之为13%,健康医疗为8%。随着互联网与移动互联网的进一步普及渗透,以及IT基础设施的逐步完善,企业服务市场仍将继续扩大。更多数据及分析请参考于前瞻产业研究院《中国大数据产业发展前景与投资战略规划分析报告》,同时前瞻产业研究院提供产业大数据、产业规划、产业申报、产业园区规划、产业招商引资、IPO募投可研等解决方案。(文章来源:前瞻产业研究院)

生非汝有

大数据和ai是未来3年最火的热门词汇

大数据和ai是未来3年最火的热门词汇,建议百度搜索“大数据、ai”看看,了解一下大数据的研究方向和难度。大数据是数据的集合而ai则是一门重点研究人工智能的学科,已成为炙手可热的人工智能领域高薪行业。本人只有30m的硬盘,也可以活,但是我有个习惯,自己收集知识:会自己搜索当前大的问题,小问题,本身都无法写清楚的问题,简单答案或者本身描述不明确,隐含问题很多的问题,等等;会关注知乎话题,前排答案;会关注热门话题,可以百度或者找热心人。会关注本身就是热门的问题,名人的,比如“如何从零开始成为一名优秀的机器学习研究员”;这些问题应该也都很有价值,但是我用sysuthu上,没有看到类似的问题,可能大家都关注资料与内容,而不是问题。如果都不能帮助你,你想获得别人的实质性答案,可以在评论中表达一下,如何可以从小问题走向深入问题;但是所有这些都需要庞大的数据,比如你应该关注的话题“机器学习与大数据”。然后,另一方面,大部分问题,比如传统问题,比如“如何在一个月内学会机器学习”,先去搜索,看一下别人都是怎么说,然后有不懂的,或者自己无法搜索,找到大神询问,按照大神的意见看看有什么问题,就提出问题,就好了。最后,其实sysuthu这一类的问题也都是大数据入门,可以看看别人的科普,先预热一下,然后再多看些科普,打算从事大数据的,入门的网站都有很多,比如“智慧社区”、“大数据在线社区”、“coursera大数据分析”、“中国大数据生态”、“企业大数据风险管理”等等。当然了,对于非科班出身,不是搞大数据的,个人觉得,求人不如求己,别人的回答也只是参考意见,肯定有些局限性的,还是需要自己收集资料,思考,再问人,别人才可能给你更精准更专业的答案,可能有时候,100个人给你50个答案,甚至更少?因为关注的话题不同,大家关注的内容有差异,不是一家之言就可以给出答案的。当然,等你把一个问题用上“50个朋友”的思路去思考、去寻找,你也就知道自己是否有自己的观点了。要学编程,大数据这门课就学不了了。大数据首先需要看需求:对公安系统、医疗系统等数据的分析。不过这个是基础,看更加具体的问题再看更加深层次的数据挖掘。当然,以上都是理论。

乐天派

大数据研究给你答案,2018房子卖给了谁?

2018房企迫切寻求答案:在哪里建房?把房卖给谁?什么房最好卖?这些问题都可以通过大数据研究给你答案!克而瑞研究中心的最新研究以一线城市与十个典型二线城市作为样本,对2017年购房人群个体特征和购房偏好进行了多角度的研究,深度解读购房者关注焦点,描摹购房者置业者心态。根据统计数据来看,购房和看房客户的年龄分布有显著差异:购房客户中35岁以上的客户是绝对主力群体,占比超过一半。看房客户中有60%的客户来自26-35岁年龄段的客户,仅有21%的客户在35岁以上。也就是说:大量年轻的客户在积极看房,然而却由于经济条件或其他原因的限制,并未下手购房。而35岁以上的客户看房目的性更加明确,经济实力更强,购房转化率远高于年轻客户。这一现象在一线城市体现的更加明显,在这些城市的看房人群中,35岁以下年轻人占比均不足35%,而在这些城市的购房人群中,35岁以上占比超过了60%。由于异地购房投资的难度加大,外地人在一二线城市置业难上加难;相反,一线城市客户在外地置业投资动作依然积极从本市客户到该城市项目看房的情况来看:总体上这14个城市的到访者主要都是本市客户,其中沈阳的本市客户占比最多,达到93.06%,最低的广州仅占81.53%。相比2016年,广州本地客户占比下降也最为明显,其次则是深圳。2017年由于异地购房投资的难度加大,外出看房的客户比例总体下降,除北京外其余城市的看房者所占来源于该市的访客人数比例相比2016年均小幅下降。但一线城市购房溢出的比例依旧高于其他城市。客户到外地看房占比最高的城市为深圳,2016年和2017年分别有66.77%和36.38%的客户到其他城市看房,尽管2017年比例骤减,但相比于其他城市仍比较活跃;其次北京2017年外溢客户占比反而比2016更高。四个一线城市客户外溢程度按顺序为:深圳>上海>北京>广州。一线城市客户不仅在外地置业投资动作积极,在本地也有大量出于投资需求的置业行为:从统计数据来看,投资型需求在一线城市的占比显然更高于其他二线城市,一线城市房价上涨的动力最为充足。在严格调控的情况下,一线城市纯投资需求平均占比仍然高达23%,高出二线城市纯投资需求的平均占比8个百分点。其中深圳市场投资型需求的占比在14个城市中最高,于此相对的是深圳纯自住型需求占比仅有42%,不足一半,纯粹投资的占比高达34%,自住兼投资的需求为25%。深圳投资型需求较容易受到发酵的原因主要有两个方面:一方面是深圳未来持续看张,投资利润空降较大;另一方面是深圳目前对商住公寓的处理并不严格,此类投资属性最为强烈的产品未被限购,吸引较多投资客购买。其他三个城市来看,北京、广州的投资型需求占比较高,而上海的首改和再改需求相对旺盛;一线城市首次置业占比较少,主要由于一线城市购房成本相对较高,对于首次置业的人群来说难度较大。从全国范围看,90-140平方米是市场需求主流,占比过半;这一比例在三四线城市中明显高于一二线从全国购房客户的总体偏好来看,90-140平方米是市场需求主流,合计占比过半,其中有32%的客户在购房时首选90-120平方米的产品,这个面积段主要以两房、三房为主,能够满足首次置业以及首次改善的主流需求,所以90-120面积段的产品也是市场主流。在最主流面积段以外,更多的客户偏好大户型的产品,而在面积大于120平方米的产品中,有23%的客户偏好120-140平方米的产品,140平方米作为普通住宅与豪宅的分水岭,面积再往上的产品受到总价升高的影响,选择的客户就偏少了。一二线城市客户偏好一房、两房紧凑小户型,三四线城市客户则更加青睐四房大户型,而面积适中的三房产品无论在哪个层级的城市都具有非常大的竞争优势根据全国客户偏好统计来看,三房产品实用性最高,在各能级城市中都是最受欢迎的,此外一线、二线城市有更多的客户偏好一房、两房这样紧凑的小户型,三四线城市则更多客户偏好四房这样的大户型产品。从14个重点城市客户偏好的户型来看,广州、武汉和郑州均有半数以上的客户最为偏好三房产品,其他城市偏好三房产品的客户比例也主要在30%以上。无论从户型设计、实用角度,还是总价控制等方面来看,面积适中的三房产品都具有非常大的竞争优势,可以最大限度满足处于不同人生居住状态的客户使用,实用性最强,所以说是“永不过时的中等三房”。总 结2017年,面对一线城市更高的购房压力和更严的调控环境,购房者显现出了众多不同的特征:一是年轻人购房决策时更犹豫;二是一线城市客户异地置业仍旧积极且投资倾向比其他城市客户更强;最后是“三房”成为接受度最高的户型,即便是在购房压力高企的一线城市,也有不少购房者倾向于购买三房产品。联系政策动向来看,在“房住不炒”原则一再重申,各地持续收紧放贷资格和条件的大环境下,投资炒房的空间将持续被压缩,2018年市场预计主要仍然以满足刚需、首改等自住型需求为主。就核心城市的投资性需求而言,受制于贷款、调控收紧等因素的限制,无论是本地置业还是外溢购房,2018年投资性需求的释放速度都将大大放缓。不过在外溢购房的范围上,受到邻近城市购房门槛提高的影响,一线城市外溢购房的空间距离可能会进一步扩大。喜欢就点击关注【轻松租房】哦,更多房产干货,和你一起认知升级。

而物自化

美国大数据:容易出人才的家庭都有几个共同特征,与你的想法相反

常言道“知识改变命运”,这让很多家长误以为把孩子交给学校和老师,无论是学霸还是学渣,都得靠运气。实际上,这一观点完全错误。父母不应将教育的重点完全放在学校上,因为学校只是在特定阶段教授孩子知识。至于孩子能否成为天才,关键在于家庭。在美国开展了一项大数据研究,叫做儿童早期纵向研究。调查了20,000多名儿童,从幼儿园到小学五年级,数据包括他们的家庭成员结构,父母的教育水平,家庭经济状况以及种族等。这些内容包括在家里花在看电视上的时间,父母教导孩子的方法,以及父母与孩子之间的沟通语言。最终得出:容易培养人才的家庭,都具有一定的共性。一个来自美国的大数据研究发现,容易产生天才的家庭都有这些共同点一、经济状况良好的家庭那些易于出类拔萃的家庭,其经济地位一般不会太低,这并非经济上的歧视,而是因为父母有足够的自由时间与子女相处,有更多的时间与子女交流。幼儿学习过程是一个外部刺激、内部消化、外部输出、反馈的过程。与孩子交流越多,得到的反馈越多。如果孩子从父母那里得到正面的反馈,他们就能把自己的想法内化,然后输出更多的信息。此外,在家长语言方面,在经济地位较高的家庭中,家长与孩子沟通的语言比较积极,如果孩子语言积极,他们就会向好的方向发展。与经济地位较低的家庭相比,父母更专横,责备孩子,消极和消极的话语占绝大多数。若儿童长期处于抑郁状态,其病情会变得更糟。父母具有较高的学历和智商从遗传学上讲,如果父母智商高,孩子有50%-60%的几率会很聪明。大部分学霸都来自于高级知识分子家庭,而工薪阶层很少有机会产生学霸。不仅是因为“阶级固化”,更重要的是人们忽略了基因的作用,天才的后代极有可能成为天才。家长智商高,学历高,那么孩子不仅能有很好的先天条件,而且还能有一个良好的家庭教育环境。由于,父母是见多识广的人,知道怎样培养孩子的学习习惯和兴趣,什么样的氛围更适合孩子的成长。就像高考状元熊玄昂说的那样,父母对孩子的影响潜移默化。父母不断的学习,不断的进步,努力的提升自己儿童初到世界时,主要的活动就是学习,父母也是第一次当父母,没有经验很正常。而且一位能看清自己缺点,能虚心学习,一直保持进取精神的家长,在与孩子不断“对抗”的过程中,会和孩子一起成长,孩子也能从父母那里吸取能量。因此,养育孩子就是养育自己,没有经验也不要紧。家长要学会放下自己的身段,放下架子,不断地学习,不断地提高,随着孩子的成长变化,不断地改进教育方式。在育儿的路上,可以遇见更好的自己。在家阅读量大,藏书多,学习氛围浓厚做父亲的蔡笑晚是一位普通的乡村医生,却养育了6个孩子,5个博士,1个硕士,每个人都是自己专业领域的顶尖人才。关于养育孩子,有两个关键词:阅读。一家人在晚上围坐着,不是看电视,而是读书。爸爸是一个读者,他有很多书。有了这样的氛围,孩子自然就会把读书当作一种乐趣。一个优秀的孩子背后,一定有学识渊博、聪明才智的父母3-6岁是儿童阅读的敏感期。把握好这一时期,培养好这一时期的阅读习惯,有助于儿童形成终身阅读习惯,终身受益。比如这套“儿童情绪管理与性格培养"绘本就很不错,一套共有18册。都是从不同的角度教会孩子学会表达。这套书是专门解决0-6岁孩子在生活和学习中会遇到的情绪和性格问题的,针对性很强,比如孩子爱乱发脾气、胆小、不自信、习惯不好、没有主见、害怕失败等等,通过这18册书籍的学习,孩子可以学会情绪管理、全方位培养孩子的情绪习惯,达到提高孩子的情商的目的,为孩子将来成才打下坚实的基础。书中通过一个个生动的故事,告诉孩子怎么样表达情绪才是对的,怎么做才能受大家的欢迎,每个故事都有不同的小动物主角,非常符合孩子的认知特点。他们读得多了,自然也会慢慢地照书中的小动物那样去“改正”自己的毛病,变得更“完美”。而且这套书是中英文的,除了认识汉字还能学一学英语,有利于孩子语言早教启蒙。孩子睡前读一读,不仅情绪控制会进步得快,将来学习语言也轻松一些。而且这套书扫一扫,还可以听读,非常方便。99.9元全套18册儿童绘本,平均下来一册都不到6块钱,不过就几根棒棒糖或者一顿早餐的价格,甚至更便宜,美食可能吃过就忘,可孩子从绘本里学到的道理,却可以记得一辈子,爸爸妈妈们何乐不为呢?点击以下商品卡即可购买↓↓

拉丁区

云顶11.7登顶大数据分析,十大阵容数据对比。

下棋攻略看图图。哈喽大家好,我是图图。没有完美的阵容,只有会玩的云顶大神,在往期的攻略中,即便你能够把一个阵容搭配的很完善,也很难抵挡版本大势。那么这一期呢图图就来聊聊版本数据。数据排行就像是风口,即便你在菜,按照数据上的排行优势阵容走,就能够像猪一样,在风口处起飞。第一名:决斗大师8决斗+4天神组合,前四率高达85.2%,登顶率更是最高:29.5%。但是呢,作为第一名,它的登场率并不是很高,只有3.7%。图图看法:图图认为这样的胜率,只是因为玩决斗的玩家不够多,如果登场率在多一点,相信决斗马上就会掉出排行榜第一。第二名:玉剑仙4玉剑仙+4摄魂使+3宗师组合,登顶率高达29%排名第二,前四率也居高不下:82.6%,同样作为登场率,只有5.5%。图图看法:这样的出场率看起来也仅仅是比决斗高出一点点,但是呢,图图这里有个内幕,玉剑仙阵容或许将是下一个版本的头牌。非常推荐大家使用。第三名:腥红之月9猩红的组合,让其前四率高达85.1%,登顶率为28.1%,值得一提的是,它的登场率同样也很高:27.4%,相对于登场第一名的福星战胜而言,9猩红登场排名达到了第二。图图看法:9猩红的组合,经过了无数玩家的验证,其优秀的数据说明了该阵容为最强势的上分阵容,是这个版本的不二之选。第四名:8斗士8斗士+3永恒之森组合,其前四率为:81%,登顶率:25.9%,登场率:13.3%。图图看法:如果说9猩红是热门上分阵容,那么8斗士+3森林就是热门替补阵容,它的登场率相对来说并不算很低,在对比重秘山海、福星、明昼射手、魔法龙魂等相对出场较高的阵容而言,它的登顶率和前四率都是稳压一头的。这个阵容更像是一匹黑马。或许这个阵容就是最强的混分阵容。吃鸡屁股也不失为一个选择。第五名:重秘山海4重+4秘+3山海组合,登顶率:22.3%,前四率:72% ,登场率:20.6%。图图看法:最强之矛与最强之盾的碰撞,是永恒的话题,在游戏里,如果说决斗天神是最强之矛的话,那么重秘山海就是最强之盾。其稳定的登场率和登顶率,也表示着这个阵容的不俗。可以说是最为稳定的上分阵容。———————分割线———————看多了小说中主角的逆袭的,其实在云顶中,也同样存在着逆袭阵容,也许下一刻你就意外的合成了三星腕豪,三星盲僧、三星永恩。那么下面就盘点一下,那些登场率不高,却异常逆袭的阵容。以上五个阵容,出场率是异常的低,但从前四率表现来看,这些阵容在上分方面还是有一定潜力的。或多或少,这些阵容在某些方面有一些缺陷,导致它们的登顶率并不是很高。但也有例外,9三国阵容的登顶率同样很高,达到了24.9%,仅次于8斗士3森林阵容。可以说是黑马替补。通俗的讲就是逆袭小说的中男二号。好了,以上就是十大阵容的数据分析了,祝各位看官分上加分,把把登顶。最后,来个三连,求关注,求点赞、求转发。

诗片

挂着“中科院”名号的大数据实验室,真的靠谱吗?

英语在日常生活中的重要性越来越凸显,因此家长在紧盯孩子成绩时,对英语学科格外关注,而报名英语班更是家长为孩子提升英语成绩的常规操作。但现在市面上的英语机构很多,而家长作为“非业内人士”,除了通过熟人介绍外,由权威机构出版的行业研究报告则成为大家的重要参考。比如,近期在网络上流传的《中国K12在线教育1对1授课模式用户体验报告》就获得了很多家长用户的偏爱和转发,因为“中科院”作为国家级的调研机构,是具有至高的权威性。但是,在网络上检索这家署名为“中国科学院大数据挖掘与知识管理重点实验室”的机构时,小编却发现此“中科院”,非彼“中科院”。“中科院”是中国科学院的简称,既然“中国科学院大数据挖掘与知识管理重点实验室”挂着“中国科学院”的名头,那么小编就去中国科学院的官网进行了检索,但遗憾的是并没有相关的任何信息。小编直接在百度中以“中国科学院大数据挖掘与知识管理重点实验室”为关键词进行搜索后发现:可以看到,中国科学院官网的域名是“cas”,这是中科院英文名“Chinese Academy of Sciences”的首字母简称。而中国科学院大数据挖掘与知识管理重点实验室网站的域名却是“ucas”,实际上这是“中国科学院大学”的域名。在中国科学院大学的“培养单位”名单中,小编找到了这家“中国科学院大数据挖掘与知识管理重点实验室”。那么中国科学院与中国科学院大学是什么关系呢?在中国科学院大学官网的校园简介中有具体的说明。中国科学院是“中国自然科学最高学术机构、科学技术最高咨询机构、自然科学与高技术综合研究发展中心”,而中国科学院大学是“国家教育部正式批准成立的一所以研究生教育为主的科教融合、独具特色的高等学校”。也就是说,一个是国家的最高权威机构,而另一个是一所高等院校。值得注意的是,中国科学院大学在其官方网站上明确表示:中国科学院大学简称“国科大”,而非中国科学院的简称“中科院”。但是,在媒体的报道中,这份中国科学院大数据挖掘与知识管理重点实验室发布的报告,却被冠以“中科院”之名。自媒体微博蓝V报道企鹅号自媒体报道网络媒体报道自媒体报道微信公众号号自媒体报道令人揪心的是,很多媒体在报道中直接将“中国科学院大数据挖掘与知识管理重点实验室”出品的多个有关在线教育的报告冠以“中科院”之名。在这个信息大爆炸的时代,面对海量的信息流,家长作为普通消费者,很难分辨其中的关键。在线教育是通过社会资源办学,并成为学校课堂教学外的重要补充,关乎的是中国未来的青少年一代,是事关国运的大事。家长在为孩子选择教育资源,查询教学的相关信息时,会受到报道和宣传的影响。因此,无论是作为品牌方还是相关媒体对于这类信息的提供,都应该慎之又慎,而像这种信息的不对称,甚至是夸大背书的行为,实属不妥,也存在虚假宣传的嫌疑。思考:用户该如何分辨?如何分辨真正更具有权威效力的机构,小编只能劝各位家长认真的去通过网络检索报告发布机构的信息,虽然非常繁琐,但是这样的方式最稳妥。另外,一般真正的“中科院”直属的研究单位,基本都是以“XX所”、“XX中心”为头衔的,而“中科院大数据挖掘与知识管理重点实验室”,并不具备这样的头衔。#打假#

大火球

计算机行业研究报告:分布式,大数据时代的技术革命

(报告出品方/作者:国泰君安证券,李博伦)1. 分布式系统,一场破坏性的技术革新分布式系统的核心思想是分而治之,用一组计算机集群通过计算机网络 协作,共同完成任务。根据传统思路,处理复杂问题的方式是不断提升 计算机性能,研发一代更比一代强的“超级计算机”。而分布式系统则另 辟蹊径,解决问题的方式从“一夫当关、万夫莫开”演变为“人海战术”, 用一组计算机集群替换大型机,集群中的每台机器处理原问题的一个子 集,通过成百上千普通计算机协作,实现与大型机相同甚至更佳的效果。分布式系统是对传统单机思路的颠覆。过去十几年中,IT 性能界的技术 进步集中于延续性技术的发展,即遵照市场上主流消费者的诉求,不断 提升单机的计算及存储性能。而分布式系统的出现则是反其道而行之, 它抛却了传统采取冯·诺伊曼机进行串行顺序处理的工作机制,通过改 变计算机设计概念结构,在整个计算机集群上组织计算。分布式系统有望重塑行业格局。在历史经验看,破坏性技术往往会重新 塑造产业价值链和行业竞争格局,孵化出新的独角兽企业。例如线上零 售相对于线下零售是破坏性技术,淘宝、京东相继诞生;个人计算机相 对于大型计算机是破坏性技术,苹果、IBM 把握住了机会。分布式系统 的作为一项类破坏性技术,也有望重塑当前 IT 市场的竞争格局,在多个 细分领域孵化出新的行业龙头。2. 分布式改造已迫在眉睫2.1. 数据量爆炸增长,集中式系统矛盾凸显数据量爆炸性变大,大量非结构化数据产生。移动互联网的普及带来了 全球数据量爆炸性增长的时代。根据 Statista 的统计和预测,2020 年全 球数据产生量高达 47 ZB,预计而到 2035 年,年数据产生量将达到 2142 ZB。此外,采集到的数据中,图片、音频、视频等半结构化、非结构化 的数据占比高达 85%,传统关系型数据库无法胜任此类数据的处理,整 个 IT 系统亟须革命性重构,以适应大数据时代的发展。集中式系统的提升是非线性的,不可能无限优化。在传统冯·诺伊曼模 型中,人们通过芯片制程工艺+处理器微架构设计+服务器平台技术提升 CPU 计算性能,但目前芯片集成度已进入极小尺度级别,各类复杂的微 体系结构技术都已得到研究应用,未来集中式系统的升级将变得尤为艰 难。集中性系统技术瓶颈与大数据需求之间的矛盾不断凸显。随着 5G、物联 网时代的到来,数据量爆炸性增长,而传统集中式数据库容量有限,存 储性能提升越来越昂贵;计算复杂度提升迅速,而集中式系统性能提升 却逐步趋缓。集中式技术进步跟不上时代发展的矛盾不断凸显,人们转 而突破冯·诺伊曼体系的束缚,设计能适应大规模数据、大批量计算场 景的分布式系统。2.2. 分布式是突破瓶颈,解决问题的最佳手段大数据使得高可拓展性成为信息系统最本质的需求。可拓展性是指,若 集群中计算机数量增加一倍,则解决问题的速度加快一倍或可处理规模 扩大一倍。在可拓展性极高的情况下,只要增加系统中的计算机数量,就能满足日益扩大的业务量需求,处理日益增长的数据规模。在移动互 联走向万物互联的今天,可拓展性无疑会越来越重要。分布式向“外”横向扩展,而非向“上”纵向扩展,可拓展性降维打击。分布式系统在可拓展这一性能上可以降维打击集中式系统,并行化框架 允许方便的增加节点扩充系统,但系统节点的增加并不影响程序的编写, 并且能够保证增加后系统性能有线性的提升,也就是说,无论用户访问 数量增长到多大规模,都只需不断购置新的计算机,无需对系统和算法 进行修改即可满足需求。2.3. 国产替代政策加速分布式技术推广国产化政策使得各个企业已建成的 IT 系统面临从上到下的整体替换。随着国际形势日益紧张,为了避免“卡脖子”问题,各个企业将 IT 系统 替换为国产化设备的需求越来越强烈。若要完全避免卡脖子问题,实现 真正的 IT 自主,就意味着 IT 系统要进行从软件到硬件的整体替换。分布式系统是国产替代环境下更新换代的最佳选择。一方面,既然要整 体更新换代,就要换为符合未来需求的,最适应新时代的技术。而今集 中式的大型机瓶颈已现,无法跟上未来数据量爆炸性增长的节奏,分布 式拥有极强的拓展性,是解决未来几十年大数据时代需求的最佳方案。 另一方面,分布式作为一个新兴的技术,刚刚发展起来,国内厂商在商 业化发展程度上与国外厂商的解决方案无太大差距。3. 主流分布式系统是架构上的全面升级3.1. 开源 Hadoop 系统是大数据处理的工业标准开源的 Apache Hadoop 是最主流的大数据处理平台,成为了事实上的 大数据处理工业标准。在大数据处理的众多技术和系统中,起到开创性 作用、最为主流的当数 Google 公司在 2003 年发明的 MapRece 技术以 及随后在 2007 年由开源组织 Apache 推出的开源的 Hadoop MapRece 技术和系统。目前,Hadoop 已经成为全世界最为成功和最广为接受使用 的主流大数据处理技术平台,成为了事实上的大数据处理工业标准。近 年来出现了以内存计算为基础,能够提供多种流计算、图计算等多种大 数据计算模式的 Spark 系统。大部分分布式系统由 Hadoop 开源产品二次开发而来。在开源 Hadoop 系统发展的同时,工业界也有不少公司基于开源的 Hadoop 进行一系列 商业化版本开发。他们针对开源系统在系统性能优化、系统可用性和可 靠性以及系统功能增强方面进行大量研究和产品开发工作,形成商业化 的发行版。如 Intel 发行版、Cloudera 发行版(CDH)、Hortonworks 发行版 (HDP)、MapR 等,所有这些发行版均是基于 Apache Hadoop 衍生出来 的,在中国诸多大型应用行业得到了推广应用。3.2. 主流分布式系统由四个层级组成主流的 Hadoop 分布式系统由硬件、存储管理、并行计算框架、应用层 四个层级组成。主流分布式系统 Hadoop 是围绕数据存储、处理计算的 基础技术,同配套的数据治理、数据分析应用、数据安全流通等助力数 据价值释放的周边技术组合起来形成整套技术生态,具体可以分为:硬 件层、存储管理层、并行计算框架、应用层四个部分。硬件层:数量换质量。分布式系统选用市场上现成的普通 PC 或性能较 高的刀架或机架式服务器作为基础设施,构成一个包含数千节点的分布 式并行计算集群;据 PASA 实验室研究,普通低端的计算机由于规模效 应和激烈竞争价格较低,PC 服务器集群比高端计算机性价比高 4 倍,以 性价比作为第一要务的分布式系统一般建立在普通低端的计算机集群 中。存储管理层:去中心化存储。分布式存储系统是一套逻辑上的文件系统, 它将数据存储在物理上分布的每个节点上,但通过分布式文件存储系统 将整个数据形成一个完整的文件。系统中包含一个元数据表(META DATA) ,保存所有数据表的位置,承担目录的作用,查询数据时先访问 到元数据表,获取数据所在服务器,再访问到具体数据。并行化计算框架:封装细节,成为所有应用的入口。为了进一步提升并 行计算程序的自动化并行处理能力,编程时应该尽量减少程序员对很多 系统底层技术细节的考虑,使得编程人员更专注于应用问题本身的计算 和算法实现,并行计算框架诞生。并行化计算框架能够自动完成计算任 务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分 配和执行子任务以及收集计算结果,将数据分发、任务分配、数据通信 和同步,容错处理等并行计算中的复杂细节交给计算机处理,减轻了编 程人员的负担。3.3. 分布式系统解决所有领域中数据量大、计算复杂的问题分布式技术可应用于几乎所有行业,用以解决计算密集型、数据密集型 两大类问题。分布式系统解决的问题可以分为两类,第一是计算密集型 问题,第二是数据密集型问题。计算密集型问题:指计算复杂度极高,涉及数据量较少的问题,诸如 3D 建模和渲染、物理实验中的高性能计算、比特币挖矿等。对于计算密集 型的问题,由于涉及到的数据量较少,往往只需要部署分布式计算集群, 做好集群之间计算任务的分工协作,无需分布式存储系统。数据密集型问题:指涉及到大量数据量的问题,诸如淘宝要分析的每位 用户产生的日浏览数据,大量数据训练机器学习模型等。对于数据密集 型问题,数据迁移是信息系统中最大的开销,故往往需要分布式存储系 统作为基础,再进行分布式计算。数据密集型问题由于与数据交互的方式不同,需采用不同的分布式存储 技术:1. 频繁读写、修改数据。此种情形常用于日常事务性操作,如银行、券 商对核心数据库的日常操作,需使用关系型数据库作为存储系统。2. 一次写、多次读,已写入数据不能更新。此种情形常用于大数据分析 挖掘,可使用 NoSQL 等数据存储无固定格式的数据库。3. 一边写一边读,流式计算。用于数据时效价值极高的场景,例如高频 股票交易,对用户进行商品实时推荐等。4. 国产分布式的发展现状4.1. IT 巨头研发通用底层平台,行业 ISV 构建生态未来或将呈现 IT 巨头研发分布式通用底层平台,ISV 开发满足细分需 求的分布式应用的局面。目前几家华为、阿里、腾讯、百度等 IT 巨头大 数据技术实力较强,均基于 Hadoop 开源平台开发出了商业化版本的分 布式平台产品。但各细分行业仍有具体的分布式应用需深耕该细分行业 的 ISV 在底层平台的基础上完成开发,共同构建起丰富的大数据技术生 态。目前华为、阿里、腾讯、百度等 IT 巨头均有基于 Hadoop 开发的大数据 平台产品。Apache Hadoop 的开源协议允许任何人对其进行修改并作为 开源或者商业产品发布,国内研发实力领先的各 IT 巨头均早早开启了 分布式领域的布局,目前已经形成了涵盖数据仓库、实时流式数据处理、 数据挖掘、图计算、分布式数据库等在内,涵盖多行业领域的完善技术 体系。源于开源、高于开源。为保证良好的兼容性和开放性,以及最重要的稳 定性。各家的大数据平台均基于开源 Hadoop 平台商业化改版而来,并 在开源版本的基础上自研安全加固、可靠性增强、存储计算优化等核心 技术竞争力。各家产品均有了横跨多个行业领域的实践应用案例。4.2. 金融为目前分布式系统的主要应用领域分布式系统在各行各业中普及,金融行业分布式应用占比最高。据信通 院对 1404 家涉及行业大数据应用的企业的统计,金融、医疗健康、政务 是大数据行业应用的最主要类型,分别占比 30%、14%、13%。除此之 外是互联网、教育、交通运输、电子商务等行业。金融机构客户对分布式的接受程度不断提高,分布式技术正在从边缘系 统向核心系统演进。随着对分布式的探索越来越多,问题的不断被解决, 分布式使用场景越来越多,金融行业客户对分布式的接受程度正在提高, 分布式系统从边缘应用逐步向核心应用演进。2020 年邮储银行的分布式核心项目标志着国有大行正式进入了核心系统分布式更新换代的周期。4.3. 金融 IT 主要厂商纷纷布局分布式长亮科技在布局银行 IT 领域的分布式系统研发。近两年国有大行、股 份制银行纷纷开启新一代核心系统建设及统一技术平台建设,而基于单 元化分布式、微服务等构建的企业级 IT 架构和技术平台是其中最为经 典的建设思路。长亮科技在此过程中先后创造了国内首个分布式核心系 统、首个“微服务+单元化”架构分布式核心系统,并凭借着企业级架构 核心及技术平台的领先优势,先后中标了多家国有大行信创项目:中标邮储银行新核心技术平台及银行汇款组件;中标交通银行信用卡核心系统及技术平台;中标中国银行技术平台-单元化部署组件;恒生电子在布局证券 IT 领域的分布式系统研发。中国证券行业交易面 临基础技术升级、市场逐步完善、交易程序化、差异化竞争等几大趋势, 交易技术设施性能的提升迫在眉睫。这意味着对系统而言,低延时、高可 用、易开发,具有高度可定制性,缺一不可。而恒生电子于 2021 年 3 月 10 日公布的恒生 Light 平台中十大技术栈之一的 Light-LDP 正是低时延 分布式开发平台。Light-LDP 通过分布式构架助力金融机构构建核心极 速业务系统,进而完成差异化,并适应各类金融行业应用场景。平安云在布局企业级核心业务 IT 领域的分布式系统研发。平安分布式 关系型数据库服务(Distributed Relational Database Service,简称 DRDS) 是平安云为解决单机数据库服务瓶颈问题而研发的分布式数据库。可部 署主备架构,提供容灾、监控等方面的全套解决方案,为客户提供一站 式数据库解决方案,助力各行业企业客户尤其是金融行业客户主机下移, 以适应数据量爆炸的大数据时代。详见报告原文。(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)精选报告来源:【未来智库官网】。

大卫王

大数据:作为一种方法论的追溯与质疑

赵曙光,南京大学新闻传播学院教授。吴璇,南京大学紫金传媒研究院(北京)研究员。本文系江苏省社会科学基金基地专项课题“传统媒体融合传播效果大数据评估研究”(项目编号:16JJD002)的阶段性成果。近年来,“大数据”成为学术界广泛关注的热点。2018年,“中国知网”收录的中文论文中,题目包含“大数据”的论文数量相较于前一年增长了20%。然而,究竟什么是“大数据方法”、如何理解所谓“大数据方法”,又或者究竟存不存在所谓“大数据方法”?鉴于大数据一词在学术研究中日益增长的影响力,厘清这些问题的必要性日益凸显。只有明确“大数据方法”的本质和“大数据方法”在传播学领域所指代的含义,了解国内外对“大数据方法”在内涵和使用上的异同,才能避免因概念内涵和外延模糊所造成的误用。本研究围绕“大数据方法”梳理国内外传播学领域的相关文献,编码分析“大数据方法”在国内学术研究的诸多含义,并通过与国外学术研究的比较,对是否存在“大数据方法”进行了探讨。一文献综述虽然学界对大数据这一说法的最早起源时间说法不一,但绝大多数学者接受和认可“大数据”是在2011年左右开始获得大范围关注这一观点(Gandomi & Haider,2015)。国外学术界对“大数据”展开了广泛的讨论,著名的信息科技研究和分析公司高德纳(Gartner)用规模性(volume)、高速性(velocity)和多样性(variety)定义大数据(Gartner,2012)。总体上看,高德纳将大数据定义为一种大规模高速产生的多样化的信息集合,且需要有效的和创新性的形式进行处理,以获得更强的洞察力、决策力和过程的自动化。在此基础之上,又有学者和机构不断进行补充,加入了更多的维度,例如价值性(value)(Oracle,2013;Gogia et al.,2012)和精确性(veracity)(White,2012)。还有其他的一些定义也被广为接受,例如马尼卡(Manyika)等人认为,大数据是一种难以被普通的数据处理软件捕获、储存、管理和分析的大规模数据集(Manyika et al.,2011:1);而博伊德(boyd)和克劳福德(Crawford)则将大数据定义为一种文化、科技和学术现象。针对这些定义,也有研究进行了不同的分类。德毛罗(De Mauro)等人认为大数据通常从四个不同的角度被定义,分别是信息(information)、科技(technologies)、方法(methods)和影响(impact)(De Mauro,Greco & Grimaldi,2015)。当前日新月异的计算机技术使得对大体量数据的处理和分析变为可能,对大数据的应用已经突破某一特定领域,渗透到了人们日常生活的方方面面。大数据日益增长的重要性也催生了对其广泛的研究和讨论。在国内传播学研究领域,“大数据方法”一词在不少文献中出现,有研究指出当下我们应该具备大数据思维:大数据思维只关注相关性而非因果关系,是一种“思维的革命”;此外,大数据使得样本转变成了“总体”和“全部”,从而避免了传统随机采样方法中的不精确,;大数据时代的来临使得科学研究的关注点从“鸡零狗碎”式的小问题上升到对整个学科发展的宏观趋势,而且“更好的数据算法和有效的数据处理法则”的重要性将会超过理论(喻国明,2014:45)。二研究问题本研究将全面梳理和揭示“大数据方法”在国内传播学界的使用现状,并对大数据方法在国内外研究的应用进行对比,同时就“大数据方法”这一概念的合理性进行探讨,促进对大数据方法的科学理解,减少此概念的误用和随之带来的理论及实际操作中的分歧。因此,本文主要探讨以下三个研究问题:“大数据方法”这一概念的内涵和外延是什么?“大数据方法”作为一种研究方法是否成立?“大数据方法”是否具有研究方法层面的创新?三研究方法本文采用扎根理论(grounded theory)作为主要的研究方法。本文基于中国知网(CNKI)收录的北京大学核心期刊、CSSCI及中国社科院中国人文社会科学核心期刊的新闻传播类论文,以“大数据方法”和“大数据的方法”为关键词,选取了所有时间段内全文包含任意一关键词的文章。研究将筛选后剩余的79篇论文结合上下文对相关内容进行开放式编码,在明确“大数据方法”一词在这些文献中的含义后对其进行分类。为确保分析结论的效度,共有两名编码员参与数据分析。编码员首先进行了预编码,随机抽取30%,共24篇论文,由两名编码员各自独立编码,并将编码结果进行比对,显示共识度(level of agreement)为64%。基于两份数据分析结果,编码员就有分歧的编码进行解释、讨论、协商,最终达成了统一的意见。形成统一意见后,两个编码员分别对剩余论文进行了编码,在此期间编码员采取了持续比较(constant comparison)的方法。最终结果显示Kappa系数为0.81,共识度为89.69%,支持了数据结论的信度。为了解国外传播学文献对“大数据方法”的研究,本文选取“big data method”“big data methodology”“big data approach”及“method of big data”为关键词,使用高级检索功能(advanced search)在不限制文献发表时间段、不限制语言、不限制文献类别、不限制关键词在文献中出现区域的前提下在Web of Science数据库中进行了检索,然而结果显示在传播学类别下包含这些关键词的文献数量只有两篇;将搜索范围从传播学扩大到整个社会科学领域后,包含这些关键词的文献数量仅有三篇。此种情况意味着很难对中外相关文献进行对比分析,更合理的假设是国外研究中可能并不存在“大数据方法”这一概念。为了进一步验证“大数据方法”是否存在于国外学界对大数据的主流研究之中,本研究进一步扩大了文献检索范围,将关键词仅限定为“big data”,并将检索范围扩展至全部Web of Science数据库之后筛选出所有有关大数据的高影响力文献并对其主要议题进行分析归纳。检索结果显示在2009年之前,大数据研究论文数量非常有限,但在此之后呈现出明显的持续性增长,因此,本文将检索时间范围确定在了2009年至2018年,共计21347篇。为了了解这些大数据论文的主题,本文运用数据分析软件Matlab抓取了论文的关键词并分析了它们的出现频率,考虑到关键词的代表性,本文选取出现率排名最高的前20个词语并筛选出关键词中包含其中一个或者多个的论文(关键词频率和共现矩阵参看图1),并对论文进行了深入的全文分析(具体抽样流程参看图2)。中英文数据收集及分析总流程图参见图3。四传播学研究领域对“大数据方法”的五种理解根据对所选取国内传播学领域论文的内容分析,“大数据方法”一词呈现出五种不同的理解,其概念的内涵和外延较为模糊,并未形成统一的界定和共识。大数据方法在不同的研究中分别指代:大数据、大数据技术、定量研究方法、全新的研究范式和数据挖掘及分析。(一)将“大数据方法”等同于大数据《浅谈大数据在图书出版中的应用》认为“大数据作为一种方法论已经在选题策划的诸多环节得到应用,信息采集、选题设计成型和组稿等环节都因为大数据方法的应用而出现了许多创新”(孙晓敏,2017:54)。《国内新闻传播学大数据研究综述》也谈到“在传播学研究中,大数据还是一种研究方法。将大数据方法运用于社会舆情分析,用大数据价值挖掘与分析技术,分析当下中国社会舆情的结构性特征”(王霞,2017:19)。显然,这两篇文章已明确表示“大数据”等同于“大数据方法”。然而,值得注意的是,上述研究在后续的讨论中又赋予了“大数据方法”另外一种含义。《浅谈大数据在图书出版中的应用》在将大数据定义为一种方法后,紧接着谈到大数据方法在实际工作中的具体运用,如“在信息采集方面,基于选题方向发挥大数据挖掘等技术优势,全面、快速、准确地采集选题关键信息……在选题设计成型方面,舆情分析中数据挖掘的技术手段,可以对选题的社会影响等做适当的预估;语义网络图的技术手段,可以对选题与同类选题做优劣势比较”(孙晓敏,2017:54)。无论是因为措辞的不准确还是因为对概念的模糊理解,尽管这类文章在文字上明确的将“大数据方法”与“大数据”划等号,但总体上全文还是呈现出指代多样的情况。(二)将“大数据方法”理解为一种具体的技术手段《处变守常:美联社的坚守——评杰里·施瓦茨的〈美联社新闻报道手册〉》认为“如今不少媒体开始用大数据方法处理海量信息,让有价值的新闻资讯通过非人工的技术手段予以呈现,甚至用机器人替代职业记者进行新闻写作”(张涛甫,2016:86)。在这里,“大数据方法”主要体现在各种处理信息,呈现资讯甚至是进行新闻写作的技术,可以说作者想要表达的“大数据方法”更侧重于技术手段。同样的,在《两会报道大数据运用的趋势与类型》一文中,谈到大数据技术也被广泛地运用到了新华社的两会报道中,并举例说某一篇报道方式主要就是“针对大数据方法从社交媒体中提取的关键词,军队人大代表、政协委员就中国军费增长进行解读”(贺俊浩,林沛,2014:40)。(三)将“大数据方法”定义为定量研究方法的一种《大数据在政府公众形象建设中的应用》将大数据方法与文献分析法、归纳总结法、演绎分析法和个案分析法等定性研究方法相类比,认为大数据方法的出现能够改变定性研究方法主导政府公众形象研究的现状,“增加定量研究方法的比重”且能使得该类研究“更具可靠性和可信度,有助于提高研究成果的科学性”(李文清,2017:105)。《大数据背景下舆论调查方法反思》明确地将大数据方法与传统定量调查方法并列,并详细地比较了二者在数据搜集方面的异同,从侧面表明了作者认同“大数据方法”属于定量研究方法这一观点(刘冰,2018)。(四)将“大数据方法”提升到抽象化的范式层次这一类研究认为“大数据方法”就是一种全新的、开创性的、值得推崇的研究范式。《2014年中国新媒体传播研究综述》认为“大数据方法”可被称为“继实验科学、理论科学和计算科学之后的第四种科学研究模式”,并且它作为一个“从复杂现象中透视本质”的有用工具,不仅适用于科学研究,也将广泛应用到各行各业(付玉辉,2015:36)。在此类研究中,“大数据方法”既不指代数据本身,也不指代大数据相关的技术,更不是某一种类别的研究调查方法,而是偏向定义为一个笼统的、高度抽象化的概念,即“研究范式”。在这个定义下,“大数据方法”不涉及具体层面上的数据挖掘和分析活动及其相关的技术手段,而是作为一个与大数据相关的各种研究行为的集合存在。(五)将“大数据方法”指代数据挖掘、搜集或(和)分析的行为与前面几类研究不同,这类研究更多的是将“大数据方法”界定为对处理大数据各种行为的一个概括。例如,《媒介与媒介化的互动机制》谈到“利用大数据方法分析这些信息,建立用户需求数据库……提供个性化的信息内容和精细化的服务”(戴海波,杨惠,2018:53)。“大数据方法”指代的就是一种数据分析方法。而在一些研究中,“大数据方法”更偏向于一种数据挖掘的方法。相对于其他几类研究,此类研究在选取的所有论文中占比相对较高,着重强调了“大数据方法”作为一种特定行为的本质。五“大数据方法”:一个贴标签式的学术概念通过分析国际大数据的研究成果,发现出现率最高的20个关键词集中在以下研究议题:(1)算法层面的分析方式;(2)大数据分布式系统基础架构;(3)对大数据分析的泛指;(4)除上述三种以外的其他零散研究:如数据科学(data science)、社交媒体(social media)、推特(Twitter)、物联网(IoT, Internet of Things)和隐私(privacy)。无论所属哪一学科,这些研究的关键词或具体或抽象,但可以明确的是它们都指代明确、表述清晰,将大数据作为研究对象,而不是将大数据界定为研究方法,或者说并不存在一个模糊的“大数据方法”的概念。虽然“大数据方法”一词在国内学界热度不减,但其核心的定义与要素在国内传播学研究中还没有得到明确的界定,传播学研究对“大数据方法”复杂多样的解读也印证了这一观点。值得关注的是,通过对关键词和高引用率论文的梳理,虽然国际学术界关于大数据的研究并未明确提及“大数据方法”的概念,但是围绕“针对大数据的分析方法”及其相关技术的讨论较为深入。Web of Science中全文包含“big data”且引用率在200以上的论文共计50篇。对这些高引用率论文进行逐一梳理,发现这些研究更多的是涉及到分析大数据的概念与方式,其中包括极限学习机(Extreme Learning Machine)、深度学习(Deep Learning)、最邻近算法(Nearest Neighbor Algorithm)、块坐标下降法(Block Coordinate Descent Method)、张量分解(Tensor Decomposition)、网络理论(Network Theory),以及卷积网络(Convolutional Networks)。“极限学习机”由黄广斌教授等人于2006年提出。其计算速度远远大于其它的前馈神经元网络(Huang,Zhu & Siew,2006),在解决回归和分类问题上具有优势。诚然,“极限学习机”也存在一些有待完善的地方,比如隐藏层节点数的选取以及对数据噪声的承受能力(Huang,Zhu & Siew,2011)。“深度学习”由辛顿(Geoffrey Everest Hinton)等人于2006年提出(Hinton,Osindero & Teh,2006)。“深度学习”方法在语音识别和图形识别领域具有广泛的应用(LeCun,Bengio & Hinton,2015),在一些应用场景下,其隐藏层数目可以达到152层(He,Zhang,Ren & Sun,2016)。“深度学习”的一个缺陷就是神经元网络的训练时间比较久,但是当神经元网络训练好之后,“深度学习”的测试时间比较短(Kamilaris & Prenafeta-Boldú,2018)。“最邻近算法”由希布逊(Robin Sibson)于1973年提出,其基本思想是利用空间距离的远近来对数据进行分类,同一类别的数据可以用这个类别具有代表性的数据来表示(Sibson,1973)。它的最大优点在于算法的简单性,不足之处在于其对计算机内存的要求较高,因为要同时计算各个点之间的距离(Bhatia,2010)。“块坐标下降法”由伯恩哈特(Craig M. Barnhart)等人于1995年提出的一种优化算法,在处理线性模型上有优势,包括线性支持向量机、LASSO回归和逻辑回归(Glasmachers & Dogan,2013)。不过,“块坐标下降法”在使用中需要注意避免迭代收敛到局部极小值(Canutescu & Dunbrack,2003)。“张量分解”由道尔(Thomas Carlson Doyle)于1941年提出,是矩阵分解的一种高维延伸,其基本思路为将一个高维空间的张量表示为多个正交向量的线性变换组合(Doyle,1941)。因为“张量分解”把一个复杂的张量分解成几组互不相干的分量,大大简化了张量的复杂程度。“张量分解”在使用中常常得到比较抽象并没有实际物理含义的分量,在实际使用中对数学能力要求较高。“网络理论”是一个逐渐形成的理论。其本质是利用图论的知识来分析网络结构,而图论的起源可以追溯到18世纪被欧拉解决的柯尼斯堡七桥问题(Biggs,Lloyd & Wilson,1986:1736-1936)。“卷积网络”又名卷积神经网络,由勒丘恩等人于1990年提出,卷积网络通过卷积运算对输入数据进行加工,再输送到全连通网络结构中进行运算(Lecun et al.,1990)。由于“卷积网络”是“深度学习”的一种方法,其优缺点同上文所述“深度学习”基本一致。对高引用率的国际大数据研究进行分析,可以发现大数据研究常用的上述方法并非近几年来所诞生的新方法。因此,如果把这些作为一种全新的研究方法,并定义成“大数据方法”是难以成立的。一方面,国际大数据学术研究成果中不存在“大数据方法”这一概念,并且学术文献中所提到的用以分析大数据的各种方法也早已存在,并无方法论层面的重要创新;而另一方面,国内研究界对所谓“大数据方法”的认知和定义尚未统一,其内涵和外延均较为模糊,“大数据研究方法”成为具有一定随意性和贴标签式的学术概念。六方法论视角下的“大数据方法”从方法论的角度来讲,“大数据方法”也是一个缺乏严谨性和规范性的说法。在国际学术文献语境里,方法(method)与方法论(methodology)大为不同:方法是指进行科学研究所需要用到的工具,而方法论则是指对这些工具如何使用以及如何解读的一系列原则(McGregor,2017:21)。方法论强调科学研究的哲学基础,而方法则更偏重研究中的过程及具体手段(McGregor,2017:21)。方法论与方法之间具体的特点对比参见下表。一方面,“大数据方法”并不是一种方法论。通过对大数据的英文文献的分析不难发现,其中涉及到的大多数应该归类于具体的大数据分析手段,很难归属于方法论。而中文文献中的“大数据方法”尽管有五种不同的解读,但不是每一种解读都能完全地回答作为一个方法论在本体论、认知学、逻辑学和价值论等方面所提出的问题。例如我们将“大数据方法”理解成大数据本身、具体的技术手段或者数据挖掘、搜集和分析行为,那么这样的理解只是停留在具象的层面,无法反映出其对真理的本质、对知识的定义等哲学层面的认识。若是把“大数据方法”理解为定量研究方法的一种或者“全新的研究范式”,那么认为“大数据方法”是一种方法论也具有合理性。但因为目前依旧没有形成针对本体论、认知学、逻辑学和价值论这四方面成体系的论述,将“大数据方法”判定为一种方法论显然欠妥。因此,国际学术研究文献并不存在将“大数据方法”作为一种方法论来看待的讨论,而国内文献中由于对“大数据方法”这一概念的模糊而不统一的定义,也无法做出“大数据方法”是一种方法论的论断。另一方面,“大数据方法”也不是一种方法。在国际学术研究文献中并没有提到“大数据方法”,而是以一些具象的数据分析方法来阐释大数据的应用,比如前文提到的极限学习机、深度学习、最邻近算法等。在中文文献中,学者们对“大数据方法”有五种不同的解读。虽然其中一种解读将“大数据方法”理解成具体的技术手段或数据挖掘、收集和分析行为,但是这些具体的技术手段或数据挖掘、收集和分析行为之间差异显著,以至于无法依靠一个统一的技术实施步骤来进行“大数据方法”的执行和操作,使得“大数据方法”无法作为一种方法。无论从方法论角度来看,还是从方法角度来看,都无法把“大数据方法”归类到其中任何一个,这种左右两难的处境是和当前的时代背景息息相关的。总体上看大数据是当前席卷全球的一个热门词汇,在很多人看来象征着最尖端的科技和最领先的潮流。因此,“大数据”一词形成了席卷社会的热潮,学术界也不可避免地受到这股热潮的影响,从而营造了“大数据是一种研究方法”的氛围和环境。但是,通过对国内外学术研究文献的比较分析,可以发现,将“大数据方法”作为一种创新性的研究方法来看待缺乏严谨的科学依据。因其复杂且模糊的内涵和外延,大数据研究方法作为一个概念来说难以成立。当然,“大数据是一种研究方法”的说法在国内学界的存在与流行也是有其客观原因的。囿于语言的不同,国内传播学界与以英文为主导的国外学术圈仍存在着一定的壁垒。相对于后者的体量而言,国内传播学界的知识生产与流通在一定程度上仍局限在一个较小的范围,并不利于对新知识的广泛批判与检验,因此也为类似“大数据方法”的伪概念提供了传播的土壤。学术界应该谨慎对待所谓“热点”,避免人云亦云,大胆怀疑,小心求证,使得知识成果站得住、立得稳,经得起时间的检验。本文系简写版,参考文献从略,原文刊载于《国际新闻界》2020年第11期。封面图片来源于网络字样本期执编/阿宋订阅信息全国各地邮局均可订阅《国际新闻界》,国内邮发代号:82-849,欢迎您订阅!您也可通过下方二维码或网址https://weidian.com/?userid=1185747182,进入国际新闻界微店,购买当期杂志和过刊。您还可访问《国际新闻界》官方网站 http://cjjc.ruc.e.cn/ ,免费获取往期pdf版本。

红丝错

大数据赋能 智慧锄犁开垦出一座“都市田园”

通讯员 黄睿 勇娇 文冬 记者 朱轩卿动动手指,就能实现“网上种菜,线上施肥”,这种现代农业种植方式,在扬州变成了风尚。近日,记者走进位于广陵区沙头镇的沿江现代农业科技产业园一处大棚,满眼尽是绿色枝蔓和红色果实。“这种西红柿叫‘红风铃’,采用无土栽培,利用水肥一体化营养基质,根据品种基因实现生长能量的精准供给,让果实的口感更好、品质更高。”扬州大学现代园艺产业研究院副院长、在园区创业的“教授农民”高红胜告诉记者。在园区,记者有一种强烈感受:整个园区被无形的数据网织成一个数字园区。在新建成的农业大数据中心,园区不仅实现了自动化控制施肥、浇水等操作,还为种植户提供前沿的市场信息,为调整种植结构提供数据支撑。“传统的种植户,给菜地浇水、施肥,全凭着经验来。”沿江现代农业科技产业园技术员汤其坤说,随着农业大数据中心的建成,“靠经验吃饭”将成为历史。沿江现代农业科技产业园内,入驻有16家农业企业,分别经营茄子、辣椒、叶菜、西瓜、葡萄、草莓等不同品类大棚。“园区在大棚内免费为种植户安装传感器,搜集瓜果蔬菜生长必需的数据。”汤其坤介绍,大棚内的温度、湿度、光照等环境数据,都会被一一“记录在案”,为植物生长提供必要的数据参考。“通过搜集数据,我们可以了解瓜果蔬菜等植物的生长习性,知道浇多少水最合适,施肥的量要多少,什么时间需要打开遮阳网。”汤其坤说,这些动作均可通过后台操作。农业大数据中心更为重要的意义是,为园区内的种植结构调整提供前沿的市场数据。“今年,如果有一家种辣椒赚了钱,可能明年大家都改种辣椒,造成供大于求,价格大跌,给种植户带来损失。”汤其坤讲述了一个浅显的经济学原理,“如果提前获悉市场需求,可能会避免损失。”农业大数据中心的建成,正在打通各种植户之间的数据壁垒。“今年我种了多少,卖出去多少,种植户之间是不会通气的。”汤其坤说,大数据中心将搜集各种植户的种植数据、销售数据,久而久之形成大数据库。“有了大数据库,我们就可以对未来的市场作前瞻性研究,预测明年的市场需求,提前通知种植户调整种植结构。”“园区承担着扬州城区50%左右的蔬果供应任务,同时承担着向周边地区供应种质资源的任务。近年来,园区通过与高校、科研院所等合作,逐步搭建起了以物联网、大数据、云平台为技术支撑的现代化农业生产体系。”沿江现代农业科技产业园管委会常务副主任周世宽说。