欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
数据改变世界 思想塑造未来——2020大数据产业综述其自为也

数据改变世界 思想塑造未来——2020大数据产业综述

随着互联网技术的快速发展,我国大数据产业也发展迅速。中国信息通信研究院结合对大数据相关企业的调研测算,发现我国大数据产业规模稳步增长。2016-2019年,短短四年时间,我国大数据产业市场规模由2840.8亿元增长到5386.2亿元,增速连续四年保持在20%以上。尤其是国家领域内的大数据产业发展迅速,已经成为大数据产业发展的核心。当前,我国正在加速从数据大国向着数据强国迈进。随着中国物联网等新技术的持续推进,到2025年,其产生的数据将超过美国。数据的快速产生和各项配套政策的落实推动我国大数据行业高速发展,预计未来我国行业大数据市场规模增速将维持在15%-25%之间,到2025年中国大数据产业规模将达19508亿元的高点。01 数据治理成为提升治理能力的关键智慧政府是我国政府近几年来建设的目标,而大数据技术作为智慧政府的一种支撑技术,有着不可或缺的作用。大数据在我国城市管理、交通管理、环境治理方面已发挥着重要作用,大数据技术已经渗透在我国政务管理的每一个方面,并同时起着深远的影响。在大数据时代,越来越多的政府摈弃经验和直觉,抛弃拍脑袋想对策的做法,更多地依据科学的数据分析和事实作出决策。2020年7月中旬,联合国电子政务调查报告发布,中国在全球的排名进一步提升。这个两年一度的全球电子政务排名,是对193个联合国成员国数字政府建设水平的权威评估。联合国从电子政务和电子参与两个维度进行评估,其中电子政务又进一步包括三个维度,分别是在线服务、人力资本和电信基础设施。《报告》还指出,中国是在2020年首次进入全球电子政务发展指数“非常高”的亚洲国家之一。我国的大数据原始数据资源丰富,然而数据壁垒广泛存在、法律法规发展滞后,数据治理体系远未形成,制约了数据资源中所蕴含价值的开采与转化。与此同时,我国大数据应用发展不均衡,虽然互联网应用市场化程度高、发展较好,但行业应用广度和深度明显不足,与实体经济融合不够,融洽和谐的大数据生态系统亟待形成和发展。02 大数据赋能智慧城市建设推进新型智慧城市,是政府推动我国新型工业化、信息化、城镇化和农业现代化同步发展做出的重大决策,有利于深化新一代信息通信技术与城市发展的深度融合,实现城市可持续发展。新型智慧城市产业覆盖面广,与众多行业存在交叉关系,链条长、带动性强,成为新技术创新应用的实验场。在经历概念探索、政策推动、试点示范等几个发展阶段后,我国智慧城市已全面进入建设期,投资规模不断扩大。随着智慧城市建设的深入,对数据处理能力提出了很高的要求,在这其中,城市智能中枢的数据全量多源化的接入、实时处理的能力。此外,城市智能中枢的运行亟需数据的协同,如何消除各自为政、条块分割、信息割裂的数据孤岛,成为城市大数据平台的核心能力。如智慧社区,就成为城市智慧中枢的具体案例。此次爆发新冠肺炎疫情,社区成为疫情联防联控的第一线,智慧社区通过运用互联网、大数据、人工智能等新一代信息技术,大幅提升社区精细化治理、智能化服务和精准化决策能力,在此次防疫工作中发挥重要作用。据相关机构预计,到 2022年,智慧社区市场规模将接近万亿元。03 大数据+互联网+卫星=无限想象卫星看似离我们很遥远,但卫星大数据的使用其实早已经渗透到了很多人的日常生活,包括定位导航、电视转播、气象监测等方方面面,都有卫星大数据在发挥作用。根据国家航天局数据显示,目前我国卫星应用年产值超过2000亿元人民币,这也意味着有一个近万亿级的卫星大数据市场,正在等待被挖掘。卫星互联网是基于卫星通信的互联网,通过一定数量的卫星形成规模组网,从而辐射全球,构建具备实时信息处理的大卫星系统,是一种能够完成向地面和空中终端提供宽带互联网接入等通信服务的新型网络。卫星通信与移动通信、地面光通信一样作为现代通信的重要方式之一,具有低延时、低成本、广覆盖、宽带化等优点。卫星互联网利用大数据底层数据优势,建立我国空天地一体的卫星互联网大数据网络成为新型的网络大数据应用产业被广泛关注。大数据产业的应用已经不断发展,和各行各业融合并存、创新,成为未来数字经济、数据要素的重要体现。04 个人信息安全上升为国家战略目前,在百度搜索“个人信息安全”有近3千万个搜索结果。“共享充电宝”出卖个人信息、“大数据杀熟”和“刷脸与个人信息”也成为了近期的新闻热词。《人民日报》发表题为《个人信息安全,不能止于“打补丁”》的观点评论,文章表示,网络社会带给人们更多方便与快捷,但如果这个社会缺失信息安全,人们怎敢放心在电子银行存转财富?何以放心在网购时写下实名地址?安全感少一分,经济社会发展的活力可能就会少十分。一个国家的网络安全掌控能力,既体现在对经济社会发展的护航上,也同样反映在个人信息安全的保护上。2019年,中央网信办等四部门全年开展“App违法违规收集使用个人信息专项治理”、工信部信管局“信息通信领域APP侵害用户权益”、市场监管总局“守护消费”暨打击侵害消费者个人信息违法行为、工信部网安局“电信和互联网行业提升网络数据安全保护能力”等专项执法行动,各大网络平台纷纷表态将严格加强网络保护。2020年2月9日,中央网信办公开发布《关于做好个人信息保护利用大数据支撑联防联控工作的通知》,明确为疫情防控、疾病防治收集的个人信息,不得用于其他用途。任何单位和个人未经被收集者同意,不得公开姓名、年龄、身份证号码等个人信息.随着大数据产业的不断发展应用,个人信息的安全使用和管理成为社会,乃至国家信息安全的重要战略问题。维护个人信息安全是场持久战,也是场前所未有的遭遇战。美国也曾发生过约1.91亿选民个人信息外泄,英国巴克莱银行曾有数万客户的个人资料被盗。网络犯罪的“进化”程度,有时会超过法律法规的制定速度。从技术上寻求防护对策,在理念上提高网民安全意识,多方用力、立体防护,才能打赢个人信息安全保卫战。05 大数据产业发展任重而道远,但前景喜人!国际数据公司IDC统计显示,全球近90%的数据将在这几年内产生,预计到2025年,全球数据量将比2016年的16.1ZB增加十倍,达到163ZB。根据IDC最新发布的统计数据,中国的数据产生量约占全球数据产生量的23%,美国的数据产生量占比约为21%,EMEA(欧洲、中东、非洲)的数据产生量占比约为30%,APJxC(日本和亚太)数据产生量占比约为18%,全球其他地区数据产生量占比约为8%。大数据几乎无处不在,在实现“十四五规划远景目标”和迈向“两个一百年”的征程大道上,大数据产业必将成为重要的一环,成为助推科技兴国的重要组成。北京博明信德科技有限公司作为国内领先的大数据产品和解决方案供应商,目前在环保大数据、油气管网大数据、金融资管大数据等领域形成了具有自主知识产权的核心技术,产品广泛应用于国资委和财政部管辖的128家央企。未来,博明信德将一如既往的坚持科技创新的国家战略,走出一条协同、包容、高效的绿色可持续发展之路。

封神劫

数据改变世界 思想重塑未来——2020大数据产业分析综述(三)

编者按:2020年11月6日11时19分,“人民号”卫星再次发射成功(此前,2020年1月15日,“人民一号”已经成功发射) 摄影:雷声2020年11月6日11时19分,长征六号运载火箭携载“人民号”卫星在太原卫星发射中心点火升空。此项目作为人民数据·人民星云数据中心的核心业务,标志着主流媒体正式进军卫星数据领域。此项目融合大数据、人工智能、区块链等技术,为全球用户提供数据采集、存储、分析、挖掘一体化卫星大数据综合解决方案,构建综合的空天数据产品共享服务平台,形成可复制、可推广、可持续的应用模式。大数据产业正借势发力,积聚力量迈向更具广阔的发展空间。大数据应用场景已经越来越生活化、大众化,如卫星互联网和大数据金融等关键领域已经让大数据应用上升到国家治理和人民生活不可或缺的层面。今天,大数据产业已经深入人心,成为各行业发展的“加油站”,明天,数字经济将驱动世界成为以大数据为核心的数字大家庭,共同发展进步。01卫星互联网产业蓬勃发展卫星互联网是基于卫星通信的互联网,通过一定数量的卫星形成规模组网,从而辐射全球,构建具备实时信息处理的大卫星系统,是一种能够完成向地面和空中终端提供宽带互联网接入等通信服务的新型网络。卫星通信与移动通信、地面光通信一样作为现代通信的重要方式之一,具有低延时、低成本、广覆盖、宽带化等优点。据SIA的统计数据,2019年全球地面设备制造市场规模1303亿美元,同比增长4.07%。全球卫星地面设备制造市场规模增长快速,从2013年的912亿美元增长到2019年的1303亿美元,年复合增长率为6.13%。卫星互联网利用大数据底层数据优势,建立我国空天地一体的卫星互联网大数据网络成为新型的网络大数据应用产业被广泛关注。大数据产业的应用已经不断发展,和各行各业融合并存、创新,成为未来数字经济、数据要素的重要体现。02大数据+互联网+卫星=无限想象2020年11月23日至24日,以“数字赋能 共创未来——携手构建网络空间命运共同体”为主题的2020“世界互联网大会·互联网发展论坛”如期而至。在大会展览主题上,“人民号”、“人民出行”和“人民数据·数字经济大脑”等前沿科技惊艳亮相。尤其是具有跨界属性、媒体基因的“人民号”卫星成为众人关注的焦点。之所以聚焦,是因为人们对大数据在卫星领域了解并不多,但同时这也是一项科学的进步,科技的创新,让人异常期待。卫星看似离我们很遥远,但卫星大数据的使用其实早已经渗透到了很多人的日常生活,包括定位导航、电视转播、气象监测等方方面面,都有卫星大数据在发挥作用。根据国家航天局数据显示,目前我国卫星应用年产值超过2000亿元人民币,这也意味着有一个近万亿级的卫星大数据市场,正在等待被挖掘。虽然有些部门拥有海量的卫星数据,但是在传统方式之下,这些数据的快速处理能力不足、数据的使用效率不高,也成为了行业的痛点。如何高效地让卫星最大化地获取有用数据,并且快速准确地完成数据分发,面向国际和国内提供数据,成了业内的当务之急。但从目前看来,我国的卫星大数据应用仍处在初级阶段。近期,卫星互联网已成为中国多个城市的“新基建”热词。北京市提出要推动卫星互联网技术创新、生态构建、运营服务、应用开发等;上海市将卫星互联网基础设施建设列为重要建设任务之一;重庆市在“新基建”重点任务中明确指出,要加紧谋划全球低轨卫星移动通信与空间互联网建设,打造全国太空互联网总部基地等。人民星云项目负责人表示,卫星具有全球大面积同步观测优势,同时拥有获取数据速度快、周期短,采集成本低,经济效益高、社会效益显著等特点。“人民一号”卫星群将作为空间基础设施的重要组成,为“一带一路”国家提供空天信息技术服务与支持,有效提升社会经济和各类事件的数据获取能力。03合作共赢,打造智慧未来当前,我国数字经济发展迅速,生态体系正加速形成,而大数据已成为数字经济这种全新经济形态的关键生产要素。通过数据资源的有效利用以及开放的数据生态体系使得数字价值充分释放,驱动传统产业的数字化转型升级和新业态的培育发展,提高传统产业劳动生产率,培育新市场和产业新增长点,促进了数字经济持续发展创新。场景化是数字经济的重要应用外,数字经济的规模化也也是大数据不断发展创新经济后的必然结果。基于金融大数据场景化解决方案的人民数据金融数据中心于2020年11月19日正式成立。该项目将为金融行业提供权威、专业、真实、高效的企业征信大数据,助力金融行业提升风险防控能力,形成金融数据融合应用新格局。与会专家表示,希望人民金融数据中心可以建立生态服务体系,以自身优势能力和资源,与监管机构、数据拥有方、场景拥有方开放合作,在数据联合治理和价值共享机制、产品研发和场景服务合作机制、市场合作机制方面一起探索,共同推动行业标准建立,更好服务实体经济。除了场景化大数据带动了行业转型升级和创新发展外,大数据在区域经济发展上也具有不可替代的作用。11月26日,由人民数据研究院承办的“一带一路”数贸发展与国际合作论坛暨洛阳市老城区“‘一带一路’文化数贸港”项目启动仪式在洛阳市老城区举行。相关负责人介绍表示,“一带一路”文化数贸港的建设,将推动洛阳市老城区经济的转变和产业结构的调整,可提高洛阳的数字交易能力、传统文化的输出能力,并助力洛阳市经济高质量的发展和产业的繁荣。近日,由人民数据(国家大数据灾备中心)承办的“云天大会”上,众多嘉宾畅谈:随着5G、大数据、传感技术等产业水平的提升,可能整个云计算或者大数据产业里将不再有人操作机器,而各种生产信息的存储及传输都会在云端完成……用数赋智,拥抱未来!历史证明,每一次人类社会重大的经济形态变革,必然产生新生产要素,形成先进生产力,如同农业时代以土地和劳动力、工业时代以资本为新的生产要素一样,数字经济作为继农业经济、工业经济之后的一种新兴经济社会发展形态,也将产生新的生产要素。大数据是数字经济的核心内容和重要驱动力,数字经济是大数据价值的全方位体现。展望未来,要勇于突破、深入探索,应用大数据创造更多新价值,加快产业提质增效,培育壮大经济发展新动能,做大做强数字经济,拓展经济发展新空间,推动经济可持续发展和转型升级。虽然疫情无情,但“危中存机”,由技术创新和技术驱动的经济创新是数字经济实现经济包容性增长和发展的关键驱动力。随着大数据技术被广泛接受和应用,诞生出新产业、新消费、新组织形态,以及随之而来的创业创新浪潮、产业转型升级、就业结构改善、经济提质增效。(梅亚川)

救援犬

数字时代,数据安全——2020大数据产业分析综述(二)

编者按:2020年6月25日,由人民网·人民数据(国家大数据灾备中心)和中国经济体制改革研究会互联网与新经济专业委员会合作撰写的《大数据风控与权益保护研究报告》在北京发布。报告梳理抗疫期间大数据的应用情况,跟踪有关数据治理方面的法律法规建设最新动态,研究数据安全与个人隐私保护典型案例,提出合法原则、最小范围原则、授权原则等关于大数据风控与权益保护的12条原则。进入2020下半年,个人信息安全、“你的脸被刷了吗?”、大数据杀熟、明星健康宝信息泄露等大数据热词不断涌现。这说明,有关信息安全成为人们日益关心的话题。01大数据风控成为信息安全的保证本次《大数据风控与权益保护报告》的发布之际,人民数据和中国经济体制改革研究会互联网与新经济专业委员会在研究中得出结论:新冠疫情防控和恢复经济,是中国大数据应用的一个分水岭和里程碑。疫情后,数据的采集、储存、分析和应用都将进入一个新的阶段,无论是采集范围、应用场景还是使用频率,都会有一个质的飞跃,社会将真正进入“大数据时代”。大数据是企业的核心资产与战略资产,攸关企业经营管理的成败生死。大数据也是政府公共治理的战略资源,直接影响到社会正常运营和应急管理。同时,数据安全治理也成为了本次会议,乃至大数据安全产业的重要话题。全国人大代表,中国移动通信集团浙江有限公司党委书记、董事长、总经理郑杰在本次报告发布会上表示,加快制定“数据安全法”。“数据安全法”要细化数据安全与隐私保护规则,保护公民合法权益;明确数据的权利归属,促进数据的确权、流通、交易和保护;要建立数据合理使用制度,实现个人与数据使用者之间的利益平衡;要建立公共数据开放共享规则,促进公共数据的合理利用;要完整确立中国数据跨境流动制度,应对国际数据竞争。全国人大代表、科大讯飞董事长刘庆峰也表示,规范管理数据全生命周期中各环节的安全保障措施,对数据的收集、流转、运营进行规范管理,避免数据泄露、数据资源滥用,对国家利益造成损害。结合各行业数据的敏感程度、数据脱敏与否、数据可用性要求等对大数据资产进行分类分级,采取不同级别的安全防护策略。此外,需要规范大数据运营企业的资质要求。涉及国计民生、国家公共安全、能源、交通等敏感行业的大数据,需要具备国内涉密资质要求的企业才可开展数据采集、汇总分析、存储等大数据运营工作,并严格控制其应用及传播范围。通过此次报告的发布,与会专家学者也认识到,涉及国计民生、国家公共安全、能源、交通等敏感行业的大数据,需要具备国内涉密资质要求的企业才可开展数据采集、汇总分析、存储等大数据运营工作,并严格控制其应用及传播范围。而作为本次报告的发布的组织者和实施者,人民网·人民数据(国家大数据灾备中心)义不容辞的担负起这项责任。02个人信息安全上升为国家战略目前,在百度搜索“个人信息安全”有近3千万个搜索结果。“共享充电宝”出卖个人信息、“大数据杀熟”和“刷脸与个人信息”也成为了近期的新闻热词。《人民日报》“人民时评”发表题为《个人信息安全,不能止于“打补丁”》的观点评论,文章表示,网络社会带给人们更多方便与快捷,但如果这个社会缺失信息安全,人们怎敢放心在电子银行存转财富?何以放心在网购时写下实名地址?安全感少一分,经济社会发展的活力可能就会少十分。一个国家的网络安全掌控能力,既体现在对经济社会发展的护航上,也同样反映在个人信息安全的保护上。2019年,中央网信办等四部门全年开展“App违法违规收集使用个人信息专项治理”、工信部信管局“信息通信领域APP侵害用户权益”、市场监管总局“守护消费”暨打击侵害消费者个人信息违法行为、工信部网安局“电信和互联网行业提升网络数据安全保护能力”等专项执法行动,获评“正当其时”,各大网络平台纷纷表态将严格加强网络保护。2020年2月9日,中央网信办公开发布《关于做好个人信息保护利用大数据支撑联防联控工作的通知》,明确为疫情防控、疾病防治收集的个人信息,不得用于其他用途。任何单位和个人未经被收集者同意,不得公开姓名、年龄、身份证号码等个人信息……随着大数据产业的不断发展应用,个人信息的安全使用和管理成为社会,乃至国家信息安全的重要战略问题。“维护个人信息安全是场持久战,也是场前所未有的遭遇战。美国也曾发生过约1.91亿选民个人信息外泄,英国巴克莱银行曾有数万客户的个人资料被盗。网络犯罪的“进化”程度,有时会超过法律法规的制定速度。从技术上寻求防护对策,在理念上提高网民安全意识,多方用力、立体防护,才能打赢个人信息安全保卫战。”03如何保护个人信息和数据安全个人信息的泄露绝不仅仅是侵犯隐私那么简单,还有可能威胁大家的人身和财产安全。像生活中经常出现的冒名办卡恶意透支、垃圾信息源源不断、骚扰电话不分昼夜等情况,很大因素是个人信息泄露所致。12月25日,在国务院新闻办召开的例行政策吹风会上,国家发展改革委副主任连维良就此回应,加强信用体系建设当中的个人信息保护、商业秘密保护,是社会信用体系建设一项重要任务。就公共信用信息领域建设来说,重点落实严格依法依规;严格落实责任;严格技术保障。连维良指出,在《民法典》中专设一章,明确了隐私权和个人信息保护。在《网络安全法》中,也明确规定任何个人和组织不得以任何非法方式获得个人信息。今年10月,个人信息保护法提请全国人大常委会审议,在推进社会信用体系建设的过程中,涉及个人信用信息,包括法人的信用信息,在归集、共享、公开、使用的各个环节,都要做到严格依法依规。对于违法采集信用信息的行为,坚决予以打击。在一些关于个人信息安全保护的讨论中,一些专业人士给出了非常接地气的回答,如在公开网站平台填写信息时,避免用真名或拼写,非必要时不要在线填表,联系方式用截图方式,尽量用邮箱代替手机号码;在不必要的情况下记得关闭软件定位;不要在社交媒体随意公开自己及家人隐私信息,以及不点击浏览不知名的网站、不随意下载来历不明的应用软件等等。这些个人信息的防范措施,相信可以一定程度上让信息最大程度的得到有效地保护。我们生处于一个信息爆炸的时代,同时这也是一个信息安全面临最大挑战的时代。在机遇与危险并存的时代,我们如何对信息的处理游刃有余呢?在本次《大数据风控与权益保护研究报告》在总结报告中写道:“互联网、大数据、人工智能具有改变世界的巨大能量,如果这种能量脱离人类文明的规范,也会带来巨大的伤害。需要警惕在社会治理中对大数据的过度攫取和应用,也需要制止商家用大数据“杀熟”等不当竞争行为。2020年中央重视“新基建”,产业互联网建设提速。如果说消费互联网时代,大数据安全侧重保护消费者个人权益;产业互联网时代,涉及能源、交通、金融等社会经济的命脉,一旦数据安全有任何闪失,可能对全社会是一场失序的灾难。因此,此时此刻研究大数据应用的法律边界和利益相关方的权益保护,具有特别重要的意义和紧迫性。”(梅亚川)

骑兵队

综述:从概念到落地,全球大数据发展驶入快车道

新华社北京12月11日电综述:从概念到落地,全球大数据发展驶入快车道新华社记者李宓大数据已不是全新的概念,海量数据开启了一次重大的时代转型,改变了人们的生活及理解世界的方式。随着数据经济、数据管理、数据强国等概念的普及,各国政府近年来一直加强对大数据的扶持,将大数据从商业概念上升到国家战略。从概念到落地,经过近几年的政策部署,全球大数据发展驶入快车道。大数据已走在创新和生产力提升的前沿,对数据资源的开发利用乃至保护也成为决定国家竞争力的要素。提升国家治理水平美国是最早将大数据上升为国家战略的国家。早在2012年3月,美国政府就公布了2亿美元的《大数据研究发展计划》,提出通过提高美国从大型复杂数据中提取知识和观点的能力,加快科学与工程研究步伐,加强国家安全。计划公布一年后,“技术美国基金会”发布的调查显示,87%的美国联邦政府IT官员以及75%的州政府IT官员认为,大数据对政府工作发挥着立竿见影的实际作用。来自美国民调机构佩恩-舍恩-伯兰公司的调查显示,在受访的近200名美联邦政府IT官员中,有83%表示“大数据解决方案可帮助政府削减至少10%的联邦预算”。紧随美国之后,日本政府于2013年发布了“创建最尖端IT国家宣言”,全面阐述了2013年至2020年间以发展开放公共数据和大数据为核心的国家战略,强调“提升日本竞争力,大数据应用不可或缺”。据日本矢野经济研究所预测,2017年日本大数据市场规模为6300亿日元,2020年将超过1万亿日元(1美元约合114日元)。促进改善民生在大数据红遍全球的背景下,无论是领先发展的欧美,还是迎头赶上的东亚,发展大数据的一个重点在于推进数据开放,优先发展推进与民生保障服务相关的数据。近年来大数据生态系统日益完善成熟,为人工智能的发展奠定了重要基础,而人工智能也催化着大数据应用层的“井喷”,以智慧城市为代表的大数据服务于民的案例屡见不鲜。阿里巴巴公司推出的阿里云“ET城市大脑”是目前全世界最大规模的人工智能公共系统,可对城市大数据进行自我分析、自我判断和自我处理。该系统在杭州试用一年,接管杭州128个信号灯路口,试点区域通行时间缩短15.3%,高架道路出行时间节省4.6分钟。在主城区,“城市大脑”日均报警500次以上,准确率达92%。在萧山区,120救护车到达现场时间缩短一半。在欧洲,西班牙古老港口城市桑坦德是欧盟智慧城市的试点。在面积约为6平方公里的市中心,近1万个传感器每隔几分钟把城市的交通、天气、行人动作等数据传到数据中心。数据中心能通知市政当局路灯的情况,并根据需要自动调节路灯亮度。市民通过一个名为“城市脉搏”的手机应用获得整个城市的相关信息。保障数据安全面对海量数据的生成和储存,以及大量的跨境数据流动,如何保障数据安全是当前大数据发展所面临的重要问题。将在明年5月正式生效的欧盟《通用数据保护条例》被看作是数据保护里程碑式的法律,力求在当今快速的技术变化环境下,加强对个人隐私权、物联网隐私权的保护。这项法律的引人注目之处在于,法律的管辖范围不是按照国家/地域划分,而是按照数据的分布来认定。也就是说,非欧盟企业和组织向欧盟用户提供服务,即便是免费的服务,也需要严格遵从欧盟这份数据保护条例的要求。条例中最吸引眼球的是巨额罚款,对于严重的违法,罚款上限是2000万欧元或违法企业或组织前一年全球营业收入的4%(两值取大者)。如果是谷歌、脸书等涉及较多个人数据的公司按照全球营业收入罚款,开出的罚单金额可能高达几十亿欧元。这项法律在草案出台阶段就震动了大量收集用户个人数据的互联网巨头,他们认为《通用数据保护条例》将极大阻碍数据的商业挖掘价值,给企业带来额外成本。严格限定和监管企业收集、分析和管理用户信息是否会制约大数据带来的创新空间?政府和监管机构如何在数据保护和数据融合创新间找到平衡?大数据发展进入快车道,依然面临探索与挑战。

成名记

综述:大数据智能化让民众与文物更亲近

图为市民戴上VR眼镜可感受白鹤梁水下博物馆水中题刻。 钟旖 摄中新网重庆8月26日电 (记者 钟旖)戴上VR眼镜可化身“潜水员”与水中题刻亲密接触、借助互联网可去敦煌石窟游历一番、手势翻转文物3D图像犹如将实物置于掌心……这些都是大数据智能化赋予人们的文博新玩法。在刚刚闭幕的首届中国国际智能产业博览会上,以“联结历史、创造未来”为主题的智慧文博展区受到追捧。当曾经被束之高阁的文物日渐“解封”,变得可观、可玩、可触碰,人们不禁感叹,自己与文物竟可如此亲近。大数据让文物保护更高效“馆藏文物保存环境监测调控系统”是一个针对文物存放环境做监测的软件平台。工作人员可在PC端与手机客户端实时掌握博物馆内文物信息,精确到某个展柜的某个文物。“温度、湿度、紫外线、光照、有机挥发物、空气质量等,每一项异动都会影响到文物的保存与寿命。”监测调控系统设计师、重庆声光电智联电子有限公司产品经理曾轶哲介绍,该系统利用物联网、云平台、大数据等多项高新技术为文物创造稳定、洁净的生存环境。自2015年下半年投入市场,目前已在全国23家博物馆运用。登陆系统记者看到,展厅号、展台展柜号、报警文物、报警参数等信息一一在列,最新一次报警写着:报警文物“石球”、温度偏高4.1(摄氏度)。借助大数据分析、预判,文物保护已从被动修复转向预防性保护。技术革新背后也带来管理成本的下降。曾轶哲称,在安装监测调控系统前,工作人员只能巡逻监测,人力投入大。现在不仅能实现24小时监控,还更加精准。图为市民感受数字敦煌,欣赏洞窟全景漫游。 钟旖 摄多维度扫描让文物元素变时尚近年来,以文物元素为基础衍生的文创产品横空出世又热度不减。围裙上的图案是清朝官服上的祥云瑞兽、小巧的U盘灵感来自皇帝的扳指、丝巾上的最佳点缀是古代女子佩戴的金步摇……凡是人们生活中能用到的大小物件,都因文物元素的加入增添厚重感与神秘气息。机械工业仪器仪表综合技术经济研究所设计师郑怡然的日常工作,是利用智能化手段,从文物中提取文化元素和图案,形成设计资源,为文创衍生品提供创新创意。她认为,“这是对文物的传承和再利用,可以帮助文物‘活’起来,走出博物馆。”“从2013年起,我们研发了多维度的扫描提取文物素材软件,并建立文物数据共享平台,在提取文物材质、颜色、大小、尺寸等要素同时,对文物知识进行分析,便于再利用。”郑怡然透露,该团队目前已能实现器物、织物、建筑、壁画四类文物的素材采集工作,未来将拓宽扫描领域。 高科技让民众亲近文物零距离“上世纪90年代初,我们开始探索敦煌数字化保护。2017年已完成100多个敦煌洞窟的数据采集、图像处理和全景漫游节目制作。现在数字敦煌已在全球几十个国家上线。”敦煌研究院文物数字化研究所馆员丁晓宏介绍,通过数字敦煌,观众可高速浏览大分辨率图像,欣赏洞窟全景漫游,360度观看30个敦煌莫高窟洞窟的各个位置,了解洞窟历史。他说,此举可让全世界民众足不出户也能感知敦煌、了解敦煌。被誉为“世界第一古代水文站”的白鹤梁水下博物馆,其文物处于江水中,市民只能隔窗观望,而通过VR技术,市民可超越现实条件禁锢,近距离观赏梁上石刻及古迹。“两个月前,我们在博物馆内设置VR体验,利用三维扫描数据,通过科技手段对文化创意进行加工,让文化遗址原貌复活。”白鹤梁水下博物馆办公室主任蒋锐说,通过虚拟呈现方式,体验者可化身“潜水员”,与水下题刻零距离接触,与长江珍稀鱼类嬉戏,大大增强了游客的体验感。通过智能化手段,文物不再束之高阁,甚至可以“捧在手心”。“交互式全息展示柜及LED全息玻璃柜”是一个多媒体立体展示系统,观众可在线上线下用手凌空操作、把玩文物,通过全息影像、文字及声音介绍,全方位了解博物馆镇馆之宝。“我们运用‘点云数据’采集文物数据,形成3D模型。以一个花瓶为例,精度低的要采集几百万个点,高精度则要采集千万个数据点。”系统开发者、重庆物鲸数字科技有限公司总经理熊箐说,该系统投入市场后,将增加文博游览趣味性。目前该系统中已收录1000件文物信息。文博与时尚的碰撞,已然充斥人们生活,高科技的加持,让文物不再遥不可及。今年70岁的郑芸芸老人站在敦煌石窟全景展示屏幕前,迟迟不肯离去。她说,这辈子没有机会去到敦煌,没想到高科技让一切都实现。

大赌局

融合创新大数据 发展再上新台阶——我市大数据产业发展综述

□ 本报记者 阮兴时又是一年盛景时。8月的吕梁,街巷楼宇间,“大数据”再一次成为热议的焦点。结缘大数据,探索大数据,发展大数据。“吕梁通”城市综合服务平台广泛运用,5G建设和应用率先布局,“数字经济产业园”建设步入快车道,52个落地项目持续推进,大数据在吕梁扶贫、三农、医疗、旅游、能源等领域的运用,已成为我市蹚出一条转型发展新路的生动实践。8月18日,第四届“数谷吕梁·智赢未来”大数据产业发展推进会将会如期而至。众多院士专家、数百知名企业再一次云集吕梁,再次奏响吕梁大数据产业发展集结号。吕梁厚重的“黄土地”正在变成大数据产业发展的“金土地”。加快夯实大数据基础设施产业生态蓬勃发展在大数据发展浪潮中,云计算、物联网、人工智能等新一代信息技术日臻成熟和广泛应用,正悄无声息地改变着日常生活。近年来,市委、市政府深入学习贯彻习近平总书记视察山西重要讲话重要指示,全面落实省委“四为四高两同步”总体思路,把实施大数据战略作为在率先蹚出一条转型发展新路上奋勇争先的重要战略抓手,进一步结合实际,强力推进大数据产业发展。只有抢占先机,才能赢得生机。2017年以来,我市相继出台《吕梁市促进大数据发展应用的若干政策》《吕梁市数字经济园大数据产业发展优惠政策》《吕梁市加快推进数字经济发展的若干政策措施》。今年,我市首次设立大数据发展应用专项资金,制定了《吕梁市大数据发展应用专项资金申报指南》,对大数据发展应用项目给予奖励或补贴。越过山岭,道路一往无前笔直延伸,驱车驶进吕梁经济技术开发区“一区三园”之一的“数字经济产业园”,这片如火如荼建设发展中的沃土吸引着世人的目光。2018年8月,山西省政府批复设立吕梁经济技术开发区;2019年9月,吕梁经济技术开发区党工委、管委会揭牌成立;2020年2月,吕梁市人民政府印发文件,赋予吕梁经济技术开发区管委会市级行政管理事项190项。制定智慧城市设计规划,启动建设智慧园区、数创基地、孵化基地、信创基地,我市大数据产业基础设施正在不断完善。按照党的十九大“新型基础设施建设”的部署和贯彻习近平总书记在“六新”上不断取得突破的重要指示,近年来,我市不断升级吕梁云计算中心“天河二号”超算机组,建成(1000机柜)华为山西(吕梁)大数据中心,山西(交城)大数据产业园中西部数据中心,云计算形成了华为云、天河云以及移动、联通、电信三大运营商竞争中合作、合作中竞争的良性态势,抢抓5G发展先机,成立5G建设和应用服务专班,改造完成5G基站1189个,启动运行5G工业互联网创新实验室,建设5G+三川河流域河道检测、5G+大气污染源监控、5G+黄河生态综合治理监控、5G+森林林火监控等多个5G应用项目,这些项目的完善,为大数据发展再上新台阶提供了沃土。加快大数据与产业深度融合促进传统产业转型升级前三届“数谷吕梁·智赢未来”吕梁大数据产业发展推进(介)会上,我市共签约项目57个,签约金额54.33亿元。通过不断巩固招商引资成果,引进了北京思源政通、北京航天驭星、北京中景合天、上海积成能源、苏州莫比嗨客智能科技、山西森软科技等大数据企业,这些大数据企业纷纷落地吕梁,涵盖了数据加工、智能产品制造业、信息技术应用创新等领域,有力助推了我市大数据与传统产业深度融合。在交口县南山村,占地320亩的“吕粮山猪”养殖基地完全实现了数字化、智能化的养殖方式。只要站在养殖基地视频监控大屏前,产房、育肥室等各处设施一览无余。通过互联网、物联网和二维码技术,“吕粮山猪”对养殖、屠宰、运输、包装、销售等信息进行数字化管理,实现生猪养殖生长过程有记录、记录信息可查询、流通去向可跟踪、主体责任可追究、问题产品能召回、质量安全有保障,让每头猪都安全可追溯,促进生猪养殖标准化生产,保障食品安全。在我市的传统产业中,运用大数据的不只“吕粮山猪”,汾阳拉货王大宗物流大数据服务应用平台、文水晋能清洁能源科技股份公司智能工厂、孝义信发智能化工厂、汾阳吕农生物科技智慧工厂等项目依靠大数据,实现了智能化。煤炭作为我市的支柱产业,乘着大数据发展东风,也进行深度融合。近年来,我市启动建设全市工业互联网服务平台,离柳焦煤、吕安危化、吕农生物等企业不断开展数字化、网络化、智能化改造。中阳钢铁有限公司即将建成数字化能源管控项目,实现能源利用智能化、数字化管控。吕临能化有限公司庞庞塔煤矿智能化矿山获得全国第一张“5G井下专网”,建设完成170个井下5G基站,实现5G信号井下全覆盖。鹏飞集团挂牌成立了“5G+智慧煤化工联合实验室”,助力提升企业生产经营效益,即将完成5G+智慧煤化工信息化基础建设。大数据同样运用于我市的脱贫攻坚当中。发挥大数据的优势,我市研发推广的“一码清”大数据平台,如今已在全市所有的县、乡、村、户四级生成二维码,通过基础数据核实录入、满意度评价、产业就业调查、跟踪监测、脱贫自查五大模块,实现了“识贫、扶贫、脱贫”三精准、“责任、政策、工作”三落实。“只要扫一扫二维码,贫困户对应享受的政策、受到的帮扶、获得的收益一目了然,各级干部在核查过程中,对帮扶工作全面检点、全面落实,提高了群众对政策的知晓度和干部帮扶的精准度。”扶贫一线的干部们对“一码清”平台的运用赞不绝口。加快大数据与服务民生深度融合提高人民群众生活质量民生是最大的政治。近年来,我市紧抓群众最关心的问题,不断加快大数据与服务民生的深度融合,不断提高服务民生的质量水平,努力满足人民日益增长的美好生活需要。8月6日下午,“吕梁通”城市综合服务平台应用活动在市政务服务中心一楼大厅举行,现场人头攒动,热闹非凡,市民在工作人员的指引下,纷纷扫描二维码,下载注册“吕梁通”APP。“登录‘吕梁通’,百事都畅通。”记者了解到,“吕梁通”城市综合服务平台1.3版,包含了行政事项、医疗服务、便民服务、缴费服务等10大类227项服务,截至目前累计用户注册量达30万人次,下载量约80万人次,启动总次数达600万次,2019年,“吕梁通”城市综合服务平台荣获中国信息化和软件服务业年度优秀产品奖,日益成为民众、企业的“网上超市”。数据多跑路,群众少跑腿。在智慧政务方面,我市出台了数字政府建设实施方案,打造智能政务服务平台,建设数字政府大综合平台,提升“区块链+政务服务”应用平台。建成了社会信用信息平台、政务信息资源共享交换平台、河长制信息管理平台、农村饮水安全信息平台、无人机河道巡查系统。汾阳市智慧党建、智慧城管、融媒体中心走在全省前列。启动了建设数字城管大数据平台、智慧文旅监管服务平台、农业“五库两平台”。智慧环保大数据项目推动我市空气质量在全省和汾渭平原11个城市名列前茅、河流断面水质明显改善。智慧城市,为生活添彩。在智慧民生方面,我市建设完成吕梁市人民医院、汾阳市人民医院眼科人工智能医生、分级诊疗、远程诊疗的落地工作。“吕梁山护工服务平台”“眼科人工智能辅助诊断系统”等5项大数据扶贫产品和应用,经省工信厅遴选后向全省推广。兴县扶贫车间暨大数据基地通过发展服务外包产业,既促进了兴县现代服务业发展,又带动了当地群众就地就业。大数据产业要长足发展,最终依赖于人才队伍的建设。经过吕梁市大数据专家咨询委员会“一委”把脉问诊,为我市大数据发展应用战略规划、政策措施的制定,提出了不少重要意见和建议。吕梁市军民融合协同创新研究院成立“5G工业互联网创新实验室”,与中科院计算所、中国大数据与智能计算产业联盟合作推进超算应用,吕梁智能大数据产业技术创新研究院建设空间信息大数据应用中心项目,“两研”成果泉涌。吕梁学院、吕梁职业技术学院大数据学院“两学院”梯次育人,不断引进培育大数据人才,不断推动我市大数据人才队伍和大数据应用发展壮大。通过畅通高校和企业人才双向通道,吕农生物科技有限公司、晋能清洁能源科技有限公司等企业不断引进大数据领域专家、大数据人才队伍日益壮大。数据源源不断汇聚而来,创新要素融合成“生态圈”。今年作为《吕梁市大数据产业发展应用规划(2017-2020年)》的收官之年,吕梁大数据产业发展的愿景正在逐步实现。展望未来,我市将以习近平总书记视察山西重要讲话重要指示为指引,全力聚焦“六新”突破,着力把吕梁打造为国家级超算中心、区域级数据中心和数据灾备中心、大数据应用先进地级市,为山西率先蹚出转型发展新路作出应有的贡献。

白丝线

大数据:作为一种方法论的追溯与质疑

赵曙光,南京大学新闻传播学院教授。吴璇,南京大学紫金传媒研究院(北京)研究员。本文系江苏省社会科学基金基地专项课题“传统媒体融合传播效果大数据评估研究”(项目编号:16JJD002)的阶段性成果。近年来,“大数据”成为学术界广泛关注的热点。2018年,“中国知网”收录的中文论文中,题目包含“大数据”的论文数量相较于前一年增长了20%。然而,究竟什么是“大数据方法”、如何理解所谓“大数据方法”,又或者究竟存不存在所谓“大数据方法”?鉴于大数据一词在学术研究中日益增长的影响力,厘清这些问题的必要性日益凸显。只有明确“大数据方法”的本质和“大数据方法”在传播学领域所指代的含义,了解国内外对“大数据方法”在内涵和使用上的异同,才能避免因概念内涵和外延模糊所造成的误用。本研究围绕“大数据方法”梳理国内外传播学领域的相关文献,编码分析“大数据方法”在国内学术研究的诸多含义,并通过与国外学术研究的比较,对是否存在“大数据方法”进行了探讨。一文献综述虽然学界对大数据这一说法的最早起源时间说法不一,但绝大多数学者接受和认可“大数据”是在2011年左右开始获得大范围关注这一观点(Gandomi & Haider,2015)。国外学术界对“大数据”展开了广泛的讨论,著名的信息科技研究和分析公司高德纳(Gartner)用规模性(volume)、高速性(velocity)和多样性(variety)定义大数据(Gartner,2012)。总体上看,高德纳将大数据定义为一种大规模高速产生的多样化的信息集合,且需要有效的和创新性的形式进行处理,以获得更强的洞察力、决策力和过程的自动化。在此基础之上,又有学者和机构不断进行补充,加入了更多的维度,例如价值性(value)(Oracle,2013;Gogia et al.,2012)和精确性(veracity)(White,2012)。还有其他的一些定义也被广为接受,例如马尼卡(Manyika)等人认为,大数据是一种难以被普通的数据处理软件捕获、储存、管理和分析的大规模数据集(Manyika et al.,2011:1);而博伊德(boyd)和克劳福德(Crawford)则将大数据定义为一种文化、科技和学术现象。针对这些定义,也有研究进行了不同的分类。德毛罗(De Mauro)等人认为大数据通常从四个不同的角度被定义,分别是信息(information)、科技(technologies)、方法(methods)和影响(impact)(De Mauro,Greco & Grimaldi,2015)。当前日新月异的计算机技术使得对大体量数据的处理和分析变为可能,对大数据的应用已经突破某一特定领域,渗透到了人们日常生活的方方面面。大数据日益增长的重要性也催生了对其广泛的研究和讨论。在国内传播学研究领域,“大数据方法”一词在不少文献中出现,有研究指出当下我们应该具备大数据思维:大数据思维只关注相关性而非因果关系,是一种“思维的革命”;此外,大数据使得样本转变成了“总体”和“全部”,从而避免了传统随机采样方法中的不精确,;大数据时代的来临使得科学研究的关注点从“鸡零狗碎”式的小问题上升到对整个学科发展的宏观趋势,而且“更好的数据算法和有效的数据处理法则”的重要性将会超过理论(喻国明,2014:45)。二研究问题本研究将全面梳理和揭示“大数据方法”在国内传播学界的使用现状,并对大数据方法在国内外研究的应用进行对比,同时就“大数据方法”这一概念的合理性进行探讨,促进对大数据方法的科学理解,减少此概念的误用和随之带来的理论及实际操作中的分歧。因此,本文主要探讨以下三个研究问题:“大数据方法”这一概念的内涵和外延是什么?“大数据方法”作为一种研究方法是否成立?“大数据方法”是否具有研究方法层面的创新?三研究方法本文采用扎根理论(grounded theory)作为主要的研究方法。本文基于中国知网(CNKI)收录的北京大学核心期刊、CSSCI及中国社科院中国人文社会科学核心期刊的新闻传播类论文,以“大数据方法”和“大数据的方法”为关键词,选取了所有时间段内全文包含任意一关键词的文章。研究将筛选后剩余的79篇论文结合上下文对相关内容进行开放式编码,在明确“大数据方法”一词在这些文献中的含义后对其进行分类。为确保分析结论的效度,共有两名编码员参与数据分析。编码员首先进行了预编码,随机抽取30%,共24篇论文,由两名编码员各自独立编码,并将编码结果进行比对,显示共识度(level of agreement)为64%。基于两份数据分析结果,编码员就有分歧的编码进行解释、讨论、协商,最终达成了统一的意见。形成统一意见后,两个编码员分别对剩余论文进行了编码,在此期间编码员采取了持续比较(constant comparison)的方法。最终结果显示Kappa系数为0.81,共识度为89.69%,支持了数据结论的信度。为了解国外传播学文献对“大数据方法”的研究,本文选取“big data method”“big data methodology”“big data approach”及“method of big data”为关键词,使用高级检索功能(advanced search)在不限制文献发表时间段、不限制语言、不限制文献类别、不限制关键词在文献中出现区域的前提下在Web of Science数据库中进行了检索,然而结果显示在传播学类别下包含这些关键词的文献数量只有两篇;将搜索范围从传播学扩大到整个社会科学领域后,包含这些关键词的文献数量仅有三篇。此种情况意味着很难对中外相关文献进行对比分析,更合理的假设是国外研究中可能并不存在“大数据方法”这一概念。为了进一步验证“大数据方法”是否存在于国外学界对大数据的主流研究之中,本研究进一步扩大了文献检索范围,将关键词仅限定为“big data”,并将检索范围扩展至全部Web of Science数据库之后筛选出所有有关大数据的高影响力文献并对其主要议题进行分析归纳。检索结果显示在2009年之前,大数据研究论文数量非常有限,但在此之后呈现出明显的持续性增长,因此,本文将检索时间范围确定在了2009年至2018年,共计21347篇。为了了解这些大数据论文的主题,本文运用数据分析软件Matlab抓取了论文的关键词并分析了它们的出现频率,考虑到关键词的代表性,本文选取出现率排名最高的前20个词语并筛选出关键词中包含其中一个或者多个的论文(关键词频率和共现矩阵参看图1),并对论文进行了深入的全文分析(具体抽样流程参看图2)。中英文数据收集及分析总流程图参见图3。四传播学研究领域对“大数据方法”的五种理解根据对所选取国内传播学领域论文的内容分析,“大数据方法”一词呈现出五种不同的理解,其概念的内涵和外延较为模糊,并未形成统一的界定和共识。大数据方法在不同的研究中分别指代:大数据、大数据技术、定量研究方法、全新的研究范式和数据挖掘及分析。(一)将“大数据方法”等同于大数据《浅谈大数据在图书出版中的应用》认为“大数据作为一种方法论已经在选题策划的诸多环节得到应用,信息采集、选题设计成型和组稿等环节都因为大数据方法的应用而出现了许多创新”(孙晓敏,2017:54)。《国内新闻传播学大数据研究综述》也谈到“在传播学研究中,大数据还是一种研究方法。将大数据方法运用于社会舆情分析,用大数据价值挖掘与分析技术,分析当下中国社会舆情的结构性特征”(王霞,2017:19)。显然,这两篇文章已明确表示“大数据”等同于“大数据方法”。然而,值得注意的是,上述研究在后续的讨论中又赋予了“大数据方法”另外一种含义。《浅谈大数据在图书出版中的应用》在将大数据定义为一种方法后,紧接着谈到大数据方法在实际工作中的具体运用,如“在信息采集方面,基于选题方向发挥大数据挖掘等技术优势,全面、快速、准确地采集选题关键信息……在选题设计成型方面,舆情分析中数据挖掘的技术手段,可以对选题的社会影响等做适当的预估;语义网络图的技术手段,可以对选题与同类选题做优劣势比较”(孙晓敏,2017:54)。无论是因为措辞的不准确还是因为对概念的模糊理解,尽管这类文章在文字上明确的将“大数据方法”与“大数据”划等号,但总体上全文还是呈现出指代多样的情况。(二)将“大数据方法”理解为一种具体的技术手段《处变守常:美联社的坚守——评杰里·施瓦茨的〈美联社新闻报道手册〉》认为“如今不少媒体开始用大数据方法处理海量信息,让有价值的新闻资讯通过非人工的技术手段予以呈现,甚至用机器人替代职业记者进行新闻写作”(张涛甫,2016:86)。在这里,“大数据方法”主要体现在各种处理信息,呈现资讯甚至是进行新闻写作的技术,可以说作者想要表达的“大数据方法”更侧重于技术手段。同样的,在《两会报道大数据运用的趋势与类型》一文中,谈到大数据技术也被广泛地运用到了新华社的两会报道中,并举例说某一篇报道方式主要就是“针对大数据方法从社交媒体中提取的关键词,军队人大代表、政协委员就中国军费增长进行解读”(贺俊浩,林沛,2014:40)。(三)将“大数据方法”定义为定量研究方法的一种《大数据在政府公众形象建设中的应用》将大数据方法与文献分析法、归纳总结法、演绎分析法和个案分析法等定性研究方法相类比,认为大数据方法的出现能够改变定性研究方法主导政府公众形象研究的现状,“增加定量研究方法的比重”且能使得该类研究“更具可靠性和可信度,有助于提高研究成果的科学性”(李文清,2017:105)。《大数据背景下舆论调查方法反思》明确地将大数据方法与传统定量调查方法并列,并详细地比较了二者在数据搜集方面的异同,从侧面表明了作者认同“大数据方法”属于定量研究方法这一观点(刘冰,2018)。(四)将“大数据方法”提升到抽象化的范式层次这一类研究认为“大数据方法”就是一种全新的、开创性的、值得推崇的研究范式。《2014年中国新媒体传播研究综述》认为“大数据方法”可被称为“继实验科学、理论科学和计算科学之后的第四种科学研究模式”,并且它作为一个“从复杂现象中透视本质”的有用工具,不仅适用于科学研究,也将广泛应用到各行各业(付玉辉,2015:36)。在此类研究中,“大数据方法”既不指代数据本身,也不指代大数据相关的技术,更不是某一种类别的研究调查方法,而是偏向定义为一个笼统的、高度抽象化的概念,即“研究范式”。在这个定义下,“大数据方法”不涉及具体层面上的数据挖掘和分析活动及其相关的技术手段,而是作为一个与大数据相关的各种研究行为的集合存在。(五)将“大数据方法”指代数据挖掘、搜集或(和)分析的行为与前面几类研究不同,这类研究更多的是将“大数据方法”界定为对处理大数据各种行为的一个概括。例如,《媒介与媒介化的互动机制》谈到“利用大数据方法分析这些信息,建立用户需求数据库……提供个性化的信息内容和精细化的服务”(戴海波,杨惠,2018:53)。“大数据方法”指代的就是一种数据分析方法。而在一些研究中,“大数据方法”更偏向于一种数据挖掘的方法。相对于其他几类研究,此类研究在选取的所有论文中占比相对较高,着重强调了“大数据方法”作为一种特定行为的本质。五“大数据方法”:一个贴标签式的学术概念通过分析国际大数据的研究成果,发现出现率最高的20个关键词集中在以下研究议题:(1)算法层面的分析方式;(2)大数据分布式系统基础架构;(3)对大数据分析的泛指;(4)除上述三种以外的其他零散研究:如数据科学(data science)、社交媒体(social media)、推特(Twitter)、物联网(IoT, Internet of Things)和隐私(privacy)。无论所属哪一学科,这些研究的关键词或具体或抽象,但可以明确的是它们都指代明确、表述清晰,将大数据作为研究对象,而不是将大数据界定为研究方法,或者说并不存在一个模糊的“大数据方法”的概念。虽然“大数据方法”一词在国内学界热度不减,但其核心的定义与要素在国内传播学研究中还没有得到明确的界定,传播学研究对“大数据方法”复杂多样的解读也印证了这一观点。值得关注的是,通过对关键词和高引用率论文的梳理,虽然国际学术界关于大数据的研究并未明确提及“大数据方法”的概念,但是围绕“针对大数据的分析方法”及其相关技术的讨论较为深入。Web of Science中全文包含“big data”且引用率在200以上的论文共计50篇。对这些高引用率论文进行逐一梳理,发现这些研究更多的是涉及到分析大数据的概念与方式,其中包括极限学习机(Extreme Learning Machine)、深度学习(Deep Learning)、最邻近算法(Nearest Neighbor Algorithm)、块坐标下降法(Block Coordinate Descent Method)、张量分解(Tensor Decomposition)、网络理论(Network Theory),以及卷积网络(Convolutional Networks)。“极限学习机”由黄广斌教授等人于2006年提出。其计算速度远远大于其它的前馈神经元网络(Huang,Zhu & Siew,2006),在解决回归和分类问题上具有优势。诚然,“极限学习机”也存在一些有待完善的地方,比如隐藏层节点数的选取以及对数据噪声的承受能力(Huang,Zhu & Siew,2011)。“深度学习”由辛顿(Geoffrey Everest Hinton)等人于2006年提出(Hinton,Osindero & Teh,2006)。“深度学习”方法在语音识别和图形识别领域具有广泛的应用(LeCun,Bengio & Hinton,2015),在一些应用场景下,其隐藏层数目可以达到152层(He,Zhang,Ren & Sun,2016)。“深度学习”的一个缺陷就是神经元网络的训练时间比较久,但是当神经元网络训练好之后,“深度学习”的测试时间比较短(Kamilaris & Prenafeta-Boldú,2018)。“最邻近算法”由希布逊(Robin Sibson)于1973年提出,其基本思想是利用空间距离的远近来对数据进行分类,同一类别的数据可以用这个类别具有代表性的数据来表示(Sibson,1973)。它的最大优点在于算法的简单性,不足之处在于其对计算机内存的要求较高,因为要同时计算各个点之间的距离(Bhatia,2010)。“块坐标下降法”由伯恩哈特(Craig M. Barnhart)等人于1995年提出的一种优化算法,在处理线性模型上有优势,包括线性支持向量机、LASSO回归和逻辑回归(Glasmachers & Dogan,2013)。不过,“块坐标下降法”在使用中需要注意避免迭代收敛到局部极小值(Canutescu & Dunbrack,2003)。“张量分解”由道尔(Thomas Carlson Doyle)于1941年提出,是矩阵分解的一种高维延伸,其基本思路为将一个高维空间的张量表示为多个正交向量的线性变换组合(Doyle,1941)。因为“张量分解”把一个复杂的张量分解成几组互不相干的分量,大大简化了张量的复杂程度。“张量分解”在使用中常常得到比较抽象并没有实际物理含义的分量,在实际使用中对数学能力要求较高。“网络理论”是一个逐渐形成的理论。其本质是利用图论的知识来分析网络结构,而图论的起源可以追溯到18世纪被欧拉解决的柯尼斯堡七桥问题(Biggs,Lloyd & Wilson,1986:1736-1936)。“卷积网络”又名卷积神经网络,由勒丘恩等人于1990年提出,卷积网络通过卷积运算对输入数据进行加工,再输送到全连通网络结构中进行运算(Lecun et al.,1990)。由于“卷积网络”是“深度学习”的一种方法,其优缺点同上文所述“深度学习”基本一致。对高引用率的国际大数据研究进行分析,可以发现大数据研究常用的上述方法并非近几年来所诞生的新方法。因此,如果把这些作为一种全新的研究方法,并定义成“大数据方法”是难以成立的。一方面,国际大数据学术研究成果中不存在“大数据方法”这一概念,并且学术文献中所提到的用以分析大数据的各种方法也早已存在,并无方法论层面的重要创新;而另一方面,国内研究界对所谓“大数据方法”的认知和定义尚未统一,其内涵和外延均较为模糊,“大数据研究方法”成为具有一定随意性和贴标签式的学术概念。六方法论视角下的“大数据方法”从方法论的角度来讲,“大数据方法”也是一个缺乏严谨性和规范性的说法。在国际学术文献语境里,方法(method)与方法论(methodology)大为不同:方法是指进行科学研究所需要用到的工具,而方法论则是指对这些工具如何使用以及如何解读的一系列原则(McGregor,2017:21)。方法论强调科学研究的哲学基础,而方法则更偏重研究中的过程及具体手段(McGregor,2017:21)。方法论与方法之间具体的特点对比参见下表。一方面,“大数据方法”并不是一种方法论。通过对大数据的英文文献的分析不难发现,其中涉及到的大多数应该归类于具体的大数据分析手段,很难归属于方法论。而中文文献中的“大数据方法”尽管有五种不同的解读,但不是每一种解读都能完全地回答作为一个方法论在本体论、认知学、逻辑学和价值论等方面所提出的问题。例如我们将“大数据方法”理解成大数据本身、具体的技术手段或者数据挖掘、搜集和分析行为,那么这样的理解只是停留在具象的层面,无法反映出其对真理的本质、对知识的定义等哲学层面的认识。若是把“大数据方法”理解为定量研究方法的一种或者“全新的研究范式”,那么认为“大数据方法”是一种方法论也具有合理性。但因为目前依旧没有形成针对本体论、认知学、逻辑学和价值论这四方面成体系的论述,将“大数据方法”判定为一种方法论显然欠妥。因此,国际学术研究文献并不存在将“大数据方法”作为一种方法论来看待的讨论,而国内文献中由于对“大数据方法”这一概念的模糊而不统一的定义,也无法做出“大数据方法”是一种方法论的论断。另一方面,“大数据方法”也不是一种方法。在国际学术研究文献中并没有提到“大数据方法”,而是以一些具象的数据分析方法来阐释大数据的应用,比如前文提到的极限学习机、深度学习、最邻近算法等。在中文文献中,学者们对“大数据方法”有五种不同的解读。虽然其中一种解读将“大数据方法”理解成具体的技术手段或数据挖掘、收集和分析行为,但是这些具体的技术手段或数据挖掘、收集和分析行为之间差异显著,以至于无法依靠一个统一的技术实施步骤来进行“大数据方法”的执行和操作,使得“大数据方法”无法作为一种方法。无论从方法论角度来看,还是从方法角度来看,都无法把“大数据方法”归类到其中任何一个,这种左右两难的处境是和当前的时代背景息息相关的。总体上看大数据是当前席卷全球的一个热门词汇,在很多人看来象征着最尖端的科技和最领先的潮流。因此,“大数据”一词形成了席卷社会的热潮,学术界也不可避免地受到这股热潮的影响,从而营造了“大数据是一种研究方法”的氛围和环境。但是,通过对国内外学术研究文献的比较分析,可以发现,将“大数据方法”作为一种创新性的研究方法来看待缺乏严谨的科学依据。因其复杂且模糊的内涵和外延,大数据研究方法作为一个概念来说难以成立。当然,“大数据是一种研究方法”的说法在国内学界的存在与流行也是有其客观原因的。囿于语言的不同,国内传播学界与以英文为主导的国外学术圈仍存在着一定的壁垒。相对于后者的体量而言,国内传播学界的知识生产与流通在一定程度上仍局限在一个较小的范围,并不利于对新知识的广泛批判与检验,因此也为类似“大数据方法”的伪概念提供了传播的土壤。学术界应该谨慎对待所谓“热点”,避免人云亦云,大胆怀疑,小心求证,使得知识成果站得住、立得稳,经得起时间的检验。本文系简写版,参考文献从略,原文刊载于《国际新闻界》2020年第11期。封面图片来源于网络字样本期执编/阿宋订阅信息全国各地邮局均可订阅《国际新闻界》,国内邮发代号:82-849,欢迎您订阅!您也可通过下方二维码或网址https://weidian.com/?userid=1185747182,进入国际新闻界微店,购买当期杂志和过刊。您还可访问《国际新闻界》官方网站 http://cjjc.ruc.e.cn/ ,免费获取往期pdf版本。

医和

《大数据》2020年第5期目次&摘要

《大数据》第6卷第5期 2020年9月大数据2020年第5期(点击原文链接在官网阅读完整文章)目次01 专题导读:医学大数据邹北骥02一种基于深度神经网络的临床记录 ICD自动编码方法杜逸超,徐 童,马建辉,陈恩红,郑 毅,刘同柱,童贵显03基因组大数据变异检测算法的并行优化崔英博,黄 春,唐 滔,杨灿群,廖湘科,彭绍亮04医疗大数据在学习型健康医疗系统中的应用 柴扬帆,孔桂兰,张路霞05基于生成对抗网络的医学数据域适应研究于胡飞,温景熙,辛 江,唐 艳06制造业生产过程中多源异构数据处理方法综述陈世超,崔春雨,张 华,马 戈,朱凤华,商秀芹,熊 刚07 基于分层注意力网络的方面情感分析宋 婷,陈战伟,杨海峰08基于区块链的链上数据安全共享体系研究刘彦松,夏 琦,李 柱,夏 虎,张小松,高建彬09链上存证、链下传输的可信数据共享平台 张 召,田继鑫,金澈清10银行业金融机构数据治理指引和 DCMM的对比分析代 红,张 群,芦皓麟,宾军志11Paper Pal:一个中英文论文及其代码大数据搜索平台余 万,付聿炜,熊 贇,朱扬勇摘要专题:医学大数据导读作者:邹北骥摘要:医学是人类重点关注的领域之一。医学水平与人类健康息息相关,医学的进步是人类健康生活的重要保障。医学领域包括医疗、生物、药物等多个方面,每天产生的数据在EB级以上,医学数据是典型的大数据。采集、分析并挖掘医学大数据中的高价值信息对于利用信息技术开展医学研究、提升临床医疗诊断水平、发现新药物、开展基因分析与各类生物实验等具有重要的意义。《大数据》期刊专门策划了“医学大数据”专题,旨在阐述医学大数据领域的科学问题、研究方法,展示医学大数据领域的最新研究成果,开拓学者的研究视野。本期“医学大数据”专题共收集4篇学术论文。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00001.shtml一种基于深度神经网络的临床记录 ICD自动编码方法作者:杜逸超,徐 童,马建辉,陈恩红,郑 毅,刘同柱,童贵显摘要:随着国际疾病分类(international classification of diseases,ICD)编码数量的增加,基于临床记录的人工编码难度和成本大大提高,自动ICD编码技术引起了广泛的关注。提出一种基于多尺度残差图卷积网络的自动ICD编码技术,该技术采用多尺度残差网络来捕获临床文本的不同长度的文本模式,并基于图卷积神经网络抽取标签之间的层次关系,以加强自动编码能力。在真实医疗数据集MIMIC-III上的实验结果表明,该方法的P@k和Micro-F1分别为72.2%和53.9%,显著提高了预测性能。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00003.shtml基因组大数据变异检测算法的并行优化作者:崔英博,黄 春,唐 滔,杨灿群,廖湘科,彭绍亮摘要:序列比对和变异检测是基因组数据分析的基础步骤,是后续各种功能性分析的前提,也是基因组数据分析中最耗时的环节。为有效处理高通量测序技术产生的海量基因组大数据,采用OpenMP、MPI等技术,对序列比对算法和SNP检测算法进行了多级并行优化,并对相关算法进行了改进。在不同数据集和并行规模下的测试中,核心算法加速比达到9倍以上,大规模测试中算法的并行效率保持在60%以上,在保证精度的前提下获得了良好的并行性能和可扩展性,有效提高了基因组大数据变异检测的能力。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00016.shtml医疗大数据在学习型健康医疗系统中的应用 作者:柴扬帆,孔桂兰,张路霞摘要:将医疗大数据应用于旨在加快知识生成和临床转化应用的学习型健康医疗系统(LHS)中,满足患者和医疗决策者的知识需求,有助于推动精准医学的发展。在系统阐述医疗大数据与LHS发展现状的基础上,结合LHS的典型应用案例,重点分析医疗大数据在LHS中的应用特点及面临的挑战。最后总结了我国发展LHS面临的挑战,并对未来进行了展望。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00029.shtml基于生成对抗网络的医学数据域适应研究作者:于胡飞,温景熙,辛 江,唐 艳摘要:在医疗影像辅助诊断研究中,研究者通常使用不同医院(多域)的数据,但当其中一个域的训练样本较少时,模型在该域的测试集上的分类结果将会很差。针对此问题,提出一种基于生成对抗网络的分类方法进行男女脑影像差异的域适应研究,首先使用生成对抗网络学习不同域的数据分布,并提取关键特征,然后基于提取的关键特征研究不同域的男女脑影像差异。实验表明,该方法在仅有少量数据参与训练的域上也能取得80%以上的分类准确度。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00045.shtml研究制造业生产过程中多源异构数据处理方法综述作者:陈世超,崔春雨,张 华,马 戈,朱凤华,商秀芹,熊 刚摘要:随着现代制造业向着自动化、信息化、智能化方向快速发展,生产过程中会产生大量的多源异构数据。对多源异构数据的有效处理和深度挖掘可为生产制造者提供更有效的生产调度、设备管理等策略,从而提高生产质量和效率。针对制造业生产过程中多源异构数据的处理方法与技术等进行系统性的综述,首先明确了制造业生产过程多源异构数据内容及分类;其次,阐述了多源异构数据处理中数据采集、数据集成及数据分析各个阶段应用的数据处理方法和技术,并分析了各种方法与技术的优缺点以及应用;最后,对生产过程中多源异构数据处理方法和技术进行总结,指出了现阶段多源异构数据处理方法及技术面临的挑战和发展趋势。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00055.shtml基于分层注意力网络的方面情感分析作者:宋 婷,陈战伟,杨海峰摘要:基于深度学习的方面情感分析是自然语言处理的热点之一。针对方面情感,提出基于方面情感分析的深度分层注意力网络模型。该模型通过区域卷积神经网络保留文本局部特征和不同句子时序关系,利用改进的分层长短期记忆网络(LSTM)获取句子内部和句子间的情感特征。其中,针对LSTM添加了特定方面信息,并设计了一个动态控制链,改进了传统的LSTM。在SemEval 2014的两个数据集和Twitter数据集上进行对比实验得出,相比传统模型,提出的模型的情感分类准确率提高了3%左右。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00082.shtml基于区块链的链上数据安全共享体系研究作者:刘彦松,夏 琦,李 柱,夏 虎,张小松,高建彬摘要:针对人们在日益增长的数字化交互过程中越来越多地出现隐私直接或间接泄露的问题,主要研究基于区块链网络建立一套链上数据安全共享体系,基于密文策略的属性加密的访问控制算法以及同态加密算法实现链上数据的可靠共享,提出了一种链上数据共享架构,最后进行了仿真实验,并分析了实验结果。这项工作有效解决了恶意参与方利用区块链的交易透明性进行数据分析的问题,并保证了用户数据在共享流程中的隐私安全。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00092.shtml应用链上存证、链下传输的可信数据共享平台 作者:张 召,田继鑫,金澈清摘要:区块链系统可以为分享数据的互不信任的多方之间提供可信的基础设施。但是,将原始分享数据直接上链的方式并不适合大规模的数据分享场景。因此,提出了一种数据共享请求和应答记录上链存证、原始数据链下安全传输的数据共享平台架构,该架构在一定程度上可以缓解系统负载过重以及隐私保护方面的问题。最后总结了随着参与节点的增多,以及每秒需要处理的数据共享请求和应答的增多,已有的区块链技术被应用到数据分享和确权领域时,在分布式存储、共识协议、智能合约执行以及轻客户端查询方面面临的挑战以及改进的方向,以期为已有区块链系统应用于数据共享领域指明需要进一步突破的技术瓶颈。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00106.shtml论坛银行业金融机构数据治理指引和 DCMM的对比分析作者:代 红,张 群,芦皓麟,宾军志摘要:近年来,数据治理得到各行各业的普遍重视,国家和行业都发布了相关的标准和政策,通过相关文件明确数据治理的概念和体系,促进数据治理行业的发展。对相关文件进行解读,总结其中的异同之处,帮助人们了解与数据治理相关的管理趋势和应用的重点,同时,提出数据管理能力成熟度评估模型在银行业落地实施的建议,帮助银行更好地满足相关监管要求,提升数据管理能力的成熟度等级。原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00118.shtml动态Paper Pal:一个中英文论文及其代码大数据搜索平台作者:余 万,付聿炜,熊 贇,朱扬勇原文链接:http://www.infocomm-journal.com/bdr/article/2020/2096-0271/2096-0271-6-5-00129.shtml联系我们:Tel:010-81055448010-81055490010-81055534E-mail:bdr@bjxintong.com.cn

卖国贼

综述:数据迷思仍制约工业4.0发展

新华社伦敦6月20日电 综述:数据迷思仍制约工业4.0发展新华社记者张家伟现在许多企业向工业4.0方向发展,可能因此产生海量数据。但专家表示,一些企业陷入了数据迷思,仅拥有海量数据而没能实现真正的大数据应用,此外也难以在数据应用和数据安全之间找到平衡点,这两大问题仍制约工业4.0发展。首先,工业4.0及相应的数字化转型会带来海量数据。据德国机械设备制造业联合会介绍,工业4.0的核心和长期目标是实现智能化工厂,数据和智能算法将在其中发挥重要作用。国际数据公司预计,到2021年,至少50%的全球GDP将会与数字经济有关,各行各业将涌现各种数字化产品、数字化服务、数字化运营、数字化生态。但是,要把海量数据中的价值挖掘出来,还是个难题。埃森哲是从事管理咨询和信息技术等方面业务的国际企业,该公司大中华区董事总经理黄伟强接受新华社记者采访时说,有的客户的生产线是全自动的,一天可收集五六万个数据,但一问这些数据与提高生产效率和产品质量的关系,经常没有人能说清楚。黄伟强认为,目前的许多大数据分析“还很低级”。在B2C(企业对消费者的电子商务)领域,中国的阿里巴巴、京东已经做得不错了,有一些大数据的应用。但在B2B(企业对企业的电子商务)领域,相关平台的发展还不完善,在这个基础上的大数据分析就更加欠缺。“就像当年发现石油之后,还需从中提炼出各类化工产品,最终形成一个完整的产业链,才能真正造福人类,数据的利用也是这样。”黄伟强说。另外,数据安全也是很多企业在数字化转型过程中的一大担忧。数据如果被不恰当地利用或盗取,可能给企业带来难以估计的损失。2017年5月,一种名为“WannaCry”的勒索病毒在全球大范围蔓延,这种病毒感染电脑后能将其中数据加密锁定,不少企业因无法获得数据而被迫关停。数据安全的另一方面是防止个人数据泄露,保护个人隐私。比如今年早些时候的脸书网站用户数据泄露事件,突显了保护用户数据的重要性。再如许多车企希望为用户提供更好的自动驾驶体验,这很可能需要收集他们的驾驶数据,这些数据一旦被滥用或泄露会带来隐私安全问题。英国帝国理工学院数据科学研究所所长郭毅可告诉新华社记者,需要在数据应用和数据安全之间寻找一个平衡点,但“这个平衡不太好掌握”。因为只要使用数据,无论怎么限制,总会有隐私泄露风险;而如果把数据隐私放在第一位,会很大程度限制数据的使用;如何找到合适的平衡点,“其实谁都还没有找到答案”。如何有效利用数据、如何杜绝安全隐患,业界专家仍在努力寻找这两大问题的答案。一旦能找到合适的解决方案,必将极大推动社会的发展。责任编辑: 卓越

参军

国家大数据(贵州)综合试验区发展报告发布

本报讯 (记者 彭耀永)9月23日,贵州省信息中心发布《国家大数据(贵州)综合试验区发展报告2019》(以下简称《发展报告》)。近年来,国家大数据(贵州)综合试验区建设成绩斐然,亮点纷呈。贵州大数据发展从无到有、从有到优,从西部落后省份到现在谈大数据必谈贵州的“中国数谷”。《发展报告》不仅是国家大数据(贵州)综合试验区发展的一部全景扫描蓝皮书和成绩单,也是政府职能部门工作人员、大数据从业者和研究者的一本工具书和必读书。省信息中心主任何灝说:“它全面系统地总结了2019年贵州省大数据发展的做法和成效,归纳了贵州大数据发展经验,数据详实,内容丰富。《发展报告》由综述篇、专题篇、市州篇和附录4个部分组成,呈现全面系统、条理清晰、数据详实三大特点。”下一步,省信息中心将按年度组织编撰《国家大数据(贵州)综合试验区发展报告》,形成系列丛书,在研究谋划我省大数据创新发展思路对策的同时,也为我省大数据发展提供高水平的决策咨询和智力支持。