数据分析的研究现状【数据分析的研究现状资讯】

无用

大数据：发展现状与未来趋势

中国特色社会主义进入新时代，实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略，吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出：“大数据是信息化发展的新阶段”，并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署，为我国构筑大数据时代国家综合竞争新优势指明了方向！今天，我拟回顾大数据的发端、发展和现状，研判大数据的未来趋势，简述我国大数据发展的态势，并汇报我对信息化新阶段和数字经济的认识，以及对我国发展大数据的若干思考和建议。一、大数据的发端与发展从文明之初的“结绳记事”，到文字发明后的“文以载道”，再到近现代科学的“数据建模”，数据一直伴随着人类社会的发展变迁，承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而，直到以电子计算机为代表的现代信息技术出现后，为数据处理提供了自动的方法和手段，人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化)，推动数据(信息)成为继物质、能源之后的又一种重要战略资源。“大数据”作为一种概念和思潮由计算领域发端，之后逐渐延伸到科学和商业领域。大多数学者认为，“大数据”这一概念最早公开出现于1998年，美国高性能计算公司SGI的首席科学家约翰.马西(JohnMashey)在一个国际会议报告中指出：随着数据量的快速增长，必将出现数据难理解、难获取、难处理和难组织等四个难题，并用“BigData(大数据)”来描述这一挑战，在计算领域引发思考。2007年，数据库领域的先驱人物吉姆.格雷(JimGray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径，并认为在实验观测、理论推导和计算仿真等三种科学研究范式后，将迎来第四范式——“数据探索”，后来同行学者将其总结为“数据密集型科学发现”，开启了从科研视角审视大数据的热潮。2012年，牛津大学教授维克托.迈尔-舍恩伯格(ViktorMayer-Schnberger)在其畅销著作《大数据时代(BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink)》中指出，数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式，从而引发商业应用领域对大数据方法的广泛思考与探讨。大数据于2012、2013年达到其宣传高潮，2014年后概念体系逐渐成形，对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展，逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统，并持续发展和不断完善，其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀，人们对大数据已经形成基本共识：大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合，具有海量性、多样性、时效性及可变性等特征，需要可伸缩的计算体系结构以支持其存储、处理和分析。大数据的价值本质上体现为：提供了一种人类认识复杂系统的新思维和新手段。就理论上而言，在足够小的时间和空间尺度上，对现实世界数字化，可以构造一个现实世界的数字虚拟映像，这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下，对这个数字虚拟映像的深度分析，将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段，这也是大数据引发经济社会变革最根本性的原因。二、大数据的现状与趋势全球范围内，研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。一是已有众多成功的大数据应用，但就其效果和深度而言，当前大数据应用尚处于初级阶段，根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。按照数据开发应用深入程度的不同，可将众多的大数据应用分为三个层次。第一层，描述性分析应用，是指从大数据中总结、抽取相关的信息和知识，帮助人们分析发生了什么，并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据，再以统计图表等可视化形式，将数据蕴含的信息推送给不同岗位的业务人员和管理者，帮助其更好地了解企业现状，进而做出判断和决策。第二层，预测性分析应用，是指从大数据中分析事物之间的关联关系、发展模式等，并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员DavidRothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据，建立预测模型，对多届奥斯卡奖项的归属进行预测。2014和2015年，均准确预测了奥斯卡共24个奖项中的21个，准确率达87.5%。第三层，指导性分析应用，是指在前两个层次的基础上，分析不同决策将导致的后果，并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据，对车辆不同驾驶行为的后果进行预判，并据此指导车辆的自动驾驶。当前，在大数据应用的实践中，描述性、预测性分析应用多，决策指导性等更深层次分析应用偏少。一般而言，人们做出决策的流程通常包括：认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如：第一层次的描述性分析中，计算机仅负责将与现状相关的信息和知识展现给人类专家，而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深，计算机承担的任务越多、越复杂，效率提升也越大，价值也越大。然而，随着研究应用的不断深入，人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此，虽然应用层次最深的决策指导性应用，当前已在人机博弈等非关键性领域取得较好应用效果，但是，在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高，且与人类生命、财产、发展和安全紧密关联的领域，要真正获得有效应用，仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前，人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着，虽然已有很多成功的大数据应用案例，但还远未达到我们的预期，大数据应用仍处于初级阶段。未来，随着应用领域的拓展、技术的提升、数据共享开放机制的完善，以及产业生态的成熟，具有更大潜在价值的预测性和指导性应用将是发展的重点。二是大数据治理体系远未形成，特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾，成为制约大数据发展的重要短板，各界已经意识到构建大数据治理体系的重要意义，相关的研究与实践将持续加强。随着大数据作为战略资源的地位日益凸显，人们越来越强烈地意识到制约大数据发展最大的短板之一就是：数据治理体系远未形成，如数据资产地位的确立尚未达成共识，数据的确权、流通和管控面临多重挑战；数据壁垒广泛存在，阻碍了数据的共享和开放；法律法规发展滞后，导致大数据应用存在安全与隐私风险；等等。如此种种因素，制约了数据资源中所蕴含价值的挖掘与转化。其中，隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面，数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展，主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言，往往靠自身的积累难以聚集足够的高质量数据。另外，大数据应用的威力，在很多情况下源于对多源数据的综合融合和深度分析，从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息，因此，只有通过共享开放和数据跨域流通才能建立信息完整的数据集。然而，另一方面，数据的无序流通与共享，又可能导致隐私保护和数据安全方面的重大风险，必须对其加以规范和限制。例如，鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题，欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(GeneralDataProtectionRegulation，GDPR)，并于2018年5月25日正式生效。《条例》生效后，Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款，并被推上舆论的风口浪尖。2020年1月1日，被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利，旨在加强消费者隐私权和数据安全保护，涉及企业收集的个人信息的访问、删除和共享，企业负有保护个人信息的责任，消费者控制并拥有其个人信息，这是美国目前最具典型意义的州隐私立法，提高了美国保护隐私的标准。在这种情况下，过去利用互联网平台中心化搜集用户数据，实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。我国在个人信息保护方面也开展了较长时间的工作，针对互联网环境下的个人信息保护，制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日，全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求，并规定了个人对其个人信息进行更正或删除的权利。2019年，中央网信办发布了《数据安全管理办法(征求意见稿)》，向社会公开征求意见，明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而，从体系化、确保一致性、避免碎片化考虑，制订专门的数据安全法、个人信息保护法是必要的。另一方面，我们也应看到，这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全，平衡效率和风险，在保障安全的前提下，不因噎废食，不对大数据价值的挖掘利用造成过分的负面影响，是当前全世界在数据治理中面临的共同课题。近年来，围绕大数据治理这一主题及其相关问题，国际上已有不少成功的实践和研究探索工作，诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规，针对企业机构的数据管理能力评估和改善，面向数据质量保证的方法与技术，促进数据互操作的技术规范和标准等。然而，考察当前的研究和实践，仍存在三个方面的主要问题。一是大数据治理概念的使用相对“狭义”，研究和实践大都以企业组织为对象，仅从个体组织的角度考虑大数据治理的相关问题，这与大数据跨界流动的迫切需求存在矛盾，限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识，不同研究者从流程设计、信息治理和数据管理应用等不同视角，给出了大数据治理的不同定义，共识的形成尚有待时日！三是大数据治理相关的研究实践多条线索并行，关联性、完整性和一致性不足。诸如，国家层面的政策法规和法律制定等较少被纳入大数据治理的视角；数据作为一种资产的地位仍未通过法律法规予以确立，难以进行有效的管理和应用；大数据管理已有不少可用技术与产品，但还缺乏完善的多层级管理体制和高效管理机制；如何有机结合技术与标准，建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计，仅仅在已有的相关体系上进行扩展和延伸，可能会导致数据治理的“碎片化”和一致性缺失等等。当前，各界已经普遍认识到了大数据治理的重要意义，大数据治理体系建设已经成为大数据发展重点，但仍处在发展的雏形阶段，推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。三是数据规模高速增长，现有技术体系难以满足大数据应用的需求，大数据理论与技术远未成熟，未来信息技术体系将需要颠覆式创新和变革。近年来，数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告，2020年全球数据存储量将达到44ZB(1021)，到2030年将达到2500ZB。当前，需要处理的数据量已经大大超过处理能力的上限，从而导致大量数据因无法或来不及处理，而处于未被利用、价值不明的状态，这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计，大多数企业仅对其所有数据的1%进行了分析应用。近年来，大数据获取、存储、管理、处理、分析等相关的技术已有显著进展，但是大数据技术体系尚不完善，大数据基础理论的研究仍处于萌芽期。首先，大数据定义虽已达成初步共识，但许多本质问题仍存在争议，例如：数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等；其次，针对特定数据集和特定问题域已有不少专用解决方案，是否有可能形成“通用”或“领域通用”的统一技术体系，仍有待未来的技术发展给出答案；其三，应用超前于理论和技术发展，数据分析的结论往往缺乏坚实的理论基础，对这些结论的使用仍需保持谨慎态度。推演信息技术的未来发展趋势，较长时期内仍将保持渐进式发展态势，随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量，数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大，大数据现象将长期存在。在此背景下，大数据现象倒逼技术变革，将使得信息技术体系进行一次重构，这也带来了颠覆式发展的机遇。例如，计算机体系结构以数据为中心的宏观走向和存算一体的微观走向，软件定义方法论的广泛采用，云边端融合的新型计算模式等；网络通信向宽带、移动、泛在发展，海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求，千亿级设备联网带来的Gb/s级高密度泛在移动接入需求；大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破，高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革；软硬件开源开放趋势导致产业发展生态的重构；等等。三、大数据与数字经济大数据是信息技术发展的必然产物，更是信息化进程的新阶段，其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮，始于上世纪80年代，随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0)，及始于上世纪90年代中期，随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前，我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下，以“万物均需互联、一切皆可编程”为目标，数字化、网络化和智能化呈融合发展新态势。在信息化发展历程中，数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础，实现数据资源的获取和积累；网络化构建平台，促进数据资源的流通和汇聚；智能化展现能力，通过多源数据的融合分析呈现信息应用的类人智能，帮助人类更好地认知复杂事物和解决问题。信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变，进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动，是以新一代信息技术和产业为依托，继农业经济、工业经济之后的新经济形态。从构成上看，农业经济属单层结构，以农业为主，配合以其他行业，以人力、畜力和自然力为动力，使用手工工具，以家庭为单位自给自足，社会分工不明显，行业间相对独立；工业经济是两层结构，即提供能源动力和行业制造设备的装备制造产业，以及工业化后的各行各业，并形成分工合作的工业体系。数字经济则可分为三个层次：提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前，数字经济正处于成型展开期，将进入信息技术引领经济发展的爆发期、黄金期！从另一个视角来看，如果说过去20多年，互联网高速发展引发了一场社会经济的“革命”，深刻地改变了人类社会，现在可以看到，互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户)，主战场是面向个人提供社交、购物、教育、娱乐等服务，可称为“消费互联网”。而互联网革命的下半场正在开启，其主要特征将是“2B”(面向组织机构)，重点在于促进供给侧的深刻变革，互联网应用将面向各行业，特别是制造业，以优化资源配置、提质增效为目标，构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域，工业互联网是新一代信息技术与生产技术深度融合的产物，它通过人、机、物的深度互联，全要素、全产业链、全价值链的全面链接，推动形成新的工业生产制造和服务体系。当前，新一轮工业革命正在拉开帷幕，在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态，而我国正处于由数量和规模扩张向质量和效益提升转变的关键期，需要抓住历史机遇期，促进新旧动能转换，形成竞争新优势。我国是制造大国和互联网大国，推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。数字经济未来发展呈现如下趋势：一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施，并将对原有的物理基础设施完成深度信息化改造和软件定义，在其支撑下，人类极大地突破了沟通和协作的时空约束，推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例，百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始，伴随互联网的普及，电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同，电子商务平台依托互联网，将遍布全球各个角落的消费者、供货方连接在一起，并聚合物流、支付、信用管理等配套服务，突破了时空约束，大幅减少了中间环节，降低了交易成本，提高了交易效率。按阿里研究院的报告，过去十年间，中国电子商务规模增长了10倍，并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合，在完成自身提升变革的同时，不断催生新的业态，并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用，传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月，《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析，其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下，政府的综合管理服务能力和政务服务的便捷性持续提升，公众积极参与社会治理，形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构，释放出远超当前的技术能力，从而使蕴含在大数据中的巨大价值得以充分释放，带来数字经济的爆发式增长。四、我国大数据发展的态势党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展，我国大数据发展可总结为：“进步长足，基础渐厚；喧嚣已逝，理性回归；成果丰硕，短板仍在；势头强劲，前景光明”。作为人口大国和制造大国，我国数据产生能力巨大，大数据资源极为丰富。随着数字中国建设的推进，各行业的数据资源采集、应用能力不断提升，将会导致更快更多的数据积累。预计到2020年，我国数据总量有望达到8000EB(1018)，占全球数据总量的21%，将成为名列前茅的数据资源大国和全球数据中心。我国互联网大数据领域发展态势良好，市场化程度较高，一些互联网公司建成了具有国际领先水平的大数据存储与处理平台，并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而，大数据与实体经济融合还远不够，行业大数据应用的广度和深度明显不足，生态系统亟待形成和发展。随着政务信息化的不断发展，各级政府积累了大量与公众生产生活息息相关的信息系统和数据，并成为最具价值数据的保有者。如何盘活这些数据，更好地支撑政府决策和便民服务，进而引领促进大数据事业发展，是事关全局的关键。2015年9月，国务院发布《促进大数据发展行动纲要》，其中重要任务之一就是“加快政府数据开放共享，推动资源整合，提升治理能力”，并明确了时间节点，2017年跨部门数据资源共享共用格局基本形成；2018年建成政府主导的数据共享开放平台，打通政府部门、企事业单位间的数据壁垒，并在部分领域开展应用试点；2020年实现政府数据集的普遍开放。随后，国务院和国务院办公厅又陆续印发了系列文件，推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等，推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享，用政务大数据支撑“放管服”改革落地，建设数字政府和智慧政府。目前，我国政务领域的数据开放共享已取得了重要进展和明显效果。例如：浙江省推出的“最多跑一次”改革，是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例，通过设立综合窗口再造业务流程，群众由原来跑国土、住建、税务3个窗口8次提交3套材料，变为只跑综合窗口1个窗口1次提交1套材料，效率大幅提高。据有关统计，截至2019年上半年，我国已有82个省级、副省级和地级政府上线了数据开放平台，涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。我国已经具备加快技术创新的良好基础。在科研投入方面，前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务，成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术，特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平；在大数据存储、处理方面，研发了一些重要产品，有效地支撑了大数据应用；国内互联网公司推出的大数据平台和服务，处理能力跻身世界前列。国家大数据战略实施以来，地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室，为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区，正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等，使大数据发展呈蓬勃之势。然而，我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。一是大数据治理体系尚待构建。首先，法律法规滞后。目前，我国尚无真正意义上的数据管理法规，只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容，难以满足快速增长的数据管理需求。其次，共享开放程度低。推动数据资源共享开放，将有利于打通不同部门和系统的壁垒，促进数据流转，形成覆盖全面的大数据资源，为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源，但存在“不愿”、“不敢”和“不会”共享开放的问题。例如：在“最多跑一次”改革中，由于技术人员缺乏，政务业务流程优化不足，涉及部门多、链条长，长期以来多头管理、各自为政等问题，导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时，由于办事流程不规范，网上办事大厅指南五花八门，以至于同一个县市办理同一项事件，需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同，造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前，我国的政务数据共享开放进程，相对于《行动纲要》明确的时间节点，已明显落后，且数据质量堪忧。不少地方的政务数据开放平台，仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大，仍需要坚持不懈地持续推进。此外，在数据共享与开放的实施过程中，各地还存在片面强调数据物理集中的“一刀切”现象，对已有信息化建设投资保护不足，造成新的浪费。第三，安全隐患增多。近年来，数据安全和隐私数据泄露事件频发，凸显大数据发展面临的严峻挑战。在大数据环境下，数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中，所有权与管理权分离，真假难辨，多系统、多环节的信息隐性留存，导致数据跨境跨系统流转追踪难、控制难，数据确权和可信销毁也更加困难。二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题，大数据时代需避免此问题在新一轮发展中再次出现。近年来，我国在大数据应用领域取得较大进展，但是基础理论、核心器件和算法、软件等层面，较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面，我国主要依赖国外开源社区的开源软件，然而，由于我国对国际开源社区的影响力较弱，导致对大数据技术生态缺乏自主可控能力，成为制约我国大数据产业发展和国际化运营的重大隐患。三是融合应用有待深化。我国大数据与实体经济融合不够深入，主要问题表现在：基础设施配置不到位，数据采集难度大；缺乏有效引导与支撑，实体经济数字化转型缓慢；缺乏自主可控的数据互联共享平台等。当前，工业互联网成为互联网发展的新领域，然而仍存在不少问题：政府热、企业冷，政府时有“项目式”、“运动式”推进，而企业由于没看到直接、快捷的好处，接受度低；设备设施的数字化率和联网率偏低；大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统，而众多中小企业数字化转型的动力和能力严重不足；国外厂商的设备在我国具有垄断地位，这些企业纷纷推出相应的工业互联网平台，抢占工业领域的大数据基础服务市场。五、若干思考和建议最后，我想基于自己在大数据领域的研究实践，汇报若干思考和建议。一家之见，仅供参考。(一)大力发展行业大数据应用当前，我国互联网领域的大数据应用市场化程度高、发展较好，但行业应用广度和深度明显不足，生态系统亟待形成和发展。事实上，与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例，麦肯锡研究报告称：制造企业在利用大数据技术后，其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据，制造业企业可以更加精细、个性化地了解客户需求；建立更加精益化、柔性化、智能化的生产系统；创造包括销售产品、服务、价值等多样的商业模式；并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环，也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一，却大而不强。企业创新能力不足，高端和高价值产品欠缺，在国际产业分工中处于中低端，大力推动制造业大数据应用的发展，对产业升级转型至关重要。当前，我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升，推动行业大数据应用，也是推进数字中国建设的重要途径和基础。(二)建立系统全面的大数据治理体系大数据是数字经济的关键要素，强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础！大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑！我以为，在一国之范围内，大数据治理体系建设涉及国家、行业和组织三个层次，至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容，需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下，提供支撑。在国家层次，重点是要在法律法规层面明确数据的资产地位，奠定数据确权、流通、交易和保护的基础，制定促进数据共享开放的政策法规和标准规范，促进政务数据和行业数据的融合应用，并且出台数据安全与隐私保护的法律法规，保障国家、组织和个人的数据安全。在行业层次，重点是要在国家相关法律法规框架下，充分考虑本行业中企业的共同利益与长效发展，建立规范行业数据管理的组织机构和数据管控制度，制定行业内数据共享与开放的规则和技术规范，促进行业内数据的共享交换和融合应用。在组织层次，重点是要提升企业对数据全生命期的管理能力，促进企业内部和企业间的数据流通，提升数据变现能力，保障企业自身的数据安全及客户的数据安全和隐私信息。在数据治理体系建设中，数据共享开放是大数据资源建设的前提，在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时，我以为，还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待，可能需要综合考虑数据的使用场合及数据主体的权益。如，数据集中管理可能带来保管上的安全问题，然而数据融合才能产生价值，一定程度的集中是趋势所在，也更利于建立更强大可靠的保护机制；多源数据的融合可能导致信息泄露，然而在确知风险前，是否需要因其“可能性”而拒绝技术的应用？数据脱敏仍然可能存在隐私泄露的风险，是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”？是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法，并对相关应用予以免责？当然，加强兼顾隐私保护、数据安全和数据流动利用的新技术研发，也非常必要。当前，如安全多方计算、同态加密、联邦学习等技术研发，希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下，实现数据的融合利用。虽然这些技术尚处于发展的初级阶段，但因其广阔的应用前景而受到普遍关注。另外，打破信息孤岛、盘活数据存量是当前一项紧迫的任务，而在此过程中，不宜过分强调物理集中，而应将逻辑互联作为打通信息“孤岛”的手段，逻辑互联先行，物理集中跟进。在数据共享体系建设中，需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系，在不改变现有信息系统与数据资源的所有权及管理格局的前提下，明晰责权利，即：数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时，集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案，如何在新一轮建设热潮中，从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障，尽可能避免新“孤岛”的产生，也是一项重大挑战。(三)以开源为基础构建自主可控的大数据产业生态在大数据时代，软件开源和硬件开放已成为不可逆的趋势，掌控开源生态，已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略，一方面鼓励我国企业积极“参与融入”国际成熟的开源社区，争取话语权；另一方面，也要在建设基于中文的开源社区方面加大投入，汇聚国内软硬件资源和开源人才，打造自主可控开源生态，在学习实践中逐渐成长壮大，伺机实现引领发展。中文开源社区的建设，需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外，在开源背景下，对“自主可控”的内涵定义也有待更新，不一定强调硬件设计和软件代码的所有权，更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。(四)积极推动国际合作并筹划布局跨国数据共享机制2018年11月17日，习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”，“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下，我国应该积极推动在大数据技术和应用方面的国际合作，建立跨国数据共享机制，与其他国家一起分享数字经济的红利，同时也使我国获得更多发展机遇和更大发展空间，积极促进数字经济下人类利益共同体和命运共同体的构建。当前，我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作，在保障数据安全的前提下，促进数据跨境流动，从而形成围绕国家合作各个领域的大数据资源，为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家，无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前，与发达国家站在同一起跑线上，并且由于没有“路径依赖”所带来的历史包袱，也有可能在新一轮的竞争中占有优势。(五)未雨绸缪，防范大数据发展可能带来的新风险大数据发展可能导致一系列新的风险。例如，数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势，不断获取行业数据，但却“有收无放”，呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展，而且有可能对国家安全带来冲击和影响。又如，数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容，在带来便利的同时，也导致人们只看到自己“希望看到的”信息，从而使人群被割裂为多个相互之间难以沟通、理解的群体，其可能引发的社会问题将是难以“亡羊补牢”的。需要看到，以互联网为代表的新一代信息技术所带来的这场社会经济“革命”，在广度、深度和速度上都将是空前的，也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的，适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养，将是我们面临的巨大挑战！唯有全民提升对大数据的正确认知，具备用大数据思维认识和解决问题的基本素质和能力，才有可能积极防范大数据带来的新风险；唯有加快培养适应未来需求的合格人才，才有可能在数字经济时代形成国家的综合竞争力。我的汇报结束，谢谢大家！(主讲人系中国人民解放军军事科学院副院长)名词解释：API：应用编程接口(ApplicationProgrammingInterface)的首字母缩写，是指某软件系统或平台为其他应用软件系统提供的一组函数，通过调用这些函数，其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。开源平台：“开源”是开放源代码的简称，开源平台是指支持开源社区活动，管理开放源代码，向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改，并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文，这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。可伸缩的计算体系结构：可伸缩英文为scalable，指一个计算系统的能力和性能随应用负载的增加，通过极少的改动或配置甚至只是简单的硬件资源增加，而保持线性增长的能力，是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标，软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。鲁棒性：鲁棒是英文Robust的音译，也就是健壮的意思，因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文，这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失，甚至在恶意数据攻击等异常情况下，模型仍然能得到较为准确结论的能力。数据互操作：数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问，包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。“全数据”：“全数据”也称“全量数据”，是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本，一般都仅对问题相关的所有数据进行局部采样，并基于采样获得的部分数据进行分析，得出结论，结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代，人们开始提出“全数据”的概念，即，并不采样，而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差，但是也增加了计算成本。云边端融合：云是指云计算中心，边是指边缘计算设备，端是指终端设备。以智能家居为例，智能电视、冰箱、空调等直接与用户交互的设备是“端”，通过互联网连接的异地的云计算平台是“云”，而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力，一般用于复杂的数据计算处理；终端设备距离最终用户较近，对用户的操作响应快，一般负责与用户进行交互；边缘计算设备介于“云”和“端”之间，负责对端所采集的数据做本地化处理，同时将需要更强大计算能力支持的任务和数据发往云计算中心处理，并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职，密切协同且优势互补的新型计算模式。宽带、移动、泛在的网络通信：“宽带”是指通信速率高，海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。安全多方计算：安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下，一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性，在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露，且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。同态加密：同态加密是一种密码学技术，其核心在于保证：对经过同态加密的数据进行处理(如：运行某种数据分析算法)后得到输出，将这一输出进行解密，其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理，从第三方获得处理结果后，对此结果进行解密便可获得所期望的结果。如此一来，数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险，同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。联邦学习：联邦机器学习是一个多组织协同的机器学习框架，使得一个组织在不共享原始数据的情况下，可以利用其他组织数据中所蕴含的信息和知识，建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。ZB、EB、Pb/s、Gb/s：在计算机领域，一个二进制位称为一个比特，一般用小写b表示；而8个二进制位称一个字节，用大写B表示。简言之：1B=8b。计算数据量或数据所需存储空间大小时，习惯用字节为单位(用B表示)。1KB=1024B，1MB=1024KB，1GB=1024MB(通常简记为109)，1TB=1024GB，1PB=1024TB，1EB=1024PB，1ZB=1024EB。1EB约等于10亿GB，而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质)，大小约为8MB，那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首，如果全部听一遍，需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下，下载一个2GB(此处是大写B)的电影，需要16秒；而网络速率1Pb/S的情况下，仅需要0.016毫秒。来源: 中国人大网

展开

蓝月亮

数据分析的目的和意义（作用）是什么？

很多人会问数据分析目的是什么？它有什么作用？让我们看看亿信华辰如何看待数据分析的目的和意义。仅仅谈论数据分析的作用实际上并不重要，因此在谈论该作用之前，我们首先要考虑受众，打个比方：对于个人而言，由于身体感应设备的原因，让我们每天锻炼身体健身各种指标可以数字化，最终完成对个人身体和生活习惯的自我量化，然后完善对个人日常生活规律的调节，使我们过上更好的生活。数据分析目的数据分析目的1：分类检查未知分类或暂时未知分类的数据，目的是预测数据属于哪个类别或属于哪个类别。使用具有已知分类的相似数据来研究分类规则，然后将这些规则应用于未知分类数据。数据分析目的2：预测预测是指对数字连续变量而不是分类变量的预测。数据分析目的3：关联规则和推荐系统关联规则或关联分析是指在诸如捆绑之类的大型数据库中找到一般的关联模式。在线推荐系统使用协作过滤算法，该协作过滤算法是基于给定的历史购买行为，等级，浏览历史或任何其他可测量的偏好行为或什至其他用户购买历史的方法。协同过滤可在单个用户级别生成“购买时可以购买的东西”的购买建议。因此，在许多推荐系统中使用了协作过滤，以向具有广泛偏好的用户提供个性化推荐。数据分析目的4：预测分析预测分析包括分类，预测，关联规则，协作过滤和模式识别（聚类）之类的方法。数据分析目标5：数据缩减和降维当变量的数量有限并且可以将大量样本数据分类为同类组时，通常会提高数据挖掘算法的性能。减少变量的数量通常称为“降维”。降维是部署监督学习方法之前最常见的初始步骤，旨在提高可预测性，可管理性和可解释性。数据分析目的6：数据探索和可视化数据探索的目的是了解数据的整体情况并检测异常值。通过图表和仪表板创建的数据浏览称为“数据可视化”或“可视化分析”。对于数值变量，可以使用直方图，箱形图和散点图来了解其值的分布并检测异常值。对于分类数据，请使用条形图分析。数据分析目的7：有监督学习和无监督学习监督学习算法是用于分类和预测的算法。数据分类必须是已知的。在分类或预测算法中用于“学习”或“训练”预测变量和结果变量之间关系的数据称为“训练数据”。。从训练数据中学到算法后，将该算法应用于具有已知结果的另一个数据样本（验证数据），以查看其与其他模型相比具有哪些优势。简单线性回归是监督算法的一个示例。数据分析的意义（功能）数据分析的意义（作用）1：告诉你过去发生了什么首先，请告诉您此阶段企业的整体运营情况，并通过完成各种运营指标来衡量企业的运营状况，以显示企业的整体运营情况是好是坏，它的表现如何？不好吗去哪儿。其次，告诉您企业每个业务的组成，以便您了解企业每个业务的发展和变化，并对企业的业务状态有更深入的了解。现状分析通常通过每日报告进行，例如每日，每周和每月报告。数据分析的意义（作用）2：告诉你为什么这些现状会发生在对第一阶段的现状进行分析之后，我们对公司的运营有了基本的了解，但是我们不知道哪里的运营更好，差异是什么，以及原因是什么。这时，我们需要进行原因分析，以进一步确定业务变更的具体原因。原因分析通常通过主题分析进行。根据企业的经营情况，根据一定的现状选择原因分析。数据分析的意义（作用）3：告诉你未来会发生什么了解公司运营的现状后，有时需要对公司的未来发展趋势做出预测，为公司制定业务目标，并提供有效的战略参考和决策依据，以确保公司的持续健康发展。预测分析通常是通过主题分析完成的，主题分析通常是在制定公司的季度和年度计划时进行的。它的发展频率不如现状分析和原因分析高。

展开

其魂不罢

梅宏：大数据发展现状与未来趋势

中国特色社会主义进入新时代，实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略，吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出：“大数据是信息化发展的新阶段”，并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署，为我国构筑大数据时代国家综合竞争新优势指明了方向！今天，我拟回顾大数据的发端、发展和现状，研判大数据的未来趋势，简述我国大数据发展的态势，并汇报我对信息化新阶段和数字经济的认识，以及对我国发展大数据的若干思考和建议。—— 十三届全国人大常委会专题讲座第十四讲01大数据的发端与发展从文明之初的“结绳记事”，到文字发明后的“文以载道”，再到近现代科学的“数据建模”，数据一直伴随着人类社会的发展变迁，承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而，直到以电子计算机为代表的现代信息技术出现后，为数据处理提供了自动的方法和手段，人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用（即信息化），推动数据（信息）成为继物质、能源之后的又一种重要战略资源。“大数据”作为一种概念和思潮由计算领域发端，之后逐渐延伸到科学和商业领域。大多数学者认为，“大数据”这一概念最早公开出现于1998年，美国高性能计算公司SGI的首席科学家约翰·马西（John Mashey）在一个国际会议报告中指出：随着数据量的快速增长，必将出现数据难理解、难获取、难处理和难组织等四个难题，并用“Big Data（大数据）”来描述这一挑战，在计算领域引发思考。2007年，数据库领域的先驱人物吉姆·格雷（Jim Gray）指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径，并认为在实验观测、理论推导和计算仿真等三种科学研究范式后，将迎来第四范式——“数据探索”，后来同行学者将其总结为“数据密集型科学发现”，开启了从科研视角审视大数据的热潮。2012年，牛津大学教授维克托·迈尔-舍恩伯格（Viktor Mayer-Schnberger）在其畅销著作《大数据时代（Big Data：A Revolution That Will Transform How We Live，Work，and Think）》中指出，数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式，从而引发商业应用领域对大数据方法的广泛思考与探讨。大数据于2012、2013年达到其宣传高潮，2014年后概念体系逐渐成形，对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展，逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统，并持续发展和不断完善，其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀，人们对大数据已经形成基本共识：大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合，具有海量性、多样性、时效性及可变性等特征，需要可伸缩的计算体系结构以支持其存储、处理和分析。大数据的价值本质上体现为：提供了一种人类认识复杂系统的新思维和新手段。就理论上而言，在足够小的时间和空间尺度上，对现实世界数字化，可以构造一个现实世界的数字虚拟映像，这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下，对这个数字虚拟映像的深度分析，将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段，这也是大数据引发经济社会变革最根本性的原因。02大数据的现状与趋势全球范围内，研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。一、已有众多成功的大数据应用，但就其效果和深度而言，当前大数据应用尚处于初级阶段，根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。按照数据开发应用深入程度的不同，可将众多的大数据应用分为三个层次。第一层，描述性分析应用，是指从大数据中总结、抽取相关的信息和知识，帮助人们分析发生了什么，并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据，再以统计图表等可视化形式，将数据蕴含的信息推送给不同岗位的业务人员和管理者，帮助其更好地了解企业现状，进而做出判断和决策。第二层，预测性分析应用，是指从大数据中分析事物之间的关联关系、发展模式等，并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据，建立预测模型，对多届奥斯卡奖项的归属进行预测。2014和2015年，均准确预测了奥斯卡共24个奖项中的21个，准确率达87.5%。第三层，指导性分析应用，是指在前两个层次的基础上，分析不同决策将导致的后果，并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据，对车辆不同驾驶行为的后果进行预判，并据此指导车辆的自动驾驶。当前，在大数据应用的实践中，描述性、预测性分析应用多，决策指导性等更深层次分析应用偏少。一般而言，人们做出决策的流程通常包括：认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如：第一层次的描述性分析中，计算机仅负责将与现状相关的信息和知识展现给人类专家，而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深，计算机承担的任务越多、越复杂，效率提升也越大，价值也越大。然而，随着研究应用的不断深入，人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此，虽然应用层次最深的决策指导性应用，当前已在人机博弈等非关键性领域取得较好应用效果，但是，在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高，且与人类生命、财产、发展和安全紧密关联的领域，要真正获得有效应用，仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前，人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着，虽然已有很多成功的大数据应用案例，但还远未达到我们的预期，大数据应用仍处于初级阶段。未来，随着应用领域的拓展、技术的提升、数据共享开放机制的完善，以及产业生态的成熟，具有更大潜在价值的预测性和指导性应用将是发展的重点。二、大数据治理体系远未形成，特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾，成为制约大数据发展的重要短板，各界已经意识到构建大数据治理体系的重要意义，相关的研究与实践将持续加强。随着大数据作为战略资源的地位日益凸显，人们越来越强烈地意识到制约大数据发展最大的短板之一就是：数据治理体系远未形成，如数据资产地位的确立尚未达成共识，数据的确权、流通和管控面临多重挑战；数据壁垒广泛存在，阻碍了数据的共享和开放；法律法规发展滞后，导致大数据应用存在安全与隐私风险；等等。如此种种因素，制约了数据资源中所蕴含价值的挖掘与转化。其中，隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面，数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展，主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言，往往靠自身的积累难以聚集足够的高质量数据。另外，大数据应用的威力，在很多情况下源于对多源数据的综合融合和深度分析，从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息，因此，只有通过共享开放和数据跨域流通才能建立信息完整的数据集。然而，另一方面，数据的无序流通与共享，又可能导致隐私保护和数据安全方面的重大风险，必须对其加以规范和限制。例如，鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题，欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》（General Data Protection Regulation，GDPR），并于2018年5月25日正式生效。《条例》生效后，Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款，并被推上舆论的风口浪尖。2020年1月1日，被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》（CCPA）将正式生效。CCPA规定了新的消费者权利，旨在加强消费者隐私权和数据安全保护，涉及企业收集的个人信息的访问、删除和共享，企业负有保护个人信息的责任，消费者控制并拥有其个人信息，这是美国目前最具典型意义的州隐私立法，提高了美国保护隐私的标准。在这种情况下，过去利用互联网平台中心化搜集用户数据，实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。我国在个人信息保护方面也开展了较长时间的工作，针对互联网环境下的个人信息保护，制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日，全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求，并规定了个人对其个人信息进行更正或删除的权利。2019年，中央网信办发布了《数据安全管理办法（征求意见稿）》，向社会公开征求意见，明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而，从体系化、确保一致性、避免碎片化考虑，制订专门的数据安全法、个人信息保护法是必要的。但我们也应看到，这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全，平衡效率和风险，在保障安全的前提下，不因噎废食，不对大数据价值的挖掘利用造成过分的负面影响，是当前全世界在数据治理中面临的共同课题。近年来，围绕大数据治理这一主题及其相关问题，国际上已有不少成功的实践和研究探索工作，诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规，针对企业机构的数据管理能力评估和改善，面向数据质量保证的方法与技术，促进数据互操作的技术规范和标准等。然而，考察当前的研究和实践，仍存在三个方面的主要问题。1、大数据治理概念的使用相对“狭义”，研究和实践大都以企业组织为对象，仅从个体组织的角度考虑大数据治理的相关问题，这与大数据跨界流动的迫切需求存在矛盾，限制了大数据价值的发挥。2、现有研究实践对大数据治理内涵的理解尚未形成共识，不同研究者从流程设计、信息治理和数据管理应用等不同视角，给出了大数据治理的不同定义，共识的形成尚有待时日！3、大数据治理相关的研究实践多条线索并行，关联性、完整性和一致性不足。诸如，国家层面的政策法规和法律制定等较少被纳入大数据治理的视角；数据作为一种资产的地位仍未通过法律法规予以确立，难以进行有效的管理和应用；大数据管理已有不少可用技术与产品，但还缺乏完善的多层级管理体制和高效管理机制；如何有机结合技术与标准，建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计，仅仅在已有的相关体系上进行扩展和延伸，可能会导致数据治理的“碎片化”和一致性缺失等等。当前，各界已经普遍认识到了大数据治理的重要意义，大数据治理体系建设已经成为大数据发展重点，但仍处在发展的雏形阶段，推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。三是数据规模高速增长，现有技术体系难以满足大数据应用的需求，大数据理论与技术远未成熟，未来信息技术体系将需要颠覆式创新和变革。近年来，数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司（IDC）的报告，2020年全球数据存储量将达到44ZB（1021），到2030年将达到2500ZB。当前，需要处理的数据量已经大大超过处理能力的上限，从而导致大量数据因无法或来不及处理，而处于未被利用、价值不明的状态，这些数据被称为“暗数据”。据国际商业机器公司（IBM）的研究报告估计，大多数企业仅对其所有数据的1%进行了分析应用。近年来，大数据获取、存储、管理、处理、分析等相关的技术已有显著进展，但是大数据技术体系尚不完善，大数据基础理论的研究仍处于萌芽期。首先，大数据定义虽已达成初步共识，但许多本质问题仍存在争议，例如：数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等；其次，针对特定数据集和特定问题域已有不少专用解决方案，是否有可能形成“通用”或“领域通用”的统一技术体系，仍有待未来的技术发展给出答案；再次，应用超前于理论和技术发展，数据分析的结论往往缺乏坚实的理论基础，对这些结论的使用仍需保持谨慎态度。推演信息技术的未来发展趋势，较长时期内仍将保持渐进式发展态势，随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量，数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大，大数据现象将长期存在。在此背景下，大数据现象倒逼技术变革，将使得信息技术体系进行一次重构，这也带来了颠覆式发展的机遇。例如，计算机体系结构以数据为中心的宏观走向和存算一体的微观走向，软件定义方法论的广泛采用，云边端融合的新型计算模式等；网络通信向宽带、移动、泛在发展，海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求，千亿级设备联网带来的Gb/s级高密度泛在移动接入需求；大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破，高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革；软硬件开源开放趋势导致产业发展生态的重构；等等。03大数据与数字经济大数据是信息技术发展的必然产物，更是信息化进程的新阶段，其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮，始于上世纪80年代，随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化（信息化1.0），及始于上世纪90年代中期，随互联网大规模商用进程所推动的以联网应用为主要特征的网络化（信息化2.0）。当前，我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段（信息化3.0）。在“人机物”三元融合的大背景下，以“万物均需互联、一切皆可编程”为目标，数字化、网络化和智能化呈融合发展新态势。在信息化发展历程中，数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础，实现数据资源的获取和积累；网络化构建平台，促进数据资源的流通和汇聚；智能化展现能力，通过多源数据的融合分析呈现信息应用的类人智能，帮助人类更好地认知复杂事物和解决问题。信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变，进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动，是以新一代信息技术和产业为依托，继农业经济、工业经济之后的新经济形态。从构成上看，农业经济属单层结构，以农业为主，配合以其他行业，以人力、畜力和自然力为动力，使用手工工具，以家庭为单位自给自足，社会分工不明显，行业间相对独立；工业经济是两层结构，即提供能源动力和行业制造设备的装备制造产业，以及工业化后的各行各业，并形成分工合作的工业体系。数字经济则可分为三个层次：提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前，数字经济正处于成型展开期，将进入信息技术引领经济发展的爆发期、黄金期！从另一个视角来看，如果说过去20多年，互联网高速发展引发了一场社会经济的“革命”，深刻地改变了人类社会，现在可以看到，互联网革命的上半场已经结束。上半场的主要特征是“2C”（面向最终用户），主战场是面向个人提供社交、购物、教育、娱乐等服务，可称为“消费互联网”。而互联网革命的下半场正在开启，其主要特征将是“2B”（面向组织机构），重点在于促进供给侧的深刻变革，互联网应用将面向各行业，特别是制造业，以优化资源配置、提质增效为目标，构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域，工业互联网是新一代信息技术与生产技术深度融合的产物，它通过人、机、物的深度互联，全要素、全产业链、全价值链的全面链接，推动形成新的工业生产制造和服务体系。当前，新一轮工业革命正在拉开帷幕，在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态，而我国正处于由数量和规模扩张向质量和效益提升转变的关键期，需要抓住历史机遇期，促进新旧动能转换，形成竞争新优势。我国是制造大国和互联网大国，推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。数字经济未来发展呈现如下趋势：一、以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施，并将对原有的物理基础设施完成深度信息化改造和软件定义，在其支撑下，人类极大地突破了沟通和协作的时空约束，推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例，百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始，伴随互联网的普及，电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同，电子商务平台依托互联网，将遍布全球各个角落的消费者、供货方连接在一起，并聚合物流、支付、信用管理等配套服务，突破了时空约束，大幅减少了中间环节，降低了交易成本，提高了交易效率。按阿里研究院的报告，过去十年间，中国电子商务规模增长了10倍，并呈加速发展趋势。二、、各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合，在完成自身提升变革的同时，不断催生新的业态，并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用，传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月，《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析，其中电话推销员、打字员、会计等职业高居榜首。三、在信息化理念和政务大数据的支撑下，政府的综合管理服务能力和政务服务的便捷性持续提升，公众积极参与社会治理，形成共策共商共治的良好生态。四、信息技术体系将完成蜕变升华式的重构，释放出远超当前的技术能力，从而使蕴含在大数据中的巨大价值得以充分释放，带来数字经济的爆发式增长。04我国大数据发展的态势党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展，我国大数据发展可总结为：“进步长足，基础渐厚；喧嚣已逝，理性回归；成果丰硕，短板仍在；势头强劲，前景光明”。作为人口大国和制造大国，我国数据产生能力巨大，大数据资源极为丰富。随着数字中国建设的推进，各行业的数据资源采集、应用能力不断提升，将会导致更快更多的数据积累。预计到2020年，我国数据总量有望达到8000EB（1018），占全球数据总量的21%，将成为名列前茅的数据资源大国和全球数据中心。我国互联网大数据领域发展态势良好，市场化程度较高，一些互联网公司建成了具有国际领先水平的大数据存储与处理平台，并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而，大数据与实体经济融合还远不够，行业大数据应用的广度和深度明显不足，生态系统亟待形成和发展。随着政务信息化的不断发展，各级政府积累了大量与公众生产生活息息相关的信息系统和数据，并成为最具价值数据的保有者。如何盘活这些数据，更好地支撑政府决策和便民服务，进而引领促进大数据事业发展，是事关全局的关键。2015年9月，国务院发布《促进大数据发展行动纲要》，其中重要任务之一就是“加快政府数据开放共享，推动资源整合，提升治理能力”，并明确了时间节点，2017年跨部门数据资源共享共用格局基本形成；2018年建成政府主导的数据共享开放平台，打通政府部门、企事业单位间的数据壁垒，并在部分领域开展应用试点；2020年实现政府数据集的普遍开放。随后，国务院和国务院办公厅又陆续印发了系列文件，推进政务信息资源共享管理、政务信息系统整合共享、互联网政务服务试点、政务服务一网一门一次改革等，推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享，用政务大数据支撑“放管服”改革落地，建设数字政府和智慧政府。目前，我国政务领域的数据开放共享已取得了重要进展和明显效果。例如：浙江省推出的“最多跑一次”改革，是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例，通过设立综合窗口再造业务流程，群众由原来跑国土、住建、税务3个窗口8次提交3套材料，变为只跑综合窗口1个窗口1次提交1套材料，效率大幅提高。据有关统计，截至2019年上半年，我国已有82个省级、副省级和地级政府上线了数据开放平台，涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。我国已经具备加快技术创新的良好基础。在科研投入方面，前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务，成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术，特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平；在大数据存储、处理方面，研发了一些重要产品，有效地支撑了大数据应用；国内互联网公司推出的大数据平台和服务，处理能力跻身世界前列。国家大数据战略实施以来，地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室，为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区，正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等，使大数据发展呈蓬勃之势。然而，我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。一、大数据治理体系尚待构建。首先，法律法规滞后。目前，我国尚无真正意义上的数据管理法规，只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容，难以满足快速增长的数据管理需求。其次，共享开放程度低。推动数据资源共享开放，将有利于打通不同部门和系统的壁垒，促进数据流转，形成覆盖全面的大数据资源，为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源，但存在“不愿”、“不敢”和“不会”共享开放的问题。例如：在“最多跑一次”改革中，由于技术人员缺乏，政务业务流程优化不足，涉及部门多、链条长，长期以来多头管理、各自为政等问题，导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时，由于办事流程不规范，网上办事大厅指南五花八门，以至于同一个县市办理同一项事件，需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同，造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前，我国的政务数据共享开放进程，相对于《行动纲要》明确的时间节点，已明显落后，且数据质量堪忧。不少地方的政务数据开放平台，仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大，仍需要坚持不懈地持续推进。此外，在数据共享与开放的实施过程中，各地还存在片面强调数据物理集中的“一刀切”现象，对已有信息化建设投资保护不足，造成新的浪费。再次，安全隐患增多。近年来，数据安全和隐私数据泄露事件频发，凸显大数据发展面临的严峻挑战。在大数据环境下，数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中，所有权与管理权分离，真假难辨，多系统、多环节的信息隐性留存，导致数据跨境跨系统流转追踪难、控制难，数据确权和可信销毁也更加困难。二、核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题，大数据时代需避免此问题在新一轮发展中再次出现。近年来，我国在大数据应用领域取得较大进展，但是基础理论、核心器件和算法、软件等层面，较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面，我国主要依赖国外开源社区的开源软件，然而，由于我国对国际开源社区的影响力较弱，导致对大数据技术生态缺乏自主可控能力，成为制约我国大数据产业发展和国际化运营的重大隐患。三、融合应用有待深化。我国大数据与实体经济融合不够深入，主要问题表现在：基础设施配置不到位，数据采集难度大；缺乏有效引导与支撑，实体经济数字化转型缓慢；缺乏自主可控的数据互联共享平台等。当前，工业互联网成为互联网发展的新领域，然而仍存在不少问题：政府热、企业冷，政府时有“项目式”、“运动式”推进，而企业由于没看到直接、快捷的好处，接受度低；设备设施的数字化率和联网率偏低；大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统，而众多中小企业数字化转型的动力和能力严重不足；国外厂商的设备在我国具有垄断地位，这些企业纷纷推出相应的工业互联网平台，抢占工业领域的大数据基础服务市场。05若干思考和建议最后，我想基于自己在大数据领域的研究实践，汇报若干思考和建议。一家之见，仅供参考。一、大力发展行业大数据应用当前，我国互联网领域的大数据应用市场化程度高、发展较好，但行业应用广度和深度明显不足，生态系统亟待形成和发展。事实上，与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例，麦肯锡研究报告称：制造企业在利用大数据技术后，其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据，制造业企业可以更加精细、个性化地了解客户需求；建立更加精益化、柔性化、智能化的生产系统；创造包括销售产品、服务、价值等多样的商业模式；并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环，也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一，却大而不强。企业创新能力不足，高端和高价值产品欠缺，在国际产业分工中处于中低端，大力推动制造业大数据应用的发展，对产业升级转型至关重要。当前，我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升，推动行业大数据应用，也是推进数字中国建设的重要途径和基础。二、建立系统全面的大数据治理体系大数据是数字经济的关键要素，强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础！大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑！我以为，在一国之范围内，大数据治理体系建设涉及国家、行业和组织三个层次，至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容，需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下，提供支撑。在国家层次，重点是要在法律法规层面明确数据的资产地位，奠定数据确权、流通、交易和保护的基础，制定促进数据共享开放的政策法规和标准规范，促进政务数据和行业数据的融合应用，并且出台数据安全与隐私保护的法律法规，保障国家、组织和个人的数据安全。在行业层次，重点是要在国家相关法律法规框架下，充分考虑本行业中企业的共同利益与长效发展，建立规范行业数据管理的组织机构和数据管控制度，制定行业内数据共享与开放的规则和技术规范，促进行业内数据的共享交换和融合应用。在组织层次，重点是要提升企业对数据全生命期的管理能力，促进企业内部和企业间的数据流通，提升数据变现能力，保障企业自身的数据安全及客户的数据安全和隐私信息。在数据治理体系建设中，数据共享开放是大数据资源建设的前提，在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时，我以为，还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待，可能需要综合考虑数据的使用场合及数据主体的权益。如，数据集中管理可能带来保管上的安全问题，然而数据融合才能产生价值，一定程度的集中是趋势所在，也更利于建立更强大可靠的保护机制；多源数据的融合可能导致信息泄露，然而在确知风险前，是否需要因其“可能性”而拒绝技术的应用？数据脱敏仍然可能存在隐私泄露的风险，是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”？是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法，并对相关应用予以免责？当然，加强兼顾隐私保护、数据安全和数据流动利用的新技术研发，也非常必要。当前，如安全多方计算、同态加密、联邦学习等技术研发，希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下，实现数据的融合利用。虽然这些技术尚处于发展的初级阶段，但因其广阔的应用前景而受到普遍关注。另外，打破信息孤岛、盘活数据存量是当前一项紧迫的任务，而在此过程中，不宜过分强调物理集中，而应将逻辑互联作为打通信息“孤岛”的手段，逻辑互联先行，物理集中跟进。在数据共享体系建设中，需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系，在不改变现有信息系统与数据资源的所有权及管理格局的前提下，明晰责权利，即：数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时，集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案，如何在新一轮建设热潮中，从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障，尽可能避免新“孤岛”的产生，也是一项重大挑战。三、以开源为基础构建自主可控的大数据产业生态在大数据时代，软件开源和硬件开放已成为不可逆的趋势，掌控开源生态，已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略，一方面鼓励我国企业积极“参与融入”国际成熟的开源社区，争取话语权；另一方面，也要在建设基于中文的开源社区方面加大投入，汇聚国内软硬件资源和开源人才，打造自主可控开源生态，在学习实践中逐渐成长壮大，伺机实现引领发展。中文开源社区的建设，需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外，在开源背景下，对“自主可控”的内涵定义也有待更新，不一定强调硬件设计和软件代码的所有权，更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。四、积极推动国际合作并筹划布局跨国数据共享机制2018年11月17日，习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”，“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下，我国应该积极推动在大数据技术和应用方面的国际合作，建立跨国数据共享机制，与其他国家一起分享数字经济的红利，同时也使我国获得更多发展机遇和更大发展空间，积极促进数字经济下人类利益共同体和命运共同体的构建。当前，我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作，在保障数据安全的前提下，促进数据跨境流动，从而形成围绕国家合作各个领域的大数据资源，为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家，无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前，与发达国家站在同一起跑线上，并且由于没有“路径依赖”所带来的历史包袱，也有可能在新一轮的竞争中占有优势。五、未雨绸缪，防范大数据发展可能带来的新风险大数据发展可能导致一系列新的风险。例如，数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势，不断获取行业数据，但却“有收无放”，呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展，而且有可能对国家安全带来冲击和影响。又如，数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容，在带来便利的同时，也导致人们只看到自己“希望看到的”信息，从而使人群被割裂为多个相互之间难以沟通、理解的群体，其可能引发的社会问题将是难以“亡羊补牢”的。需要看到，以互联网为代表的新一代信息技术所带来的这场社会经济“革命”，在广度、深度和速度上都将是空前的，也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的，适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养，将是我们面临的巨大挑战！唯有全民提升对大数据的正确认知，具备用大数据思维认识和解决问题的基本素质和能力，才有可能积极防范大数据带来的新风险；唯有加快培养适应未来需求的合格人才，才有可能在数字经济时代形成国家的综合竞争力！主讲人：梅宏，中国科学院院士、中国人民解放军军事科学院副院长本文相关名词解释API：应用编程接口（Application Programming Interface）的首字母缩写，是指某软件系统或平台为其他应用软件系统提供的一组函数，通过调用这些函数，其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。开源平台：“开源”是开放源代码的简称，开源平台是指支持开源社区活动，管理开放源代码，向所有开源社区参与者提供相关服务的软件平台（平台基于互联网构建并通过互联网通过服务）。任何人都可以获得开源软件的源代码并加以修改，并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文，这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。可伸缩的计算体系结构：可伸缩英文为scalable，指一个计算系统的能力和性能随应用负载的增加，通过极少的改动或配置甚至只是简单的硬件资源增加，而保持线性增长的能力，是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标，软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。鲁棒性：鲁棒是英文Robust的音译，也就是健壮的意思，因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文，这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失，甚至在恶意数据攻击等异常情况下，模型仍然能得到较为准确结论的能力。数据互操作：数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问，包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。“全数据”：“全数据”也称“全量数据”，是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本，一般都仅对问题相关的所有数据进行局部采样，并基于采样获得的部分数据进行分析，得出结论，结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代，人们开始提出“全数据”的概念，即，并不采样，而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差，但是也增加了计算成本。云边端融合：云是指云计算中心，边是指边缘计算设备，端是指终端设备。以智能家居为例，智能电视、冰箱、空调等直接与用户交互的设备是“端”，通过互联网连接的异地的云计算平台是“云”，而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力，一般用于复杂的数据计算处理；终端设备距离最终用户较近，对用户的操作响应快，一般负责与用户进行交互；边缘计算设备介于“云”和“端”之间，负责对端所采集的数据做本地化处理，同时将需要更强大计算能力支持的任务和数据发往云计算中心处理，并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职，密切协同且优势互补的新型计算模式。宽带、移动、泛在的网络通信：“宽带”是指通信速率高，海量大数据的高速传输需求推动骨干网络向Pb/s发展；“移动”是指移动通信；“泛在”是指无所不在。宽带、移动、泛在通信是指：未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。安全多方计算：安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下，一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性，在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露，且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。同态加密：同态加密是一种密码学技术，其核心在于保证：对经过同态加密的数据进行处理（如：运行某种数据分析算法）后得到输出，将这一输出进行解密，其结果与用同一方法（即上述数据分析算法）处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理，从第三方获得处理结果后，对此结果进行解密便可获得所期望的结果。如此一来，数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险，同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。联邦学习：联邦机器学习是一个多组织协同的机器学习框架，使得一个组织在不共享原始数据的情况下，可以利用其他组织数据中所蕴含的信息和知识，建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。ZB、EB、Pb/s、Gb/s：在计算机领域，一个二进制位称为一个比特，一般用小写b表示；而8个二进制位称一个字节，用大写B表示。简言之：1B=8b。计算数据量或数据所需存储空间大小时，习惯用字节为单位（用B表示）。1KB=1024B，1MB=1024KB，1GB=1024MB（通常简记为109），1TB=1024GB，1PB=1024TB，1EB=1024PB，1ZB=1024EB。1EB约等于10亿GB，而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件（44K/320kbps音质），大小约为8MB，那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首，如果全部听一遍，需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位（用b/s表示）。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P（1000万亿）个比特和1G（10亿）个比特。网络速率1Gb/S（此处是小写b）的情况下，下载一个2GB（此处是大写B）的电影，需要16秒；而网络速率1Pb/S的情况下，仅需要0.016毫秒。

展开

我孔

2020年中国数据服务行业市场现状及发展趋势预测分析

数据作为一种资产，是数据服务业的基础，在20世纪90年代伴随着政府和企业的数字化转型而产生，并随着数据处理技术的兴起、数据应用的普及和数据服务业的发展而逐步受到了社会关注和重视。大数据服务是数据服务行业的重要组成部分。数据显示，我国大数据服务市场规模由2016年的698亿元跃升至2018年的1317亿元，中商产业研究院预测，2020年我国大数据服务行业市场规模将达1922亿元。数据服务市场规模的持续增长。数据来源：中商产业研究院整理2020年5月，数据服务领域投融资事件16起，比上月多4起。投融资金额15.28亿元，比上月增加29.4%。从投融资轮次来看，2020年5月数据服务领域A轮投融资事件6起，B+轮投融资事件3起，B轮投融资事件2起，A+轮、C+轮、Pre-A轮、战略投资、种子轮融资事件各1起。数据来源：IT桔子、中商产业研究院整理互联网行业持续扩张，促使数据规模爆发式增长随着信息技术和人类生产生活交汇融合，互联网快速普及，全球数据呈现爆发增长、海量集聚的发展态势。据IDC预测，全球数据圈规模将从2018年的33ZB增至2025年的175ZB，增幅达4倍以上；其中，中国数据圈规模的增长速度处于领先，预计将从2018年的7.6ZB增至2025年的48.6ZB，年均增速比全球高出3个百分点，占全球数据圈的比例将从2018年的23.4%提升至27.8%。数据的有效应用成为经济社会发展的强劲驱动力数据作为数字经济时代的核心生产要素，在经济社会发展过程中起到了重要作用。数据驱动型创新正在向经济社会、科技研发等各个领域扩展，成为国家创新发展的关键形式和重要方向。各行各业加速数字化进程，对数据的有效应用成为关键。硬件算力的迅速提升，使得数据应用向智能化和敏捷化发展算力的跃升是数据服务产业发展的重要前提，并已经成为当下智慧时代的重要生产力。根据IDC发布的数据，2018年下半年中国GPU服务器市场规模为7.8亿美元，2018年全年为13.05亿美元，同比增长131.2%，至2023年中国GPU服务器市场规模预计将达到43.2亿美元，未来5年整体市场年复合增长率为27.1%。未来，硬件算力将持续提升，从而为数据应用的发展奠定良好基础。数据来源：IDC、中商产业研究院整理数据要素市场化发展加速，数据安全保障措施逐步强化随着技术与市场的进一步发展，对于数据要素资源的挖掘及开发利用进一步充分完善，政府相关主管部门也在出台相关政策规范数据市场化进程，对数据资源的利用及交易流转的安全保障也逐步强化。数据服务行业发展趋势1、数据开放共享进程加速近年来，诸如政务、电力等行业已经逐渐开始在数据共享方面进行有益的探索和尝试。未来，推动数据开放共享的政策举措将不断加强。此外，同态加密、差分隐私、多方安全计算、零知识证明等技术也将进一步取得突破，从而推进数据共享和流通进程。2、数据治理水平不断提升在数据应用的过程中，数据的搜集、清洗和加工耗费了主要的时间和精力，且数据质量的降低通常会导致数据分析效果显著降低，无法为企业经营决策提供有力依据。未来，数据对企业成长的驱动效应将不断增强，越来越多的企业将着眼于长期发展战略，在基础数据资产管理上加大投入力度。同时，在政策引领下，各行业的数据治理水平也将不断提升。3、数据应用在各个行业的应用持续深化尽管目前数据应用取得了长足进展，但行业与数据应用融合的业务类型、地域分布和行业分布不均衡的问题依旧突出。未来，数据服务行业中的企业将致力于提升数据平台和相关应用的可用性和操作便捷程度，优先支持面向传统企业的产品、服务和解决方案的开发，简化数据应用底层繁琐复杂的技术，方便数据应用的部署；数据服务公司将运用日益先进的数据管理和分析技术，为各行业企业提供优质的服务与解决方案。数据应用在各个行业的应用将持续深化，数据驱动的新模式、新业态将不断涌现。（文章来源：中商产业研究院）

展开

有异

大数据时代的发展趋势和现状怎么样？

大数据是物联网、Web系统和信息系统发展的综合结果，其中物联网的影响最大，所以大数据也可以说是物联网发展的必然结果。大数据相关的技术紧紧围绕数据展开，包括数据的采集、整理、传输、存储、安全、分析、呈现和应用等等。目前，大数据的价值主要体现在分析和应用上，比如大数据场景分析等。大数据正在进入一个成熟的新阶段，在未来的十年中，这将带来更大的业务影响。随着大数据计算的成熟，现在正在将大数据流程的敏捷性与人工智能（AI）功能的规模相结合，以加快业务价值的交易，那大数据时代的发展趋势和现状怎么样？大数据与AI的融合已成为非常重要的发展，它正在塑造企业通过其数据和分析功能推动业务价值的未来。更大数量和数据源的可用性首次使AI和机器学习功能一直处于休眠状态，这归因于缺乏数据可用性，有限的样本大小以及无法在毫秒内分析大量数据。数字功能已将数据从批处理转移到实时处理。尽管许多AI技术已经存在了几十年，但直到现在它们才能够利用足够大小的数据集来提供有意义的学习和结果。通过敏捷性和即时访问来访问大量数据的能力正在导致AI应用程序和机器学习应用程序的快速发展。尽管统计学家和早期数据科学家通常仅限于处理“样本”数据集，但大数据使数据科学家能够不受限制地访问和处理海量数据。数据科学家不再依赖代表性的数据样本，而是可以依靠数据本身的所有粒度和细节。这就是为什么许多组织已从基于假设的方法转变为“数据优先”方法的原因。组织现在可以加载所有数据，让数据本身指明方向并讲故事。可以收集不必要或冗余的数据，并可以使用“分析沙箱”或大数据“卓越中心”来分析更多指示性和预测性数据，这些数据可以利用数据管理方法的灵活性和敏捷性。现在，大量数据发生之后，有低成本的存储器将其存储，有高速的CPU对其进行处理，所以才有了人工智能后两个分支的理论得以实践。由此，人工智能就能做出接近人类的处理或者判别，提高精准度。同时，选用人工智能的服务作为高附加值服务，成为了获取更多用户的主要因素，而不断添加的用户，发生更多的数据，使得人工智能进一步优化。大数据运用通常将他们的方法称为“加载和运行”。大数据提供了一种鼓励通过迭代发现数据的环境。结果，企业可以更快地行动，进行更多实验并快速学习。换句话说，大数据使组织能够快速失败并更快地学习。

展开

爱寻迷

2019年中国大数据产业市场现状分析及发展前景预测（附图表）

中商情报网讯：大数据产业是对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。大数据主要应用领域包括教育、交通、能源、大健康、金融等。随着移动互联网、物联网、云计算产业的深入发展，大数据国家战略的加速落地，2019年大数据体量呈现爆发式增长态势。一、大数据产业链大数据产业链可以从数据源、大数据产品、大数据服务应用这三大块来讲。目前，我国的数据来源包括政府部门、企业数据采集及供应商、互联网数据采集及供应商、数据流通平台等。而大数据产品包括大数据平台、云储存、数据安全等基础软件产品；加工分析、解决方案等软件产品；大数据采集、接入、存储、传输等硬件设备产品。大数据服务方面，主要为应用服务、分析服务、基础设施服务等供应商。数据来源：中商产业研究院二、大数据市场分析随着移动互联网、物联网、云计算产业的深入发展，大数据国家战略的加速落地，2019年大数据体量呈现爆发式增长态势。数据显示，2017年中国大数据产业规模达到4800亿元，同比增长23%；其中，大数据硬件产业的产值为234亿元，同比增长39%。据中商产业研究院发布的《2019年中国大数据产业市场前景研究报告》显示，2018年我国大数据产业规模突破6000亿元；随着大数据在各行业的融合应用不断深化，预计2019年中国大数据市场产值将达到8080亿元。2019年包括数据挖掘、机器学习、产业转型、数据资产管理、信息安全等大数据技术及应用领域都将面临新的发展突破，成为推动经济高质量发展的新动力。数据来源：中商产业研究院具体分市场来看，未来大数据产业中应用层的规模将占比最大。目前，大数据广泛应用在工业、企业管理、交通、金融、医疗等方面，但应用深度仍有待挖掘。随着技术的不断提升，未来大数据技术的应用不管从纵向或是横向来看都将更加广泛，规模扩大。除了应用以外，大数据产业衍生的其他产品也将不断扩张，市场规模排名第二。硬件、技术作为必不可少的环节，在大数据产业规模中占比不小。而数据的来源、采集以及交易方面的市场占比则相对较小。（1）应用层：大数据的应用是实现其价值的重要渠道，随着大数据在实体经济行业、政府机构、新兴行业等领域的融合应用加深，通过分布式并行计算、人工智能等技术对大量数据进行分析、挖掘，再作用到行业的生产、管理等。随着大数据技术及产品的应用进一步普及，预计应用市场在大数据产业中的占比将提高。（2）衍生层：大数据产业链涉及的环节众多，随着大数据市场需求扩大，为了更好的满足用户需要，更好的支持大数据技术、大数据产品或是大数据服务，将衍生出不少相关的新业态。此外，新兴产业快速发展的背景下，“大数据+”将带来新业态、新模式。大数据产业衍生市场占比将进一步提高，将近两成。（3）硬件层：大数据技术中的硬件产品包括芯片、传感器、传输设备、存储设备、服务器、安全设备等，是支撑大数据产业基础设施的建设，在大数据产业的占比不小。随着需求升级、应用扩大，未来大数据技术硬件支撑也将不断优化升级。（4）技术层：大数据产业链涉及的环节众多，随着大数据市场需求扩大，为了更好的满足用户需要，更好的支持大数据技术、大数据产品或是大数据服务，将衍生出不少相关的新业态。此外，新兴产业快速发展的背景下，“大数据+”将带来新业态、新模式。大数据产业衍生市场占比将进一步提高，将近两成。（5）数据源：数据源是大数据产业的基础，大数据概念在我国的发展相对较晚，整体体系仍待完善，数据源覆盖面不够大。目前，我国数据来源主要有政府部门、互联网巨头、移动通信企业等。相对于应用、技术等领域来说，数据源市场份额在大数据产业中占比较小。（6）交易层：大数据交易可以打破行业信息壁垒，为用户提供大量数据源、管理、分析等，实现数据价值的最大化。但目前，我国大数据产业仍在发展阶段，大数据交易市场尚未成熟。未来，随着大数据交易市场统一规范，平台、流通、管理等环节更为成熟、完善，大数据交易市场将进一步扩大。来源：中商产业研究院三、大数据产业发展前景随着移动互联网、物联网、云计算产业的深入发展，大数据国家战略的加速落地，2019年大数据体量呈现爆发式增长态势。2019年包括数据挖掘、机器学习、产业转型、数据资产管理、信息安全等大数据技术及应用领域都将面临新的发展突破，成为推动经济高质量发展的新动力。据预测，2019年大数据最令人瞩目的应用领域是健康医疗、城镇化智慧城市、金融、互联网电子商务、制造业工业大数据；取得应用和技术突破的数据类型是城市数据、视频数据、语音数据、互联网公开数据以及企业数据、人体数据、设备调控、图形图像；在数据资源流转上，会自己收集大量数据、会利用数据提供服务、会免费提供数据集、会只下载和获得免费数据集、会买数据集；大数据的最佳拍档概念是数据科学、机器人和人工智能、智能计算或认知计算；我国大数据发展的最主要推动者来自于大型互联网公司、政府机构。来源：中商产业研究院未来，人口红利将转变为网民红利，成为支撑应用驱动创新的最大因素。随着老龄化社会的到来，以往在经济发展中扮演重要角色的“人口红利”逐渐消失，与此同时，我国网民规模不断扩大，网民红利更加凸显，中国已是世界上产生和积累数据体量最大、类型最丰富的国家之一。依托庞大的数字资源与用户市场，使得中国企业在应用驱动创新方面更具优势，大量新应用和服务将层出不穷并迅速普及。更多资料请参考中商产业研究院发布的《2019-2024年中国大数据产业发展前景及投资机会研究报告》，同时中商产业研究院还提供产业大数据、产业规划策划、产业园策划规划、产业招商引资等解决方案。

展开

情人石

全球大数据发展情况如何？最新分析报告发布

封面新闻记者刘秋凤新冠肺炎疫情促使大数据发展走上了快车道。经过这轮急速发展后，大数据呈现怎样的成长状态？未来之路在哪里？《全球大数据发展分析报告（2020）》尝试回答这些问题。4月9日，“第二届天府大数据与新经济发展论坛”在成都召开。《全球大数据发展分析报告（2020）》（以下简称报告）作为论坛的重要报告成果，于论坛当日正式发布。报告显示，新冠肺炎疫情大流行正加速全球数字化进程，加速全球大数据与数字经济的竞争发展。由于隔离措施使得远程办公、在线教育等需求增长，导致全球对宽带通信服务的需求猛增，同时基于短视频、直播等内容消费激增，使得全球创建和捕获的数量及信息量飞速增长。预计到2025年，全球数据量将增长到175ZB。数字经济正在成为当今最活跃的经济形态，数字化转型与发展的同时更需要负责任的商业行为，随着数字技术与实体经济的加速渗透与融合，数字经济将在相关国际标准和规则倡议下弹性发展。报告呼吁开展跨国大数据合作，推动全球可持续发展；建立大数据文化，提升全民数字技能，缩小数字鸿沟；研究构建开放数据评价体系，全面衡量开放数据经济价值与社会价值。机遇伴随着挑战。报告认为，如何定义与衡量数字经济是世界各国共同面临的巨大挑战。首先，数字经济没有被广泛接受的定义。其次，缺乏关于其关键组成部分和层面的可靠统计数据，特别是在发展中国家。从全球范围看，政府开放数据行动已经走过了十年。报告通过对世界主要国家开放数据相关计划、国家级开放数据平台展示的开放数据集数量及类别、格式及应用情况等进行比较分析，结果显示,目前世界主要国家政府数据开放建设情况，其中澳大利亚、韩国、印度、加拿大、美国、英国、日本、法国、新加坡、新西兰、德国处于领先地位，俄罗斯、意大利、瑞士、巴西、乌拉圭、西班牙、智利、印度尼西亚处于竞争者地位。相比2018年，澳大利亚的政府数据开放建设程度进步较大，加拿大、韩国稳步发展，而美国在数据集开放质量和应用等方面均所有退步。目前，中国政府数据开放正处于加快规范发展的关键阶段，中国政府开放数据实施路径是由地方政府数据开放为点，逐渐形成国家层面的数据开放，国家政府数据统一开放平台正在积极建设过程中。在此次新冠肺炎爆发期间，中国运用大数据等技术手段，加强疫情溯源和监测，取得了举世瞩目的防控成效。中国的在线消费、在线医疗、无人配送、智能制造等新兴产业对防控疫情和复工复产发挥了重要作用，同时展现了强大的增长潜力。面对当前复杂的经济形势，中国主张危中寻机、化危为机，全力抢抓产业数字化、数字产业化赋予的机遇，加快5G网络、数据中心等新型基础设施建设，抓紧布局数字经济、生命健康、新材料等战略性新兴产业、未来产业，大力推进科技创新，着力壮大新增长点、形成发展新动能。据悉，该报告是由天府大数据国际战略与技术研究院联合中国科学院虚拟经济与数据科学研究中心、中国科学院大数据挖掘与知识管理重点实验室、四川省大数据中心数据资源管理处、成都市大数据协会联合发布。

展开

陌生人

考研大数据分析：带你了解整体考研形势

据教育部数据统计，2018年考研报考人数达到238万，较2017年的201万增长了18.4%。考研人数日益增多，聚英考研网小编提醒大家应该做好充分的准备，为成功考上研加大筹码，那么还有哪些数据是我们应该了解的呢，下面带大家一起来看看！一、研究生报考集中在北京，江苏，上海等教育资源丰富地区据中国教育在线研究生信息采集系统数据显示(43万人次)，近22%的比例考生选择报考北京地区高校，其次为江苏8.8%，上海7.2%，天津5.4%，湖北5.3%，广东5.2%。多数集中在名校资源丰富，经济发展水平较高的地区。二、研究生计划报考专业数据显示，在研究生报考前10的专业中，经济管理类占比60%，报名最多的前两位均为专业硕士，理工类专业仅占10%。三、计划报考专业型硕士研究生占比四成数据显示，60%的考生计划报考学术型研究生，40%的考生计划报考专业型研究生。但从2017年的考研的人数来看，专硕已经突破了学硕，比例占到52%。随着在职研究生列入统考，专硕比例还在继续扩大中，因为很多学硕专业招生人数非常得少，甚至有可能不招，也有可能主要招推免生，而不招统考生。预计到2020年，专业硕士的招生人数和学术硕士的招生人数比例可能是7：3。四、超八成高校认可调剂考生与一些热门报考专业相对应，在一些高校出现了部分专业"零报考"的情况，导致这些专业最终招生计划需要调剂来完成。另外一组针对调剂生源的调查显示，有80.3%高校曾表示，考研录取的"调剂生源"整体水平与第一志愿报考学生区别不大。针对考研人群考后调查，因分数不理想而选择调剂的人数占比达到46.3%，选择继续再战的比例为26.9%，放弃考研选择就业的占比26.8%。五、近八成考生就读院校非985、211高校数据显示，在考生就读大学性质中，77%的人就读院校为非985/211高校。看了以上的数据，大家有没有对考研的整体形势更加了解了呢，希望每位同学都能用心准备，做出最适合自己的复习规划，实现最终的目标！如果有什么看法或者意见欢迎留言讨论，有什么想了解的考研资讯也欢迎反馈，小编看到后会根据实际情况整理出相关的考研资讯供大家参考。

展开

吊兰

2018年中国数据中心发展现状分析数量和规模双增长

我国数据中心数量和规模双增长2013年以来，我国数据中心总体规模快速增长，到2017年底，我国在用数据中心机架总体规模达到166万架，总体数量达到1844个；规划在建数据中心规模107万架，数量463个。其中，大型以上（机架数超过500）数据中心是增长主力，大型以上数据中心机架数达82.8万，比2016年增长68%，数据中心总体规模占比近50%。受"互联网+"、大数据战略、数字经济等国家政策指引以及移动互联网快速发展的驱动，我国IDC业务收入连续高速增长。根据中国信息通讯研究院统计，2017年我国IDC全行业总收入达到650.4亿元，2012-2017年复合增长率为32%。2015年工信部发布《电信业务分类目录（2015年版）》，除数据中心租赁、服务托管等传统IDC业务外，将互联网资源写作服务（IaaS和PaaS）纳入互联网数据中心（IDC）业务定义范畴，我国IDC业务收入包含IaaS和PaaS云计算业务部分。2017年我国传统IDC业务收入为512.8亿元，占IDC全行业收入比重的78.8%；云服务收入137.6亿元，占比21.2%，比2016年提高2.8%。随着"企业上云"行动实施，预计未来云服务收入在我国IDC业务收入中的占比会进一步增加。东部一线城市数据中心较饱和，中西部地区利用率不断提高截至2017年底，我国超大型数据中心上架率为34.4%，大型数据中心上架率54.87%，与2016年相比均提高5%左右，除北上广深等一线城市，河南、浙江、江西、四川、天津等地区上架率提升到60%以上，西部地区多个省份上架率由15%提升到30%以上。全国数据中心总体平均上架率为52.84%，总体供需平衡，但与发达地区数据中心成熟市场仍有一定差距，数据中心利用率仍可进一步提高。我国数据中心能效水平总体提升，优秀绿色数据中心案例不断涌现截至2017年底，受上架率影响，我国在用超大型数据中心平均运行PUE1.63，大型数据中心平均1.54，最优水平达到1.2左右。2017年在建超大型、大型数据中心平均设计PUE分别为1.41、1.48，预计未来几年仍将进一步降低。从绿色技术来看，国内数据中心不断创新绿色节能新应用，多个数据中心获得TGG（绿色网络）与开放数据中心委员会联合认证的5A级绿色数据中心。如2015年，百度云计算（阳泉）中心采用整机柜服务器、高压直流+市电直供、机器学习控制系统、高温服务器等技术，实现年均PUE1.23；2016年，阿里巴巴千岛湖数据中心采用湖水自然冷却系统、太阳能电池板、高压直流等技术，达到年均设计PUE1.28；2017年，腾讯青浦三联供数据中心采用天然气三联供、离心变频冷机、磁悬浮冷机等技术，实现年均PUE1.31；2018年，阿里巴巴/张北云联数据中心采用无架空地板弥散送风、全自动化BA系统实现自然冷源最大化等技术，实现年均PUE1.23。以上数据来源参考前瞻产业研究院发布的《2017-2022年信息存储行业市场前景预测与投资战略规划分析报告》。更多深度行业分析尽在【前瞻经济学人APP】，还可以与500+经济学家/资深行业研究员交流互动。

展开

深宫怨

解锁我国大数据行业发展现状及趋势

一、行业发展概况1、相关定义对于大数据的概念，目前尚无业界所广泛接受的明确定义。各权威机构及普遍理解大致如下：麦肯锡在研究报告《大数据的下一个前言：创新、竞争和生产力》中认为：大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集；美国国家标准技术研究所（National Institute of Standards and Technology，NIST）的大数据工作组在《大数据：定义和分类》中认为：大数据是指那些传统数据架构无法有效地处理的新数据集。维基百科列示的定义是：大数据，或称巨量数据、海量数据、大资料，指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。Gartner 列示的定义是：大数据是体量大、快速和多样化的信息资产，需用高效率和创新型的信息技术加以处理，以提高发现洞察、作出决策和优化流程的能力。国内普遍的理解是：大数据是具有数据量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大数据集的数据。2、大数据的特征传统的数据处理只有两个环节：从“数据源”到“应用”，数据源需要经过处理存到一个结构化数据库进行管理，然后再使用诸如数理统计、结果可视化等技术完成对数据的应用。与传统的数据处理周期不同，大数据处理需要在传统的 “数据源”到“应用”这一流程上增加“数据管理”这一步骤，以应对海量大数据带来的新挑战。对于大数据的数据特征，业界通常引用国际数据公司定义的 4V 进行描述：（1）数据量大（Volume）：虽然对大数据量的统计和预测结果并不完全相同，但是一致认为数据量将急剧增长。（2）类型繁多（Variety）：除了结构化数据外，大数据还包括各类非结构化数据，例如文本、音频、视频、点击流量、文件记录等，以及半结构化数据，例如电子邮件、办公处理文档等。（3）数据价值（Value）：从海量价值密度低的数据中挖掘出具有高价值的数据。这一特性突出表现了大数据的本质是获取数据价值，关键在于商业价值，即如何有效利用好这些数据。（4）处理速度快（Velocity）：通常具有时效性，企业只有把握好对数据流的掌握应用，才能最大化地挖掘利用大数据所潜藏的商业价值。3、我国大数据产业发展历程我国的大数据产业目前已经历了三个时期：（1）探索期：大约从 2004 年前后，随着数据库等技术的进步，数据挖掘概念开始普及，越来越多的企业将信息管理作为单独的业务部门。但由于当时企业数据采集能力的限制，以及企业信息化时间较短，本身管理软件中积累的历史数据有限，一些厂商推出的领先数据管理方案并不容易获得企业认可，业务尚不足以推动技术的快速进步。（2）市场启动期：2008 年金融危机后，国内企业为了尽快从业务低迷的状态中恢复，获得市场竞争优势，对商业智能（BI）以及商业分析（BA）的需求出现快速提升，主要应用在决策支持、业务优化、销售机会挖掘预测等领域。但在随后的 2010-2011 年，领先企业拥有优势后并不甘愿放弃，而落后企业更急于寻求方案快速赶上，使得共同作用下，企业级市场对商业智能及商业分析的需求并未减退，反而成为一种常态。（3）高速发展期：到了 2012 年以后，由于企业信息化及互联网应用的日益完善，对消费者及企业内外部所积累的数据日益丰富，大数据的概念迅速为各类人群所接受。而在企业领域，包括营销、风险管控、预测、客户挖掘、海量数据实时处理、可视化展现、数据仓库建设等方面的多样化需求迅速扩张，业务推动技术进入高速创新期。而进入 2015 年后，企业深度利用数据价值的意识迅速提高，数据资产管理成为热门概念，企业开始愿意通过数据交易进行变现，各种与大数据有关的政策及法律法规不断完善。预计，中国大数据市场将在 2020 年前后进入成熟期。一方面业务需求的变化将推动细分领域出现丰富的商业模式，并使得新产品和服务具有稳定的刚性需求；另一方面随着产业链的完善，专注于细分行业及细分应用领域厂商竞争逐渐稳固，而不善于充分利用数据的企业将被快速淘汰出局。二、行业发展情况分析1、市场规模目前，我国大数据产业发展在经历初期探索、市场启动等阶段后，大数据的技术、应用以及社会公众的接受度等方面逐步趋于成熟，整个产业开始步入快速发展阶段，行业规模增长迅速。根据中国电子信息产业发展研究院发布的数据显示，2018 年中国大数据产业的市场规模约为 4,384.5 亿元人民币，同比增长23.50%。随着国家政策激励以及大数据应用模式的逐步成熟，未来几年中国大数据市场仍将保持快速增长，预计到 2021 年中国大数据市场规模将达到 8,070.60 亿元。数据来源：中国电子信息产业发展研究院当前，国内大数据正在被越来越广泛地应用到政府公共管理、金融、交通、零售、医疗、工业制造等领域，随着大数据应用范围的不断扩大，大数据所形成的市场价值将不断提升。2、区域结构当前，由于各地区发展基础和起步时间不同，全国各省市大数据发展水平存在明显的差异性。从区域角度来看，华北、华东、中南是大数据企业主要集中区域，这些区域集中了中国主要的互联网企业和金融、消费品、制造等行业用户。其中，2018 年华北地区份额最高，占 27.60%。数据来源：大数据产业生态联盟3、行业结构大数据市场刚刚迈入中国之时，国内对大数据的应用领域主要集中在互联网，智能交通、电子政务、金融理财、电商物流等方面虽然得到了发展，但应用领域仍然较为狭窄。近年来，随着泛互联网的发展，各行业的数据量激增，金融科技、征信、工业、医疗等更多领域开始关注并利用大数据技术挖掘数据价值，并逐步成为大数据行业的主流下游应用领域。4、在征信领域应用随着我国社会信用体系建设的步伐不断加快以及计算机和网络技术的不断提高，征信业的发展也需要适应大数据时代发展所带来的技术变革。征信机构在积累征信数据的同时，也需要提升自身的数据存储能力，丰富所积累数据的维度，提升数据分析挖掘、处理速度等各方面能力，从而促进大数据技术在征信领域的应用。随着云计算、数据挖掘等信息技术的发展和应用，为征信产品的创新和升级奠定了技术基础。数据处理能力的提升，使得征信机构可以对数据资源进行更充分地挖掘和分析，开发出具有更高技术含量的产品和服务，满足银行、保险等金融机构多层次、全方位、专业化的征信需求。此外，以互联网金融为代表的新型互联网服务行业的快速发展也带来大量新的征信需求。对于互联网金融企业，需要借助信用信息共享来防范信用风险、降低交易成本。大数据技术在征信领域的应用，可以帮助其甄别和防范可能发生的风险。三、行业主要特点大数据行业的下游应用领域极其广泛，例如金融科技、征信等领域，下游应用领域市场规模的增长代表着大数据行业市场需求的上升。1、金融科技金融科技是基于大数据、云计算、人工智能等一系列技术创新，全面应用支付清算、借贷融资、财富管理、零售银行、保险、交易结算等六大金融领域，是金融业未来的主流趋势。回顾人类金融发展史，科技创新与金融创新始终紧密相连，特别是进入信息社会以来，在摩尔定律的作用下，新技术的出现速度不断加快，而金融与科技的共生式成长也使得现代金融体系伴随信息技术共同经历着指数级增长。大数据在金融业的应用场景相当广泛。如在银行业，大数据应用场景集中在数据库营销、用户经营、数据风控、产品设计和决策支持等；在证券业，证券企业可以运用大数据技术进行数据挖掘和分析以找到高频交易服务对象、资产较高的服务对象和理财服务对象，然后证券公司就可以根据服务对象的特点进行精准营销，推荐针对性服务。根据艾瑞咨询统计，2018 年我国金融机构技术资金投入达 2,297.3 亿元，其中投入到以大数据、云计算为代表的前沿科技资金为 675.2 亿元，占总体投入的比重为 29.4%。另外，艾瑞咨询预计，到 2022 年中国金融机构技术资金投入将达到 4,034.7 亿元，其中前沿科技投入占比将增至 35.1%。数据来源：艾瑞咨询虽然我国目前与欧美发达国家相比，金融基础比较薄弱，但正是我国金融市场尚未成熟的特点给予我国金融科技快速发展的土壤，未来相关金融机构投入到以大数据、云计算为代表的前沿科技资金投入也会不断加大，这也会在相当程度上推动大数据行业的发展。2、征信征信是依法收集、整理、保存、加工自然人、法人及其他组织的信用信息，并对外提供信用报告、信用评估、信用信息咨询等服务，帮助客户判断、控制信用风险，进行信用管理的活动。党的十八大以来，在党中央、国务院统一部署下，我国征信业发展明显提速，初步形成了“政府+市场”双轮驱动，金融信用信息基础数据库与市场化征信机构错位发展、功能互补的市场格局，征信体系在市场经济中发挥了更为重要的基础性作用。从征信企业业务流程看，信息收集、信息加工处理、信用产品输出、商业化应用是征信业务开展的四大关键环节，而大数据的应用贯彻于征信企业业务流程四大关键环节始终。特别是央行在 2009 年 1 月发布了征信行业数据标准：《征信数据元信用评级数据元》、《征信数据交换格式信用评级违约率数据采集格式》，该标准格式的发布带动了大数据风控技术的快速发展。同时，以机器学习、神经网络为代表的大数据算法的不断完善，也极大地推动我国征信行业的发展。根据央行征信中心统计，截至2019年底，征信系统共收录10.2亿自然人、2,834.1万户企业和其他组织的信息，规模已位居世界前列。此外，我国央行征信中心 2011、2015 和 2019 年征信查询总次数分别为 3.09 亿次、7.19 亿次和 25.1 亿次，增长速度较快，特别是 2015 年到 2019 年，征信查询总次数增长了近 2.5 倍，年复合增长率达到 36.69%。数据来源：中国人民银行征信中心虽然我国目前征信查询次数增长较快，但是对于中国庞大的人口基数来说，人均查询次数仍然偏少，且考虑到我国目前金融市场尚未成熟的特点，未来我国征信行业市场需求巨大。综上所述，以金融科技、征信等领域为代表的大数据下游应用领域市场规模的增长一方面对大数据产业提供了稳健的需求保障，另一方面也对大数据技术提出了更高的需求。这就要求大数据相关企业不仅要不断加大技术研发投入，而且要更加深入了解、分析下游应用领域市场诉求，从而提供更加贴合市场需求的大数据技术解决方案。四、行业上下游产业的关联性大数据产业链覆盖从数据采集挖掘到数据应用服务，当前大数据及相关应用的产业链日益完善。产业链概况如下：1、数据来源（1）产业概况近年来，官方数据开放程度逐渐提高，行业联盟兴起，第三方数据服务蓬勃发展，各大企业（以互联网核心企业为主）也开始逐步开放群体画像数据，不同口径单一数据的跨界融合成倍放大了数据价值。从整体趋势上来讲，数据来源已较为多元，数据产生量爆炸式增长，可供分析的数据维度越来越丰富。据 Forrester 的研究结果，目前在线或移动金融交易、社交媒体、GPS 坐标等数据源每天要产生超过 2.5EB（1EB 为 2 的 60 次方字节）的海量数据。据国际数据公司（International Data Corporation）预计，全球数据总量增长率将维持50%左右，2020 年全球数据总量将达到 40ZB（1ZB=1024EB）；中国将达到 8.6ZB，占全球的 21%。数据来源：国际数据公司伴随着数据资源价值逐步得到认可，数据流通的需求不断上升，除企业直接合作外，数据交易市场开始出现，建立数据需求方与供给方之间成规模化的联系。数据的开放需要多方助力，数据的流通与分享能够成倍提升大数据的经济价值和社会价值。当前大数据应用的数据源仍以自由数据为主，尚未形成完善统一的监管政策与行业规则，企业之间的数据孤岛情况仍然存在，数据交易方面，数据交易模式与数据资产定价标准有待建立，发展程度尚不成熟。数据源是大数据应用的起点与核心，用户的自有数据资源是后续开发应用的基础资产。在大数据的背景下，除了自有数据的不断增大之外，打破数据孤岛，实现数据开放，大数据的价值才能最大地显现。用户的自有数据与外部服务商的数据相结合，将成为各个垂直行业价值开发的起点。（2）关键技术：数据库技术在解决大数据问题时，首先需要解决的问题是针对不同数据的分类选择不同方法进行数据的整理与存储。当前，来自各领域的数据呈现爆发式增长，包括网页与社交媒体、机器数据、内部数据、交易数据、生物数据、来自数据提供商的数据等。大数据与传统数据最重要的区别即是数据类别由原来的结构化数据，加入了半结构/非结构化的数据。为解决半结构化/非结构化数据的爆发，NoSQL 数据库应运而生。NoSQL（Not Only SQL）数据库泛指非关系型数据库，能够解决大规模数据集合的处理问题，特别是针对非关联性数据。NoSQL 数据库包括 Key-Value 存储、列存储、文档型等多种类型，适用于多种场景，具体情况如下：2、数据管理（1）产业概况数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程，经历了人工管理、文件系统、数据库系统三个发展阶段。狭义的数据管理包括数据准备、存储管理、计算处理及数据安全等环节。随着互联网和移动互联时代的到来，非结构化数据呈现爆发式增长，继而对数据的处理和管控提出了更高的要求，将对非结构化数据的清洗、加工、挖掘、集成和可视化被纳入广义数据管理过程，以满足更深入的数据处理需要，在此过程中，数据管理的外延还将持续拓展。数据管理各环节概况如下：资料来源：艾瑞咨询（2）关键技术：分布式架构与传统数据“数据简单、算法复杂”的计算不同，大数据计算是数据密集型计算，对计算单元和存储单元间的数据吞吐率要求极高，对性价比和扩展性要求也非常高。因此传统以来大型机和小型机的并行计算不能满足大数据时代数据体量、规模、类型的变化。由此，分布式计算被大规模应用到了大数据领域。分布式计算系统是一组自治的计算机集合，通过通信网络相互连接，实现资源共享和协同工作，从而呈现给用户的是单个完整的计算机系统。2004 年，Google 公布了 MapRece 分布式并行编程架构；而后，Yahoo 提出 S4 系统、Twitter 提出 Storm 系统；Google 随后提出了将 MapRece 内存化以提高实时性的 Spark。①Hadoop MapRece Hadoop是一个由 ASF 所开源的发布式系统基础架构。用户可以在不了解底层分布式细节的情况下，基于 Hadoop 开发分布式的大数据存储与处理应用程序，并利用分布式集群进行高速运算和海量存储。主要特点是扩展能力强、成本低、高效率、可靠。②StormStorm 是 Twitter 正式开源的一个分布式的、容错的实时流计算系统，能够逐条接收和处理数据记录，具有很好的实时响应特性。Storm 实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据。借助实时的信息交互与通讯组件（如 Kafka、ZeroMQ、Netty 等），Storm 对大数据中的记录进行逐条处理，响应实时性可以达到秒级别甚至更短。③SparkSpark 是 Hadoop MapRece 的一个替代方案，可以在 Hadoop 文件系统中并行运行。Spark 克服了 MapRece 在迭代计算和交互式计算方面的不足，同时能够充分利用内存资源提高计算效率。3、数据应用（1）产业概况大数据应用，是利用大数据分析的结果，为用户提供辅助决策，发掘潜在价值的过程。近年来，大数据应用从独立的工具产品向完整的行业解决方案发展，相关产品和企业数量越来越多，涉及的领域越来越广，大数据正在政府决策、交通物流、医疗健康、公共服务、人力资源、广告营销、影视娱乐、能源、金融、农业、电信、零售等领域得到越来越深入的应用。但由于各行业自身的信息化和数字化发展程度不均匀，大数据的行业应用的深度仍需加强。从趋势上看，除通用型工具外，其他独立数据产品的可适用范围将越来越小，基于行业的定制，结合平台的解决方案将成为大数据产业的必然趋势。资料来源：艾瑞咨询大数据的本质，不在于研究如何处理数据，而是更好的发现海量数据中隐藏的价值，当前，在全球范围内，大数据的应用已经具备了初步的实践基础，在政府决策、医疗健康、金融、电信、零售、广告营销等领域得到了较为深入的应用。在数据处理与应用之间，必要的过程即是数据分析与解释。分析与解释是用于帮助解释过去和预测未来的一系列方法。数据分析与解释横跨了计算机科学、统计学和数学、专业领域知识等多个领域。近年来，传统的数学和统计学数据分析越来越难以满足大数据时代的需求，机器学习和人工智能渐渐流行。①机器学习机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。当把机器学习算法应用在大量数据集时，机器就可能“学习”到一些有价值的新的关系，这些关系原本隐藏在浩瀚的数据海洋之中，依赖人脑根本无法发现。②人工智能人工智能则是高于机器学习的一个范畴。现代公认的人工智能主要研究课题有：推理、知识表示、自动规划、机器学习、自然语言处理、计算机视觉、机器人学、通用智能或强人工智能。在这八项研究课题里，自然语言处理，计算视觉都是用来处理人类交互环境中信息，可以用来处理大数据库中非结构化的图片/视频/语音数据。而推理/知识表示/机器学习则是用来发掘大量数据中隐藏关系的利器。人工智能领域的研究自然而然的被认为是解决大数据分析这一难题的答案。五、行业竞争格局目前，根据自身核心竞争力与商业模式情况，我国大数据企业主要呈现数据优势型、技术拥有型、应用服务型三大特征，行业内企业均具备一项或多项上述特征。1、数据优势型企业具备数据优势型特征的企业即先天拥有或以收集数据资源为目标的企业，类企业占据一定的先发优势，可利用手中的数据资源提升自身的企业竞争力，或主导数据交易平台机制的形成。具备数据优势型特征的企业以在自身行业积累了丰富数据资源以及力图汇聚开放网络数据的企业为代表。2、技术拥有型企业具有技术拥有型特征的企业是以技术见长的，专注于数据采集、存储、分析以及可视化工具的企业，主要为软件企业、硬件企业和解决方案服务商。3、应用服务型企业具有应用服务型特征的企业是指为客户提供云服务和数据服务的企业，这类企业广泛对接各个行业，专注于产品的便捷化和可维护性，同时针对不同行业客户的需求提供差异化的服务。大数据技术在征信领域应用的主要企业包括上海华夏邓白氏、益博睿、中诚信征信、金电联行、芝麻信用、前海征信、苏州朗动、北京金堤等。六、行业未来发展趋势1、各行各业对数据分析的需求将更加旺盛随着计算机技术的发展普及，各种信息系统的广泛运用，各类系统中积累了大量的原始数据，各行各业对于数据分析的需求越来越急迫，除了分析这些数据内部所蕴含的规律、预测相关系统的运行趋势以外，对于数据分析的广度和速度都有了越来越高的要求。这些需求促使 IT、互联网厂商不断加快对于数据分析技术的研发创新。一方面，大数据分析不再局限于结构化的历史数据，而更倾向于分析来自社交网络、各种传感器采集的非结构化数据；另一方面，激烈的市场竞争促使大数据解决方案厂商加大了对数据的快速、实时分析、智能决策技术的研发投入。2、人工智能化是大数据的发展方向人工智能的实现以大数据和深度学习算法为基础。深度学习依托于模拟人脑进行分析学习的神经网络，通过模仿人脑的思维方式进行数据的分析和处理。大数据则为人工智能提供的海量数据进行算法的验证和模型的构建。在没有海量数据支持的情况下，仅依靠深度学习算法上的革新是无法实现人工智能的。而近期人工智能之所以能取得突飞猛进的进展，是因为这些年来大数据长足发展的结果。正是由于各类感应器和数据采集技术的发展，我们开始拥有以往难以想象的海量数据，并开始在某一领域拥有深度的、精细化的数据。而这些，都是训练某一领域智能的前提。大数据是让人们通过数据看到未来，帮助人类决策；而人工智能则是为了彻底将人们从劳动中解放出来，帮助或者替代人类完成任务。大数据为人工智能提供数据支持，人工智能通过主动学习、处理、分析大数据，自发得到可以指导人类决策的依据，指导或者直接替代人类进行决策和行动。人工智能将是各个领域的大数据应用的发展方向。3、产业链的分工将日益清晰和细化随着数据价值认知的深化，用户对于数据的质量要求越来越高，标签的准确性、无效或错误值的比例、数据检索的效率和数据关联的精准度等指标对产业链上各类产品或服务价格的影响日渐加大。同时，在综合性的大型数据交易平台带动下，围绕数据所产生的各类需求能够得到最大程度的凸显，必然会促进大数据产业链的划分逐渐清晰和细化，诸如数据采集、汇聚、加工、交易和分析等环节在内的细分产业都将得到极大的推动。此外，企业在大数据产业链中的定位将会更加明确和聚焦。当前很多跨越了多个环节的企业，将会根据自身的优势和特点来重新定位在大数据产业链中的角色，可以预见的是某些数据拥有者将专注于对外提供数据服务，而目前横跨分析和应用环节的企业将会有很大一部分成为专业的分析技术提供商。4、数据处理外包行业将兴起当前，有大量公司将各种 IT 和业务功能外包给服务提供商，这其中包含数据分析。数据外包将是继软件外包之后的另一大产业。从历史上来看，我国的软件外包产业始于 20 世纪八十年代，此后一直保持持续稳定增长，软件外包已经成为发达国家的软件公司降低成本的一种重要的手段。而数据外包作为一个新兴的大数据产业，即为企业和科研客户提供海量数据处理的外包服务，帮助客户完成海量数据作业任务，并最终交付精准无误的数据成果。使用户最小成本、最大利益获得处理后的数据资产，从而可以将更多的人力和资本投入到生产和科研活动中。市场研究和咨询公司 Hexa Research 于 2017 年公布的报告称，全球数据分析外包市场将在 2016 年至 2024 年间的复合年增长率超过 30%，年收入超过 60 亿美元。大数据的价值体现在基于海量数据形成的洞见以指导人类行为。海量数据不仅仅体现在数据体量上，还体现在关联性上。分离数据形成的“数据孤岛”是大数据行业面临的重要问题，其阻碍了数据的连接融合，使数据无法形成知识体系产生洞见，降低了数据的利用价值。只有跨领域的数据分析才更有可能形成真正的知识和智能从而产生更大的价值。同时，大数据本身具有非常强的资产属性，大数据时代，数据就是金钱。因此，基于各类大数据的共享与交易也将得到蓬勃的发展。

展开

首页

考研

考博

院校选择

专业选择

研究生动态

研究生题库

数据分析的研究现状

大数据：发展现状与未来趋势

数据分析的目的和意义（作用）是什么？

梅宏：大数据发展现状与未来趋势

2020年中国数据服务行业市场现状及发展趋势预测分析

大数据时代的发展趋势和现状怎么样？

2019年中国大数据产业市场现状分析及发展前景预测（附图表）

全球大数据发展情况如何？最新分析报告发布

考研大数据分析：带你了解整体考研形势

2018年中国数据中心发展现状分析数量和规模双增长

解锁我国大数据行业发展现状及趋势

首页

考研

考博

院校选择

专业选择

研究生动态

研究生题库

数据分析的研究现状

大数据：发展现状与未来趋势

数据分析的目的和意义（作用）是什么？

梅宏：大数据发展现状与未来趋势

2020年中国数据服务行业市场现状及发展趋势预测分析

大数据时代的发展趋势和现状怎么样？

2019年中国大数据产业市场现状分析及发展前景预测（附图表）

全球大数据发展情况如何？最新分析报告发布

考研大数据分析：带你了解整体考研形势

2018年中国数据中心发展现状分析 数量和规模双增长

解锁我国大数据行业发展现状及趋势

2018年中国数据中心发展现状分析数量和规模双增长