当前位置:首页 > 二级导航 > 科技创新发展 > 正文

瞭望:占总数95%的开源数据,我们用得怎么样?

时间:2020-09-09 08:41 来源: 编辑:admin

核心提示

瞭望|占总数据量超95%的开源数据,我们用得怎么样? 《瞭望》新闻周刊 瞭望 9月9日 ◆ 开源网络数据体量巨大,占到整个数据量的95%以上。这些海量的数据往往隐藏着一些其他数据所...

瞭望|占总数据量超95%的开源数据,我们用得怎么样?
《瞭望》新闻周刊 瞭望 9月9日科技管理研究所官网

◆ 开源网络数据体量巨大,占到整个数据量的95%以上。这些海量的数据往往隐藏着一些其他数据所不具有的可以解决特定问题和重大问题的关键信息
◆ “开源网络数据是没有国界的重要战略资源,我们不用,人家要用,我们落后,就要挨打。”

开源数据金矿待掘
文 |《瞭望》新闻周刊记者 苏会志 张冉燃
  
  自数据首次与土地、劳动力、技术、资本等传统生产要素并列,数据资源正加速向新型生产力转化。
  
  数据开发利用和数据应用服务,是将数据价值转化为生产力的最重要途径之一。业界认为,数据应用服务产业是实现数据要素对其他要素倍增效应的重要依托,将极大提高生产力发展水平。据预测,数据应用服务产业近期市场规模将达数十万亿元。
  
  传统的数据应用大多是对单领域、单类别、单结构数据进行的采集、统计和分析,应用局限较大。更好地释放数据红利、实现大数据普惠服务,不能忽视人人可用、无所不包、相比其他数据要素更公平和丰富的开源网络数据。
  
  开源网络数据即在互联网中公开的数据,包括政府公开的经济统计数据、交通数据,法人公开的销售、管理数据,及大量互联网用户留下的行为、社交等数据。因在网络空间中随时随地自然生成,也被称为“野生数据”。
  
  开源网络数据是大数据的主体。但在我国,开源网络数据的挖掘应用尚如待开垦的处女地。成都数联铭品科技有限公司(下称数联铭品)董事长曾途强调,大力培育数据应用服务产业,是充分挖掘数据特别是开源网络数据的巨大价值、推进数字经济的供给侧改革和增强国际竞争力、抢占战略制高点的当务之急。
  
“野生数据”价值大

  
  不久前,中国原最大连锁咖啡品牌瑞幸咖啡因遭遇著名做空机构浑水公司做空,从美国退市,为中概股企业敲响了警钟。

  近期,从事大数据应用服务的颐信科技有限公司(下称颐信科技),接到一个客户委托——调查某做空机构是否涉嫌恶意做空在香港上市的某生物科技有限公司。但委托方提供的已知信息,仅有一篇谈及该公司存在造假嫌疑的新闻报道,线索非常有限。
  
  在各种数据匮乏的情况下,颐信科技专业分析师通过查找该新闻中提到的做空报告、文章作者透露的其他浅层次信息,不断深挖该做空机构的开源网络数据,并运用专业技术和手段,对相关海量数据进行关联分析,求证研判,查实真相,一步步勾勒出了该做空机构的全貌,获得了该做空机构创始人的海外背景、个人言论、社会关系等关键数据信息。分析师还研究了该机构此前针对多家中概股公司的做空报告,从多层次、多角度、多维度分析研判、比对佐证,最后得出该做空机构报告内容不实、恶意做空中概股企业的结论。为稳定中概股企业海外融资环境、解决信息不对称作出贡献。
  
  全国信息安全标准化技术委员会委员、颐信科技董事长黄劲告诉《瞭望》新闻周刊记者,本案的关键,就在于深入挖掘调查对象的开源网络数据,这些数据大大超越了公权机构数据、法人私有数据的信息量,体现了开源网络数据的应用服务在解决信息不对称问题中的巨大优势。
  
  相比于较为“封闭”的公权机构数据、法人私有数据,开源网络数据具有无组织性、无既定目标、无人管理、海量化、碎片化等鲜明特征,它的开放性、包容性、实用性、及时性等特点,使之成为大数据的特殊存在,能较准确、较全面地反映社会动向及人物、组织、事件的真实动态。
  
  据权威机构统计,开源网络数据体量巨大,占到整个数据量的95%以上。有关专家表示,这些海量数据往往隐藏着一些其他数据所不具有的可以解决特定问题和重大问题的关键信息。只要开发利用得当,就能产生巨大价值。
  
  例如在政府治理上,监测预警重大社会事件,提高政府治理现代化水平;在金融风险防控上,以实体经济监测为基础,排查金融机构风险,提高信息透明度;在公司治理上,运用开源网络数据进行客户背景调查、项目风险调查等,为企业决策提供参考;在中小企业服务和公众服务上,使小微主体也能掌握数据资源,享受数字红利。
  
▲ 一家地方商业银行利用BBD的大数据和人工智能分析技术,对信贷申请企业进行尽调。银行通过大数据穿透式监管产品深度探寻算法,识别出与目标企业有强关联的关联企业或自然人,其中存在隐匿的实际控制人或关键企业。

“我们落后,就要挨打”

  
  开源网络数据向所有人开放,但任何人都不可能轻易获得所有想要的数据,更不可能垄断全部开源网络数据。开源网络数据的应用需要专业机构、专业团队提供专业服务。
     开源网络数据应用服务在西方发达国家已经得到比较普遍的认可和应用。有专家援引美国某核心情报机构统计称,仅占情报经费支出5%的开源网络情报,为其最终的情报产品作出了80%的贡献,现在,其情报有70%以上是开源网络情报。欧美多国相继成立相关研究机构和应用开发中心。
  
  随着全球范围内大数据产品和服务的不断完善,一批有实力的大数据创业公司涌现出来。例如,Palantir自2015年起就成为全球估值第一的大数据企业,它的重要客户为美国情报机构,业务主要涉及国防安全与金融领域等。
  在中国,经过数年发展,大数据技术和应用经历了从萌芽到野蛮发展,再到激烈竞争和重新洗牌的不同阶段,涌现出颐信科技、数联铭品等一批大数据应用服务企业。

  以颐信科技为例,该公司通过技术研发和业态创新,建立了业界先进的数据应用服务基础理论架构及实践成功的多场景、多模式应用体系,创建了数据融合分析系统和开源数据分析师团队,拥有多项国内外先进的核心技术和知识产权。

  数联铭品则是国内较早探索和实践大数据技术和数字经济产业发展的高新技术企业之一。以监管领域为例,数联铭品研发的新金融大数据监测预警平台服务于北京、上海、贵州等全国20余个省市金融监管部门,对非法集资等金融风险提供事前预警。截至今年8月底,共监测新金融企业300余万家,提示高风险企业5万余家,与合作的监管部门共同预警定位高危风险企业800余家。

  但总体而言,我国数据要素价值向现实生产力的转化尚处于初始阶段,开源网络数据应用在我国刚刚起步,从事的专业企业数量少、规模小。

  这让黄劲充满紧迫感,因为“开源网络数据是没有国界的重要战略资源,我们不用,人家要用,我们落后,就要挨打。”

短缺的“摆渡人”

  在业内人士看来,开源网络数据应用不足的原因主要有二:

  一是对开源网络数据价值认识不足,以为通过搜索引擎获得的表网数据就是全部,不知还有95%的数据隐藏在深网中;或者以为开源网络数据仅供参考,不知运用专业方法和手段可以查实真相;又或者以为数据只有统计价值,不知还有专业的数据价值挖掘。

  二是对开源网络数据应用能力不足。开源网络数据应用的关键在于知识提取和价值挖掘,其中思维比手段更重要,人才比机器更重要。国内对开源网络数据的应用大多还停留在数据存储检索和提供基础舆情分析阶段,关键技术和人才缺乏,直接导致应用受限,发展受阻。

  业内人士分析说,数据的处理分析要求精准可靠,仅有人工智能技术还远远不足以支撑调查,经验丰富的专业分析师的智能作用更大。机器只能发挥20%的基础性作用,80%深层次的高端工作要靠专业分析师来完成。

  数据分析师也被称为数据信息和智慧之间的“摆渡人”。专家认为,数据分析师的工作具有高度专业性,不仅需要数据技术使用能力、多学科知识储备及应用能力,更需要想象力、洞察力、推理能力和扎实的知识储备。一名优秀的数据分析师一定是高端复合型人才。

  在我国,包括数据分析师在内的大数据人才短缺问题一直存在。工信部印发的《大数据产业发展规划(2016—2020年)》指出,大数据基础研究、产品研发和业务应用等各类人才短缺,难以满足发展需要。

  而据保守估计,全社会需要的专业数据分析师人才约200万人,缺口很大,高端数据分析人才更是凤毛麟角。

  这意味着,我国亟需加快数据应用知识普及,支持专业机构开展培训并提供实战机会,鼓励高校开设数据分析、数据应用等专业学科,以教育培训为基,以实战演练为本,持续培养高端数据分析人才。

不给信息泄露可乘之机

  为更好发挥数据价值,加快数据特别是开源网络数据应用服务产业健康发展,业内专家提出3点建议:

  一是规范数据市场环境,维护市场公平竞争,充分发挥专业民营力量的各种优势,加强政策支持力度,持续引导各类数据要素向先进生产力集聚。
  二是推动我国数据应用服务理论创新、技术创新、应用创新、服务创新、模式创新,提高各地区、各部门、各领域、各行业对该领域的认知水平。

  三是建立健全相关法律法规,明确数据产业法律红线,对侵犯隐私等违法违规行为零容忍,依法依规开采和利用数据,持续优化行业发展环境,有效带动数据在经济建设和社会发展中的广泛应用,真正使数据红利普惠全社会。

  其中,开源网络数据开放、海量的特点让数据安全尤显重要。曾途强调,运用开源网络数据必须依法行事。

  如果对用户信息安全不够重视,不但给信息泄露留下可乘之机,甚至会出现监守自盗的情况。目前,不法商家利用爬虫软件窃取和贩卖个人信息的情况屡见不鲜,不但涉足现金贷、暴力催收等业务,甚至还牵扯暗网交易。被无意或刻意泄露的数据最终成为众多不法分子、广告运营商、中介公司甚至是诈骗团伙牟取暴利的手段,损害经济健康发展。自去年9月起,多家大数据公司接连被查、业务暂停,甚至有些征信公司也牵涉其中。

  侵犯隐私、数据滥用等问题的出现暴露出两个问题:其一,企业对合法数据获取能力的不足;其二,当前法律底线尚不够明确。

  显然,加快数据安全法律体系的建立,明确数据产业法律红线,对优化大数据行业环境,推动数据共享,促进数据经济发展具有重要意义。

  今年6月28日,数据安全法草案在十三届全国人大常委会第二十次会议上提请审议。

  在业内专家看来,数据安全的根本目的是保障数据开发利用和产业发展,要在数据开发利用和产业发展中不断完善数据安全的法律法规和实施细则,切实保障数据市场和数据产业健康发展,防止片面强调管理而影响发展的倾向,从而落实国家推进政府数据开放共享、提升社会数据资源价值,以及加强数据资源整合和安全保护等要求。

  “相信数据安全法的出台,将在促进数据开发利用、保障数据安全、维护国家主权、实现数字化发展方面发挥重要作用。”黄劲说。