随着互联网技术的不断发展,人们存储数据的成本逐渐下降,上世纪80年代,数据翻倍时间减少到7年;至2015年该数据只需3年就能翻倍;而到2030年这一时间预计将缩减至73天,全球已进入数据大爆炸时代。

  依托大数据,数据新闻逐渐在国内外媒体界掀起了新的浪潮,成为传媒领域的新宠,也成为新闻未来发展的重要趋势。数据新闻强调的是通过反复抓取、筛选和重组来深度挖掘数据,聚焦专门信息以过滤数据,可视化地呈现数据并合成新闻故事。在这个过程中,数据的获取和清洗是制作数据新闻的基础,也是最费时的环节之一,过程极为繁琐和重要。尽管如此,每次报道结束后,数据往往就此封存,难以循环利用和再次发挥其价值,我们对数据价值仅停留在一次性挖掘与利用,这使得人力、物力造成了极大的浪费。

  本文将数据视为一种资源,从环境学、经济学和传媒经济学验证数据再利用的可行性,以ProPublica和镝数两个媒体的具体操作进一步验证数据再利用的可操作性。

  4月23日,“数聚价值 质引未来”首届数字中国建设峰会“大数据分论坛”在福州举行。 供图/CFP

  数据资源再利用的理论性分析

  从环境学角度,数据俨然已经成为一种资源,并且是再生资源。2015年国务院印发《促进大数据发展行动纲要》提出,信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源。将大数据定义为一种资源,在国民经济体系中占有重要地位,对国计民生、国家经济和军事安全有重大影响,与石油、天然气等资源同等重要。从资源的可利用属性出发,可分为两大类:不可再生资源和可再生资源。大数据不同于物质性的东西,在经过首次挖掘和利用后,其价值不会减少,而是可以进一步回收,根据不同的选题需求再次利用,并被反复处理和构建,由此数据可被视为一种资源,并且是可再生资源。  从经济学角度,数据资源具有“非竞争性”。个人的数据使用不会妨碍其他人的使用,而且数据不会像其他物质产品一样随着使用而有所耗损。因此,针对同一份数据资源,不同的媒体、企业或者个人可以从不同的切入点找到自己的需求,与此同时也可以根据自己的选题需求,重新组合和构建数据。

  从传媒经济学角度,新闻作为一种产品,具有“公共商品”的属性。制作新闻的初始成本很高,但是边际成本很低,这一特性在数据新闻制作中体现得尤为突出,数据的获取和清洗是制作数据新闻的基础,不论是通过数据挖掘获得的一手数据,还是向有关部门提交申请所获得的官方数据,拿到数据后还需进一步清洗和处理。每个过程都很繁琐且重要,都会花费媒体巨大的时间和精力,所需的初始成本很高,但是当受众数量庞大时,会产生很大的规模经济,边际成本会逐渐下降。但是当受众较少时,媒体却无法节约原始的资金成本,这进一步加大了媒体的负担,影响媒体产业的发展和生存。由此国内外的媒体,也开始有意识地储存日常选题处理和清洗后的数据,并尝试建立自己的数据库,优化数据资源,更有效地节约成本。

  数据资源再利用的实践性分析

  以ProPublica和镝数为例,数据新闻把数据作为基础,大部分媒体依靠的是政府部门、企业和科研机构公开发表的数据或者数据分析报告。

  随着全球开放数据运动的兴起,2011年上海、2012年北京开始开放数据。开放的数据主要分为两大类,一类是政府所拥有的地理位置的信息数据,比如学校、医院等;一类是经过政府部门审核,具有资质的企业数据。但是无论是国内还是国外,政府部门的意识并没有完全转变,也没有明白这些数据开放出来的目的。数据开放并非仅仅让民众了解,而是能够让他们可以做进一步的分析、处理和可视化,平台上大部分的数据要不就是图片和PDF格式,计算机无法自动识别和读取,要不就是数据缺失、重复和错误等,俗称“脏数据”。“脏数据”需要花费大量的精力去转换成具有可读取和可利用模式的“干净数据”。处理和清洗数据所耗费的人力、物力与数据使用率之间的巨大矛盾,使得部分媒体开始思考如何再次利用已经清理和处理好的“干净数据”,国内外媒体都有类似的尝试。

  以数据新闻为主打产品的,是美国一家独立的非营利机构,强调调查报道和为公众利益服务。2014年ProPublica利用自身的数据新闻优势,变身数据商,公开出售自己在调查报道中所搜集、整理、清洁的数据库,开创了数据商店(Data Store),通过对数据资源的多次售卖,有效降低了制作过程中的运营成本。2016年底,正式上线,并且将原有的单向数据出售转向了数据购买和出售的双向交易平台,从封闭式转向开放式,在这个数据商店中,任何有闲置数据库的媒体、机构或者个人都可以参与进来,将自己的数据出售或者购买自己所需的数据库。

  镝数是镝次元数据传媒实验室创办的开放式网络学习社区,它以“数据新闻”为核心,打破数据新闻制作的技术壁垒,用户可以借助这个平台,完成数据新闻制作和发布的整个过程。镝数社区有自己的数据库,这些数据库都是经过清理之后具有可读性以及可直接使用的“干净数据”,数据的来源包括政府的部分公开数据,如美国政府公开数据、中国国家统计局数据、联合国数据等,与其合作的机构数据,如极海地理数据、滴滴媒体研究院数据等。目前这些数据都是免费使用,与此同时,它也是一个开放式的平台,如果个人有数据,也可以点击上传自己的数据,从而实现数据资源的再利用。  针对水滴直播事件,镝数社区推出了《摄像头下的13亿中国人:安全何去,隐私何从?》数据调查新闻,通过数据揭示了2005年至2015年中国视频监控市场规模和中国城市每千人拥有的视频监控数量,以及各地视频监控建设进程和相关管理办法。这些清理后的数据上传至镝数社区的数据库中,供有兴趣的人下载和使用。除镝数之外,国内数据新闻实力较强的媒体都正在尝试储存以往选题处理和清洗后的数据,并开始自建数据库,以便于数据的整理和资源配置。

  生产成本是经济学研究的核心问题,生产成本因素成为影响媒体产业生存和竞争的重要因素。在保证产品质量的前提下,有着较低的生产成本将能获得更强的竞争力。将数据视为一种可再生资源,通过对数据资源的反复利用可以降低制作数据新闻的生产成本,同时也能将自己的数据资源进行售卖,寻求自身增值的途径,为媒体盈利方式提供一个新的思路。(谢光玉:武汉学院信息及传播学院传播系讲师。本文系湖北省教育科学规划2017年度一般课题“基于新媒体技术和网络学习空间的智慧教学模式研究”[项目编号:的阶段性成果。]

  参考文献:

  1.方洁:《数据新闻概论》,中国人民大学出版社,2015年版。

  2.Celeste LeCompte :《Introducing the ProPublica Data Store》 ,ProPublica ,,2016年第10期。

  3.单波、肖珺:《中国媒体发展研究报告》,社会科学文献出版社,2017年12月。

  4.石鉴:《范围经济视角下的媒体盈利模式探析》,《今传媒》,2017年第4期。