高丰:为什么开放数据对你的生活很重要?
如果美国加州圣克鲁兹的一对夫妇打算开一家冰淇淋店,他们先要申请审批21种不同的执照,过程之繁复自然无需赘述,但有了网站“OpenCounter”的帮助,他们只需要回答一些问题,网站就会自动填好所有的表格,复杂的申请程序被简化得好像在电商网站上注册一个账户。
以上列举的四个例子,富有创意地满足了某一特定群体日常生活中遇到的某一类需求。这些让生活变得更美好,更有效率的解决方案能被研发出来、并最终投入使用,开发者的智慧和想象力自然不必说,更重要的、甚至可以说是唯一的前提,就是数据的开放和自由流动,尤其是政府数据的开放。
所谓开放的数据,就是公开可获取的数据,也就是可以直接免费下载使用的数据,数据的格式应当是机器可读的CSV而不是PDF。另外,数据还要有开放的授权,数据所有者可能对数据有知识产权、版权,只有数据所有者提供开放授权,才能确保企业、NGO、媒体自由使用这样的数据而不会受到知识产权的限制。
在所有的数据所有者中,政府可能是最大的数据所有者,但可能也是最封闭的一个系统:普通人通常不会知道政府有什么样的数据掌握在手上,以及这些数据可以通过什么样的手段获取。所以在开放数据运动中,最值得关注的就是政府的数据开放。只有把政府数据开放出来,才能更好地加工数据,更好地促进市民和政府的协作。
政府与公众之间形成有效协作,单纯依靠开放数据并不足够,还需要一个闭环的数据流:数据能从政府流向民间,民间数据也能反向流回政府。这两个过程都不容易,目前在中国都有一定的阻碍和挑战。
以PM2.5空气质量监测数据为例:08年美国大使馆率先开始发布PM2.5数据,之后中国政府也开始发布PM2.5的空气质量数据。这些数据公开之后,公众用他们的智慧开发了很多应用,在手机上能查看PM2.5的情况,还有例如矮马预报、微软亚洲研究院的urbanair这样的空气质量预测系统。这些听上去非常美好,但问题在于,数据公开不等于数据开放。把数据列在网页上,并不代表我们真的能用。这里存在一个数据可用性的问题,这样的数据不能被公开下载,对于媒体、NGO等没有技术能力的人而言,没有能力获得这样的数据,从而对它进行加工;即使对于拥有爬取数据能力的开发者来说,每个开发者不得不重复发明一个轮子爬取这样的数据,这对政府的服务器也是一种压力,对开发者也是浪费人力物力的事情。
这里存在的另一个问题是,空气质量的历史数据去哪儿了?目前北京、上海等地发布PM2.5数据都是迭代覆盖式的更新,前一次更新的数据你都无法在网页上找到,更不用说前一个月的PM2.5数值了。没有历史数据,历史相关性分析,预测性分析就无从做起。
从开放数据角度来说,把数据开放才能带来真正可用的数据,如果只把数据简单公开而不是开放则会造成很多问题:比如,开发者自行搭建了可下载数据的站点供非技术人员和其他开发者重利用,但多源的数据会导致我们数据质量失控。市面上的空气质量APP很多,数据来源不尽相同,有的来自于官方国控站、市控站,有的来自第三方数据源,数据源的繁杂导致不同的APP提供的信息不一致,这就使得数据质量难控。如果把数据开放,政府允许公民下载它所有历史数据,我们就能够确保只有一个唯一的官方源,从而确保数据质量。
政府向民间开放了自己的数据,但同时民间采集的大量数据和反馈信息又如何流向政府呢?之前网上有人号召“我为祖国测空气”,用不同的传感器测定我们身边的空气质量。但有意思的是,这些数据去哪儿了?这些数据有没有很好地反馈回政府?即使政府机构说这些传感器可能达不到政府所用传感器的标准,但可能这些小而美的数据本身能够帮助政府做一些决策:比如结合民间监测数据规划新政府监测点的设置,又或者结合民间监测数据多方监督排污企业等等。
不仅仅民间监测数据需要流回政府,民间对排污企业的监督、对政府机构的反馈也需要更良好的反馈机制。比如,公众环境研究中心马军老师的团队有发布了一个APP叫污染地图,能让公众观测到哪些企业正在排放可能导致空气质量恶化的超标污染物,并在微博上通过污染地图账号@污染企业和机构进行反馈,但是否有更高效的方式让这些反馈从更多人那里流向政府机构和企业?是否有方法实时追踪这些反馈的处理情况和结果?这些都是通往开放城市所需要解决的问题。
开放城市是什么概念?你可以想象成去中心化、可读也可写的平台,在这个平台上,市民不仅可以获得城市的信息、数据,还可以成为城市各项服务的提供者,每个人都有机会利用城市的数据做创新反哺城市建设和发展。
最后更新于