让信息公开更像开放数据

本文原文来自 civic.io

原作者: Mark Headd

译者:高丰

本文谢绝一切转载

译者按:近期,《open for business》报告的发布是一个极为振奋人心的事情,尤其是其提到开放数据将为G20 国家贡献1.1% GDP的增长。然而,报告的基础却是假设我们的社会能够有完善的隐私保护体制和技术来确保隐私在这个开放数据的浪潮中不糟侵犯,那么事实又如何呢?在大洋彼岸的美国纽约,就正在上演一出数据匿名化处理不当的闹剧。纽约出租车管理局通过信息公开渠道释放的出租车行车记录数据虽然使用了 MD5 对驾驶证号码和营业执照号码进行了加密,但还是遭到了逆向工程,由此引发了各界人士对现有开放数据、大数据浪潮的担忧。此文正是在这一背景下所写,提出了信息公开应该迎来新的革命,借鉴并逐步与开放数据的流程融合。

作者简介:Mark Headd曾任「为美国编程」政府关系处主任,后受聘于美国费城担任首席数据官,负责费城的开放数据项目。2014年,Mark 离开费城公务岗位加入 Accela 担任技术布道师,为 Accela 的民生平台 (Civic Platfrom)建设起一个社区。

让信息公开更像开放数据

1966年美国通过了信息自由法,以期通过政府的透明化来加深民众对政府的信任。 然而,信息自由法这么多年来一直都是一个令人痛心的存在。比如说,你写信给一个官僚机构要求公开某某事务,然后在你苦等数月甚至数年后却被告知你的请求无法满足。即使你很幸运获得了你想要的信息,但在你等待回音的过程中,可能已经也没有人关注原先这个议题了。尽管信息自由法是那么让人恼火的东西,但在过往几年中还是有更多的人参与进了信息公开的申请,至少他们认为这是很值得做的一件事。

– 获知绝密之路,Jason Fagon 著

我一直坚信信息公开理应是一个健康的开放数据项目的一部分。虽然这可能乍看上去很显而易见,但可能很多参与在开放数据运动中的人都对信息公开知之甚少又或者因为过于了解而已经对其感到麻木。此外,政府内负责处理信息公开的员工可能也对于信息公开渠道释放数据有着与开放数据本身很不同的感受。

对于开放数据的支持者而言,的确有很多理由觉得现有的信息公开方法很不理想。他们中的一些人最近都参与进了纽约著名开放数据支持者、可视化专家、纽约「为美国而编程」联合负责人 Chris Whong 的博客讨论中。Chris 之前撰文曾述说了他向纽约出租车管理局申请公开出租车行车记录数据的故事。

在他的讲述中,我们可以看到许多遭到开放数据支持者痛恨的信息公开弊病。如果你对信息公开知之甚少,那我推荐你去好好读一读这篇文章。

然而,在 Chris 成功获取数据并将其公开发布后,我们立刻就发现了信息公开的另一个严重问题。我们发现,出租车管理局并未对所公开的数据做有效的匿名化处理,这致使驾驶员的驾驶证号码和出租车营业证号码尽管被加密,却可以被别人轻易逆向工程从而获取原有数据。

显然,出租车管理局是有意识要对数据进行匿名化的,并且期望数据在匿名化后仍旧能够对申请信息的人足够有用。在这两者间寻求平衡的确是件难事,而且信息公开渠道出现这样的尴尬局面也已经不是一次两次了。

我认为致使这样的事情发生的原因是我们的信息公开流程并没有引入严格的开放数据审核机制。如果我们能够对信息公开释放的数据采用同样的审核机制,那么我们的信息公开将会运作的更好(可能连带开放数据项目也会更好)。

结果 v.s. 过程

从我的经验来看,现有的信息公开流程和开放数据流程之间关联甚低。除了会通过对不同信息公开申请进行检视,以此判断是否有机会一次性完整释放数据满足所有需求之外,信息公开流程很少与开放数据流程沾上边。至少,这在我工作过的费城就是如此的。

在费城,开放数据是由市创新和技术办公厅的首席数据官负责的,而信息公开却是由司法部门负责的。信息公开通常被认为是一次性的工作,尽管有的时候可能同样的数据会在之后被再次申请,但我从来没见过费城负责信息公开的人员有考虑过改善工作方式从而应对重复申请。

将信息公开和开放数据互相孤立的工作模式使得人们认为信息公开释放的数据是可以当作一次性用品的。换句话来说,信息公开被认为是个重结果,而不需要关注过程的工作。而开放数据之所以现在能够有条不紊发展,关键是在重视过程,建立其体系以供审核和反馈。

优化信息公开

因为信息公开被认为是一次性的工作,所有迭代式的数据释放就不在考虑之内了。如果纽约出租车的数据公开能够被视为一种过程(尤其是一个协作的过程),那么出租车管理局就会在一开始更谨慎的释放数据,然后通过使用者的反馈来逐步完善数据的释放。

在费城,我们专门建立了一支叫做开放数据工作组的特别队伍来帮助审核和改善我们的数据开放流程。这个小组的构成是多元的,成员来自不同的政府部门,而他们能够在那些数据(例如犯罪记录,对现任警官的投诉记录等等)需要做特殊处理和匿名化的过程中给出意见和反馈。

此外,我们也会在数据对公众开放前,先邀请一小部分外部的使用者来帮助审核数据处理的情况。因为我们在数据开放中经常使用 GitHub (译者注:一个代码分享协作的平台)来发布数据,所以我们可以很简单在 GitHub 上设立一个私有库,然后让一小部分人可以作为协作者加入来审核目前的数据并给出意见,从而帮助我们对数据作出改进。

整合信息公开和开放数据

I think for a lot of amateurs, their alignment is always out.

– Karrie Webb, professional golfer

当我们工作在释放数据时,相关的经验是最无可替代的,而这也正是我们应该将信息公开和开放数据进行整合的最大理由。通过借鉴开放数据的审核机制,我们能够大幅改善信息公开的质量,同时这也为将来进一步整合两者奠定基础。

我衷心希望各城市,尤其是费城,能够开始意识到这一点,并开始采取真正的行动。

最后更新于