2019-05-24 07:45:58新京报 记者:庞礴 编辑:滑璇
原创版权禁止商业转载授权

沈阳纪委监委交叉比对25亿条政府数据 挖掘贪腐线索

2019-05-24 07:45:58新京报 记者:庞礴

这些机器就像沈阳纪委监委的“大脑”,存储着全市1100个一级预算单位的25.1亿条基础业务数据。对数据计算、分析后,它能回答上百个问题,比如谁在违规领取低保、谁在招投标中围标串标、哪些单位过多发放了补贴、哪些工作环节存在漏洞。

辽宁省沈阳市浑南区的沈阳市纪委监委大楼八层,有两间25℃恒温的机房,近百台服务器整齐地罗列在黑色的金属架上,机器的轰鸣声昼夜不停地传出来。


这里是沈阳市纪律检查委员会和监察委员会、中科院计算技术研究所合作的大数据监督技术实验室(下称“实验室”),整个团队30余人。这些机器就像沈阳纪委监委的“大脑”,存储着全市1100个一级预算单位的25.1亿条基础业务数据。对数据计算、分析后,它能回答上百个问题,比如谁在违规领取低保、谁在招投标中围标串标、哪些单位过多发放了补贴、哪些工作环节存在漏洞。


沈阳纪委监委大楼内的大数据监督技术实验室。新京报记者 庞礴 摄


“以往纪委监委是干手工活,一例一例筛查,现在只要通过计算机就能从数据中发现问题。”实验室成员、中科院计算所研究员方金云说,政府的工作流程在数据中变得更加透明。


根据沈阳市纪委监委的相关材料,实验室已在民生资金领域发现资金发放、领取不当的问题37926个。随后,市民政部门做出整改,35543个问题被解决,25人经查实被移送司法机关,挽回经济损失5.38亿元。 


从数据中找问题


5月21日晚10点,沈阳市纪委监委大楼的三层依然灯火通明,四间系统开发人员的办公室里仍有键盘的敲击声。


办公桌前的方金云几乎没有闲下来过,每种数据怎么用、计算方式如何调整,都需要他的意见。团队中的沈阳纪委监委正风肃纪监督室副主任查岩前一晚只睡了两小时——凌晨一点结束会议、回家,三点时脑子里就冒出了新想法。他拿过手机,叫醒方金云,开始讨论。


实验室的工作人员不比楼上24小时连轴转的服务器清闲,他们几乎奉行“9127”的工作节奏:早上9点开工,深夜乃至凌晨下班,周末经常加班。新数据通过网络源源不断地存入服务器,纪委监委人员不断提出新的项目或工作思路,技术人员把这些思路变成可实现的计算机语言。


技术人员杨参今年33岁,本科就读于清华大学,从中国科技大学博士毕业后供职于中科院计算所。半年来,他和另外10名技术人员写出了10万行代码,指令数据池中的25亿条数据进行不同形式的交叉比对,将违反政策、法律法规的地方标记出来。


在办公室的电脑上,杨参在浏览器地址栏输入一串数字,打开了大数据监督平台的分析展示页面。蓝色的页面上有十几个标签,写着社保、医保、民政、科技、招投标等政府工作中可能出现疏漏的项目。


每点开一个标签,十几个子问题随即展开,比如民生资金一栏之下,就包括“死亡人口领取社保”“企业法人领取社保”等,子问题后的括号里标记着可疑现象的数目,仅“民生资金”一项就有超过9万条。


点开这些问题,相应的可疑事件按照人名、地区、时间、金额等信息展示出来。“这一条是沈阳下辖新民市的刘某某,2016年10月去世后一直在领取城市低保,累计50笔,近3万元。”杨参说。


5月9日,沈阳纪委监委工作人员介绍数据平台机制。新京报记者 庞礴 摄 


“沈阳开展这个项目,起于正风肃纪监督工作。”查岩说。2017年,沈阳市纪委监委的一名领导借鉴贵阳市民生监督的做法,进一步把涉及公共财政的项目、资金、物资、决策和权力纳入监管范围。


查岩说,当时的沈阳纪委监委正从以往的查案为核心向监督与查案并重转变,几个监察室的工作重点变成了对民生资金专项监督,也真的查出了问题。比如2017年8月,柳树屯乡党委书记被查出套取扶贫资金518.196万元,此后半年,沈阳全市发现违规使用扶贫资金问题8331个。


监督工作花费时间不少,30多名工作人员加班加点收集、分析、比对资料。而贵州省大数据纪检经验在民生、扶贫资金方面的应用,正好迎合了沈阳的需求。


2018年11月,沈阳市纪委监委找到了中科院计算所的方金云及其研究团队,说明来意后双方一拍即合。他们约定纪委监委提供场地、案例,计算所提供技术支持。


打破数据壁垒


与沈阳合作前,方金云的团队曾在江西省修水县、湖南省澧县和宁乡县等地搭建过类似项目平台。但那些是县城,监管的范围窄,收集的数据少。以修水为例,与扶贫资金监管相关的共有80余个政府部门,数据总和约800万条。


但沈阳是省会城市,需要监管的项目又多,仅市直机关就涉及1100个。方金云说,过去,平级政府部门间不形成领导关系,哪怕工作内容相关也难以实现数据流通,“数据是资源,数据越多的部门越不希望交换数据。”


比如劳动局鉴定工龄,社保局据此决定养老金高低,但双方出于保密的需求,只能基于个案查询、回复,不能大规模交换数据,所以伪造工龄以获取更高养老金的例子并不少见。


查岩解释,这是因为政府部门移交数据,要听从上级直管部门的意见。“房产局要听住建部的,民政局需要听民政部的,碍于互不隶属的平行关系,哪怕发放低保时需要查证一个人名下有多少房产,民政局也很难从房产局获取信息。”


但这一次,要把数据汇集起来的是党的纪检监察机关——沈阳市纪委监委。


2017年12月8日,习近平在中央政治局集体学习时强调,要“运用大数据提升国家治理现代化水平”。


而与各政府职能部门相比,党的纪检监察机关没有复杂的利益关系。


方金云在四季恒温的机房里查看服务器。新京报记者 庞礴 摄


据沈阳市纪委监委工作人员介绍,系统刚搭建时,沈阳市某机关曾以信息涉密为由拖延、甚至拒绝提交数据。但2018年底,国家领导人对相关系统的腐败问题作出批示后,该局在较短的时间内提交了未涉密的数据,发现了过度发放公职人员补贴等问题。


“监察法为我们的工作提供了法律依据,我们也正在推进数据立法工作。”查岩说,监察法第18条规定,监察机关行使监督、调查职权,有权依法向有关单位和个人了解情况,收集、调取证据。有关单位和个人应当如实提供。


从800万条到25亿条


从2018年年中开始,沈阳纪委监委的工作人员便与中科院的技术团队商讨数据收集标准。但与之前的贵州、江西修水重点监督扶贫资金不同,沈阳市希望实验室全面监管政府资金在建筑工程、市政工程和民生领域的使用。


“从钱出发,第一个监管焦点落在了财务数据上。”查岩在公安机关、纪检部门干了十几年,他说这是最容易发现公职人员工作瑕疵的地方,也是纪检监察部门查案时最先获取的资料。


以财务数据为核心,各单位投资的项目、购买的物资、投资和采购的决策者和决策过程(包括做出决策的文件等)四大项被纳入进来。有了上述五方面数据,政府内部权力和资源的流转就清楚了。“比如某个政府部门要建一栋新楼,是谁决定建的,具体怎么建,钱怎么花,通过这些数据都能一目了然。”方金云说。


除了政府内部,各机关对外履职的数据基本也要上交。例如民政局的社保一卡通数据、医保局的支付数据、车管所和房管局的车辆、住房所有人名单,都在收集之列。查岩解释,这些数据能够体现公权力的行使过程,其中也有资源、金钱的流动,“所以要尽可能地监督。”


以上各类数据被实验室总结为“5+N”——内部5项,外部N项。实验室成员、中科院计算所研究员刘晓东说,只要把这些数据集结到一起,系统就能展示政府机关乃至全社会的运行状况,还能刻画每个人的生活,“大到千万的项目工程,小到领社保、医保的个人。”


自2019年初,沈阳1100个一级预算单位的数据,如洪水般涌进市纪委监委大楼八层的服务器内。有的直接通过加密网络传输;有的涉密数据被刻录成光碟,请人专程送来,再拷进实验室的计算机。


有些单位甚至停留在手写时代。负责处理数据的技术人员李栋宾说,实验室向沈阳市劳动局索要最近几年的工龄审批文件时发现,所有材料都写在纸上,存在档案馆里。为了提交数据,市劳动局几乎全员出动,在工作间歇或下班后将审批文件从档案馆里依次取出,手动录入到Excel。截至目前,已整理出10万条。


“因为各部门没有统一的数据存储规范,所以交上来的数据什么格式都有,Excel、数据库都有。”刘晓东说,数据库内还有大量不规范的表格,名字只有一串数字,只能人工手动打开,才能知道里面记载了什么。


对于机器来说,识别这些格式、名称不同的数据也有困难。比如“沈阳市第六人民医院”“第六医院”“六医院”是同一个单位,工作人员看一眼就明白,但计算机却不懂,会把它们当做三个单位。这种情况下,工作人员只能手动为文件改名。


技术人员刘晓东在工作 。新京报记者 庞礴 摄


为了整理这些数据,团队内1/3的人忙了半年,“就像拆开不同的箱子,把里面的文件取出来,再分类摆到书架上。”


从2019年年初到现在,数据的收集、整理一直未停,目前已收到数据25.1亿条。刘晓东说,加上尚待提交和仍在更新的数据,今年年底,数据量会翻上一番。


“捉贼要向贼学习”


有了足够的数据,怎么才能设计出行之有效的数据模型?


李栋宾说,首先需要通过学习政策、法律了解规则,制定模型,再根据实际状况对模型进行修正。


2017年,中科院计算所团队与江西修水合作时,协助县信息办公室搭建了分析、核查民生资金发放的监督平台。通过这个平台,县信息办发现疑似违规领取低保问题2.4万件。


当时的数据模型里有一个条件:有车辆的家庭不能领取低保。但修水县民政局表示,一些贫困户因为家庭位置偏远,崎岖的山路必须依靠代步工具,所以登记了摩托车或农用车。


“哪怕有车,可能也足够贫困,这说明模型还不够准确。”那时,李栋宾也在团队中负责处理数据,发现问题后他到车管所调研,了解到对方的数据库中包括车辆购置情况、车辆种类等详细信息。他把更详细的数据导入数据库,从疑似错领低保者的名单中排除了农用车、摩托车的所有者,民政局再未反馈过数据不准确的问题。


如今,类似的方法也被应用于沈阳:有车不能领低保,但是摩托车、农用车等廉价的代步工具除外。


与湖南宁乡合作时,宁乡经济发展快,政府工程项目多,监管重点是招投标及施工过程。


为了摸清其中可能存在的问题,技术人员和负责招标的基层公务员开会,越基层的人越好;还请建筑公司的老板们吃饭,表明自己的研究目的后,开始喝酒。几杯酒下肚,老板们便滔滔不绝地讲起招投标过程中的猫腻,比如招标单位可能向某家投标单位透露报价;几家投标单位会在一起商量报价、串标,好让其中一家中标等。


方金云原本对招投标一窍不通,但从酒桌上,他总结出了40多种可能出现的问题,并应用到计算方法里。比如寻找多次一起出现的招标单位和投标人,因为如果几家公司总是一起竞标,且总是一家中标,就有围标的可能。“另一方面,如果某个招标单位和中标单位总是捆绑出现,或许就有泄露标价、勾结串标的嫌疑。”方金云说。


在纪委监委的安排下,来沈阳的半年里,中科院的技术人员为七八名留置官员做了访谈,向他们“学习”如何钻体制的漏洞。“这叫捉贼要向贼学习。”沈阳市纪委监委的一名领导说。


沈阳纪委监委的工作人员告诉这些留置官员,仔细交代制度漏洞会成为立功表现。一名官员事无巨细地总结了招投标过程中的猫腻,包括监理公司替投标公司制作标书、评标专家分数作假等。技术人员将这些问题融入系统,通过对数百家公司、上万个标段的分析,找到了52家公司、69个标段的问题。


“其中有一家是沈阳的监理公司。它监理7个不同公司的项目,投标文件都是在同一台电脑上制作的。”沈阳纪委监委的一名工作人员说,这意味着这7家公司或许与该监理公司有过交易。


访谈中,也有人支支吾吾,试图隐藏。沈阳某区人社局的官员交代自己曾帮28人伪造工龄,得知实验室会进行大数据比对后,这名官员表示这种伪造很难被系统查出来,“我们是手工登记,名字和身份证号很容易写错,你找不到类似案例的。”


但方金云分析了这28个案例,发现部分涉及伪造公章,部分涉及外地劳动部门伪造文件。他又循着这两条线索对比了沈阳市的工龄认证文件,找到了6000个相似案例,涉及三个区县的官员。


从监督问责到廉政画像


沈阳纪委监委的一名工作人员说,工作最大的变化是从跟人打交道变成了跟数据打交道。他曾在沈阳市检察院反贪局工作,后到纪委监委查案,自2018年年底开始,调入大数据监督实验室。


“以往的工作,就是斗智斗勇。”这名工作人员表示,他需要想尽一切办法找到愿意透露消息的内部人士,在谈话中撬开可疑人员的嘴,可能只能揪出一个问题官员。但现在,各单位、各级人员都暴露在数据之下,问题一目了然。


5月10日,沈阳纪委监委的工作人员在向沈阳市政策研究室成员介绍大数据监督平台。新京报记者 庞礴 摄 


他记得2018年下半年时,自己参与的民生资金监督项目。那时还没有实验室,三十多人的团队工作整整6个月,找出了3万个问题案例。但2019年2月大数据监督平台上线后,两天内就发现了疑似违规领取资金问题9万例,准确率86%。


实验室的启动已经对贪腐分子形成威慑。2019年年初,沈阳纪委监委开始向各政府部门讲解大数据监督项目,截至目前听众超过2900人,其中不少是处级以上官员。前述纪检工作人员说,有官员在讲座的几天后提着大包现金到纪委监委交代问题。“他们可能知道自己的问题早被算出来了,纪委监委找他们是迟早的事。”


“阳光是最好的防腐剂。”沈阳市纪委监委的一名领导说,对于普通市民,实验室专门设置了“正风肃纪大数据监督平台”。那是一个公示网站,涵盖了数据池内近十分之一的数据,市民可以查到政府招投标项目、资金补贴等信息,还能查到与个人相关的社保情况、工商资料、低保领取记录等。


5月10日,一名工作人员向记者演示查询情况,发现一名拥有数家狗肉馆的老板,已连续两年领取低保,累计两万余元;一名2019年被评为三八红旗手的党员,同时是一名“老赖”——身负200万元债务却拒不执行法院判决。


“这些数据和公众相关。未来,我们希望知情人能从中找到线索向纪委监委举报。”上述工作人员说。


方金云表示,未来,实验室还会为沈阳的官员绘制“廉政画像”,包括基本履历、家庭财产状况、违规犯罪记录、个人重大事项(包括结婚、出国,办宴会等)、被上访举报记录等,一旦官员被调查或被提拔时可以作为参考。“但判定的自主权依然掌握在纪委监委手中。数据是公正的,人是要有温度的。”



新京报记者 庞礴

编辑 滑璇 校对 贾宁

点击加载更多

    • 一天
    • 一周
    • 一月
       回到PC版