新京报快讯(记者王梦遥)近日,“大数据抓小偷”的一则新闻受到了不少关注。报道称,美国罗格斯大学熊辉教授等人的一项研究成果显示,绝大多数乘客乘坐公交或地铁出行,都会选择最优出行方案,但极少数人的乘车线路很奇怪,如果某人的异常行为足够多,他就有可能是小偷。

  报道显示,研究人员分析了北京市2014年4月至6月间约16亿次公交卡刷卡数据记录,共涉及约600万名乘客。他们在北京建立有896条公交路线、近4.5万个公交车站与18条地铁路线、320个地铁站的公共交通网络数据集,通过数据建模从庞大的公交卡记录中过滤掉普通乘客;第二步,结合从警方报告和微博上收集到的失窃信息,通过机器学习算法从异常出行信息中挖掘出潜在的小偷。

  结果显示,用后来确认的小偷验证,按上述方法可以归为“行为异常”的准确率高达92.7%。但是反过来的精准度有点低:每筛选出14个“行为异常”的可疑者,只有1人后来被确认为小偷。

  “大数据抓小偷”的流程究竟是怎么样的?怎么把行动异常的正常人跟小偷区分开来?目前跟国内警方开展合作的情况如何?带着这些问题,记者今天专访了美国罗格斯—新泽西州立大学罗格斯商学院管理科学与信息系统系正教授熊辉。

  新京报:用大数据抓小偷的流程在理论上是怎样的?

  熊辉:医生在给一个病人看病时,要先听病人有什么病症,然后做化验,通过化验结果初步判断大概得了什么病,再对症下药治疗。我们做数据分析的流程一样,想用公交数据抓小偷,先要有分析的数据,也要提取相关的特征,就是什么样的乘客能反馈这个人是小偷。

  我们假设小偷跟绝大多数人的行动轨迹是不一样的,绝大多数人是规律的,周末可能会有些变化;但是小偷不符合这样一个规律,我们就要提取小偷的规律,他可能呆在地铁里很长时间,另外换站比较频繁。

  所以第一步是找出行为异常的公交卡,因为小偷的行为肯定是异常的;但不是所有异常的都是小偷,否则会有很多的“虚假报警”,把这部分人抽取出来之后,一小部分人被分离出来了。我们建立一个监督预测模型,就用到了北京一个反扒微博中已经公布的小偷信息。用这个可以验证哪些是真正的小偷。

  新京报:怎么把行为异常者中的其他人跟小偷分割开来?

  熊辉:先把行为异常者抽取出来,然后建立一个预测模型,跟微博上通报的信息进行匹配,根据已经被证实的小偷的情况,判断谁是小偷,这些特征再放到学习模型中,就可以知道哪些是小偷、哪些是“其他人”。

  新京报:怎么从已经被证实是小偷的人身上提取特征?

  熊辉:这需要用到已被验证的小偷信息,然后回过去看他们公交卡的运转规律,然后提取出来。

  其中有两个特征可以帮助我们判断,有一个我们没有写进研究报告中,就是小偷用的卡经常是偷来的,这张卡以前的运转规律是正常的,突然从某天开始变得很不规律,当我们发现有一张卡从规则行为变成不规则行为时,这个人是有嫌疑的。

  另外一个规律就是小偷基本上是团伙犯罪,当这种不规则性又呈现出共性的时候,比如我们有1000张行动不规律的卡,其中有3张异常行动规律表现得高度一致。

  新京报:有没有可能是一个人的公交卡丢了,其他人捡到继续用,然后呈现不同的运转规律?

  熊辉:有可能。所以我们的判断不能仅依赖一个特征,而是需要多个特征综合判断,这些特征会帮助我们建立一个系统,最后的结果是根据很多特征判断出来的。

  新京报:报告显示,如果这项研究逆推的话每14个可疑者只有1个被认为是小偷,跟验证时92.7%的准确度相差很大,怎么理解?

  熊辉:这涉及到召回率和精确度的问题。假设北京每天有1000万个乘客,其中有2000个小偷,我们首先要圈个大圈圈出2万人,保证绝大多数小偷都在2万人中,这就是为什么我们能得到92.7%那么高的比例。但是反过来说,如果2万人里只有2000个小偷,10个人中会有9个是误报。

  但如果我们在实践过程中能拿到更好的数据、更多的样本,结果可以不断改善,可能我们圈出来的只有5000人,这时候误判率就会降低很多。这其中是有改进空间的。

  新京报:现在有没有跟国内警方沟通,进入理论落地的阶段?

  熊辉:现在我们处于推广的阶段,很多地方的公安机关跟我们联系,比如广州和杭州等等,打算10月份去看看他们的数据和我们接口的情况,我们开发的系统能不能跟他们接上。但是现在还处于接触的阶段。

  新京报:在落地过程中,哪些因素是必须考虑的?

  熊辉:第一是数据的质量,包括数据搜集的历史有多长、完整度有多高、数据搜集过程中会不会有缺失的情况。第二是跟公安的联系协作情况,包括系统的搭建、经费支出、落地单位等。

  因为抓小偷肯定要抓现场,我们设计的是发现一张卡有嫌疑,一刷进去我们就能监控到,站里的摄像头可以拍到嫌疑人的长相,反扒手可以跟上。这个工具的好处是给反扒手一个定向的对象;另外可以告诉你哪几个人可能是一伙儿的,抓到一个人之后可以拿他的数据到系统里去做校验。