大数据遭遇挖掘之难

首页    旧版    业界    大数据遭遇挖掘之难
创建时间:2017-10-13 15:35

作者:柯一楠


信息怎样开放才安全,大数据产业遭遇制度空白。

2009年,美国谷歌公司利用大数据模型预测到SN1禽流感将要爆发,这一大数据成功应用的案例被记录在一本名为《大数据时代》的书中。

近几年,大数据是非常热门的一个词汇,大数据的广泛应用也正在深刻改变着人们的生活,越来越多的公司从中挖掘巨大的商机。



2013年,《大数据时代》一书被引入中国,这本书的翻译者叫周涛,是国内大数据研究领域知名专家。如今,他也开创了自己的大数据公司,从专家变成了企业家,他现在有两个身份:一个是电子科技大学大数据中心主任,另一个身份则是成都数之联科技公司执行官,这是一家做数据挖掘和进行数据开发应用的公司。

周涛既是创业者同时也是电子科技大学的一位老师,于是他的大数据研究也延伸到了校园里,周涛曾经通过大数据做了一件非常有意思的事情:寻找校园里最孤独的人。周涛通过选科记录、日常刷卡,从电子科大3万名在校学生中,采集了2亿多条学生行为数据,并发现一个学生在学校有多少亲密的朋友、闺蜜和死党。


企业数据获取不易

2012年,周涛和电子科技大学的几位教授,怀揣着理想,走出校门成立了数之联科技集团进行创业。致力于为政府企业机构提供集数据采集、存储管理、分析挖掘和应用为一体的大数据价值发现全产业链服务。

周涛和团队的小伙伴们,通过爬取和融合了工商质检质押知识产权诉讼招聘等企业信息,为3000多万家企业提供全息化项目,通过深度数据分析,帮助政府打击非法集资,他们研发的医疗保险大数据监管系统将大数据应用于医疗保险控制领域,有效遏制了医保基金的不合理增长。目前累计覆盖8000万城镇医保和新农合人员。

对超过3000万份国内简历数据,500万家企业相关数据,50万份人才数据进行整合分析,让职位需求和求职者进行自动化精准匹配。大大提升了政府和人力资源管理企业的效率。

自动求职和对各大数据进行整合、分析,对简历数据、企业数据、人才数据这些大数据应用项目,在一些政府和企业的成功落地和实施,极大激发了小伙伴们的干劲儿。但更多的时候,他们徘徊在大数据应用的门外。因为很多目标客户的数据根本不愿意对他们开放。

国内一家驰名的白酒生产企业,曾经和周涛的团队接触过,希望通过大数据技术,对产品制造、研发、销售、营销等各个环节进行优化。但接触一段时间后,对方却又产生了犹豫。

在周涛看来,这家典型的传统企业,正好又是大众消费品,他觉得在营销环节,通过数据挖掘是有许多事情可以做的。譬如,哪些单品被哪些人所喜欢?最主要的负面评价及正面评价在哪儿?90后及零零后未来会喝什么酒?通过对几千万、几亿的消费记录进行分析,对酒类产品的未来发展趋势和对产品的生产指导是有很大帮助的。

尽管周涛信心满满,但对方顾虑却一直没有完全消除。该酿酒企业的最大顾虑来自数据的安全。

客户资料和酿造工艺方面的数据,都是企业最核心的机密,酿酒企业担心一旦操作不慎,数据流失出去,被竞争对手获取后,会给企业带来不必要的损失。

即使周涛说他们提供的东西能够保证在数据上面的安全,但是还没能彻底打消客户的顾虑。对此,周涛也很理解,因为目前对于大数据归属交易的安全,都还没有明确的法律法规。

不仅该酿酒企业有所担心,周涛在和许多类似的传统企业接触中也发现,这些传统企业的确想利用大数据来进行企业各环节的优化升级,但苦于没有专业技术。而要邀请专业的公司来帮他们解决,他们又需要对外提供足够多的数据,一想到这些数据在开发利用过程中遭受着被泄露的风险,这些大企业通常都会选择放弃。

周涛不禁感慨,在技术上可以实现的事情,却由于没有法律法规和制度层面的保障而被搁浅。


政务数据获取差强人意

不仅企业的数据挖掘获取不易,政府的政务数据同样不会轻易外泄。周涛的公司现在处理的绝大部分数据来源于两部分:一部分是公开数据,被爬取下来;另一部分则是科研数据,一些科研机构也会开放一些科研型的数据。

据资料显示,国内数据市场80%的数据在政府相关部门。在目前数据聚集共享还未完全得到解决、一些安全法规还不健全的情况下,如何把数据开放到一个平台里面,这是业界从业者面临的巨大挑战。

周涛跟很多地方政府打过交道,他发现对于数据挖掘和共享,很多地方政府是雷声大雨点小。虽然都在表态要响应国务院号召,把数据共享开放出来,但在实际行动中,由于体制机制,或者是操作具体层面的原因,结果往往差强人意。“因为政府的这些数据到底属于个人属于政府属于机构,他自己也不明白,泄露出去,可能产生多大结果,要负多大责任,他不清楚,所以我们责权利法都不明白,政府在这方面要困惑得多。”周涛对此也是表示理解。“政府在顶层上要规划统筹这件事情,首先要解决政策和法规的问题,分级、脱敏保证政府的数据安全。”

2015年8月,国务院印发了《促进大数据发展行动纲要》,纲要明确要求,2018年底前,要成立政府数据统一开放平台,这对周涛来说,无疑是一个好消息。


数据挖掘之路艰难

虽然国家层面的机制看似越来越完善,但在基层落实上却似乎打了一个折扣。

眼下距离2018年年底只有不到两年的时间,在体制机制还不健全的情况下,周涛在做些什么呢?

演讲台上,周涛正在给成都武侯区政府做一场大数据创新实践的培训,周涛采用了大量的案例来给大家普及什么是大数据、大数据的发展趋势、大数据的应用以及它的价值,将近2个小时的讲座,为了让台下听着不走神,他还需要不时地插科打诨,讲个段子开个玩笑。

类似这样给政府和企业部门的讲座,周涛每个星期都会有一场,累积下来已经做了上百场。

培训对主讲人来说最为痛苦,大量重复的内容,对主讲人是没有学习没有收获的事情,可周涛为什么还要不厌其烦做这件事情?

周涛认为,很多事情有一个时间窗口,比如智慧城市、数据科学、人工智能,可能在这几年是关键的几年,周涛想着,自己每多讲一场,兴许就能使大数据在产业化的道路上往前推进一步。

中国的运营商每天要记录50亿通电话,一家大型连锁超市每天的消费记录达到6000万条。一个搜索引擎每天要处理超过10亿次的访问请求,一个大型社交网站一个月的分享照片10亿张,这些听起来多得吓人的数据,似乎是一个十分诱人的市场,但这并不是大数据的全部。

据了解,医疗、交通、气象、环保、金融、卫生等等很多领域的大数据其实还是沉睡的孤岛。周涛曾经拿到过一整年的成都出租车GPS数据,从周涛的角度来看,这些数据非常有价值,通过数据,知道哪些出租车宰客或者非法运营,从而提高生态改良生态,提高交通通行率,降低出行时间。

但由于机制体制原因,只要上级主管部门不说可以公开这个数据,周涛的默认动作就是不操作。

国务院印发的《促进大数据发展行动纲要》,明确指出:“政府数据统一开放平台将在2018年底前建成,率先在气象环境信用交通医疗卫生等20余项重要领域,实现公共数据资源合理适度向社会开放。”

但在大数据产业从业者看来,这个纲要的推进却并不理想。最近几年,为了推动大数据产业的发展,行业内部自发成立了不少大数据产业联盟和大数据研究会。在成都,几乎每周都要举办一场大数据产业发展研讨沙龙,沙龙汇集了政府主管部门、科研机构、企业、高校等领域的大数据产业从业者。作为成都大数据产业联盟的理事长,周涛每次都会做详细的记录,在他看来,这样的沙龙,大家可以充分碰撞,无形之中会对行业的而发展,起到推动作用。

虽然,几乎每周都有跟大数据有关的论坛和分享,但终究是因为一些数据没有规范、没有法规、没有边界、没有产权,让大数据挖掘产业很难走得强壮。

在《促进大数据发展行动纲要》正文中“共享”共出现了59次,“开放”共出现了36处,充分显示了数据共享开放对国家大数据发展的重要性。周涛希望相关部门能够与时俱进,与创新者同行,为大数据发展助力。