当前位置: 中国电子学会 > 专家讲坛 > 怀进鹏院士:数据处理将迎来新的变革

怀进鹏院士:数据处理将迎来新的变革

发布时间:2015-1-19 15:55:37

       尊敬各位嘉宾、各位领导,大家上午好!我很荣幸的来参加2014全球信息技术主管大会,我也是第一次参加CIO的大会。我不是一个CIO,并不涉及这些行业和部门,所以我倍感荣宠来参加这个大会,我会尽可能地从我的专业领域表达我对CIO的看法。我们是面向未来的,我们面对的是挑战和转型,同样我们面临的是非常大的机遇,同时也是一个很大的问题。我觉得机遇更为多一些,所以我会跟大家谈一谈关于数据科学的研究与机器智能的一些思考。因为我以前没有参加过这样的大会,虽然有很多朋友在企业界,我依然觉得还是不知道该说什么,刚才杨部长讲今天是一个特殊的日子,我是北航的校长应该去航展,我个人的学术兴趣又和信息技术有关,我的报告就是计算模式转型和机遇,主要是讨论数据科学。

       大家都知道互联网带宽每6个月就要发生倍增,但是价格却不断的降低,同样在过去20年里CPU的性能有了3500倍的增长,而它的价格却在下降。这些数字给我们带来的结果就是IT技术的发展太快了,它直接造成了两个新的结果,一是互联网的文化,这种方式给我们的软件和整个平台带来非常大的变化,当我们上淘宝、当我们上新浪、上百度,我们不用担心我们的模式。二是我们原来个人的服务不需要用复杂的软件来支撑,所有你的需要只要通过互联网找到你所需要服务的目标就可以。在这样的大背景下,未来的计算模式会怎么样?我们无论从企业或者是从大学和社会,我们都可能面临新的时代,这个时代在进入了移动计算和云计算的时代,在这样一个背景下,互联网已经发生了一个新的变化,计算模式还会有什么样新的特征?在这样一个数字化世界当中如何来看待我们现在的ITICT的转型,后面刘院士会有精彩的报告,我在这里主要谈到的就是我们对未来信息技术是否会出现新的转型,在移动计算成为主流、云计算成为主要应用模式下,数据的计算、数据的服务是否进入了一个新的方式,这也可能会出现所谓互联网的第二次数据服务,移动计算还是网络计算是具有挑战性的问题。

       最近三年当中有关大数据我们听得很多了,大数据给我们的感受,除了过去科学计算的科学数据依然很多,生物信息、高端物理等暗物质的发现,都在基于这样一类科学数据,还有一类商业数据我们也都非常熟悉,这些数据大部分是结构化的,我们有很成熟的方式,同样会出现电子商务各类的企业,这类企业在用的数据库已经无法支撑运行,这是对商业处理的方式。还有一类数据就是我今天想汇报的,就是社会的数据和我们所谓的实质性的数据,这两类数据是我们现在还没有开发利用而且有巨大发展潜力的数据,数据的发展在未来当中是一个大的空间,特别是关于不确定的数据会更为重要。有这么多的数据,特别是人造的数据,如此大量的在衍生的话,数据究竟给我们带来什么?能给我们带来好的还是不好的?我们如何驾驭好这些数据。数据已经成为经济的生态,一种所谓的新的常态,那么数据的分析会带来很多的机会,数据已经从过去以原材料、以资本进入了一种所谓的数据经济的时代,这样一个数据经济时代其实我们对它的认识还是非常有限的,就像中国古代曾经说的我们像盲人摸象一样,所以我们对大数据的理解是有局限性的,我们有的观点认为大数据早就建立了,未来的大数据究竟怎么样走向,所以我想我今天主要的报告是涉及到三个问题,大数据是不是会有新的计算模式出现?大数据一定会给我们带来很多机会,所以我特意带给今天的CIO们,数据的分析会使得机器更聪明,也会使得社会更理性,有关从大数据的分析来看智脑的问题。

       我们都知道计算模式在过去有两次重大的变革,而每一次变革都对CIT有重大的促进作用,第一次就反映在我们说主机时代是一个划时代的新纪元,它创造了我们所有的商务计算,所以主机时代使得我们业务数据处理和银行的业务有了极大的飞跃。第一次变革是在80年代PC的时代,使得信息技术快速的发展。第二次变革就是互联网,再加上我们的终端,20年左右的时候,互联网或者信息技术准确来说都会有大的变革,在这样的变革当中我们不得不预测在2010年以后是否会有第三次计算模式的出现,而这种第三次计算模式的出现,目前已经基本形成它的一种应用方式。在今年10月份,GSMA曾经发布一个报告,全球现在有72亿终端,包括PAD智能终端和所有的手机,已经超过了人口的总量,这个总量给我们带来的是这个时代已经进入移动计算的时代,不再是主机时代,也不简单是互联网时代,而确实是进入了移动计算的时代,所有的互联网公司远离移动计算的时代就会远离自己,因此在未来移动时代将成为我们感受生活和应用当中离不开的内容,因此未来的发展当中,也许移动时代所创造的新型的数据服务就会变成一个关键的内容。我个人觉得和数据分析和新的数据服务将会有重要的联系,作为未来的发展当中,我们看量变是容易,把握质变总是困难,在未来ITICT发展当中,移动计算和云计算是一个大的趋势,特别是移动计算的发展,而建立在他们所支撑这种新模式应该构成了所谓的数据服务。

       数据的服务各位都很清楚,我们看在过去的发展当中,互联网已经从过去一个通讯的平台进入了计算的平台,我们在期待它假以时日走向智能的平台,像现在关于人工智能、机器学的兴起与我们的生活环境有巨大的关系,在这个过程当中,我们进入了一个新的时代,实际上互联网带给了我们社会和经济的价值,这个价值就体现在我们已经知道的谷歌在2008年训练了4亿5000个模型,来预测可能H1N1病毒产生的地区,这一点让所有的医学界汗颜,同时通过这种大规模的数据分析,也使得人们有了一种新的认识,未必我们都是做这个研究或领域的专家,对于深刻的数据分析和建立数据之间的关联性也许会对一些现象给出重要的解释,当然也有不幸的是谷歌在后来的预测当中,时而准时而不准,就像我们看足球比赛的章鱼宝贝一样也有经常失手的时候。有关这样的例子有很多,包括阿里巴巴和百度都有对经济、商业和社会的一些预测,所以我们经常讲有了百度和谷歌,我们可以知道人们的基本爱好和偏好,有了淘宝网,我们可以知道购物的习惯和社会的流行,有了微博和微信,我们可以分析当前社会的基本形态,应该说互联网发展到今天,在过去看似非经济意义上是看到了经济的价值,而互联网快速的发展,它所能触及到的行业都带来毁灭性的发展,像媒体、电子商务以及未来可能创造新的内容,究竟从通讯的平台进入了计算的平台以后,是不是数据将会成为一种科学。

对于大数据是否能够对我们的科学研究产生重要的影响,也就是说它是否会成为继理论研究、计算研究、实验研究之后的一种新的研究的模式、科学发展的模式,在最近五年当中,我们也拭目以待并且努力的去探索数据科学,未来我们会发现一些更多的科学数据,我们自然会问到的一个基本问题就是大数据下科学研究的手段和过去有什么不同?它会有怎样的一些问题?所以作为一个学者来看,我们更期待的是能够找到大数据分析和过去我们计算分析当中的一些差异化,以便我们能够有效的去开展这样的研究工作。第一个问题就是采样和尝样,工业革命200多年以来,基本上我们已经习惯的统计数学的方式,就是采样,采样的另一个词我曾经也讲,就跟我们做菜要尝一尝,熟不熟要尝一下,胃口好不好尝一尝,这是基于对于抽样检测的代替整体,数据不可能是均等的,样本空间留给你,不断的涌入新的数据,使得你没有办法使用过去采样的方式。第二个例子,我们在计算的特征当中,我们谁都不愿意买一双鞋跑遍西安城或者北京市,这给我们问题的计算方式不再追求绝对精确,而走向不确定,虽然不精确不是目标,精确仍然是目的,绝对不会因为数据结果的不完全精确而放弃对决策的思考。第三个就是属于因果关系和关联关系,医生看病是找因果规律还是找关联关系,对症下药和已有的知识经验。因此对这样的事情,实际上我们看到可能过去的计算模式不完全适用于大数据分析,因为数据是不断的变化,可能未来在计算的方法、计算的平台当中有一个重要的转折点,会出现众多特征。

过去我们从科学计算到商务计算和所谓现在的社会计算,我们看原来出现的计算科学的基础就是所谓的算法,在面对商业数据有已成熟的算法,还有很多工作流,但是对于社会的数据没有这样的一个计算平台,未来有很多新的机会,也是我们管理企业一个重要内容,现在很多企业数据的公开和开放,网民的评价,决定了社会对一个企业的投入和基金的买入和卖出,这不仅是在西方发达国家,在当下的互联网当中也在逐渐的形成,如何分析企业的行为在社会上的影响,让这些数据支持企业的商业行为,也会在未来或多或少的发生影响,未来IT一定有数据量和本质的变化,这里就会有很多机会。

        我们现在的数据很广,现在机器学习变得越来越重要,我们通常在新浪微博或者搜狐微博、网易微博做数据分析,以后的机器学习会更有效。最后一个问题是安全和隐私的问题,如何建立好有效的技术和系统,更重要的需要法律和社会制度的支持。举个例子,我们做的社会媒体的网络大数据,这是一棵非常茂盛的树,它有各类各样的数据信息和可能的问题,如何利用这样的一些数据分析,实际上是一个很有意义的事情,我们做了一个系统,把我们的研究结合起来,传统的数据分析只是社会事件新闻的分析,主要建立哪一个人群最集中,他们之间有什么关联关系,我们在这里希望不仅能够把兴趣和原有的关系关联起来,同时在兴趣组分析一些有意义的大规模的时空数据和社会数据的跨域结合,这是我们做这类工作的主要内容,我们用的是时时数据和预测的分析,1分钟就完成当前数据的刷新。

       过去做事件的分析,通常做数据的融合只是做关联性最大量的融合,我们通过的分析,分析和理解一个信息一个热点一个社会关注的问题它是怎么传播的,通过什么样的兴趣网络形成,也许未来的计算传播学可能会通过信息分析提供有效的东西,我们通过这样的分析建立一种传播的机制,为什么有些传播快有些传播慢,这对营销市场是什么方式,我们侧重做分析,主要是了解它传播的几率、机制、兴趣关联以及所控制形成的一个关联网络来分析它的动态性和它的不确定性。

 脑科学很热闹,未来是脑科学的时代,因此我们在这里想,未来的人造大脑或者人工脑、智慧脑也许通过数据分析提供一条解决的方式,这种解决的方式就是我们从过去输入的无序的数据建立数据名单进行数据图库,建立一种关联网,这种关联网就是一种智慧的网络,社会动态分析的话可能会对社会综合形态有较好的依据,机器人在特定的环境工作,他可能通过自我的学习变得越来越聪明,对于未来大数据的研究,从无序到有序,实际上有一个重要的应用和发展的模式,就是无序的外部大数据通过数据的分析形成它的智能和知识的话,对于新的体制结构的设计都有新的变化,这通过许多的研究,有了这样的方式,它会使得我们社会科学和计算学进行深度的融合,包括计算传播学、计算社会学、计算媒体学都会创造很多的机会。

谢谢各位。(编者根据录音整理,未经本人审定)