【 讯】《观点争锋》是由赛迪2019年新创栏目,聚焦工业和信息化领域,意在搭建一个专家学者、意见领袖、牛人大咖与业界互动的平台。通过线下思想交锋,线上问题征集,以视频、图文的形式,全方位的向业界展示更多专业的、智慧的内容精华。
首期《观点争锋》栏目,有幸邀请到中钢集团信息管理部总经理李红,昆仑数据首席数据科学家田春华博士,中国大数据产业生态联盟郭嘉凯三位重磅嘉宾,就“大数据还是小数据”?的话题展开探讨,下文为现场实录。
主持人:赛迪集团软件和集成电路杂志社总编辑、中国大数据产业生态联盟副秘书长郭嘉凯
嘉宾:中钢集团信息管理部总经理 李红
昆仑数据首席数据科学家 田春华 博士
赛迪集团软件和集成电路杂志社总编辑、中国大数据产业生态联盟副秘书长郭嘉凯(左)
中钢集团信息管理部总经理李红(中)
昆仑数据首席数据科学家田春华博士(右)
主持人:各位观众,大家好!欢迎收看本期《观点争锋》栏目,本期栏目的主题是“大数据还是小数据”?
在过去几年,大数据一词炙手可热,很多企业、用户都对大数据十分感兴趣。但是在实际应用当中,我们看到大数据应用的状况似乎并不如想象中的普遍。
世界著名品牌营销专家马丁·林斯特龙指出:大数据虽然连接了千万个数据点,可以准确地产生相互关系,但是当人类按照自己的习惯行动时,大数据分析通常不会十分准确。所以,在大数据之外,挖掘用户需求的时,更重要的是通过对一个小群体的亲身观察和小数据常识,捕捉到这个社会群体所体现出的文化欲望,满足这些用户的需求击中痛点。
那么究竟是大数据更加重要,还是小数据更有价值?本期栏目我们很荣幸地请到了两位重量级的嘉宾,分别是中钢集团信息管理部总经理李红。昆仑数据首席数据科学家田春华博士。
主持人:既然这个节目叫《观点争锋》,那么两位嘉宾请先表明一下立场。您认为大数据更有价值,还是小数据更实用?
李红:我认为不能武断地说大数据、小数据谁更有价值,因为两者不是对等的概念,应该说大数据有大数据的价值,小数据有小数据的价值,取决于你对数据的用途。
田春华:我支持的数据是大数据和小数据的融合,因为数是载体,聚才是我们的目的。
主持人:究竟什么是大数据、什么是小数据,两位专家如何定义?
李红:我曾经在行业工作了十几年,一直从事统计工作,根据我个人的工作经历,我对数据比较敏感。所以,我认为小数据一般是指我们传统对数据的使用,在过去由于受技术、资源的限制,我们在采取小数据时有明确的目的,我们对小数据的用途赋予了很明确的要求。我们在取得数据时,数据本身就赋予了很多信息和知识内涵,否则我们就会浪费资源。
大数据和小数据是不对等的,因为我们现在技术进步了,我们可以简单而又方便地应用大量数据,所以人们给数据定义了四个V(多样化、大量化、速度化、价值密度低)。大数据的概念是什么?是将原生态、原始的数据经过一系列的清洗、打标签、标识、建模等手段,是原始数据产生价值。所以,在四个V中,才会有低价值这个概念。
无论是小数据还是大数据,我们都要理解各自的用途。我们为了满足对现象的描述,对经济发展概念的辅助、理解,我们花了大量的精力,对小数据进行指标设置,标准的界定,然后对数据反映的情况进行分析和甄别,这是小数据的应用。
在传统应用中哪些是小数据? 包括GDP、销售率、成本核算,大量的传统数据。
大数据的用途非常广泛,主要聚焦在互联网和电商企业,大数据在这些企业中体量十分庞大,并且有很多维度,还可以实时动态。当拥有这些数据后,通过分析我们就可以提高自身的能力。
比如通过大数据,可以进行用户画像、精准营销、预测性维护,这些能力是小数据达不到的。
所以,我的观点就是,大数据、小数据不是对等的概念,大数据和小数据都有价值,取决于在不同的领域有不同的用途。
田春华:不能从内、外这样分,从学术上讲,大数据也不是一个严格的学术名词。
什么是大数据?单机的数据就叫大数据。从学术的角度来说,并不是一个很好的定义。
谈道大数据,很多人混淆了数据的两个层面:
1、大数据技术。
2、大数据思维。
从数据技术的角度来说就是四个V。目前,大家总会强调数据量的问题。比如Google在早期解决数据问题非常简单。他们在面对海量数据时,利用廉价的方式来代替昂贵的存储、商用服务器等,因为他们大量搜索低价值密度的数据,虽然数据量大,但是价值密度比较低。这时如果再用昂贵的存储,比如银行、电信等行业就无法支撑。
最早互联网行业发展大数据的动机很简单,就是为了降低成本。所以,如果用普通的机器来做,就带来了一个新的问题,各类机器的差异性较大,而且机器的计算是单节点性能较低,怎样组成一个可靠性强、吞吐量大的高级节点计算,这就需要很多大数据技术。包括怎么解决计算中的瓶颈问题,这是大数据技术起因。
数据思维就是如何依靠数字化转型,来帮助企业审视企业自身的业务,支持企业转型和发展。
但是大数据就要体现全面性。我们接触最多的是石油行业,在过去小数据覆盖了很多专业领用,包括管理性维护、施工系统等,而这些系统都可以反映了数据。但是各个数据都没有打通,过去也疏理了标准,也要实现打通。
通过数据梳理后,数据虽然打通了,但是却无法运行。这不仅仅是运维的问题,也可能包括施工的问题。所以,在以前小数据或者是专业数据是割裂的。在大数据时代,每个企业做的第一件事就是把它打通,建立管道的全生命周期,从建设期到移交期,到运维期,甚至不同的保护措施。但是这还不能称为大数据,应该称为数据思维。
对于制造行业,在整个生产环节中,如果通过数据关联,我们可以把数据的全息画像描绘出来再进行分析,可能会发现原来在工艺或者是传统制造之外的东西,这是数据思维或者是大数据思维带来的一些新的东西。
主要的区别来自数据的利用方面,就是怎么利用数据。大数据、小数据二者的区别是相对的。小数据的价值密度高,大数据的价值密度低。另外从统计的角度来讲,我们从来没遇见过大数据,因为人们的好奇心永远超过数据量。对于数据科学家来说,总是感觉数据不够。因为我们的兴趣是呈指数增长的,而数据量是线性或者是多项式增长,所以我们的增长速度远远超过数据。
主持人:为什么在大数据时代,我们又重新提起小数据?现在的小数据跟之前的小数据有什么不同?
李红:目前,大数据通过互联网的发展,越来越受到各界追捧,我们一切都可以利用大数据来解决。但实际上并不是这样,为什么不能忽视小数据?什么才是数据的价值?
1、数据来源。
2、数据加工。
3、数据使用。
应当从这三个方面来看两者的区别。
从数字来源看,互联网企业强调数剧一定来源于最原始、最本源的状态。就像矿石一样,它埋在地下,如果把它挖出来它才有价值。所以,我们现在大量的机器数据、人工行为数据等,都可以变成数据。
而小数据则不同,人为了获得知识,我们要定位自己的需求,我们有较强的目的性,才能保证付出较小的代价,因为在庞大的数据量面前,我们就没有这个力量和能力进行处理了。所以,在获取的过程中就会出现取舍,这样忽视了很多事物的本质,数据量就会变小。
但是我们赋予了数据的定义、内涵、算法,我们所获取的数据才会变得有价值。但是小数据和大数据的区别就是,我们舍弃了很多有价值的东西。
从数据来源的角度来说,小数据是人类社会、经济社会活动的基础。不能只依靠挖掘大数据,小数据也可以支撑我们对事物经济分析的基础。
从加工的角度来说,大数据的加工很简单。现在的算法有很多,要识别一个东西,必须要通过算法、算力和数据的不断迭代,才能确认大数据是否存在价值。
在BAT有的专家曾经讲过,尽管手里有数据,但是不知道怎么用。数据源和数据的使用,这其中很难区分。为什么人工智能需要通过数据量、数据建模不断迭代,才能体现它的识别能力。这是大数据的加工方法。
小数据的加工方法相对简单,通过统计、汇总、建模,也可以通过数据展示进行处理。我们现在所看到的图表、报表、简单图形等都非常直观,它能够让我们很容易地知道我们想达到的目的,验证我们预测的目标和结果。
但是和大数据比,更深层次的东西我们就很容易获得。因为有数据,我们通过加工、建模,可以把一些显性的数据利用起来。小数据只能用一些能看得到的显性数据,而大数据可以发现更深层次的东西。从数据加工来说,小数据加工简单、直观,大数据需要通过复杂地处理。
从数据的最终使用角度来看,在过去小数据要支撑我们的各种决策,直到现在也已然如此,举个例子,从人力资源理论来讲,一个人在一般的物理情况下能管控七个人,因为人的手、目测、距离有限。那么七个人以上怎么办?如果一个大公司有几千、几万人,一个企业在全世界都部署,那么依靠传统的人力资源管理方式就行不通了。所以,利用小数据进行是决策更加有效。
我们为什么用大数据?为什么大数据发展这么迅速?区块链、人工智能,这都是大数据自然发展而来的一种应用,这就说明大数据发挥了更大的价值。因为大数据的产生,将来能够提升人类对科学的第四范式,过去我们凭经验和推理,现在通过数据就能发现问题。
所以,从这个角度来说,小数据从采集、加工到最后的处理和分析,它有它的价值,社会的经济活动还需要小数据。但是大数据给我们开辟了新的天地,提高了我们的认识和认知能力,所以大数据的价值确实是非常值得期待的。但是我们不能因为大数据,就忽视了小数据。
主持人:现在大数据非常火,但是小数据如何切入?
田春华:我们在做大数据分析时,其实还是需要小数据的支撑,但是我们需要的是具有代表性的小数据,当我们利用小数据后再迁移到大数据进行大规模验证,包括挖掘我们认识之外的东西,在大数据上是否能看到一些我们原来理解之外的东西?或者是看到一些我们目前解释不了的东西?解释不了的东西有可能存在规律,有可能是我们的测量手段或者是当前数据采集方式有问题。
其实我们一直按照从小数据和大数据的相互迭代方式,先利用小数据,再应用大数据,从大数据的应用中再回到小数据反复迭代,然后再提升,这样才能使大数据成功落地。而不是只谈大数据不顾小数据。如果脱离了小数据来谈大数据,对于企业来说具有很大的风险。
主持人:而且可能也会给企业带来一些不好的效果。小数据见效更快,对于企业来说,小数据的直接价值更大。
田春华:不光是对企业,对我们分析师来说,小数据或者是少量的数据我们容易参透。其实很多事情和工程问题一样,讲究二八研究,人类把握80%的问题,而剩下的20%的问题交给统计或者智能进行挖掘,来解决20%的未知因素。
主持人:在咱们人们日常的工作当中,是不是小数据应用得更多一些?
李红:对,国家统计局有一个国民经济行业分类。为什么要分类?我们的社会充满数据,如何有条理、有规矩、有序地应用数据?还需要人为地把这些数据进行归类、识别、分析。所以,我们现在为了解决好效率和质量的区别,需要大量地要小数据,因为有些东西没必要。
就像我们骑自行车、开汽车,如果离家门口五分钟就到了,最好骑自行车,这样的话效率很高。你要开汽车,需要启动、停车,效率反而降低。所以,不能因为大数据的价格高,我们就忽视小数据。
主持人:能否举一个从小数据入手,然后为企业解决某个具体的问题,然后再跟大数据结合,为企业带来更大的价值的例子?
田春华:我举两个例子:
1、我们当时帮金风科技(一家世界领先的风气制造商)做载荷仿真时,我们见到的问题就是加速仿真过程,因为工矿比较多,有一千多个工矿要仿真。所以,最初始的诉求也很简单,通过智能化、小数据,把琐碎的过程自动化,还有解决计算时间较长的问题,另外,在产生后仿真文件特别多,需要把用的结果自动抽出来。
这本身是一个很好的自动化小数据,但是中间用了一些大数据计划,其实更多是利用传统的小数据。
用完之后,我们隐约意识到,一旦能把载荷仿真智能化之后,从业务上带来的价值不仅仅是在企业内部提升了载荷仿真团队的工作效率,而是极大地改善了认证的阶段,过去我们都是通过写二、三百页的文档写报告,当认证机构把它还原到计算机中,这个认证的过程则需要一周的时间。如果能把这些计算自动化,我能把计算结果、计算过程、原始资料都提交给认证机构,让认证机构也省去了验证的过程,我们也省去写企业几百页的报告。
后来我们更意识到了,这对企业整个的研发来说,就是协同研发、协同设计。过去叶片厂商和塔架厂商都把自己设计好的文件,提交到金风的研发团队,然后研发团队再把它整合起来进行仿真,之后如果发现某些环节需要调整,再返回给各厂商。
在实现了自动化之后,每个人可以独立地提交文件,可以和别人现有的方法进行整合,然后马上就会出具结果告,这样就使整个研发过程就变成了一个并行的研发。
我们从最早非常小的一个点,慢慢走到需要用大数据来进行支撑。这是我们和业务部门都没有想到的,一旦某个生产环节得到了加速,所带来的是业务模式的转变,而业务模式所对应的大数据后台技术的要求是不一样的。在企业内部用安全、认证没有问题,但对外时我们还要建模性加密,还包括各种引擎的分析模型分享等。
2、我们过去在做过很多大部件的工程诊断,研发部门有很多经验模型,并且全部都验证,大家对模型的应用非常有自信。
但当我们上了大数据平台之后,我们发现我们以往的经验,到风机厂几乎是没有一个模型是准确的。这也是我们后来应用在小数据上做的模型,到大数据上去验证,当验证完成后,再回头修改小数据的原因,通过大数据、小数据的迭代,金风已经做了几百的模型,在全球的风机上都能使用。
小数据给我们打下了很好的基础,但是八九不离十,10%的间隙用大数据去弥补。但是如果要是没有80%、90%小数据的支撑,光依靠挖掘大数据,很难保证其精准度?因为样本不均衡,在工业中越严重的故障样本量越小,我们没有足够的样本来训练一个可靠的模型。这就是为什么我们做出小数据之后,用大数据去验证,反而是见效更快。
主持人:那么在传统企业中,是否也碰到过上述情况?
李红:在传统企业中我们也遇到了这种问题。因为大数据被理解为一种技术,它是一种新的思维、新的能力,传统企业和互联网企业是不一样的,我们现在对技术和思维能力之间存在差距。
简单说,我们在与CIO这个群体交流时发现,大家都苦于企业没有需求,业务部门能否做一些大数据研究案例,但是业务部门却不知道为什么做大数据。而职能部门也无法改善管理,因为职能部门不知道怎么做大数据。
问题出在哪里?互联网企业已经实现了技术和能力的匹配,物联网企业知道要干什么,所以去搜集数据。那么在传统企业中,大数据如何能发挥价值?在需求端、业务端、应用端他们还很难说出为什么要用大数据,用大数据干什么?大数据从哪里来?他们被这种问题困扰。
所以,大数据目前在传统企业落地的,都是一些很具体的实战型企业,比如生产厂商。我们最近看到华伦集团,他们率先在水电、火电设备上和具体的生产场景中,利用大数据进行突破。
目前,大数据在传统企业里面一定要找到具体的应用场景和目标,要解决数据从哪儿来,什么是大数据,大数据能干什么等问题。因为传统企业必须见到效果了,或者是感觉到了大数据的价值,才会发展大数据。
所以,现在大数据还在传统企业要有一个过程。从技术发展的角度来说,我们现在从消费互联网往工业互联网过渡,从产业互联网和工业互联网阶段,大数据应该说刚刚起步,不仅从理论上、从应用上、从价值上,都是刚刚认识。
所以,大数据依然是技术人员在技术层面上谈大数据,实际上一旦传统企业应用了大数据,传统企业转型升级、创新发展、弯道超车都非常有可能,所以大数据的未来是非常好的。
主持人:最后请两位专家用一分钟的时间总结一下大数据和小数据的关系。
田春华:我认为数据技术和业务不是割裂关系,我们以数字化转型或者是数字化业务的视角去审视和推进整个数据建设,无论是大数据还是小数据,都应当遵循三点:
1、有明确的业务规划或者是业务场景。
2、对当前整个行业环境,包括企业的数据基础要进行摸底,当我们要发展大数据时,我们的数据基础还不支持现有的场景。
业务驱动还是要寻找业务场景,一方面是业务部门的努力,另一方面大数据公司也应努力地寻找业务场景、业务驱动,将可行的数据用合适的方式,将高价值的信息及时推给相应的人。
3、从数据的角度审视我们的业务和问题,来完善我们的业务。当数据分析发现问题了后,反过来改善业务流程,形成业务和数据的闭环。
李红:我们要重视小数据的利用价值,因为小数据事关我们的日常生活和工作,但是我们要大力推进大数据的应用发展,因为它关系到我们的产业升级、动能转化、经济转型和强国建设。所以,大数据决定我们的命运和未来。
主持人:谢谢!前中信银行行长、中信集团监事长朱小黄曾经说过:数据本无大小,但运用数据的立场却分大小,是谓大数据。
我对这句话很认可,我觉得对于企业、用户来说,或者是对于大数据服务商来说,可能数据的大小并不重要,对于企业而言,数据的价值可能才是最为关键的。也希望所有企业能够在当下运用好小数据,在未来应用大数据拓展更广阔的业务和天地。
本期节目到此为止,也感谢两位嘉宾的精彩分享,谢谢大家!我们下期再见!