大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量。
中国的大数据
大数据的特点:
具体来说,大数据具有4个基本特征:
一是数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过
1、5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。
演绎历史仅需133天
二是数据类型多样。现在的数据类型不仅是文本形式,
更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
三是处理速度快。
数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
有用数据仅为3600分之一面临大数据时代的到来,你准备好了吗?
大数据时代到来
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
进入20xx年,大数据(bigdata)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官方的网站的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
2、数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。正如《纽约时报》20xx年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
大数据应用案例:
1、医疗行业
在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
2、能源行业智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
3、通信行业
电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情,结合自己的经历,移动推出夜间流量包。
4、零售业
零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。
87年前,我们的先辈们在这个大陆上创立了一个新国家,它孕育于自由之中,奉行一切人生来平等的原则。
现在我们正从事一场伟大的内战,以考验这个国家,或者任何一个孕育于自由和奉行上述原则的国家是否能够长久存在下去。我们在这场战争中的一个伟大战场上集会。烈士们为使这个国家能够生存下去而献出了自己的生命,我们来到这里,是要把这个战场的一部分奉献给他们作为最安息之所。我们这样做是完全应该而且非常恰当的。
但是,从更广泛的意义上来说,这块土地我们不能够奉献,不能够圣化,不能够神化。那些曾在这里战斗过的勇士们,活着的和去世的,已经把这块土地圣化了,这远不是我们微薄的力量所能增减的。我们今天在这里所说的话,全世界不大会注意,也不会长久地记住,但勇士们在这里所做过的事,全世界却永远不会忘记。毋宁说,倒是我们这些还活着的人,应该在这里把自己奉献于勇士们已经如此崇高地向前推进但尚未完成的事业。倒是我们应该在这里把自己奉献于仍然留在我们面前的伟大任务——我们要从这些光荣的死者身上汲取更多的献身精神,来完成他们已经完全彻底为之献身的事业;我们要使国家在上帝福佑下得到自由的新生,要使这个民有、民治、民享的政府永世长存。
既然说到大数据,就得先了解大数据地定义。什么是大数据。试想如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和,一个人产生的数据量超过现在全球数据量的总和,甚至你的宠物小狗产生的信息量都超过现在全球数据量的总和,世界会发生什么呢?那么就先来看一些官方的网站给出的大数据的定义。
为导出对事业起作用的数据。对于大数据商务有目的性的定义:“利用大数据解决经济和社会的问题。提高业务附加的价值。或者是支援事业”大数据不只指它的规模是多少,还有这些数据是由那些数据构成的,还有可以怎样利用大数据。由此是与到现在的系统是不同的。 用被卖出的数据基础管理工具或者是到现在为止处理数据的应用程序,来处理巨大困难的复杂数据集合,这样的词语。
再来看两个中文的。
那么大数据到底是啥。其实就是很多数据。它是把很多信息用数据的方式储存起来,然后不断累积,一直到这些数据大的没办法用简单进行利用。大数据并不是很神奇的事情。就如同电影《永无止境》提出的问题:人类通常只使用了20%的大脑,如果剩余80%大脑潜能被激发出来,世界会变得怎样?在企业、行业和国家的管理中,通常只有效使用了不到20%的数据(甚至更少),如果剩余80%数据的价值激发起来,世界会变得怎么样呢?特别是随着海量数据的新摩尔定律,数据爆发式增长,然后数据又得到更有效应用,世界会怎么样呢?发挥想象去思考一下。
那么大数据是怎么形成的呢?
以前我们关注的都是交易系统和业务系统产生的数据,通过数据仓库去分析展现,其实终端,尤其是个人各种流水操作,例如购买物品清单,上网浏览历史,照片,微博等也有,但是不关注,而大数据时代,更多的是关注这些大量的数据,期望分析这些数据来发现价值,因此大数据其实以前在系统,终端,个人等等都在产生,只是没有加以利用而已,现在要分析这些数据从中发现价值。这才是大数据形成的原因和意义。数据再多,但如果被屏蔽或者没有被使用,也是没有价值的。中国的航班晚点非常多,相比之下美国航班准点情况好很多。这其中,美国航空管制机构一个的好做法发挥了积极的作用,说起来也非常简单,就是美国会公布每个航空公司、每一班航空过去一年的晚点率和平均晚点时间,这样客户在购买机票的时候就很自然会选择准点率高的航班,从而通过市场手段牵引各航空公司努力提升准点率。这个简单的方法比任何管理手段都直接和有效。
先说一下这个打印的课本,它里面举了两个例子。对于福岛核电站的事,以及对于便利店的优势,都是利用了大数据。比如说超市,要进好多货,然后有的买的人少可能就堆积,即使减价处理也不一定能卖得掉,从而造成亏损。那么便利店,就会根据平时周围生活的人们来选择性的进货。在上班族公寓附近就多进快餐,在老年人或者中年人多一点的地方,就进一些生活用品。对于福岛核电站,如果将监测核电站的信息及时收集,并且分析就可能发现它有问题,可能会泄露,进而去解决问题避免损失。这就是预测未来可能发生的事故,这样的话可以有效的避免。再比如说,天文学家们研究天体的运动轨迹,发现更多的行星。将这些数据收集在一起就是大数据,对这些数据分析整理,就有可能计算出,未来某个行星可能会撞上地球。然后采取一些必要的措施,来将这种毁灭性的打击消除。如何认清现在呢?比如说在医学上,通过医疗设备对细胞进行观察,并根据其他测试进而推测出该细胞是不是癌细胞。如果把判断的依据变成数据化,输入到电脑中,并且再赋予她一定的学习能力,比如给他一个癌细胞,他会记住这些细胞的特征,久而久之,他的准确度会越来越高。在医学上的作用也会越快越明显。这就是对他的应用进行简单的了解。之后赵飞会更深入更仔细的讲一下这方面的内容。
那么,大数据对我们带来的都是好的么。不是的。就比如刚刚那个医学的例子。研究出的机器会让诊断癌细胞的工作人员逝去工作。就像是80年代工厂逐渐自动化一样,工人失业会
很严重。如果你是一匹马,那么你肯定不喜欢工业革命。
接下来说一下大数据现在面临的难题,就是如何利用好这些大数据,进而为人们服务,造福我们。就个例子就拿LSST来说。他是一个广域的天文望远镜,是由多个国家参与研发,现在在智利的一个山上,20xx年开始动工,并在20xx年启用查尔斯·西蒙尼和比尔·盖兹分别捐赠20xx万美金和1000万美金给LSST计划。LSST计划至今仍寻求美国国家科学基金会能拨发将近4亿美金的赞助费。。它每三天可以拍摄整个天一次。到20xx年,它会搭载一个超级数码相机,拍摄出的照片达到32亿像素。这样的照片需要1500块高清电视屏才能展示出来。LSST的照相机每年要拍摄超过人员所能分析的超过20万张影像。如果利用好了这些数据会是很大的一笔财富,但是目前还没有一个很有效的解决方法。没有那么多人力能去分析它,也没有那样的设备直接分析。所以这堆数据就是没用的数据,没有价值的。所以大数据是很有潜力的一门科学。接下来跟大家一起看一段TED的演讲视频。
演讲人是肯尼斯-库克耶《经济学人》数据编辑,曾任职于《华尔街日报》(亚洲版)和《国际先驱论坛报》。他是美国外交关系协会成员,CNN、BBC和NPR的定期商业和技术评论员之一。对大数据有很深的研究,听一下他是如何评价大数据的。看完这个演讲之后,在有请赵飞带来对大数据更深入的认识。