什么是大数据

发布人:红松小e 发布时间:2020-11-26 10:09:24

“大数据”的概念起源于2008年9月《自然》(Nature)杂志刊登的名为“Big Data”的专题,继而迅速得到了科学、计算机、经济等不同领域专家的响应。由于其成因复杂,对大数据目前没有公认的定义,不同的研究人员从不同领域对大数据进行了定义,下面列出三个不同角度对大数据的定义。

什么是大数据

 

1)Kusnetzky Dan在What is“Big Data?”一文中提出,大数据是指所涉及的数据量规模巨大,无法通过人工在合理时间内截取、管理、处理并整理成为人类所能解读的信息。
 

2)维克托·迈尔舍恩伯格、肯尼斯·库克耶在《大数据时代》一书中把大数据看成一种方法,即不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。
 

3)“大数据”研究机构Gartner的报告指出,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
 

这三种定义中,第一种定义更强调处理能力,第二种定义更强调应用方法,第三种定义更侧重应用价值。本书的主题是“大数据算法”,因而更加侧重于第一种定义,即“规模巨大,无法通过人工来处理”。
 

无处不在的大数据
 

现实生活中的数据有多大呢?根据统计,在2006年,个人用户刚刚迈进TB时代,这一年全球共产生了约180EB=180×1018字节的数据;在2011年,达到了1.8ZB=1.8×1021字节。有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍。你也许会好奇为何会产生如此庞大的数据,下面我们举几个现实中的大数据例子。
 

社交网络
 

由于数据来自所有用户的参与,社交网络中的数据量非常大,而且增长非常迅速。例如,新浪微博在晚高峰的时候1秒产生的数据达到100条以上。如果把脸书(Facebook)中的社交网络看成图,在2012年这个图已经达到了超过8亿个顶点,平均每个点的度超过130,每天增加的数据量达到500TB。
 

科学仪器
 

科学仪器获取了非常巨大的数据,比如说中国遥感国家重点实验室采集的中国大陆地表信息,每个月产生4TB数据。中国天文观测站用LAMOST每年观测到的数据达到3.65TB,美国NASA中心每年获取超过125TB的数据,英国Sanger中心2002年就已经收集了20TB的数据,并且以每年4倍的速度增长。
 

移动通信
 

我们每天使用的手机产生了非常巨大的数据,中国移动每年产生的记录超过300TB。
 

传感数据
 

传感器持续检测环境信息并不断返回结果,产生了巨大的数据。以波音787为例,其每一个飞行来回可产生TB级的数据,美国每个月收集360万次飞行记录;监视所有飞机中的25000个引擎,每个引擎一天产生588GB的数据。风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒测一次,用于检测叶片、变速箱、变频器等的磨损程度,一个具有500个风机的风场一年会产生2PB的数据。
 

医疗数据
 

美国著名医疗保健公司InSiteOne平均每年获取2.1PB的放射影像数据,英国每年产生300TB乳腺癌数据,在美国相应的数据量达到2.6PB。哈尔滨医科大学第一附属医院每年通过各类医疗仪器搜集的数据超过30TB。
 

商务数据
 

生活中的每次刷卡,在超市或者网络中购买的每件商品都产生相应的数据。淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB。为了有效使用商务大数据,沃尔玛建立了包含PB级数据的数据仓库,Bestbuy建立了包含TB级数据的数据仓库。
 

补充知识
 

数据的概念相信读者已经很熟悉,“大数据”重点是大,我们下面看一些关于“大”的定义。
 

以上就是大数据的简单介绍和大数据能够在哪些方面使用等相关信息,现在大数据在我们生活中无处不在,关于大数据你还知道哪些知识可以留言讨论哦!

红松