微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > Stay foolish:初学者轻松了解“大数据”

Stay foolish:初学者轻松了解“大数据”

时间:02-15 来源:华通科技 点击:

  网络上流传着这么的一句流行语:"万事不懂问度娘"。自从有了各种搜索引擎,新名词新技术对大众而言,已不再神秘。然而,当你搜索"大数据"或者"big data solution"等关键字时,搜索出的海量相关知识铺天盖地,对初学者而言,仍然很难在短时间内入门。本文目的,是以傻瓜式提问的方式让初学者轻松的了解"大数据"。

  大数据的概念

  "大数据",是不是----数据很大就叫大数据?

  实际上简单的这样理解也没有错,在明确定义时,会比较强调大数据的4个V的特性: Volume,Variety,Value,Velocity。也就是:

  一、数据存储空间占用大(至PB及以上级别);

  二、数据类型繁多;

  三、价值密度低;

  四、处理速度快。

  搜索的信息中,你会发现有某些名词出现的频率非常高,心里也随之会产生一些疑问。"PB是多大?""Map-Reduce是啥?""Hadoop是啥?""大数据跟云计算啥关系?跟传统意义的数据库啥关系?"等等。

  这么多的信息量,我们还是按照大数据的基本定义,四个V来逐一梳理吧。

  从第一个V开始,Volume。

  数据量很大,到底能达到什么程度呢?先来学习一下数量级的知识吧。

  1KB(Kilobyte 千字节) = 2^10 B = 1024 B;

  1MB(Megabyte 兆字节) = 2^10 KB = 1024 KB = 2^20 B;

  1GB(Gigabyte 吉字节) = 2^10 MB = 1024 MB = 2^30 B;

  1TB(Trillionbyte 太字节) = 2^10 GB = 1024 GB = 2^40 B;

  1PB(Petabyte 拍字节) = 2^10 TB = 1024 TB = 2^50 B;

  1EB(Exabyte 艾字节) = 2^10 PB = 1024 PB = 2^60 B;

  1ZB(Zettabyte 泽字节) = 2^10 EB = 1024 EB = 2^70 B;

  1YB(YottaByte 尧字节) = 2^10 ZB = 1024 ZB = 2^80 B;

  1BB(Brontobyte ) = 2^10 YB = 1024 YB = 2^90 B;

  1NB(NonaByte ) = 2^10 BB = 1024 BB = 2^100 B;

  1DB(DoggaByte) = 2^10 NB = 1024 NB = 2^110 B;

  ……

  "哇!坑爹啊,整出这么多名词,跟大数据都有关系吗?需要我们掌握吗?"别激动!其实,KB,MB,GB我们在日常电脑操作中已经经常碰到了。甚至TB级的大硬盘,也已经应用于家用电脑中了。我们所说的"大数据",目前大多产品还处在了立足PB展望EB的级别。后面的那些什么ZB、YB、BB、NB、 DB……等,就暂时先当他们是浮云吧~

  第二个V, Variety。

  关于这一点,百度百科里是这么说的"网络日志、视频、图片、地理位置信息等等"。从专业一点的角度,我们可以说"大数据"中,可以有结构化数据,但更多的是大量的非结构化和半结构化数据。

  结构化和非结构化数据是什么意思?

  结构化数据是指,可以存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

  非结构化数据,是指不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

  而半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

  上述的描述,其实还是有点不明确。用数据模型的列表来看,区别就更清晰一点了:

  

  第三个V,Value。

  价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

  第四个V,Velocity。

  处理速度快。如此庞大的数据量,需要在短时间内迅速响应。所使用的技术,当然是有别于传统的数据挖掘技术的。

  释疑解惑

  "梳理完了四个V,咋还是云山雾罩的呢?"

  下面来回答几个初学者可能思考到的问题吧!

  针对大数据的四个V,有没有什么对应的技术来应对呢?

  目前,查询"大数据",你会发现度娘给出的各种信息中,Hadoop这个词出现的很频繁。而且,很多厂商提供的产品,也都会打上一个标签:"**产品已经并入Hadoop分布式计算平台,以及将Hadoop引入**产品。"

  什么是Hadoop?

  Hadoop是由Apache基金会开发的一个分布式系统基础架构。它是一个能够对大量数据进行分布式处理的软件框架。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。

  Hadoop包含了如下子项目:

  1. Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common

2. HDFS: Hadoop 分布式文件系统 (Distributed Fi

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top