大数据是指常规软件工具在一定时间范围内无法捕捉、管理和处理的数据集合。它是一种海量、高增长和多样化的信息资产,需要新的处理模式来具有更强的决策、洞察和发现以及流程优化能力。
在维克多·迈耶-勋伯格和肯尼斯·库克耶(Kenneth Cookeye)所著的《大数据时代》(Big Data Age)中,大数据意味着所有数据都用于分析和处理,没有随机分析(抽样调查)的捷径。大数据的5V特性(IBM提出):容量、速度、多样性、价值、准确性。
推荐课程:Python教程。
定义
大数据和云计算的关系
“大数据”研究机构Gartner给出了这样的定义。“大数据”是一种信息资产,它需要一种新的处理模式来具有更强的决策、洞察和流程优化能力,以适应海量、高增长率和多样化。
麦肯锡全球研究所给出的定义是:在获取、存储、管理和分析方面,规模极大地超过传统数据库软件工具能力的数据集。它有四个特点:数据规模大、数据流快、数据类型多样、价值密度低。
大数据技术的战略意义不在于掌握海量的数据信息,而在于对这些有意义的数据进行专业化处理。换句话说,如果把大数据比作一个行业,这个行业盈利的关键在于提高数据的“处理能力”,通过“处理”实现数据的“增值”。
从技术上讲,大数据和云计算的关系就像硬币的正反面一样密不可分。大数据不是单台计算机就能处理的,必须采用分布式架构。其特点在于对海量数据进行分布式数据挖掘。但它必须依靠云计算、分布式数据库、云存储和虚拟化技术的分布式处理。
随着云时代的到来,大数据越来越受到关注。分析师团队表示,大数据通常用于描述公司创建的大量非结构化数据和半结构化数据,当下载到关系数据库进行分析时,会花费太多的时间和金钱。大数据分析经常与云计算联系在一起,因为对大数据集的实时分析需要像MapReduce这样的框架来将工作分配给几十台、几百台甚至几千台计算机。
大数据需要特殊的技术来有效地处理容差时间内的大量数据。适用于大数据的技术包括MPP数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展存储系统。
最小基本单位是位,所有单位按顺序给出:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们是按照1024(2的十次方)的推进率计算的:
1字节=8位
1 KB = 1,024字节= 8192位
1 MB = 1,024 KB = 1,048,576字节
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576兆字节
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1db = 1024 NB = 1048576 BB