大数据通俗解释(生活中的大数据10个例子)

大数据通俗解释(生活中的大数据10个例子)

2021-07-04 22:48 浏览:4

大数据不仅是大量的数据，在其他方面也有一定的特点。

第一，大数据的数据量非常大，传统的单机存储系统已经不能存储这么大的数据量。这时候就需要分布式存储技术。

第二，大数据中的数据种类繁多，数据的格式会变得复杂，比如视频、文档、图片、消息记录等等。

第三，大数据中隐藏着一个非常重要的价值。通过数据分析技术，智能、数字化地支持业务决策。

大数据的主要作用是为公司上层提供商业决策支持，让公司结合历史数据，向正确的方向发展。大数据技术主要分为两大类:大数据计算和大数据存储。

大数据计算主要分为离线计算和实时计算。具体使用取决于业务场景对数据输出延迟的要求

离线计算对于数据输出会有一定的时间延迟，可以是15分钟，也可以是几小时，也可以是几天。离线任务一般是对数据进行全局批量计算，这次就完成了。与实时计算不同，除非您自己停止实时任务，否则实时程序将始终运行。

实时计算数据是不断生成的，数据输出的延迟通常很低，最多几秒钟。比如我们的大数据屏，实时数据流处理等。，这些场景对数据输出延迟的要求很低。

离线计算，一般对数据输出延迟没有那么高的要求，只要最后输出数据，具体使用很多公司的离线业务报表。目前大部分公司的离线计算引擎都是使用Hive或者Spark，而实时计算引擎主要是Flink。

大数据存储需要分布式数据存储，单台机器无法存储这么多海量数据

在传统的关系数据库中，当一个表非常大的时候，会利用数据库和表的技术将它分布存储在不同的机器上。开源工具TDDL可以用于数据库和表分离技术。

在非关系型NoSQL数据库中，可以选择HDFS作为最低的文件存储系统。HDFS文件系统以块的形式存储文件，一个块的大小为128兆字节，每个块将存储三个副本，这样数据就可以以容灾的方式存储。即使一个数据块损坏，也可以选择其他数据块进行数据恢复。

分布式数据库系统可以横向和纵向划分数据表。例如，在HBase数据库中，区域用于水平分区，列族用于垂直分区。

分布式数据存储技术需要不同的机器协同工作，每台机器存储整个数据的一个子集。在未来的大数据时代，分布式数据存储和分布式数据库肯定会被使用，这将成为大数据系统的标准。

我是Lake，专注于大数据技术原理，人工智能，数据库技术，程序员经验分享。如果我的问答对你有帮助，希望你能夸奖我，关注我。谢谢你。