hdfs可以高效存储大量的小文件(hdfs 大量小文件)
大家好!今天让创意岭的小编来大家介绍下关于hdfs可以高效存储大量的小文件的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。
开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等
只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端
创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008
本文目录:
一、在hadoop项目结构中h dfs指的是什么
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。
HDFS 具有以下优点:
1、高容错性
数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。
2、适合批处理
它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。
3、适合大数据处理
处理数据达到 GB、TB、甚至PB级别的数据。能够处理百万规模以上的文件数量,数量相当之大。能够处理10K节点的规模。
4、流式文件访问
一次写入,多次读取。文件一旦写入不能修改,只能追加。它能保证数据的一致性。
5、可构建在廉价机器上
它通过多副本机制,提高可靠性。它提供了容错和恢复机制。比如某一个副本丢失,可以通过其它副本来恢复。
HDFS 也有它的劣势,并不适合所有的场合:
1、低延时数据访问
比如毫秒级的来存储数据,这是不行的,它做不到。它适合高吞吐率的场景,就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的,比如毫秒级以内读取数据,这样它是很难做到的。
2、小文件存储
存储大量小文件(这里的小文件是指小于HDFS系统的Block大小的文件(默认64M))的话,它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的,因为NameNode的内存总是有限的。
3、并发写入、文件随机修改
一个文件只能有一个写,不允许多个线程同时写。仅支持数据 append(追加),不支持文件的随机修改。
二、hdfs小文件过多,会带来什么问题
因为在hdfs 中,数据的元数据信息是保存在NameNode上的,hdfs本身的作用就是用来存储海量文件的,首先小文件过多的话,会增加NameNode 的压力,,因为NameNode是要接收集群中所有的DataNode的心跳信息,来确定元数据的信息变化的,另外,文件中可使用的block块的个数是有限制的,hadoop用来处理数据的话,小文件的延迟,和数据量虽然很小,但是有些地方和大文件所耗的时间相同,所以最好做优化,避免这种情况的发生。
三、Hive如何处理大量小文件
1.动态分区插入数据的时候,会产生大量的小文件,从而导致map数量的暴增
2.数据源本身就包含有大量的小文件
3.reduce个数越多,生成的小文件也越多
1 从HIVE角度来看的话呢,小文件越多,map的个数也会越多,每一个map都会开启一个JVM虚拟机,每个虚拟机都要创建任务,执行任务,这些流程都会造成大量的资源浪费,严重影响性能
2 在HDFS中,每个小文件约占150byte,如果小文件过多则会占用大量的内存。这样namenode内存容量严重制约了集群的发展
4.1 使用Hadoop achieve把小文件进行归档
4.2 重建表,建表时减少reduce的数量
4.3 通过参数调节,设置map/reduce的数量
4.3.1设置map输入合并小文件的相关参数:
4.3.2 设置map输出和reduce输出进行合并的相关参数:
四、HDFS的优缺点以及应用场景
HDFS 是hadoop distributed file system的简称,分布式文件系统
在大数据生态系统中,分布式是一个核心概念,大数据大数据,大数据量的数据和大量种类的数据,一台机器存不下,多台机器一起存储
一个对应用数据提供高吞吐访问量的分布式文件系统
适合一次写入,多次读出场景,而且不支持文件的随机修改,但是支持文件的追加 .适合做数据分析
随机修改:把已经写过的内存进行修改
追加:在之前文件写的基础上面后面继续加内容
优点:
缺点:
实际工作中本人自己测试过,一个文件/目录/文件块大概是占用的元数据内存是150B,假如有100W个小文件,每个文件都占用一个文件块,需150B×100W/1024/1024≈143M,要是一个亿的数据量呢
以上就是关于hdfs可以高效存储大量的小文件相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。
推荐阅读:
2020新年音乐会杭州剧院(2020新年音乐会杭州剧院表演)