HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    hdfs可以高效存储大量的小文件(hdfs 大量小文件)

    发布时间:2023-04-08 06:30:38     稿源: 创意岭    阅读: 117        

    大家好!今天让创意岭的小编来大家介绍下关于hdfs可以高效存储大量的小文件的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

    只需要输入关键词,就能返回你想要的内容,越精准,写出的就越详细,有微信小程序端、在线网页版、PC客户端

    官网:https://ai.de1919.com

    创意岭作为行业内优秀的企业,服务客户遍布全球各地,如需了解SEO相关业务请拨打电话175-8598-2043,或添加微信:1454722008

    本文目录:

    hdfs可以高效存储大量的小文件(hdfs 大量小文件)

    一、在hadoop项目结构中h dfs指的是什么

    HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。hdfs可以高效存储大量的小文件(hdfs 大量小文件)

    HDFS 具有以下优点:

    1、高容错性

    数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。

    2、适合批处理

    它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。

    3、适合大数据处理

    处理数据达到 GB、TB、甚至PB级别的数据。能够处理百万规模以上的文件数量,数量相当之大。能够处理10K节点的规模。

    4、流式文件访问

    一次写入,多次读取。文件一旦写入不能修改,只能追加。它能保证数据的一致性。

    5、可构建在廉价机器上

    它通过多副本机制,提高可靠性。它提供了容错和恢复机制。比如某一个副本丢失,可以通过其它副本来恢复。

    HDFS 也有它的劣势,并不适合所有的场合:

    1、低延时数据访问

    比如毫秒级的来存储数据,这是不行的,它做不到。它适合高吞吐率的场景,就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的,比如毫秒级以内读取数据,这样它是很难做到的。

    2、小文件存储

    存储大量小文件(这里的小文件是指小于HDFS系统的Block大小的文件(默认64M))的话,它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的,因为NameNode的内存总是有限的。

    3、并发写入、文件随机修改

    一个文件只能有一个写,不允许多个线程同时写。仅支持数据 append(追加),不支持文件的随机修改。

    二、hdfs小文件过多,会带来什么问题

    因为在hdfs 中,数据的元数据信息是保存在NameNode上的,hdfs本身的作用就是用来存储海量文件的,首先小文件过多的话,会增加NameNode 的压力,,因为NameNode是要接收集群中所有的DataNode的心跳信息,来确定元数据的信息变化的,另外,文件中可使用的block块的个数是有限制的,hadoop用来处理数据的话,小文件的延迟,和数据量虽然很小,但是有些地方和大文件所耗的时间相同,所以最好做优化,避免这种情况的发生。

    三、Hive如何处理大量小文件

    1.动态分区插入数据的时候,会产生大量的小文件,从而导致map数量的暴增

    2.数据源本身就包含有大量的小文件

    3.reduce个数越多,生成的小文件也越多

    1 从HIVE角度来看的话呢,小文件越多,map的个数也会越多,每一个map都会开启一个JVM虚拟机,每个虚拟机都要创建任务,执行任务,这些流程都会造成大量的资源浪费,严重影响性能

    2 在HDFS中,每个小文件约占150byte,如果小文件过多则会占用大量的内存。这样namenode内存容量严重制约了集群的发展

    4.1 使用Hadoop achieve把小文件进行归档

    4.2 重建表,建表时减少reduce的数量

    4.3 通过参数调节,设置map/reduce的数量

    4.3.1设置map输入合并小文件的相关参数:

    4.3.2 设置map输出和reduce输出进行合并的相关参数:

    四、HDFS的优缺点以及应用场景

    HDFS 是hadoop distributed file system的简称,分布式文件系统

    在大数据生态系统中,分布式是一个核心概念,大数据大数据,大数据量的数据和大量种类的数据,一台机器存不下,多台机器一起存储

    一个对应用数据提供高吞吐访问量的分布式文件系统

    适合一次写入,多次读出场景,而且不支持文件的随机修改,但是支持文件的追加 .适合做数据分析

    随机修改:把已经写过的内存进行修改

    追加:在之前文件写的基础上面后面继续加内容

    优点:

    缺点:

    实际工作中本人自己测试过,一个文件/目录/文件块大概是占用的元数据内存是150B,假如有100W个小文件,每个文件都占用一个文件块,需150B×100W/1024/1024≈143M,要是一个亿的数据量呢

    以上就是关于hdfs可以高效存储大量的小文件相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    hdi人类发展指数(中国人类发展指数排名)

    快手HD(快手hdr怎么开)

    chargtp注册(chdbits注册)

    聚合支付是支付宝吗(聚合支付是支付宝吗)

    2020新年音乐会杭州剧院(2020新年音乐会杭州剧院表演)