大数据新人应该了解的Hadoop中的各种文件格式

Hadoop文件格式初学者指南

几周前，我写了一篇有关Hadoop的文章，并谈到了它的不同部分。以及它如何在数据工程中扮演重要角色。在本文中，我将总结Hadoop中不同的文件格式。本主题将是一个简短而快速的主题。如果您想了解Hadoop的工作原理以及它在数据工程师中的重要作用，请在此处访问我关于Hadoop的文章，或乐于跳过。

Hadoop中的文件格式大致分为两类：面向行和面向列：

> Picture 1.(Left Side )Show the Logical Table and Picture 2. ( RightSide) Row-Oriented Layout(Sequ > Picture 3. Column-oriented Layout (RC File)

如果仍不清楚行和列的方向，请不用担心，您可以访问此链接，了解它们之间的区别。

以下是在Hadoop系统上广泛使用的一些相关文件格式：

序列文件

存储格式取决于是否压缩以及使用记录压缩还是块压缩而有所不同：

> The Internal structure of a sequence file with no compression and withrecord compression. > The internal structure of a sequence file with block compression

地图文件

MapFile是SequenceFile的变体。将索引添加到SequenceFile并对其进行排序后，它就是MapFile。索引存储为单独的文件，通常每128条记录存储一个索引。可以将索引加载到内存中以进行快速查找-存储按Key定义的顺序排列的数据的文件。MapFile记录必须按顺序编写。否则，将引发IOException。

MapFile的派生类型：

Hadoop系统下面列出的文件包括RCFile，ORCFile和Parquet。 Avro的面向列的版本是Trevni。

RC文件

Hive的Record Columnar File(记录列文件)，这种类型的文件首先将数据按行划分为行组，然后在行组内部将数据存储在列中。其结构如下：

> src="https://s5./oss/202004/26/8f8bfb49760798143eb68bd96ef67e42.jpeg">> Row-Store in an HDFS Block > Column Group in HDFS Block

ORC文件

ORCFile(优化的记录列文件)提供了比RCFile更有效的文件格式。它在内部将数据划分为默认大小为250M的Stripe。每个条带均包含索引，数据和页脚。索引存储每列的最大值和最小值以及列中每一行的位置。

> ORC File Layout

在Hive中，以下命令用于使用ORCFile：

CREATE TABLE ...STORED AAS ORC ALTER TABLE ... SET FILEFORMAT ORC SEThive.default.fileformat=ORC

一种通用的基于列的存储格式，基于Google的Dremel。特别擅长处理深度嵌套的数据。

> The internal Structure of Parquet File

对于嵌套结构，Parquet会将其转换为平面列存储，该存储由重复级别和定义级别(R和D)表示，并在读取数据以重建整个文件时使用元数据来重建记录。结构体。以下是R和D的示例：

AddressBook { contacts: { phoneNumber: "555 987 6543" } contacts: { } }AddressBook { }

就这样，现在，您知道了Hadoop中不同的文件格式。如果您发现任何错误并提出建议，请随时与我联系。您可以在我的LinkedIn上与我联系。

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/baihuokuaixun/35692.html

大数据新人应该了解的Hadoop中的各种文件格式

相关推荐

联系我们