hadoop迁移数据应用实例详解

编辑：宝哥软件园来源：互联网时间：2021-08-22

新天龙八部

角色扮演 | 1.85G

评分

立即下载

Hadoop已经在项目开发中安装在虚拟机上，近期将迁移到服务器。记录迁移过程。

首先，为虚拟机添加一个新硬盘

虚拟机初始硬盘只有30G，无法容纳需要导出的数据。两种方式，一是扩展虚拟机；二是为虚拟机添加新硬盘。这是第二条路。

1.添加虚拟硬盘

此时，硬盘已成功添加。

2.给硬盘分区

要使用新硬盘，您需要先对其进行分区，然后将其挂在文件系统上，然后才能使用它。

这里，普及一下linux文件系统与硬盘和分区的关系。按照一个“从硬到软”的顺序，首先是硬盘，这是物理的；要使用这个物理硬盘，我们需要把物理硬盘一个一个的划分成分区；当我们使用操作系统时，我们通过文件系统操作文件。文件系统的“软件”通过分区与硬盘的“硬件”相连：硬盘划分分区后，以分区的形式挂在文件系统上。

通过示例比较windows和linux文件系统之间的差异：

例如，对于windows，我们的计算机上只安装了一个硬盘，它分为四个区域，对应于我们文件系统中的CDEF磁盘。也就是说，这四个分区对我们的用户来说是水平的。此时，如果您添加一个

对于linux，硬盘也以分区的形式挂载在文件系统上。这与windows是一致的。不同的是windows有多个文件系统树(C: D: E: F:)，而linux只有一个文件系统树，也就是我们可以看到，所有的目录和文件都在根目录/。那么linux是如何挂起的呢？Linux在不同的目录下挂起不同的分区。

如图所示：

在图中，文件系统实际上就是我们上面提到的分区，这些文件系统(分区)共同构成了我们linux的整个文件系统。这里注意，文件系统和分区是统一的，分区可以认为是文件系统的载体。我们将谈论他们之间的关系，只是为了进一步了解。因此，由于分区基于根目录挂在linux的“树上”，所以我们将挂分区的目录称为挂载点。如上。

下面我们来详细解释一下硬盘分区的命令：

A.使用：fdisk -l命令查看硬盘和分区信息，如图所示：

在图中，硬盘被矩形包围，通常硬盘按照sda、sdb和sdc的顺序添加。暂时不考虑接下来的两块硬盘。

分区用省略号圈出。例如，硬盘sda有三个分区，即sda1、sda2和sda3。

可以看到箭头指向的硬盘sdc没有分区，说明这个硬盘还没有使用。这是我们新增加的硬盘。

通过fdisk /dev/sdc对新硬盘进行分区

输入m打印我们的操作菜单，注意上面红线圈出的命令，n代表新建分区，p代表打印当前硬盘的分区表，w代表将分区表写入硬盘。接下来，我们将依次执行它。如图所示：

输入n创建新分区，有两个选项，p代表主分区，e代表扩展分区，选择p代表主分区；第二次输入p打印分区表，可以看到分区sdc1创建成功。在创建过程中，分区是好的，可以使用默认值直接输入初始扇区和最后一个扇区。最后，输入w并写入分区。

C.使用mkfs -t ext4 /dev/sdc1将新分区格式化为ext4格式

如图所示：

d、通过mount /dev/sdc1 /disk5将新分区sdc1挂载到目录disk5下

如图所示：

最后我们通过df -lh /disk5命令查看目录disk5，发现确实是新的分区sdc1，成功挂起。这样，新增加的硬盘就可以正常使用了。

总结：使用了fdisk df mkfs mount等几个命令，所以要注意复习。

第二，hadoop命令的使用

1.首先，您需要执行命令来识别hadoop命令。

export PATH=$ PATH :/home/Hadoop/Hadoop-2 . 5 . 2/bin

2.hadoop文件系统的命令与linux非常一致。这里有一个例子：

Hadoop fs-ls/意味着列出根目录(文件夹)中的所有文件。Hadoop fs-腐胺. txt /user/hadoop/test/表示将readme.txt文件上传到Hadoop fs-get//在hdfs Hadoop_data的/user/hadoop/test/目录中表示将hdfs文件系统根目录/下的所有文件(文件夹)导出到Hadoop-RM/local/Hadoop _ data目录下表示删除hdfs文件系统中的所有文件(文件夹)。

以上是边肖介绍的hadoop迁移数据应用实例的详细说明，希望对大家有所帮助。如果你有任何问题，请给我留言，边肖会及时回复你的！