宝哥软件园

hadoop迁移数据应用实例详解

编辑:宝哥软件园 来源:互联网 时间:2021-08-22

Hadoop已经在项目开发中安装在虚拟机上,近期将迁移到服务器。记录迁移过程。

首先,为虚拟机添加一个新硬盘

虚拟机初始硬盘只有30G,无法容纳需要导出的数据。两种方式,一是扩展虚拟机;二是为虚拟机添加新硬盘。这是第二条路。

1.添加虚拟硬盘

此时,硬盘已成功添加。

2.给硬盘分区

要使用新硬盘,您需要先对其进行分区,然后将其挂在文件系统上,然后才能使用它。

这里,普及一下linux文件系统与硬盘和分区的关系。按照一个“从硬到软”的顺序,首先是硬盘,这是物理的;要使用这个物理硬盘,我们需要把物理硬盘一个一个的划分成分区;当我们使用操作系统时,我们通过文件系统操作文件。文件系统的“软件”通过分区与硬盘的“硬件”相连:硬盘划分分区后,以分区的形式挂在文件系统上。

通过示例比较windows和linux文件系统之间的差异:

例如,对于windows,我们的计算机上只安装了一个硬盘,它分为四个区域,对应于我们文件系统中的CDEF磁盘。也就是说,这四个分区对我们的用户来说是水平的。此时,如果您添加一个

对于linux,硬盘也以分区的形式挂载在文件系统上。这与windows是一致的。不同的是windows有多个文件系统树(C: D: E: F:),而linux只有一个文件系统树,也就是我们可以看到,所有的目录和文件都在根目录/。那么linux是如何挂起的呢?Linux在不同的目录下挂起不同的分区。

如图所示:

在图中,文件系统实际上就是我们上面提到的分区,这些文件系统(分区)共同构成了我们linux的整个文件系统。这里注意,文件系统和分区是统一的,分区可以认为是文件系统的载体。我们将谈论他们之间的关系,只是为了进一步了解。因此,由于分区基于根目录挂在linux的“树上”,所以我们将挂分区的目录称为挂载点。如上。

下面我们来详细解释一下硬盘分区的命令:

A.使用:fdisk -l命令查看硬盘和分区信息,如图所示:

在图中,硬盘被矩形包围,通常硬盘按照sda、sdb和sdc的顺序添加。暂时不考虑接下来的两块硬盘。

分区用省略号圈出。例如,硬盘sda有三个分区,即sda1、sda2和sda3。

可以看到箭头指向的硬盘sdc没有分区,说明这个硬盘还没有使用。这是我们新增加的硬盘。

通过fdisk /dev/sdc对新硬盘进行分区

输入m打印我们的操作菜单,注意上面红线圈出的命令,n代表新建分区,p代表打印当前硬盘的分区表,w代表将分区表写入硬盘。接下来,我们将依次执行它。如图所示:

输入n创建新分区,有两个选项,p代表主分区,e代表扩展分区,选择p代表主分区;第二次输入p打印分区表,可以看到分区sdc1创建成功。在创建过程中,分区是好的,可以使用默认值直接输入初始扇区和最后一个扇区。最后,输入w并写入分区。

C.使用mkfs -t ext4 /dev/sdc1将新分区格式化为ext4格式

如图所示:

d、通过mount /dev/sdc1 /disk5将新分区sdc1挂载到目录disk5下

如图所示:

最后我们通过df -lh /disk5命令查看目录disk5,发现确实是新的分区sdc1,成功挂起。这样,新增加的硬盘就可以正常使用了。

总结:使用了fdisk df mkfs mount等几个命令,所以要注意复习。

第二,hadoop命令的使用

1.首先,您需要执行命令来识别hadoop命令。

export PATH=$ PATH :/home/Hadoop/Hadoop-2 . 5 . 2/bin

2.hadoop文件系统的命令与linux非常一致。这里有一个例子:

Hadoop fs-ls/意味着列出根目录(文件夹)中的所有文件。Hadoop fs-腐胺. txt /user/hadoop/test/表示将readme.txt文件上传到Hadoop fs-get//在hdfs Hadoop_data的/user/hadoop/test/目录中表示将hdfs文件系统根目录/下的所有文件(文件夹)导出到Hadoop-RM/local/Hadoop _ data目录下表示删除hdfs文件系统中的所有文件(文件夹)。

以上是边肖介绍的hadoop迁移数据应用实例的详细说明,希望对大家有所帮助。如果你有任何问题,请给我留言,边肖会及时回复你的!

更多资讯
游戏推荐
更多+