Como instalar o Hadoop com configuração passo a passo no Ubuntu

Índice:

Anonim

Neste tutorial, iremos guiá-lo através do processo passo a passo para instalar o Apache Hadoop em uma caixa Linux (Ubuntu). Este é um processo de 2 partes

  • Parte 1) Baixe e instale o Hadoop
  • Parte 2) Configure o Hadoop

Existem 2 pré-requisitos

  • Você deve ter o Ubuntu instalado e funcionando
  • Você deve ter o Java instalado.

Parte 1) Baixe e instale o Hadoop

Etapa 1) Adicionar um usuário do sistema Hadoop usando o comando abaixo

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Digite sua senha, nome e outros detalhes.

NOTA: Existe a possibilidade do erro mencionado abaixo neste processo de configuração e instalação.

"hduser não está no arquivo sudoers. Este incidente será relatado."

Este erro pode ser resolvido fazendo login como usuário root

Execute o comando

sudo adduser hduser_ sudo

Re-login as hduser_

Etapa 2) Configurar SSH

Para gerenciar nós em um cluster, o Hadoop requer acesso SSH

Primeiro, troque de usuário, digite o seguinte comando

su - hduser_

Este comando criará uma nova chave.

ssh-keygen -t rsa -P ""

Habilite o acesso SSH à máquina local usando esta chave.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Agora teste a configuração do SSH conectando-se ao host local como usuário 'hduser'.

ssh localhost

Nota: Por favor, note, se você vir o erro abaixo em resposta a 'ssh localhost', então existe a possibilidade de que SSH não esteja disponível neste sistema

Para resolver isso -

Limpe o SSH usando,

sudo apt-get purge openssh-server

É uma boa prática limpar antes do início da instalação

Instale o SSH usando o comando-

sudo apt-get install openssh-server

Etapa 3) A próxima etapa é fazer o download do Hadoop

Selecione Estável

Selecione o arquivo tar.gz (não o arquivo com src)

Assim que o download for concluído, navegue até o diretório que contém o arquivo tar

Digitar,

sudo tar xzf hadoop-2.2.0.tar.gz

Agora, renomeie hadoop-2.2.0 como hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Parte 2) Configure o Hadoop

Etapa 1) Modificar o arquivo ~ / .bashrc

Adicione as seguintes linhas ao final do arquivo ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Agora, forneça esta configuração de ambiente usando o comando abaixo

. ~/.bashrc

Etapa 2) Configurações relacionadas ao HDFS

Defina JAVA_HOME dentro do arquivo $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Com

Existem dois parâmetros em $ HADOOP_HOME / etc / hadoop / core-site.xml que precisam ser definidos-

1. 'hadoop.tmp.dir' - Usado para especificar um diretório que será usado pelo Hadoop para armazenar seus arquivos de dados.

2. 'fs.default.name' - Especifica o sistema de arquivos padrão.

Para definir esses parâmetros, abra core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Copie a linha abaixo entre as tags

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Navegue até o diretório $ HADOOP_HOME / etc / Hadoop

Agora, crie o diretório mencionado em core-site.xml

sudo mkdir -p 

Conceda permissões para o diretório

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Etapa 3) Configuração de redução de mapa

Antes de começar com essas configurações, vamos definir o caminho HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

E entrar

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Próximo entrar

sudo chmod +x /etc/profile.d/hadoop.sh

Saia do Terminal e reinicie novamente

Digite echo $ HADOOP_HOME. Para verificar o caminho

Agora copie os arquivos

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Abra o arquivo mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Adicione as linhas de configuração abaixo entre as tags e

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Abra $ HADOOP_HOME / etc / hadoop / hdfs-site.xml como abaixo,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Adicione as linhas de configuração abaixo entre as tags e

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Crie um diretório especificado na configuração acima-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Etapa 4) Antes de iniciar o Hadoop pela primeira vez, formate o HDFS usando o comando abaixo

$HADOOP_HOME/bin/hdfs namenode -format

Etapa 5) Inicie o cluster de nó único Hadoop usando o comando abaixo

$HADOOP_HOME/sbin/start-dfs.sh

Uma saída do comando acima

$HADOOP_HOME/sbin/start-yarn.sh

Usando a ferramenta / comando 'jps' , verifique se todos os processos relacionados ao Hadoop estão em execução ou não.

Se o Hadoop foi iniciado com sucesso, uma saída de jps deve mostrar NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Etapa 6) Parando o Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh