Neste tutorial, iremos guiá-lo através do processo passo a passo para instalar o Apache Hadoop em uma caixa Linux (Ubuntu). Este é um processo de 2 partes
- Parte 1) Baixe e instale o Hadoop
- Parte 2) Configure o Hadoop
Existem 2 pré-requisitos
- Você deve ter o Ubuntu instalado e funcionando
- Você deve ter o Java instalado.
Parte 1) Baixe e instale o Hadoop
Etapa 1) Adicionar um usuário do sistema Hadoop usando o comando abaixo
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Digite sua senha, nome e outros detalhes.
NOTA: Existe a possibilidade do erro mencionado abaixo neste processo de configuração e instalação.
"hduser não está no arquivo sudoers. Este incidente será relatado."
Este erro pode ser resolvido fazendo login como usuário root
Execute o comando
sudo adduser hduser_ sudo
Re-login as hduser_
Etapa 2) Configurar SSH
Para gerenciar nós em um cluster, o Hadoop requer acesso SSH
Primeiro, troque de usuário, digite o seguinte comando
su - hduser_
Este comando criará uma nova chave.
ssh-keygen -t rsa -P ""
Habilite o acesso SSH à máquina local usando esta chave.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Agora teste a configuração do SSH conectando-se ao host local como usuário 'hduser'.
ssh localhost
Nota: Por favor, note, se você vir o erro abaixo em resposta a 'ssh localhost', então existe a possibilidade de que SSH não esteja disponível neste sistema
Para resolver isso -
Limpe o SSH usando,
sudo apt-get purge openssh-server
É uma boa prática limpar antes do início da instalação
Instale o SSH usando o comando-
sudo apt-get install openssh-server
Etapa 3) A próxima etapa é fazer o download do Hadoop
Selecione Estável
Selecione o arquivo tar.gz (não o arquivo com src)
Assim que o download for concluído, navegue até o diretório que contém o arquivo tar
Digitar,
sudo tar xzf hadoop-2.2.0.tar.gz
Agora, renomeie hadoop-2.2.0 como hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Parte 2) Configure o Hadoop
Etapa 1) Modificar o arquivo ~ / .bashrc
Adicione as seguintes linhas ao final do arquivo ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Agora, forneça esta configuração de ambiente usando o comando abaixo
. ~/.bashrc
Etapa 2) Configurações relacionadas ao HDFS
Defina JAVA_HOME dentro do arquivo $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Com
Existem dois parâmetros em $ HADOOP_HOME / etc / hadoop / core-site.xml que precisam ser definidos-
1. 'hadoop.tmp.dir' - Usado para especificar um diretório que será usado pelo Hadoop para armazenar seus arquivos de dados.
2. 'fs.default.name' - Especifica o sistema de arquivos padrão.
Para definir esses parâmetros, abra core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Copie a linha abaixo entre as tags
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Navegue até o diretório $ HADOOP_HOME / etc / Hadoop
Agora, crie o diretório mencionado em core-site.xml
sudo mkdir -p
Conceda permissões para o diretório
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Etapa 3) Configuração de redução de mapa
Antes de começar com essas configurações, vamos definir o caminho HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
E entrar
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Próximo entrar
sudo chmod +x /etc/profile.d/hadoop.sh
Saia do Terminal e reinicie novamente
Digite echo $ HADOOP_HOME. Para verificar o caminho
Agora copie os arquivos
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Abra o arquivo mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Adicione as linhas de configuração abaixo entre as tags
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Abra $ HADOOP_HOME / etc / hadoop / hdfs-site.xml como abaixo,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Adicione as linhas de configuração abaixo entre as tags
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Crie um diretório especificado na configuração acima-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Etapa 4) Antes de iniciar o Hadoop pela primeira vez, formate o HDFS usando o comando abaixo
$HADOOP_HOME/bin/hdfs namenode -format
Etapa 5) Inicie o cluster de nó único Hadoop usando o comando abaixo
$HADOOP_HOME/sbin/start-dfs.sh
Uma saída do comando acima
$HADOOP_HOME/sbin/start-yarn.sh
Usando a ferramenta / comando 'jps' , verifique se todos os processos relacionados ao Hadoop estão em execução ou não.
Se o Hadoop foi iniciado com sucesso, uma saída de jps deve mostrar NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Etapa 6) Parando o Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh