Neste tutorial, você aprenderá -
- Instalando NLTK no Windows
- Instalando Python no Windows
- Instalando NLTK no Mac / Linux
- Instalando NLTK através do Anaconda
- Conjunto de dados NLTK
- Como baixar todos os pacotes do NLTK
- Executando o Script de PNL
- Como executar o script NLTK
Instalando NLTK no Windows
Nesta parte, aprenderemos como fazer a configuração do NLTK via terminal (prompt de comando no windows).
As instruções fornecidas abaixo são baseadas na suposição de que você não tem o python instalado. Portanto, o primeiro passo é instalar o python.
Instalando Python no Windows:
Passo 1) Vá para ligar https://www.python.org/downloads/ , e selecione a versão mais recente para Windows.
Observação : se você não quiser baixar a versão mais recente, pode visitar a guia de download e ver todos os lançamentos.
Etapa 2) Clique no arquivo baixado
Etapa 3) Selecione Personalizar Instalação
Etapa 4) Clique em SEGUINTE
Etapa 5) Na próxima tela
- Selecione as opções avançadas
- Forneça um local de instalação personalizado. No meu caso, uma pasta na unidade C é escolhida para facilitar a operação
- Clique em Instalar
Etapa 6) Clique no botão Fechar quando a instalação for concluída.
Etapa 7) Copie o caminho da pasta Scripts.
Etapa 8) No prompt de comando do Windows
- Navegue até o local da pasta pip
- Digite o comando para instalar o NLTK
pip3 install nltk
- A instalação deve ser feita com sucesso
NOTA : Para Python2, use o comando commandpip2 install nltk
Etapa 9) No menu Iniciar do Windows, pesquise e abra o PythonShell
Etapa 10) Você pode verificar se a instalação está correta fornecendo o comando abaixo
import nltk
Se você não vir nenhum erro, a instalação está concluída.
Instalando NLTK no Mac / Linux
A instalação do NLTK no Mac / Unix requer o gerenciador de pacotes Python pip para instalar o nltk. Se o pip não estiver instalado, siga as instruções abaixo para concluir o processo
Etapa 1) Atualize o índice do pacote digitando o comando abaixo
sudo apt update
Etapa 2) Instalando o pip para Python 3:
sudo apt install python3-pip
Você também pode instalar o pip usando easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Agora easy_install está instalado. Execute o comando abaixo para instalar o pip
sudo easy_install pip
Etapa 3) Use o seguinte comando para instalar o NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Instalando NLTK através do Anaconda
Passo 1) Instale o anaconda (que também pode ser usado para instalar pacotes diferentes) visitando https://www.anaconda.com/products/individual e selecione qual versão do python você precisa instalar para o anaconda.
Nota: Consulte este tutorial para etapas detalhadas para instalar o anaconda
Etapa 2) No prompt do Anaconda,
- Digite o comando
conda install -c anaconda nltk
- Revise as informações de atualização, downgrade, instalação do pacote e digite sim
- NLTK é baixado e instalado
Conjunto de dados NLTK
O módulo NLTK tem muitos conjuntos de dados disponíveis que você precisa baixar para usar. Mais tecnicamente, é chamado de corpus . Alguns dos exemplos são stopwords , gutenberg , framenet_v15 , large_grammars e assim por diante.
Como baixar todos os pacotes do NLTK
Etapa 1) Execute o interpretador Python no Windows ou Linux
Passo 2)
- Digite os comandos
import nltknltk.download ()
- A janela baixada do NLTK é aberta. Clique no botão Download para baixar o conjunto de dados. Este processo levará algum tempo, com base na sua conexão com a Internet
NOTA: Você pode alterar o local de download clicando em Arquivo> Alterar diretório de download
Etapa 3) Para testar os dados instalados, use o seguinte código
>>> from nltk.corpus import brown>>>brown.words()
['O', 'Fulton', 'Condado', 'Grande', 'Júri', 'disse', ...]
Executando o Script de PNL
Vamos discutir como o script de PNL será executado em nosso PC local. Existem muitas bibliotecas para Processamento de Linguagem Natural presentes no mercado. Portanto, a escolha de uma biblioteca depende do atendimento aos seus requisitos. Aqui está a lista de bibliotecas de PNL.
Como executar o script NLTK
Etapa 1) Em seu editor de código favorito, copie o código e salve o arquivo como " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Explicação do código:
- Neste programa, o objetivo era remover todo tipo de pontuação de um texto fornecido. Importamos "RegexpTokenizer" que é um módulo de NLTK. Ele remove toda a expressão, símbolo, caractere, numérico ou qualquer coisa que você quiser.
- Você acabou de passar a Expressão regular para o módulo "RegexpTokenizer".
- Além disso, tokenizamos a palavra usando o módulo "tokenizar". A saída é armazenada na variável "filterdText".
- E imprimi-los usando "print ()."
Etapa 2) No prompt de comando
- Navegue até o local onde você salvou o arquivo
- Execute o comando Python NLTKsample.py
Isso mostrará a saída como:
['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' visitando ',' seu ',' site ']