Como fazer o download & Instale o NLTK no Windows / Mac

Índice:

Anonim

Neste tutorial, você aprenderá -

  • Instalando NLTK no Windows
  • Instalando Python no Windows
  • Instalando NLTK no Mac / Linux
  • Instalando NLTK através do Anaconda
  • Conjunto de dados NLTK
  • Como baixar todos os pacotes do NLTK
  • Executando o Script de PNL
  • Como executar o script NLTK

Instalando NLTK no Windows

Nesta parte, aprenderemos como fazer a configuração do NLTK via terminal (prompt de comando no windows).

As instruções fornecidas abaixo são baseadas na suposição de que você não tem o python instalado. Portanto, o primeiro passo é instalar o python.

Instalando Python no Windows:

Passo 1) Vá para ligar https://www.python.org/downloads/ , e selecione a versão mais recente para Windows.

Observação : se você não quiser baixar a versão mais recente, pode visitar a guia de download e ver todos os lançamentos.

Etapa 2) Clique no arquivo baixado

Etapa 3) Selecione Personalizar Instalação

Etapa 4) Clique em SEGUINTE

Etapa 5) Na próxima tela

  1. Selecione as opções avançadas
  2. Forneça um local de instalação personalizado. No meu caso, uma pasta na unidade C é escolhida para facilitar a operação
  3. Clique em Instalar

Etapa 6) Clique no botão Fechar quando a instalação for concluída.

Etapa 7) Copie o caminho da pasta Scripts.

Etapa 8) No prompt de comando do Windows

  • Navegue até o local da pasta pip
  • Digite o comando para instalar o NLTK
    pip3 install nltk
  • A instalação deve ser feita com sucesso

NOTA : Para Python2, use o comando commandpip2 install nltk

Etapa 9) No menu Iniciar do Windows, pesquise e abra o PythonShell

Etapa 10) Você pode verificar se a instalação está correta fornecendo o comando abaixo

import nltk

Se você não vir nenhum erro, a instalação está concluída.

Instalando NLTK no Mac / Linux

A instalação do NLTK no Mac / Unix requer o gerenciador de pacotes Python pip para instalar o nltk. Se o pip não estiver instalado, siga as instruções abaixo para concluir o processo

Etapa 1) Atualize o índice do pacote digitando o comando abaixo

sudo apt update

Etapa 2) Instalando o pip para Python 3:

sudo apt install python3-pip

Você também pode instalar o pip usando easy_install.

sudo apt-get install python-setuptools python-dev build-essential 

Agora easy_install está instalado. Execute o comando abaixo para instalar o pip

sudo easy_install pip

Etapa 3) Use o seguinte comando para instalar o NLTK

sudo pip install -U nltksudo pip3 install -U nltk

Instalando NLTK através do Anaconda

Passo 1) Instale o anaconda (que também pode ser usado para instalar pacotes diferentes) visitando https://www.anaconda.com/products/individual e selecione qual versão do python você precisa instalar para o anaconda.

Nota: Consulte este tutorial para etapas detalhadas para instalar o anaconda

Etapa 2) No prompt do Anaconda,

  1. Digite o comando
    conda install -c anaconda nltk
  2. Revise as informações de atualização, downgrade, instalação do pacote e digite sim
  3. NLTK é baixado e instalado

Conjunto de dados NLTK

O módulo NLTK tem muitos conjuntos de dados disponíveis que você precisa baixar para usar. Mais tecnicamente, é chamado de corpus . Alguns dos exemplos são stopwords , gutenberg , framenet_v15 , large_grammars e assim por diante.

Como baixar todos os pacotes do NLTK

Etapa 1) Execute o interpretador Python no Windows ou Linux

Passo 2)

  1. Digite os comandos
import nltknltk.download ()
  1. A janela baixada do NLTK é aberta. Clique no botão Download para baixar o conjunto de dados. Este processo levará algum tempo, com base na sua conexão com a Internet

NOTA: Você pode alterar o local de download clicando em Arquivo> Alterar diretório de download

Etapa 3) Para testar os dados instalados, use o seguinte código

>>> from nltk.corpus import brown>>>brown.words()

['O', 'Fulton', 'Condado', 'Grande', 'Júri', 'disse', ...]

Executando o Script de PNL

Vamos discutir como o script de PNL será executado em nosso PC local. Existem muitas bibliotecas para Processamento de Linguagem Natural presentes no mercado. Portanto, a escolha de uma biblioteca depende do atendimento aos seus requisitos. Aqui está a lista de bibliotecas de PNL.

Como executar o script NLTK

Etapa 1) Em seu editor de código favorito, copie o código e salve o arquivo como " NLTKsample.py "

from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)

Explicação do código:

  1. Neste programa, o objetivo era remover todo tipo de pontuação de um texto fornecido. Importamos "RegexpTokenizer" que é um módulo de NLTK. Ele remove toda a expressão, símbolo, caractere, numérico ou qualquer coisa que você quiser.
  2. Você acabou de passar a Expressão regular para o módulo "RegexpTokenizer".
  3. Além disso, tokenizamos a palavra usando o módulo "tokenizar". A saída é armazenada na variável "filterdText".
  4. E imprimi-los usando "print ()."

Etapa 2) No prompt de comando

  • Navegue até o local onde você salvou o arquivo
  • Execute o comando Python NLTKsample.py

Isso mostrará a saída como:

['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' visitando ',' seu ',' site ']