Marcando frases
Etiquetar frase em um sentido mais amplo refere-se à adição de rótulos do verbo, substantivo, etc. pelo contexto da frase. A identificação de tags POS é um processo complicado. Assim, a marcação genérica do POS não é possível manualmente, pois algumas palavras podem ter significados diferentes (ambíguos) de acordo com a estrutura da frase. A conversão de texto na forma de lista é uma etapa importante antes da marcação, pois cada palavra na lista é repetida e contada para uma marcação específica. Por favor, veja o código abaixo para entendê-lo melhor
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
RESULTADO
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Explicação do código
- Código para importar nltk (kit de ferramentas de linguagem natural que contém submódulos, como tokenização de frase e tokenização de palavra.)
- Texto cujas tags devem ser impressas.
- Tokenização de sentença
- O loop For é implementado onde as palavras são tokenizadas a partir da frase e a tag de cada palavra é impressa como saída.
No Corpus, existem dois tipos de etiquetadores de PDV:
- Baseado em regras
- Taggers estocásticos de PDV
1. Tagger POS baseado em regras: Para as palavras com significado ambíguo, a abordagem baseada em regras com base em informações contextuais é aplicada. Isso é feito verificando ou analisando o significado da palavra anterior ou da palavra seguinte. A informação é analisada a partir do entorno da palavra ou dentro dela mesma. Portanto, as palavras são marcadas pelas regras gramaticais de um idioma específico, como letras maiúsculas e pontuação. por exemplo, o tagger de Brill.
2.Stochastic POS Tagger: Diferentes abordagens, como frequência ou probabilidade, são aplicadas neste método. Se uma palavra é principalmente marcada com uma tag específica no conjunto de treinamento, na frase de teste ela recebe essa tag específica. A palavra tag depende não apenas de sua própria tag, mas também da tag anterior. Este método nem sempre é preciso. Outra forma é calcular a probabilidade de ocorrência de uma tag específica em uma frase. Assim, a marca final é calculada verificando a probabilidade mais alta de uma palavra com uma marca específica.
Modelo de Markov Oculto:
Problemas de marcação também podem ser modelados usando HMM. Ele trata os tokens de entrada como uma sequência observável, enquanto as tags são consideradas como estados ocultos e o objetivo é determinar a sequência de estados ocultos. Por exemplo, x = x 1 , x 2 ,…, x n onde x é uma sequência de tokens enquanto y = y 1 , y 2 , y 3 , y 4 … y n é a sequência oculta.
Como funciona o modelo HMM?
O HMM usa distribuição de junção que é P (x, y) onde x é a sequência de entrada / sequência de token ey é a sequência de tag.
A sequência de tags para x será argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Classificamos as tags do texto, mas as estatísticas dessas tags são vitais. Portanto, a próxima parte é contar essas marcas para estudo estatístico.