Problemas de marcação e modelo de Markov oculto

Índice:

Anonim

Marcando frases

Etiquetar frase em um sentido mais amplo refere-se à adição de rótulos do verbo, substantivo, etc. pelo contexto da frase. A identificação de tags POS é um processo complicado. Assim, a marcação genérica do POS não é possível manualmente, pois algumas palavras podem ter significados diferentes (ambíguos) de acordo com a estrutura da frase. A conversão de texto na forma de lista é uma etapa importante antes da marcação, pois cada palavra na lista é repetida e contada para uma marcação específica. Por favor, veja o código abaixo para entendê-lo melhor

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

RESULTADO

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Explicação do código

  1. Código para importar nltk (kit de ferramentas de linguagem natural que contém submódulos, como tokenização de frase e tokenização de palavra.)
  2. Texto cujas tags devem ser impressas.
  3. Tokenização de sentença
  4. O loop For é implementado onde as palavras são tokenizadas a partir da frase e a tag de cada palavra é impressa como saída.

No Corpus, existem dois tipos de etiquetadores de PDV:

  • Baseado em regras
  • Taggers estocásticos de PDV

1. Tagger POS baseado em regras: Para as palavras com significado ambíguo, a abordagem baseada em regras com base em informações contextuais é aplicada. Isso é feito verificando ou analisando o significado da palavra anterior ou da palavra seguinte. A informação é analisada a partir do entorno da palavra ou dentro dela mesma. Portanto, as palavras são marcadas pelas regras gramaticais de um idioma específico, como letras maiúsculas e pontuação. por exemplo, o tagger de Brill.

2.Stochastic POS Tagger: Diferentes abordagens, como frequência ou probabilidade, são aplicadas neste método. Se uma palavra é principalmente marcada com uma tag específica no conjunto de treinamento, na frase de teste ela recebe essa tag específica. A palavra tag depende não apenas de sua própria tag, mas também da tag anterior. Este método nem sempre é preciso. Outra forma é calcular a probabilidade de ocorrência de uma tag específica em uma frase. Assim, a marca final é calculada verificando a probabilidade mais alta de uma palavra com uma marca específica.

Modelo de Markov Oculto:

Problemas de marcação também podem ser modelados usando HMM. Ele trata os tokens de entrada como uma sequência observável, enquanto as tags são consideradas como estados ocultos e o objetivo é determinar a sequência de estados ocultos. Por exemplo, x = x 1 , x 2 ,…, x n onde x é uma sequência de tokens enquanto y = y 1 , y 2 , y 3 , y 4 … y n é a sequência oculta.

Como funciona o modelo HMM?

O HMM usa distribuição de junção que é P (x, y) onde x é a sequência de entrada / sequência de token ey é a sequência de tag.

A sequência de tags para x será argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Classificamos as tags do texto, mas as estatísticas dessas tags são vitais. Portanto, a próxima parte é contar essas marcas para estudo estatístico.