Limitações do normalizador #2

carolcoimbra · 2018-02-06T13:11:08Z

Olá,

Estou trabalhando com o Thiago (@staticdev) no desenvolvimento de um bot voltado a responder perguntas sobre filmes e cinema em geral. Um dos nossos objetivos é comparar métodos de normalização que serão aplicados às mensagens enviadas para ele.

Um dos métodos que estamos testando é o UGCNormal! Porém, ao observar o funcionamento do seu método percebemos algumas palavras, principalmente, as que se referem a nomes de filmes em inglês estão sendo modificadas para palavras em português ou palavras similares (exemplo: Scott Pilgrin é transformado em Scott pinguim e pulp fiction é tranformado em polpa faction). Isso faz todo sentido uma vez que o foco do normalizador é em português! Gostaria apenas de confirmar se não existe possibilidade de mais palavras em outro idioma (como o inglês, por exemplo) serem consideradas pelo normalizador. Essa informação pode ser útil na hora de explicarmos as limitações de cada um dos algoritmos testados e durante nossa avaliação, principalmente, qualitativa.

Muito obrigada, Carolina

avanco · 2018-02-06T15:41:50Z

Olá @carolcoimbra

Obrigado pelo feedback.
Entendo, de fato é uma limitação. Uma forma possível de se contornar este problema seria adicionando essas palavras à lista de estrangeirismos ou de nomes próprios. Quaisquer entradas que estiverem nessas listas são adicionadas ao léxico considerado pelo spell-chcker. Assim elas não serão alteradas se estiverem escritas corretamente, e poderão ser corrigidas caso contrário.

https://github.com/avanco/UGCNormal/blob/master/resources/lexico_estrangeirismo.txt
https://github.com/avanco/UGCNormal/blob/master/resources/lexico_nome_proprio.txt

Precisando qualquer ajuda é só falar :)

avanco · 2018-02-06T16:11:46Z

Imagino que seja útil ter em uppercase para vocês esses casos que são nomes de filmes. Nesse caso poderia colocar "pulp", "fiction", etc. em https://github.com/avanco/UGCNormal/blob/master/resources/lexico_nome_proprio.txt

Estando nessa lista eles poderão ser corrigidos também se estiverem errados, testei http://143.107.183.175:13180/ugcnormal:
gostei do filme pulpi ficton --> Gostei do filme Pulp Fiction

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Limitações do normalizador #2

Limitações do normalizador #2

carolcoimbra commented Feb 6, 2018

avanco commented Feb 6, 2018 •

edited

Loading

avanco commented Feb 6, 2018 •

edited

Loading

Limitações do normalizador #2

Limitações do normalizador #2

Comments

carolcoimbra commented Feb 6, 2018

avanco commented Feb 6, 2018 • edited Loading

avanco commented Feb 6, 2018 • edited Loading

avanco commented Feb 6, 2018 •

edited

Loading

avanco commented Feb 6, 2018 •

edited

Loading