Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Limitações do normalizador #2

Open
carolcoimbra opened this issue Feb 6, 2018 · 2 comments
Open

Limitações do normalizador #2

carolcoimbra opened this issue Feb 6, 2018 · 2 comments

Comments

@carolcoimbra
Copy link

Olá,

Estou trabalhando com o Thiago (@staticdev) no desenvolvimento de um bot voltado a responder perguntas sobre filmes e cinema em geral. Um dos nossos objetivos é comparar métodos de normalização que serão aplicados às mensagens enviadas para ele.

Um dos métodos que estamos testando é o UGCNormal! Porém, ao observar o funcionamento do seu método percebemos algumas palavras, principalmente, as que se referem a nomes de filmes em inglês estão sendo modificadas para palavras em português ou palavras similares (exemplo: Scott Pilgrin é transformado em Scott pinguim e pulp fiction é tranformado em polpa faction). Isso faz todo sentido uma vez que o foco do normalizador é em português! Gostaria apenas de confirmar se não existe possibilidade de mais palavras em outro idioma (como o inglês, por exemplo) serem consideradas pelo normalizador. Essa informação pode ser útil na hora de explicarmos as limitações de cada um dos algoritmos testados e durante nossa avaliação, principalmente, qualitativa.

Muito obrigada, Carolina

@avanco
Copy link
Owner

avanco commented Feb 6, 2018

Olá @carolcoimbra

Obrigado pelo feedback.
Entendo, de fato é uma limitação. Uma forma possível de se contornar este problema seria adicionando essas palavras à lista de estrangeirismos ou de nomes próprios. Quaisquer entradas que estiverem nessas listas são adicionadas ao léxico considerado pelo spell-chcker. Assim elas não serão alteradas se estiverem escritas corretamente, e poderão ser corrigidas caso contrário.

https://github.com/avanco/UGCNormal/blob/master/resources/lexico_estrangeirismo.txt
https://github.com/avanco/UGCNormal/blob/master/resources/lexico_nome_proprio.txt

Precisando qualquer ajuda é só falar :)

@avanco
Copy link
Owner

avanco commented Feb 6, 2018

Imagino que seja útil ter em uppercase para vocês esses casos que são nomes de filmes. Nesse caso poderia colocar "pulp", "fiction", etc. em https://github.com/avanco/UGCNormal/blob/master/resources/lexico_nome_proprio.txt

Estando nessa lista eles poderão ser corrigidos também se estiverem errados, testei http://143.107.183.175:13180/ugcnormal:
gostei do filme pulpi ficton --> Gostei do filme Pulp Fiction

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants