Skip to content
Valeria de Paiva edited this page Apr 18, 2015 · 44 revisions

Welcome to the OpenWordnet-PT Wiki!

Nosso sistema pode ser utilizado para pesquisas em http://logics.emap.fgv.br/wn.

Diretrizes da OpenWordnet-PT

A OpenWordNet-PT é uma rede léxica, construída semi-automaticamente, seguindo o modelo da WordNet de Princeton https://wordnet.princeton.edu/.

Decidimos usar uma palavra feminina para designá-la por que "rede" (net) em português é feminino, mas poderíamos ter usado uma palavra masculina, pois, muitas vezes, também pensamos na OpenWordnet-PT como um banco de dados lexicais (lexical knowledge base).

Sobre minúsculas e maiúsculas

As entradas devem ser escritas em minúsculas, exceto nos seguintes casos:

  • Sempre que a entrada representar algo único, específico e particular (nomes tratados como "substantivos próprios" pela gramática tradicional) todas as suas palavras, exceto conectivos (“de”, “das”), estarão em maiúsculas. Exemplos principais são nomes de pessoas (Ferdinand de Saussure, Johann Wolfgang von Goethe), de lugares (Rio de Janeiro) e de organizacoes/empresas.

Outros exemplos incluem areas de conhecimento (Mecânica Estatística, História da Arte) e alguns enunciados famosos tais como Princípio de Exclusão de Pauli. Diferente de: opinião pública, tubarão-golfinho.

(No Novo Acordo Ortográfico do Português, nada é dito sobre uso de minúsculas e maiúsculas, por isso seguimos os usos recorrentes em dicionários. Manter as palavras de obras artísticas em minúsculo (exceto a primeira palavra) é um uso bastante corrente: Memórias das minhas putas tristes, Cem anos de solidão, As mil e uma noites, A incrível e triste história da Cândida Erêndira e sua avó desalmada.)

(Enunciados famosos são debativeis e Valeria nao gosta do uso de maiusculas para os mesmos, pois um julgamento de valor sobre a importancia do mesmo precisa ser feito.)

  • Línguas são escritas em minúsculas em português. Exemplo: finlandês, línguas altaicas.

Português Europeu e Português Brasileiro

As entradas que têm grafia diferente em PE (Português Europeu) e PB (Português Brasileiro) devem aparecer com as duas formas. Exemplo: género gramatical e gênero gramatical.

Constituição dos Synset

Synset é um conjunto (set) de sinônimos (syn), um conjunto de palavras que são substituíveis entre si em algum contexto.

Por exemplo neste link, tem-se um synset: http://logics.emap.fgv.br/wn/synset?id=01503061-n.

Synsets são constituídos por: ID, PALAVRA, GLOSA, EXEMPLO.

ID é o número que localiza o synset, seu "offset", seguido por uma letra que caracteriza a classe gramatical do synset (n, a, v, r para, respectivamente, substantivos, adjetivos, verbos e advérbios). Considerando o exemplo acima, o ID do synset é 01503061-n.

Palavra é cada um dos elementos que integra um synset. As variantes de um synset não necessariamente precisam ser palavras, mas podem também ser expressões mais complexas que uma única palavra, como em http://logics.emap.fgv.br/wn/synset?id=06413020-n. No synset considerado acima, as palavras que compõem o synset (palavras sinônimas) são "pássaro" e "ave".

Glosa é uma pequena explicação do synset. Diferente da WordNet de Princeton que coloca sob o rótulo "gloss" tanto explicações, quanto exemplos, a OpenWordNet-PT traz campos diferentes para cada um destes dados. A glosa do exemplo acima é "animal vertebrado de sangue quente, ovípadro caracterizado por ter o corpo coberto de penas e os membros dianteiros modificados como asas".

Valeria acha que isso nao 'e uma boa ideia, que a gente devia seguir o exemplo de wordnet nesse caso.

livy: a wordnet de princeton faz uma bagunça entre glosa e exemplo... na verdade para eles, exemplos são opcionais e não parece haver um critério para os synsets que têm exemplos e os que não têm. eu vejo esta distinção entre a nossa e a deles como uma melhoria. A nossa está ficando melhor e mais bem organizada. Pq vc não gosta?

Exemplo é uma frase que demonstra o uso de uma dada palavra em um contexto. No caso do synset acima, "O pássaro aprendeu a voar."

Da tradução dos synsets

Synsets em português devem conter sinônimos das palavras dos synsets em inglês.

Deve-se ao máximo tentar manter na tradução a mesma categoria morfológica do synset original (n, v, a, r) e o mesmo registro (palavra eruditas devem ser traduzidas por palavras eruditas e palavras comuns por palavras comuns).

Quando possível, devemos manter também a mesma raiz da palavra original (por exemplo, traduzir "finished" por "finalizado" em http://logics.emap.fgv.br/wn/synset?id=01003050-a).

É desejável que os sinônimos esgotem todas as possibilidades de representar o significado de um synset, mas nem sempre é possível. Quando houver mais de uma tradução possível, esta pode ser incluída, mas claramente não ambicionamos adicionar todas as traduções possíveis. http://logics.emap.fgv.br/wn/synset?id=06778102-n

Quando um synset original for muito específico e não houver tradução melhor em português, deve-se traduzir pelo hiperônimo (synset acima) mais próximo que existir em português. http://logics.emap.fgv.br/wn/synset?id=07742513-n

Glosas devem ser traduzidas tão literalmente quanto for possível, mantendo a aceitabilidade da definição em português.

Fontes de Referência

Clone this wiki locally