Skip to content
Valeria de Paiva edited this page Apr 17, 2015 · 44 revisions

Welcome to the OpenWordnet-PT Wiki!

Nosso sistema pode ser utilizado para pesquisas em http://logics.emap.fgv.br/wn.

Diretrizes da OpenWordnet-PT

A OpenWordNet-PT é uma rede léxica, construida semi-automaticamente, seguindo o modelo da WordNet de Princeton https://wordnet.princeton.edu/.

Nos decidimos usar uma palavra feminina para designa-la, por causa de `rede' (net), mas poderiamos ter usado uma palavra masculina, pois as vezes pensamos no banco de dados lexicais (lexical knowledge base) que estamos construindo.

Sobre minúsculas e maiúsculas

As entradas devem ser escritas em minúsculas, exceto nos seguintes casos:

  • Sempre que a entrada representar algo único, específico e particular (nomes tratados como "substantivos próprios" pela gramática tradicional) todas as suas palavras, exceto conectivos (“de”, “das”), estarão em maiúsculas. Exemplos: Princípio de Exclusão de Pauli, Teoria das Cordas. Diferente de: opinião pública, golfinho-do-ganges.

Valeria nao gosta dessa diretriz, pois acha que os exemplos nao sao bons. E' muito dificil de saber quais sao as entidades unicas e no meu entender essas nao sao. Teoria das Cordas 'e pelo menos uma area de ciencia, enquanto o principio do Pauli nao e' nem isso. E Ganges por si so' e' nome de rio, portanto seria maiusculo, se sozinho

  • Areas da ciência serão sempre em maiúscula, exceto conectivos, como Mecânica Estatística, História da Arte.

No novo acordo ortográfico do PT, nada é dito sobre uso de minúsculas e maiúsculas, por isso Livy esta' usando a definição de um dicionário. Na verdade, é bem corrente este uso: Memórias das minhas putas tristes, Cem anos de solidão, As mil e uma noites, A incrível e triste história da Cândida Erêndira e sua avó desalmada.

  • Quando a entrada for o título de uma obra política ou religiosa, todas as suas palavras, exceto conectivos, devem aparecer em maiúscula. Exemplo: Primeira Epístola aos Coríntios.

  • Quando a entrada for o título de uma obra artística, apenas a primeira palavra do título e nomes próprios deverão aparecer em maiúsculas. Exemplo: Memórias póstumas de Brás Cubas.

  • Línguas são escritas em minúsculas. Exemplo: finlandês, línguas altaicas.

  • Conectivos em nomes próprios serão escritos em minúsculas. Exemplo: Ferdinand de Saussure, Johann Wolfgang von Goethe.

Português Europeu e Português Brasileiro

As entradas que têm grafia diferente em PE (Português Europeu) e PB (Português Brasileiro) devem aparecer com as duas formas. Exemplo: género gramatical e gênero gramatical.

Constituição dos Synset

Synset é um conjunto (set) de sinônimos (syn), um conjunto de palavras que são substituíveis entre si em algum contexto.

Por exemplo neste link, tem-se um synset: http://logics.emap.fgv.br/wn/synset?id=01503061-n.

Synsets são constituídos por: ID, PALAVRA, GLOSA, EXEMPLO.

ID é o número que localiza o synset, seu "offset", seguido por uma letra que caracteriza a classe gramatical do synset (n, a, v, j para, respectivamente, substantivos, adjectivos, verbos e adverbios). Considerando o exemplo acima, o ID do synset é 01503061-n.

Palavra é cada um dos sinônimos presentes nos synsets. No synset considerado, as palavras que são sinônimas para este conjunto são "pássaro" e "ave".

Glosa é uma pequena definição do synset. Diferente da WordNet de Princeton que coloca sob o rótulo "gloss" tanto definições, quanto exemplos, a OpenWordNet-PT traz campos diferentes para cada um destes dados. A glosa do exemplo acima é "animal vertebrado de sangue quente, ovípadro caracterizado por ter o corpo coberto de penas e os membros dianteiros modificados como asas". **Valeria acha que isso nao 'e uma boa ideia, que a gente devia seguir o exemplo de wordnet nesse caso.

Exemplo é uma frase que demonstra o uso de uma dada palavra em um contexto. No caso do synset acima, "O pássaro aprendeu a voar."

Da tradução dos synsets

Synsets em português devem conter sinônimos das palavras dos synsets em inglês.

Deve-se ao máximo tentar manter na tradução a mesma categoria morfológica do synset original (n, v, a, j) e o mesmo registro (palavra eruditas devem ser traduzidas por palavras eruditas e palavras comuns por palavras comuns).

Quando possível, devemos manter também a mesma raiz da palavra original (por exemplo, traduzir "finished" por "finalizado" em http://logics.emap.fgv.br/wn/synset?id=01003050-a).

E' desejavel que os sinônimos esgotem todas as possibilidades de representar o significado de um synset, mas nem sempre possível. Quando houver mais de uma tradução possível, esta pode ser incluída. http://logics.emap.fgv.br/wn/synset?id=06778102-n

Quando um synset original for muito específico e não houver tradução possível em português, deve-se traduzir pelo hiperônimo (synset acima) mais próximo que existir em português. http://logics.emap.fgv.br/wn/synset?id=07742513-n

Glosas devem ser traduzidas tao literalmente quanto for possível, mantendo a aceitabilidade da definicao em português.

Fontes de Referência

Clone this wiki locally