-
Notifications
You must be signed in to change notification settings - Fork 36
Home
Nosso sistema pode ser utilizado para pesquisas em http://logics.emap.fgv.br/wn.
A OpenWordNet-PT é uma rede léxica, construida semi-automaticamente, seguindo o modelo da WordNet de Princeton https://wordnet.princeton.edu/.
Nos decidimos usar uma palavra feminina para designa-la, por causa de `rede' (net), mas poderiamos ter usado uma palavra masculina, pois as vezes pensamos no banco de dados lexicais (lexical knowledge base) que estamos construindo.
As entradas devem ser escritas em minúsculas, exceto nos seguintes casos:
- Sempre que a entrada representar algo único, específico e particular (nomes tratados como "substantivos próprios" pela gramática tradicional) todas as suas palavras, exceto conectivos (“de”, “das”), estarão em maiúsculas. Exemplos: Princípio de Exclusão de Pauli, Teoria das Cordas. Diferente de: opinião pública, golfinho-do-ganges.
Valeria nao gosta dessa diretriz, pois acha que os exemplos nao sao bons. E' muito dificil de saber quais sao as entidades unicas e no meu entender essas nao sao. Teoria das Cordas 'e pelo menos uma area de ciencia, enquanto o principio do Pauli nao e' nem isso. E Ganges por si so' e' nome de rio, portanto seria maiusculo, se sozinho
- Areas da ciência serão sempre em maiúscula, exceto conectivos, como Mecânica Estatística, História da Arte.
No novo acordo ortográfico do Português, nada é dito sobre uso de minúsculas e maiúsculas, por isso Livy esta' usando a definição de um dicionário. Na verdade, é bem corrente este uso: Memórias das minhas putas tristes, Cem anos de solidão, As mil e uma noites, A incrível e triste história da Cândida Erêndira e sua avó desalmada.
-
Quando a entrada for o título de uma obra política ou religiosa, todas as suas palavras, exceto conectivos, devem aparecer em maiúscula. Exemplo: Primeira Epístola aos Coríntios.
-
Quando a entrada for o título de uma obra artística, apenas a primeira palavra do título e nomes próprios deverão aparecer em maiúsculas. Exemplo: Memórias póstumas de Brás Cubas.
-
Línguas são escritas em minúsculas. Exemplo: finlandês, línguas altaicas.
-
Conectivos em nomes próprios serão escritos em minúsculas. Exemplo: Ferdinand de Saussure, Johann Wolfgang von Goethe.
As entradas que têm grafia diferente em PE (Português Europeu) e PB (Português Brasileiro) devem aparecer com as duas formas. Exemplo: género gramatical e gênero gramatical.
Synset é um conjunto (set) de sinônimos (syn), um conjunto de palavras que são substituíveis entre si em algum contexto.
Por exemplo neste link, tem-se um synset: http://logics.emap.fgv.br/wn/synset?id=01503061-n.
Synsets são constituídos por: ID, PALAVRA, GLOSA, EXEMPLO.
ID é o número que localiza o synset, seu "offset", seguido por uma letra que caracteriza a classe gramatical do synset (n, a, v, j para, respectivamente, substantivos, adjetivos, verbos e advérbios). Considerando o exemplo acima, o ID do synset é 01503061-n.
Palavra é cada um dos elementos que integra um synset. No synset considerado, as palavras que compõem o synset (palavras sinônimas) são "pássaro" e "ave".
Glosa é uma pequena definição do synset. Diferente da WordNet de Princeton que coloca sob o rótulo "gloss" tanto definições, quanto exemplos, a OpenWordNet-PT traz campos diferentes para cada um destes dados. A glosa do exemplo acima é "animal vertebrado de sangue quente, ovípadro caracterizado por ter o corpo coberto de penas e os membros dianteiros modificados como asas".
Valeria acha que isso nao 'e uma boa ideia, que a gente devia seguir o exemplo de wordnet nesse caso.
Exemplo é uma frase que demonstra o uso de uma dada palavra em um contexto. No caso do synset acima, "O pássaro aprendeu a voar."
Synsets em português devem conter sinônimos das palavras dos synsets em inglês.
Deve-se ao máximo tentar manter na tradução a mesma categoria morfológica do synset original (n, v, a, j) e o mesmo registro (palavra eruditas devem ser traduzidas por palavras eruditas e palavras comuns por palavras comuns).
Quando possível, devemos manter também a mesma raiz da palavra original (por exemplo, traduzir "finished" por "finalizado" em http://logics.emap.fgv.br/wn/synset?id=01003050-a).
É desejável que os sinônimos esgotem todas as possibilidades de representar o significado de um synset, mas nem sempre possível. Quando houver mais de uma tradução possível, esta pode ser incluída, mas claramente não ambicionamos adicionar todas as traduções possíveis. http://logics.emap.fgv.br/wn/synset?id=06778102-n
Quando um synset original for muito específico e não houver tradução melhor em português, deve-se traduzir pelo hiperônimo (synset acima) mais próximo que existir em português. http://logics.emap.fgv.br/wn/synset?id=07742513-n
Glosas devem ser traduzidas tao literalmente quanto for possível, mantendo a aceitabilidade da definição em português.