Taxonomias: os tipos de vocabulário controlado (4)

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

Nos artigos anteriores, vimos como o vocabulário controlado contribui para a melhoria da performance dos buscadores.

E também como a homografia também pode gerar imprecisão nos resultados de busca. Vimos também um exemplo de ambiguidade que mostra o espaço entre linguagem natural e vocabulário controlado.

Agora veremos se a quantidade de tipos de relações semânticas existentes impacta na complexidade do vocabulário controlado.

Em 2005 a National Information Standarts Organization (NISO) publicou a norma ANSI/NISO Z39.19, Guidelines for the construction, format, and management of monolingual controlled vocabularies, que agora está em sua quarta edição.

A primeira foi publicada em 1974 e, desde então, várias evoluções foram implementadas. Essa norma define que o objetivo do vocabulário controlado é prover os meios de organização da informação para posterior recuperação e que ele, o VC, é uma lista de termos autorizados selecionados a partir da linguagem natural pelo planejador responsável.

Esses termos devem ter uma definição conceitual não ambígua e não redundante, de forma a garantir a consistência na indexação dos conteúdos e tratar efetivamente as duas características da linguagem natural que são responsáveis pelos problemas semânticos já exemplificados.

Importante dizer que a norma ANSI/NISO Z39.19 e a ISO 2788, Guidelines for the establishment and development of monolingual thesauri são bons referenciais teóricos, mas não devem ser implantados a ferro e fogo.

Primeiro porque a ISO 2788 foi publicada em 1980 e desde então não houve nenhuma atualização, ou seja, nela existem apenas recomendações para a criação de tesauros em uma época praticamente sem sistemas automatizados.

Enquanto que a ANSI/NISO Z39.19 é mais atual e reconhece a realidade de um mundo informatizado, apesar de ter tomado como principal referencial a ISO 2788.

Assim, os responsáveis pelo desenvolvimento de um vocabulário controlado devem tomar várias decisões ao longo do processo que não se baseiam em normas, mas na criatividade, na inovação e, muitas vezes, na experiência aprendida de uma seqüência de tentativas e erros.

Existem quatro tipos de vocabulário controlado que diferenciam entre si de acordo com o nível de complexidade das suas estruturas (fig.5).

Essa complexidade é proporcional à quantidade de tipos de relações semânticas existentes entres os termos. Maior a quantidade de tipos de relações semânticas, maior a complexidade do vocabulário controlado. Os tipos de relações são:

  • 1. Equivalência ou sinonímia;
  • 2. Hierarquia; e
  • 3. Associação.

Os extremos esquerdo e direito, respectivamente, mostram o tipo de VC menos e mais complexo.

A linha horizontal desenhada representa o aumento do nível de complexidade das estruturas desses VC à medida que aumentam os tipos de relações que funcionam como “controles semânticos” entre os termos.

O tipo taxonomia, por exemplo, é mais complexo que o anel de sinônimos porque esse último abriga menos tipos de relações semânticas que o primeiro.

relacoes_semanticas

Uma propriedade básica e característica dos relacionamentos em um VC é que eles são recíprocos. Cada relacionamento definido entre o Termo A e o Termo B deve obrigatoriamente existir um relacionamento correspondente do Termo B para o Termo A. Segundo a ANSI/NISO Z39.19 essa regra deve se aplicar a todos os tipos relacionamentos.

Os indicadores de relacionamentos são sempre operadores emparelhados por termos. Alguns indicadores são simétricos e outros são assimétricos:

Termo relacionado (Associação) (TR) é simétrico: Se Termo A TR Termo B, então Termo B TR Termo A

Termo preferido (Equivalência) – USE e UP (Usado Para) são assimétricos: Se Temo A USE Termo B, então Termo B UP Termo B

Relações hieráquicas – TG e TE são simétricos: Se Termo A TG Termo B, então Termo B TE Termo A

Relações de equivalência

Quando o mesmo conceito pode ser representado por dois ou mais termos, um dos mesmos deve ser escolhido como o preferido. A relação entre o preferido e as suas variantes, termos não-preferidos, é chamada de relação de equivalência ou sinonímia, na qual cada um dos termos equivalentes representa um mesmo conceito.

A relação de equivalência, segundo a NISO Z39.19, é representada pela seguinte convenção:

  • U ou USE, que remete de um termo não preferido para um termo preferido, e
  • UP ou USADO PARA, relação recíproca, que remete um termo preferido para um ou mais termos não preferidos.

Essa relação, p. ex., pode ser expressa assim:

Aipim USE Mandioca
Mandioca UP Aipim

Esses indicadores de relação são equivalentes ao “veja”, muito comum nas listas de cabeçalhos de assuntos (utilizadas em bibliotecas) ou mesmo em listas usadas em nosso dia-a-dia, como as listas amarelas dos catálogos telefônicos.

O objetivo é agrupar os termos equivalentes para facilitar a recuperação.

Assim, na construção de um VC o conceito de equivalência explode em diferentes situações em que os termos podem ser considerados sinônimos, apesar de termos exatamente sinônimos ser algo bastante difícil e até raro de acontecer.

No próximo capítulo vamos ver as principais situações.

A série completa:
Taxonomias: o que são e para que servem (1)
Taxonomias: uma palavra, muitos significados (2)
Taxonomias: etnoclassificação não é panacéia (3)
Taxonomias: os tipos de vocabulário controlado (4)
Taxonomias: equivalência e relação hierárquica (5)
Taxonomias: o relacionamento todo-parte (6)
Taxonomias: associar termos relacionados (7)
Taxonomia ou sistema de classificac?a?o (8 – final)

[Webinsider]

…………………………

Conheça os serviços de conteúdo da Rock Content..

Acompanhe o Webinsider no Twitter.

Geraldo Magela Souza (geraldo.souza@sebrae.com.br) é analista do Núcleo de Informação do Sebrae e mantém o blog Experiência Semântica.

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

Mais lidas

Uma resposta

  1. Caro Geraldo
    Esta série de artigos está maravilhosa. Parabéns pela linguagem acessível a qualquer mortal. Temos recomendado como referência, e tem sido muito útil para conseguir comunicar esses conceitos nos nossos projetos que requerem a compreensão em áreas não familiarizadas com a ciência da informação.

    Um grande abraço
    Sérgio

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *