Taxonomias: uma palavra, muitos significados (2)

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

No artigo anterior vimos a necessidade do vocabulário controlado na melhoria da performance dos buscadores e exemplos de palavras escritas de formas diferentes.

Agora vamos ilustrar a segunda característica da linguagem natural, a homografia, que também pode gerar imprecisão nos resultados de busca.

Imagine o nosso mesmo cliente, com um outro desejo. Ele quer ler algo sobre o planeta Mercúrio.

Assim, ao fazer uma busca com a palavra “mercúrio” na Americanas.com, a lista de resultados apresenta diferentes tipos de produtos que são representados por essa palavra. Desde um tênis, passando por uma lâmpada, um livro sobre o sistema solar ou sobre o deus da mitologia grega ou até mesmo um termômetro de mercúrio para medir a variação da temperatura.

Como saber qual é, realmente, o conceito que está na mente desse cliente?

No mundo dos vocabulários controlados, o conceito é uma unidade de pensamento que está na cabeça das pessoas e que independe das palavras para representá-lo. Sobre isso a NISO Z39.19 define que:

[Concept is] a unit of thought, formed by mentally combining some or all of the characteristics of a concrete or abstract, real or imaginary object. Concepts exist in the mind as abstract entities independent of terms used to express them (NISO Z39.19, p.4)

Assim, uma solução simples e comum é apresentar os resultados agrupados por contextos ou filtros. Isso evita e diminui a confusão, pois facilita a navegação pelos registros recuperados.

A Americanas.com, por exemplo, faz uso desses filtros ou taxonomia para facilitar a navegação do cliente pelos resultados.

americanas3

O resultado de uma pesquisa com o termo “mercúrio” na Americanas.com.

Precisão e revocação

Essa ecologia de tipos de produtos pode ser maior se o portfólio da empresa for bem diversificado. E proporcionalmente maior será a possibilidade de ocorrerem falsas recuperações.

O processo de categorização realizado exclusivamente por humanos torna-se, no mínimo, financeiramente proibitivo se não for auxiliado por sistemas de categorização automática.

Assim, por esse motivo e por outros, a falsa recuperação nesses buscadores é muito comum.

Tanto a precisão como a revocação podem ser expressas na forma de uma equação.

A precisão é indicada pela relevância dos registros obtidos no resultado de uma busca específica. E a revocação é a proporção de registros relevantes recuperados comparada com a totalidade de registros relevantes existentes na base de um sistema.

O índice de precisão e o índice de revocação são obtidos a partir de numeradores comuns, porém denominadores diferentes.

indice_precisao

Etnoclassificação

Peter Merholz (2004), em seu artigo Metadata for the masses, afirma que muitos sistemas de classificação sofrem de um problema que é, basicamente, a falta de flexibilidade para lidar com essas duas características da linguagem natural, ao adotarem uma abordagem de baixo para cima, forçando os seus usuários enxergarem o mundo de um ângulo não familiar.

No mesmo artigo, Merholz questiona: “Mas, e se, de algumas forma, conseguirmos espiar o processo mental que se passa na cabeça dos nossos usuários para entendermos como eles veem o mundo?”

As pessoas classificam

Hoje, uma maneira de se fazer isso é por meio da etnoclassificação (também chamada de folcsonomia, expressão criada por Thomas Wander Wal), ou seja, como as pessoas classificam e categorizam o mundo à sua volta.

Sites dedicados ao social bookmark (serviço de armazenamento e compartilhamento de links de web sites favoritos) como o Del.icio.us e ao de armazenamento e compartilhamento de fotografias como Flickr, já nasceram com essa proposta, que é encorajar os seus usuários a indexarem seus próprios conteúdos por meio de tags (que são palavras-chave).

Por meio das tags fica mais fácil localizá-los posteriormente. O usuário tem a total liberdade de usar ou criar as tags que façam, para ele e para os outros, mais sentido e que representam melhor os temas registrados.

Essa forma de indexação livre é bastante atraente, pois é simples e fácil de ser executada, não possui muitas regras nem muitas exceções e não exige conhecimento sobre o processo de indexação, exigido e praticado por especialistas como os bibliotecários.

Usando vocabulário controlado

A indexação com o uso de um vocabulário controlado, ao contrário da etnoclassificação, não permite que o próprio usuário escreva ou crie as palavras-chave indexadoras.

As palavras-chave devem ser selecionadas a partir de uma lista pré-definida e composta apenas por termos preferidos (um de dois ou mais sinônimos ou variantes léxicais selecionado para inclusão em um vocabulário controlado).

Na terceira parte deste texto vamos ver um exemplo de ambiguidade e o espaço entre linguagem natural e vocabulário controlado.

A série completa:
Taxonomias: o que são e para que servem (1)
Taxonomias: uma palavra, muitos significados (2)
Taxonomias: etnoclassificação não é panacéia (3)
Taxonomias: os tipos de vocabulário controlado (4)
Taxonomias: equivalência e relação hierárquica (5)
Taxonomias: o relacionamento todo-parte (6)
Taxonomias: associar termos relacionados (7)
Taxonomia ou sistema de classificac?a?o (8 – final)

[Webinsider]

…………………………

Conheça os serviços de conteúdo da Rock Content..

Acompanhe o Webinsider no Twitter.

Avatar de Geraldo Magela Souza

Geraldo Magela Souza (geraldo.souza@sebrae.com.br) é analista do Núcleo de Informação do Sebrae e mantém o blog Experiência Semântica.

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

2 respostas

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *