Taxonomias: etnoclassificação não é panacéia (3)

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

Nos dois artigos anteriores, vimos a necessidade do vocabulário controlado na melhoria da performance dos buscadores e exemplos de palavras escritas de formas diferentes.

E também como a homografia também pode gerar imprecisão nos resultados de busca.

Agora vamos seguir com um exemplo de ambiguidade que mostra o espaço entre linguagem natural e vocabulário controlado.

Após armazenar as fotos das férias no Flickr, o usuário cria tags como “férias”, “RJ”, “família”, “bolinho de aipim”, “praia”, “pescaria”.

Em um sistema que usa um vocabulário controlado como ferramenta para auxílio à indexação, seriam indicados os termos preferidos para indexação nas situações em que houvesse a ocorrência de sinonímia: “RJ USE Rio de Janeiro”, “Aipim USE Mandioca”.

Ou a ocorrência de palavras homógrafas que são também, no vocabulário controlado, diferenciadas com qualificadores com o objetivo de deixar claro o conceito correto por meio da indicação, entre parênteses (( )), do contexto: Pesca (Aqüicultura e Pesca), Pesca (Esporte).

No exemplo acima a pesca estava sendo praticada como um esporte e não como uma atividade econômica do segmento de aqüicultura e pesca.

Já existe uma diferença conceitual entre ambos, os qualificadores devem ser utilizados em um vocabulário controlado.

Um outro exemplo já citado é mercúrio (metal), mercúrio (astronomia), mercúrio (mitologia).

O qualificador (o termo que está entre parênteses) é fundamental para resolver as ambigüidades, porque, como já visto, os conceitos existem em nossa mente como uma entidade abstrata independente dos termos usados para expressá-los.

Então, é por meio do qualificador que o usuário irá identificar visualmente qual conceito corresponde ao que está em sua mente.

E é claro, os qualificadores servem também como “pistas diferenciadoras” para que as “máquinas” possam “compreender” essas diferenças semânticas.

Nessa medida o vocabulário controlado faz um contraponto com a etnoclassificação, porque essa usa a linguagem natural e o VC usa a linguagem controlada.

O vocabulário controlado nos “lembra” e nos “impõem” o uso de apenas um de dois ou mais termos sinônimos e nos permite fazer claramente a distinção conceitual entre palavras homógrafas por meio do uso de qualificadores entre parênteses.

Ambiguidades

Na etnoclassficação é o usuário quem cria livremente as suas tags preferidas. Assim, se a indexação é feita a partir da linguagem natural do usuário, a “comunicação” está sujeita às duas características já mencionadas que obscurecem o significado das palavras, impedindo que torne de forma evidente e clara as ocorrências de sinonímia (lap top = laptop = notebook = note book = computador pessoal) e homografia (mercúrio (metal) ? mercúrio (astronomia) ? mercúrio (mitologia)).

Peter Merholz (2004) exemplifica porque as duas características da linguagem natural impedem a etnoclassificação de receber o título de “panácea” para os problemas de indexação e recuperação da informação:

Clearly, such tagging systems [ethnoclassification] are not a panacea; they present many potential drawbacks.

With no one controlling the vocabulary, users develop multiple terms for identical concepts. For example, if you want to find all references to New York City on Del.icio.us, you’ll have to look through “nyc,” “newyork,” and “newyorkcity.”

You may also encounter the inverse problem — users employing the same term for disparate concepts.

Flow, for instance, can either mean optimal creative experience, or the movement of a fluid (MERHOLZ, 2004).

Taxonomia é o termo mais usado

O termo taxonomia tem sido empregado como o preferido e mais popular para designar, de forma geral, os diferentes tipos de vocabulários controlados (listas, anel de sinônimos, tesauros) ou sistemas de categorização e organização da informação.

Sejam eles simples como uma lista alfabética de temas ou estruturas mais complexas como as ontologias.

Esse fenômeno não tem acontecido só no Brasil, ou melhor, parece ser um reflexo do que já vem ocorrendo no exterior, onde esse tema é bem mais popular e cujas pesquisas e a produção literária são intensas.

A autora Heather Hedden (2008), em seu artigo BetterLiving Through Taxonomies, fala sobre a popularidade do termo taxonomia em relação ao termo vocabulário controlado:

Recently the term taxonomy has also become popular as the term for any kind of controlled vocabulary or classification system, whether a simple standard glossary, a highly structured ontology, or anything in between.

A taxonomy is thus either—or both—a hierarchical classification scheme and/or acontrolled vocabulary. Both these characteristics of a taxonomy make it useful for improving the navigation and findability of a website (HEDDEN, 2008).

No próximo capítulo veremos se a quantidade de tipos de relações semânticas existentes impacta na complexidade do vocabulário controlado.

A série completa:
Taxonomias: o que são e para que servem (1)
Taxonomias: uma palavra, muitos significados (2)
Taxonomias: etnoclassificação não é panacéia (3)
Taxonomias: os tipos de vocabulário controlado (4)
Taxonomias: equivalência e relação hierárquica (5)
Taxonomias: o relacionamento todo-parte (6)
Taxonomias: associar termos relacionados (7)
Taxonomia ou sistema de classificac?a?o (8 – final)

[Webinsider]

…………………………

Conheça os serviços de conteúdo da Rock Content..

Acompanhe o Webinsider no Twitter.

Avatar de Geraldo Magela Souza

Geraldo Magela Souza (geraldo.souza@sebrae.com.br) é analista do Núcleo de Informação do Sebrae e mantém o blog Experiência Semântica.

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

4 respostas

  1. Olá Mathias, realmente o tema é interessante. Essa série, publicada no Webinsider, é uma edição fatiada e “lapidada” de um artigo maior que está publicado em: http://semanticexperiences.com/2010/02/04/inova%C3%A7%C3%A3o-disruptiva-em-portais-corporativos-com-o-uso-de-vocabul%C3%A1rios-controlados-a-experi%C3%AAncia-do-sebrae.aspx

    Ao final desse artigo, a partir do capítulo “Tesauro”, dou uma pequena amostra dos usos de uma taxonomia integrada a um buscador (o Google Search Appliance), a várias bases de dados e a um portal. Então, se quiser se adiantar aos próximos artigos dessa série, vai lá e confere um exemplo real. Abraço!

  2. Olá. Muito interessante esta série de artigos.

    Gostaria de saber se, nesta série, você pretende apresentar e/ou apontar soluções práticas para estes problemas (ferramentas, técnicas, livros, sites, etc.) ou se o objetivo é apenas apresentá-los e debatê-los.

    Abraço.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *