A palavra taxonomia não é a mais apropriada quando nos referimos a ferramentas que lidam com o controle do significado das palavras e que objetivam auxiliar os sistemas de informação na organização e recuperação das informações.
A palavra certa é vocabulário controlado (VC), apesar de eu ter me rendido à coqueluche chamada taxonomia. As listas, anéis de sinônimos, taxonomias e tesauros são tipos de vocabulário controlado que permitem a representação dos conteúdos dos objetos (p.ex. um documento) por meio de palavras.
O VC forma um contra-ponto com a linguagem natural (LN), que é utilizada pelo ser humano para se comunicar e onde a ambigüidade ocorre se a mesma palavra é comumente usada para significar diferentes conceitos ou se múltiplas palavras são usadas para significar a mesma coisa.
Por outro lado, em um VC todas as palavras devem representar, sem ambigüidade e sem redundância, o conceito.
Na prática, o VC pode ter uma importância-chave na arquitetura da informação e na personalização de um portal corporativo.
A organização, a busca, a navegação, a filtragem da informação são mais exemplos de processos onde o VC pode efetivamente agregar valor e criar uma experiência diferenciada de navegação e de busca de informações que são feitas pelos usuários.
Os VC são utilizados desde 1950 (Uau, há mais de meio século!) principalmente nas agências dos governos dos Estados Unidos e dos países da europa com o objetivo de gerenciar melhor a explosão do conhecimento registrado na literatura científica e tecnológica de áreas especializadas.
E não é difícil respondermos, de maneira bem simples, o porquê da explosão da informação. Foi por causa das pesquisas e avanços motivados pela Segunda Guerra Mundial, pela corrida para levar o homem a Lua, pela Guerra Fria, pela Guerra Espacial e por toda aquela história dos avanços da computação que já sabemos.
Agora vamos ver como esses cinqüentões e cinqüentonas estão em forma e são capazes de fazer a diferença na arquitetura da informação de sites web, melhorar dramaticamente a performance dos buscadores e culminar em uma nova web, a web semântica.
Porque vocabulários controlados
Imagine um consumidor adulto que deseja comprar um laptop, um dos produto eletrônicos, depois dos celulares, mais vendidos hoje em dia.
Ele deseja um bem portátil que possa carregar para onde quiser, acessar a internet a qualquer momento e guardar seus documentos, músicas, fotos e vídeos e levá-lo para onde for.
Para ser mais cômodo e seguro ele decide acessar o site de uma loja online, como a Americanas.com, e digita na caixa de busca, que aparece logo na primeira página, a palavra “lap top”.
Porém veja que ele a digita com espaço (o que é muito comum). Uma vez digitada a palavra, o nosso consumidor clica no botão “OK” e, em menos de um segundo, o mecanismo de busca retorna “702 itens distribuídos em 34 páginas”.
Uau, isso é animador, pois existem muitas opções! Ele terá um bom trabalho para navegar e avaliar item por item.
A busca por “lap top”, com espaço. O sistema recuperou tudo que tem “lap”, tudo que tem “top” e tudo que tem “lap” e “top”, o que poluiu bastante os resultados.
Naturalmente, ele, como nós (mal acostumados com buscadores poderosos como o Google), não fará essa mineração custosa por algo que é bem ofertado e que existe em abundância tanto em marcas como em modelos e preços em todos os lugares.
Assim a expectativa é encontrar o que se deseja logo no topo da lista de resultados, do contrário é melhor fazer uma nova busca ou procurar imediatamente uma outra “loja” que o atenda melhor.
Ao analisar os primeiros registros da lista ele se depara com uma capa para notebook, em seguida um lap top do Dino (dinossauro) para crianças a partir de 12 meses, mais a frente, ainda na primeira página da lista de resultados, ele se surpreende com um palm top – um produto em vias de extinção, para não dizer já extinto – e depois se depara com uma procissão de sandalhas Havaianas, Top Limão, Top Preta, Top Amazônia, Top Menta, Top Uva, Top Pink passando pela agenda Girls Top até o último registro da lista, na trigésima quarta página, um relógio masculino Dual Tech 30 laps de memória que é acompanhado por um brinde, um canivete Tramontina com 11 funções!
Afinal, o que está acontecendo? O sistema de busca recuperou tudo que tem “lap”, tudo que tem “top” e tudo que tem “lap” e “top”. Isso poluiu bastante os resultados e só confundiu o nosso cliente.
Bem, ele não desiste e tenta novamente, mas agora retira o espaço digitanto tudo junto, “laptop”. De repente, o resultado da busca fica cheio, logo no início da lista, de registros que têm a ver o que ele deseja, ou seja, agora temos resultados mais relevantes.
Resultado de busca por “laptop”, sem o espaço, agora retorna resultados adequados.
Esses problemas na busca são muito comuns, mas também muito graves.
O site de e-commerce provavelmente perde potenciais vendas não só com os produtos que são representados pela palavra laptop ou notebook, mas com todos os produtos que são representados por palavras que dêem vazão a esse tipo de confusão ou ambigüidade.
Laptop, notebook ou computador portátil são palavras escritas de formas diferentes, mas que possuem o mesmo significado. E essa é uma das duas características da linguagem natural (LN) que pode ser controlada, em sitemas automatizados (e há muito em sistemas manuais como os catálogos de fichas das bibliotecas), pelos vocabulários controlados (VC).
A segunda característica é a homografia, quando duas ou mais palavras têm grafias idênticas, mas significados diferentes. Essa última pode provocar um problema muito comum que é conhecido como “falsa recuperação” ou “imprecisão”.
E a primeira é responsável pela “baixa revocação”, ou seja, ao utilizar a palavra “lap top”, não foram localizados os verdadeiros conceitos que o cliente pensava e não recuperando os registros descritos com termos “laptop” ou “notebook”.
Na parte 2 (Taxonomia: uma palavra, muitos significados (2)) prosseguimos e vamos ilustrar a segunda característica, a homografia, que pode gerar uma imprecisão nos resultados. [Webinsider]
A série completa:
Taxonomias: o que são e para que servem (1)
Taxonomias: uma palavra, muitos significados (2)
Taxonomias: etnoclassificação não é panacéia (3)
Taxonomias: os tipos de vocabulário controlado (4)
Taxonomias: equivalência e relação hierárquica (5)
Taxonomias: o relacionamento todo-parte (6)
Taxonomias: associar termos relacionados (7)
Taxonomia ou sistema de classificac?a?o (8 – final)
…………………………
Conheça os serviços de conteúdo da Rock Content..
Acompanhe o Webinsider no Twitter.
Geraldo Magela Souza
Geraldo Magela Souza (geraldo.souza@sebrae.com.br) é analista do Núcleo de Informação do Sebrae e mantém o blog Experiência Semântica.
4 respostas
Faz muito tempo que procuro na Internet uma resposta pra essa questão simples, mas mal interpretada “Pra que serve” e não “o que é”. Às vezes, alguns autores acham que todo mundo tem a mesma capacidade de dedução lógica e ao invés de ser lúdico-didático, ele não tenta se colocar no lugar do aluno, aprendiz, ou curioso!
Muito obrigado mesmo Prof. Geraldo! É disso que precisamos! Fico no aguardo de qualquer novidade!!!!
Wilkens Santos
Fortaleza/Ceará
Realmente a taxonomia além de importate para a padronizaçãodo “vocabulário digital” (VC) é uma forma eficiente de evoluir a web com resultados mais precisos.
Ótimo artigo.
Esperando parte 2.
Abs.
Olá,
Já tinha ouvido ou lido em algum lugar sobre taxonomia, mas nunca procurei saber.
O artigo explicou muito bem o significado.
Vamos aguarda a parte 2.
Abs!
🙂
Quem usa Drupal está acostumado a utilização dos termos taxonomia e vocabulário.
O usuário pode criar vocabulários, adicionar termos e sinônimos a eles, e simular a linguagem natural, onde a busca é realizada tanto no temo em si, quanto nos sinônimos.
Taxonomia ou Vocabulário Controlado, sistemas modernos precisam ter controle de sinônimos, onde palavras como laptop, lap top, notebook e notebook sejam tratadas como se fossem a MESMA palavra.
Drupal neles!!!