Taxonomias: associar termos relacionados (7)

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

A associação cobre as relações entre os termos que não são equivalentes e nem possuem um elo hierárquico, mas que são semanticamente ou conceitualmente associados a ponto de justificar e tornar explícita essa conexão no vocabulário controlado. São conexões semânticas implícitas e não existe uma formula para listá-las.

A definição das possíveis relações associativas entre os termos é, geralmente, uma decisão subjetiva, mas que pode ser influenciada pela qualidade das relações de equivalência e hierárquica previamente criadas. Pois essas duas últimas podem sugerir, a partir do contexto que cercam, as associações.

Essa subjetividade das relações associativas a torna difícil de ser estabelecida. Por exemplo, telefone TR contas a pagar. Em um VC, provavelmente, não haverá uma associação como essa porque é muito subjetiva.

Nesse sentido, a subjetividade deve ser evitada ao máximo com o objetivo de garantir consistência na criação das associações. A ANSI/NISO Z39.19 sugere as seguintes situações:

relacionadas

Na camada de um portal a relação de associação pode cumprir o papel de um ótimo vendedor, seja na oferta de uma informação ou de um produto.

Por exemplo, ao pesquisar por uma notícia sobre o terremoto no Haiti pode-se sugerir, “Leia também sobre forte tremor de terra no Chile”. Se o cliente pesquisa por uma camisa social, o sistema pode sugerir: “Essa camisa fica ótima com esse blazer” ou “Não perca, calças em promoção!”.

Uma vez definida as possíveis associações entre um termo e seus termos relacionados, é estabelecida uma referência recíproca, ou seja, se quaisquer um dos termos coincidir com a a query formulada pelo cliente, os demais serão invocados.

Lista

Uma lista pode ser um grupo limitado de termos arranjados em ordem alfabética ou em outra ordem que adote uma lógica evidente. Segundo a ANSI/NISO Z39.19 as listas são utilizadas para descrever aspectos do conteúdo de objetos ou entidades que têm um número limitado de possibilidades.

As listas são tradicionalmente utilizadas em bibliotecas e cumprem o papel de “controlar” a forma preferida e autorizada para descrição dos nomes de autoridades (p.ex.: o nome de escritor) ou de instituições ou de entidades de determinada área do conhecimento.

Na figura abaixo a a lista com o nome oficial em inglês dos países e respectiva sigla composta de apenas dois caracteres.

country_names_2

Código e nome oficial dos países (em inglês) em ordem alfabética dados pela ISO 3166-1.

No contexto da web as listas são, provavelmente, o tipo de VC mais utilizados justamente pela sua simplicidade e a lógica clara com que se apresentam para os usuários. Na lista alfabética, os valores são ordenados alfabeticamente.

.

sebraealfabetica11

Lista alfabética dos estados brasileiros onde se encontra o Sebrae.

sebraelogica

Lista lógica dos sites segundo o “momento empresararial” em que um empreendedor pode se encontrar.

A lista lógica apresenta os valores segundo um critério lógico como o tempo, o tamanho, o intensidade etc. Por exemplo, o portal do Sebrae abriga sites dedicados a empreendedores segundo o seu momento empresarial, porque o empreendedor, na sua trajetória empresarial, a contar desde momento em que tem a perspectiva ou decisão de conceber uma ideia de negócio até a concretização, consolidação e expansão do seu empreendimento, passa por momentos de vida específicos e bem delineados.

Esses momentos empresariais ou estados são uma das principais formas que o Sebrae definiu para segmentar, analisar e entender os seus clientes.

Assim as lista para esses tipos de sites tem seus valores variando de “Tenho uma empresa com mais de 2 anos” a “O que o Sebrae pode fazer por mim” .

Anel de sinônimo

O anel de sinônimo não pode ser utilizado na indexação, somente na busca. Ao contrário da lista e dos demais tipos de VC que podem ser implantados tanto no lado da indexação como no da busca.

O anel de sinônimo é um grupo de dois ou mais termos considerados equivalentes, ou seja, o usuário pode acessar todos os registros de uma base de dados que contêm quaisquer um dos termos. A definição dessa equivalência cumpre apenas o propósito de melhorar o índice de revocação. Os sistemas de busca executam de forma transparente, para o usuário, uma expansão da busca com todos os termos definidos como variantes para o termo utilizado por ele na query.

O mecanismo é simples: se o termo fornecido pelo usuário coincidir com algum termo listado em um arquivo texto que fica no sistema busca, a expansão de busca é disparada. Assim, o principal trabalho não é a configuração do sistema de busca, mas a análise dos logs de busca com o objetivo de identificar quais os termos utilizados pelos usuários para designar os mesmos conceitos e construir anéis de sinônimos que realmente melhorem os índices de revocação.

As vezes, se observamos com atenção, podemos identificar se a busca de um site utiliza ou não o anel de sinônimo. No exemplo do início do artigo, realizado no site da Americanas.com, o termo “laptop” (escrito sem espaço) resultou em uma lista de resutlados cujos registros não tinham, explicitamente, na primeira página de resultados (e nem segunda), a ocorrência dessa palavra em nenhuma parte, mas aparece a palavra “notebook” em todos os registros.

Para alguns autores, como Peter Moville e Louis Resenfeld, no livro Information architecture for the world wide web, esse é um novo problema que o anel de sinônimo introduz, porque se a expansão de busca opera nos bastidores, os usuários podem ficar confusos com os resultados que não possuem as palavras-chave utilizadas na sua query. Esse problema pode ser agravado, principalmente, quando os aneis de sinônimos são mal construídos.

Na prática, como poderiámos melhorar o índice de revocação para o termo “laptop” no site da Americanas.com? Vamos considerar que esse anel de sinônimo, atualmente, possui apenas dois termos. E agora vamos inserir nesse mesmo anel dois novos termos equivalentes, “lap top” e “note book”.

anel1

anel2

Anel de sinônimo com dois termos e o mesmo anel agora com mais termos.

Se no exemplo da figura 1 acima não retornou nenhum registro de um laptop “verdadeiro”, como os retornados no exemplo da figura 2, agora com as novas inclusões no anel de sinônimos acontecerá uma “explosão” de resultados, porque o sistema de busca recuperará todos os registros que tiverem os termos “laptop” + “lap top” + “lap” + “top” + “notebook” + “note book” + “note” + “book”.

Assim, é fundamental que se faça uma análise dos logs de busca com objetivo de compreender melhor as “intenções” e “desejos” dos clientes por meio das palavras-chave e expressões utilizadas por eles.

Isso é trabalhoso? Sim, mas pode ajudar muito na busca de um equilíbrio na hora da configuração do sistema de busca e na criação dos aneis de sinônimos, do contrário corre-se o risco dos usuários terem uma experiência de busca com baixo índice de revocação e baixa precisão.

Nos sistemas de busca a funcionalidade “Você quis dizer”, tecnicamente chamda de spell checker, utiliza o mesmo princípio do anel de sinônimo. A única diferença é que, em vez de fazer uma expansão de busca com todos os termos, o buscador realiza por traz das cenas uma busca apenas com o termo grafado da forma correta. Naturalmente, todo esse processo só é disparado quando o usuário faz uma busca com um termo escrito de forma incorreta e que esteja previsto como um termo equivalente no anel de sinônimo.

Por exemplo, no log de buscas foram registradas duas queries em que o usuário escreveu o termo “curso” de forma errada.

logbusca

Log de busca com duas formas erradas de escrever a palavra curso.

Essas formas erradas se juntam às demais já identificadas no arquivo texto que fica no sistema de busca servindo como um diretório com todas as formas erradas possíveis de se grafar os termos usualmente utilizados pelos usuários.

logbusca

Agora, o anel de sinônimo tem dois novos termos equivalentes para a palavra “curso”. Quando quaisquer um deles for utilizado pelo usuário, será disparada a funcionalidade “Você quis dizer”, que realizará automaticamente uma pesquisa apenas com a forma correta, “curso”.

spellcheckercurso

Anel de sinônimos em ação.

Na última parte da série vamos ver o sistema de classificação (ou melhor, taxonomia).

A série completa:
Taxonomias: o que são e para que servem (1)
Taxonomias: uma palavra, muitos significados (2)
Taxonomias: etnoclassificação não é panacéia (3)
Taxonomias: os tipos de vocabulário controlado (4)
Taxonomias: equivalência e relação hierárquica (5)
Taxonomias: o relacionamento todo-parte (6)
Taxonomias: associar termos relacionados (7)
Taxonomia ou sistema de classificac?a?o (8 – final)

[Webinsider]

…………………………

Conheça os serviços de conteúdo da Rock Content..

Acompanhe o Webinsider no Twitter.

Avatar de Geraldo Magela Souza

Geraldo Magela Souza (geraldo.souza@sebrae.com.br) é analista do Núcleo de Informação do Sebrae e mantém o blog Experiência Semântica.

Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp
Share on telegram
Share on pocket

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *