Um dos tais “poderes” da didaticamente chamada Web 2.0 é o ranking de conteúdos baseado em sua relevância para os usuários, traduzida, por sua vez, muitas vezes no número de acessos a determinados conteúdos ou de recomendações diretas dos consumidores.
Inicialmente, fazendo um parênteses, deixo claro que sou contra a terminologia “web 2.0” pois acredito que a internet sempre foi descentralizada e, portanto, passível de colaboração; mas ele facilita a compreensão do momento de utilização em massa do meio digital para um determinado propósito.
Mas voltando ao cerne da questão, independente da utilização de relações semânticas (entre um conteúdo e uma palavra), a própria criação de um ranking é, de certa forma uma espécie de tagueamento, relacionando-se o conteúdo “x” com tags “isto é bom” ou “isto é ruim”.
Contudo, pode haver um grande desvio entre os resultados considerados até então democráticos sobre a relevância de determinados conteúdos. Neste ponto estou tratando de conteúdos que não possuem uma avaliação dos usuários (como uma escala de valores indicando o quão útil/relevante/bom é), mas aqueles cuja relevância é determinada unicamente pelo número de acessos e comentários, desde que o sistema que os gerencia não identifique se são positivos ou negativos.
Por exemplo, há pelo menos seis meses o artigo mais lido dentre todos do Webinsider é o que trata de Filmes raros e antigos de graça na internet. E legais, de autoria do subeditor do site, Paulo Rebêlo. Por favor, absolutamente nada contra o artigo, nada contra o Paulo, nem contra filmes raros e antigos de graça na internet, isto é apenas um exemplo prático do que estou discutindo.
Bem, por mais que consideremos que este artigo tem uma alta relevância e é acessado por muitas pessoas (justamente por isto figura em primeiro lugar do ranking), quantas destas pessoas o acessam justamente pelo fato de ele figurar no primeiro lugar do ranking? É quase o enigma de Tostines: é o mais acessado porque é o que mais se lê ou mais se lê porque ele é o mais acessado?
Extrapole este pensamento para qualquer tipo de ranking disponível a uma massa de consumidores. As – não tão – famosas “paradas de sucesso” da música brasileira, quantas pessoas não ouvem determinada música pelo simples fato de ela ser a música mais escutada?
Este comportamento pode, em partes, ser ilustrado pela Lei de Zipf. Citando a Wikipedia, George Kingsley Zipf (1902-1950) foi um lingüista e filologista norte-americano e que estudou ocorrências estatísticas em diferentes tipos de linguagem; seus estudos derivaram explicações sobre certas propriedades do comportamento coletivo na internet.
Seth Godin citou-o brevemente em seu livro Marketing: Idéia Vírus (2001) quando tratou de explicar o poder das recomendações na construção e fortalecimento de uma imagem corporativa.
Originalmente, as leis de Zipf tratam de relacionar a freqüência da ocorrência de determinados termos em um texto relacionando-a com uma ordenação, criando-se um ranking (ou, falando em internetês, um índice de relevância). Para quem quiser estudar a fundo estes conceitos recomendo um trabalho científico realizado por Vânia Guedes e Suzana Borschiver, que explica este e outros conceitos de bibliometria.
Além de unicamente checar acessos, é natural prever que, quanto mais visto for determinado conteúdo, maior a probabilidade de ele ser comentado, positiva ou negativamente. Sendo esta outra variável que determina o ranking do conjunto de conteúdos similares, haverá novamente um melhor posicionamento.
Neste cenário, um conjunto de fatores cíclicos acaba determinando que uma vez conquistada certa popularidade, pode haver uma tendência constante em se estar melhor posicionado em um ranking que considere apenas acessos e número de intervenções (comentários) como fatores de indicação de relevância.
Isto daria margem a uma prática – pessoalmente acho condenável – que é a manipulação de títulos e indicações mínimas da natureza do conteúdo (como uma descrição ou conjunto de tags) com intuito de gerar uma expectativa distorcida sobre a real natureza do que se vai ser acessado.
Traçando um paralelo com a mídia online, são os famosos banners teaser que não deixam claro o que se vai encontrar após o clique e estimulam o consumidor a pensar algo diferente ou mesmo não se ter a menor idéia do que irá encontrar na seqüência (mas que, ainda assim, ele clica porque é inusitado, curioso, irreverente, etc).
Numa agência em que trabalhei, costumávamos chamar estas peças de mídia com um apelido pouco familiar, que não me atrevo a citar, mas tem a ver com relações sexuais coletivas e pessoas públicas. Peças com “esta chamada” são aquelas criadas por alguém para fazer o usuário clicar sem pensar. Claro que demais métricas relacionadas à navegação, tempo de permanência, entre outras, deveriam ser consideradas mas, como bem se sabe, às vezes (para alguns anunciantes) não o são.
Mas voltando ao ponto sobre a relevância se auto-otimizando, como quebrar então este círculo vicioso? À primeira vista, eliminando a relação “acesso = relevância” como principal variável determinante, agregando a ela, sobretudo, um peso avaliativo dos usuários para que seja verificada também a eventual frustração deste para com o conteúdo acessado em função de um mau entendimento (ou má explicação) da informação mínima disponibilizada para que ele o acessasse.
Poder-se-ia até falar de uma convergência de fontes, identificando-se um mesmo conteúdo em diferentes locais e comparando diferentes avaliações de forma que uma pudesse influenciar a outra e determinar um identificador médio, mas é fácil aceitar que um mesmo objeto pode ter diferentes relevâncias em locais diferentes.
Em outra abordagem, também descrita no estudo supracitado, há uma variação da lei de Zipf formulada por Andrew D. Booth, engenheiro britânico, físico e cientista da computação, identificando que existem muitos elementos que possuem uma freqüência (relevância) muito baixa e, também por isto, similar. Isolando-se os dois extremos do ranking ter-se-ia, então, uma região de transição, onde aí sim estariam as verdadeiras palavras de maior relação semântica.
Independente da aplicação destas ou de outras soluções, sempre se deve olhar com cuidado qualquer Top10, pois Zipf pode estar tão presente quanto Murphy. [Webinsider]
.
JC Rodrigues
JC Rodrigues (@jcrodrigues) é publicitário pela ESPM, pós-graduado pela UFRJ, MBA pela ESPM. Foi professor da ESPM, da Miami Ad School e diretor da Disney Interactive, na The Walt Disney Company.
7 respostas
É, mas sempre nos deparamos com o mesmo problema: o que é relevante? Sempre tenho essa dificuldade
Penso ser esta relação o único e melhor modelo, ainda, para traçar um ranking existente,relevância se auto-otimizando pois é como o mercado conversa, forma opiniões e valores em sua máxima.
Ainda a audiência aumenta sempre exponencialmente
Bom o artigo. Gostaria de lembrar que relevância é muito particular. O que é relavante para mim, por não ser relevante para você e vice-versa, além de poder mudar em certos períodos/tempos. []´s.
Penso ser esta relação o único e melhor modelo, ainda, para traçar um ranking existente,relevância se auto-otimizando pois é como o mercado conversa, forma opiniões e valores em sua máxima.
O principal problema esta em definir o que é realmente relevante.
Compreendo a preocupação com o circulo vicioso. No entanto, acho que estas ferramentas de ranking colaborativos (2.0) são muito mais posivitas do que falhas.
Alguns elementos extra são bem vindos: avaliação diretas pelos usuários, tempo de permanencia nas páginas, se realizou a mesma busca novamente ou não, etc. Mas, da forma como é hoje, já ajuda bastante. Até pq para a relevância influenciar no acesso, precisa de tempo e muito acesso antes de obter a relevância.
Já imaginou se não ouvesse ordenação por relevância? Se a ordenação fosse apenas pelo número de vezes que o termo aparece na página?
Vamos usar o conhecimento que o grupo de usuários que ali passou antes já nos deu…
JC, concordo que um índice de relevância não deveria ter no número de click-throughs uma métrica determinante da classificação dos seus itens, tanto é que o Google, buscador mais utilizado, não se apóia tanto nesse fator. Assim como também concordo com a idéia de que o simples fato de ter alguém me dando um link não faz do meu conteúdo algo necessariamente relevante para todos os usuários. Acho que aí está o grande desafio dos buscadores e a relevância semântica do conteúdo apresentado (seja uma página, um vídeo, uma imagem, no idioma X ou Y, etc.) é o que traçará a qualidade das páginas de resultado de busca nos próximos anos. Vejo duas coisas aí: 1) lógica de classificação e 2) forma de apresentação do conteúdo julgado mais relevante.
Belo artigo! 🙂