O cientista de dados é um técnico, mas sabe que uma parte do big data é feita de cultura. Não é só buscar respostas, mas fazer as perguntas certas.
Muitos de vocês certamente já ouviram falar do unicórnio. Trata-se de uma metáfora utilizada por empreendedores e investidores do Vale do Silício, na Califórnia. Para eles, unicórnio é aquela empresa que passou a valer mais de um bilhão de dólares. Porém não é desse unicórnio que pretendo falar hoje, mas de outro: o “Cientista de Dados”.
O termo “Cientista de Dados” está relacionado ao seu correlato: “Ciência de Dados”. Trata-se de um campo emergente da Estatística e que começou a ganhar corpo na segunda metade do Século XX, com a emergência dos computadores e sua capacidade de armazenar diferentes tipos e volumes de dados.
Embora a capacidade de armazenamento dos computadores fosse, na época, ainda um grande problema já era possível perceber uma tendência, consolidada com a evolução da capacidade de armazenamento e fortalecida, no Século XXI, com o aparecimento do serviço de computação em nuvem.
Embora o conceito de “Ciência de Dados” seja relativamente antigo, é no começo da segunda década do Século XXI que a figura do “Cientista de Dados” emerge com grande força, frente ao rápido crescimento de diferentes tecnologias de armazenamento e extração de dados em massa. Mas há também outro dado a ser considerado: a consolidação das redes sociais como uma nova forma de comunicação em massa.
O cientista de dados
Frente ao gigantesco número de dados, armazenados em diferentes tipos de servidores ao redor do mundo, surge também a demanda de um profissional, capaz de extrair, analisar, interpretar e mais: ter insights a partir dos dados analisados.
Ao analisar, de forma crítica e não “vaga”, algumas características e contexto de tal demanda já é possível perceber as razões pelas quais Wagner Meira, professor e pesquisador da UFMG, atribui ao Cientista de Dados a imagem de um “unicórnio”.
Embora essa associação não remeta diretamente ao montante equivalente a um bilhão de dólares, valor correspondente a uma startup de sucesso nos EUA, é possível perceber o tamanho da expectativa atribuída ao Cientista de Dados.
Espera-se que este profissional domine técnicas complexas de gestão e extração de grandes volumes de dados, como Machine Learning, programação em “R”, SNA – Social Network Analysis, Matemática avançada e outras linguagens de programação como Python, PHP, além de conhecimento profundo de banco de dados, como Oracle e SQL. Todos os conhecimentos listados englobam somente a primeira parte do processo de extração dos dados em massa, mais conhecida como Data Mining.
Quais os critérios da análise?
A segunda etapa do trabalho do “Cientista de Dados”, tal como é idealizado pelo mercado, é a de analisar os dados. Nesta etapa o profissional, cujo perfil técnico foi suficiente para efetuar a extração dos dados, vê-se em um novo desafio. Como analisar? Com base em quais critérios? Para qual segmento? Conforme quais objetivos? O que antes demandava uma expertise essencialmente técnica e matemática passa a ser agora um complicador, pois está relacionada a uma outra demanda, ligada a um outro perfil profissional.
Com o trabalho de extração de dados concluído, o competente profissional de TI deve dividir o resultado desse trabalho com os analistas, que irão compreender em qual medida esse material coletado poderá ser útil para as estratégias de negócios da empresa.
Analistas de negócio, marketing, comunicação e economia costumam atuar nesta etapa do processo. É preciso então liberar o profissional de Data Mining para que ele foque novamente em novas demandas de extração de dados, deixando a Ciência de Dados seguir seu fluxo, que já se mostra ser um processo essencialmente multidisciplinar.
Vê-se então que, após os dados terem sido colhidos, entram em cena outros perfis profissionais. E o processo de trabalhar dados, de forma científica, não se esgota na etapa de análise, onde os analistas devem focar seus esforços. Os dados colhidos devem então ser lidos e interpretados por outros profissionais, com outras expertises e backgrounds, a exemplo de Sociólogos, Antropólogos, Psicólogos, Semioticistas e demais profissionais de comunicação com sólida bagagem acadêmica.
Se o processo de Data Mining, dado na etapa inicial do trabalho de Ciência de Dados, já é algo complexo, o processo de análise e interpretação pode ser ainda mais difícil, pois irá envolver questões emocionais, sociais e culturais.
Para muitos profissionais de TI, o mundo das variantes culturais, sociais e psicológicas se revela como uma terra completamente árida, hermética e desconhecida. Poucos profissionais percebem que a cultura foi engolida pela comunicação digital e se revela agora como “cultura digital”, “Cibercultura”, entre outras denominações.
Big data e cultura
A noção de “dados” já não pode mais ser dissociada da noção de cultura.
O artigo intitulado The Facebook is Eating the World, publicado em 2016, pela pesquisadora Emily Bell (na revista Columbia Journalism Review), mostra muito bem como a cultura foi estendida para o universo digital de redes sociais, como o Facebook e o Twitter.
Com base nesse ponto de vista, é possível dizer que uma parte considerável do Big Data é feita de cultura. E o trabalho de interpretação das culturas é tarefa para Sociólogos, Psicanalistas, Psicólogos, Semioticistas e Antropólogos.
Clifford Geertz, renomado antropólogo norte-americano, publicou, em 1973, o livro The Interpretation of Cultures (traduzido para o português como A Interpretação das Culturas). A obra é utilizada até hoje como base para pesquisas etnográficas em diferentes esferas, entre elas a da Antropologia do Consumo.
Ao se projetar para o universo da cultura, a Ciência de Dados, deixa de ser meramente matemática e se complexifica em uma dimensão também qualitativa. Compreender o aporte qualitativo é também compreender os sentidos e os significados envoltos e imersos na massa de dados extraída pela equipe técnica. Entender o caráter qualitativo dos dados é ir a fundo, compreendendo as razões pelas quais tais dados passaram a existir na rede.
Um bom exemplo a ser observado é o conjunto de dados relacionados a um contexto político. No Brasil, dados extraídos entre os anos de 2015 e 2016, referentes ao contexto político, revelam o retrato de um país dividido, polarizado em posições políticas radicais e com pouca abertura para o diálogo. E esse desenho pode ser observado a partir do trabalho dos pesquisadores do LABIC, coordenado pelo professor Fábio Malini.
A partir do momento em que dados mostram estar um país politicamente dividido, como aconteceu com o Brasil, é preciso ir além. É preciso compreender o contexto no qual aquela comunicação foi dada, deixando para trás os rastros suscetíveis de serem mapeados pelas ferramentas e processos de data mining.
A própria divisão política, em si, já demonstra haver um racha na cultura. De um lado podem estar a “direita”, vista pela “esquerda” como “coxinhas” e de outro a “esquerda”, vista pela “direita” como “mortadelas” . O retrato, apresentado pelos dados, além de revelar o racha na cultura revela também um racha, de ordem econômica, entre uma classe privilegiada e a classe emergente, que experimentou uma ascensão econômica e social em governos anteriores.
Em meio a tudo isso, emergem os sentidos e os significados ligados à exclusividade, inclusão e cidadania.
O jogo simbólico entre o pertencer e o não pertencer a um grupo privilegiado também aparece impregnado aos dados extraídos. Mas, para ser percebido, compreendido e interpretado não bastam os algoritmos e a lógica matemática. É necessário um complexo aporte, envolvendo Sociologia, Antropologia, Psicanálise, Linguística, Semiótica e Psicologia. É necessário então se projetar para o universo das Ciências Humanas.
Thick Data
Embora ainda não tão desenvolvida quanto o aporte quantitativo, a análise qualitativa dos dados, somada ao Big Data e aplicada à estratégias de negócios, já mostra grande potencial. E cada vez mais empresas se abrem a essa nova perspectiva. Empresas prestadoras de serviços como Stilingue e QSR International já oferecem ao mercado soluções que possibilitam transitar pelas abordagens quantitativas e qualitativas. Isso faz com que seus clientes obtenham um melhor aproveitamento do Big Data.
Em meio a este contexto, onde os dados precisam ser interpretados de forma multidisciplinar, um novo conceito chama a atenção do mercado. Trata-se do Thick Data.
Visto por alguns como o contrário do Big Data, por se ater a uma quantidade pequena de dados, o Thick Data mais parece ser a “segunda metade da laranja”. Não são entidades contrárias. Elas se completam quando o assunto é estratégia de negócio.
O termo Thick vem de Thick Description, oriundo dos trabalho do filósofo Gilbert Ryle. Traduzido para o Português como “Descrição Densa” é um termo muito usado na Antropologia, sendo parte do trabalho de Clifford Geertz na obra A Interpretação das Culturas.
Geertz utilizou o termo Thick Description para analisar as teias de significados tecidas pelo homem e presentes nas culturas. Geertz destaca o papel da Etnografia como um rigoroso método de entendimento dos sentidos e significados contidos em diferentes atos humanos como rituais e outras performances.
Interpretar
Trata-se então de não somente descrever, mapear, mas sim interpretar os significados e sentidos que possibilitaram a estruturação de tais atos.
Na esfera da publicidade e do consumo é possível observar diferentes tipos de rituais de consumo, como o “Cantinho Nespresso”, presente na comunicação digital de Nespresso, e também rituais presentes no consumo de cervejas, onde certos sentidos dão origem ao significado do “mais forte”, aquele que conseguiu beber várias garrafas sem cair bêbado.
Há aí um dado importante a ser considerado: “o vencedor”, o “imbatível”, merecedor do respeito e veneração de todo o grupo.
Esse é um exemplo que pode ser observado constantemente em fanpages e perfis do Facebook, espaço para a expressão de tais sentidos. E isso vai construindo um universo de dados sobre consumo de cafés e cervejas nas redes sociais. Dados esses que serão extraídos e analisados em novas estratégias de marcas. Mas, para que essas estratégias sejam mais assertivas é necessário interpretar e compreender os contextos de consumo e os lugares dessas bebidas na cultura.
Equipe multidisciplinar
Para concluir, é importante dizer que o trabalho dos Cientistas de Dados com perfil técnico não deve ser desmerecido. Embora esse texto tenha como objetivo principal promover uma reflexão sobre o trabalho do Cientista de Dados em um escopo de maior amplitude, indo do quantitativo ao qualitativo, nenhum dos elos do processo de ciência de dados deve ser desmerecido.
É importante lembrar, o trabalho de ciência de dados, desde a extração, análise interpretação até a produção dos desejados insights, depende de dados de um determinado contexto. E isso significa que antes de buscar respostas é necessário saber fazer as perguntas corretas.
E, para fazer perguntas mais assertivas, é necessário primeiramente compreender também os sentidos e os significados prévios, nos quais as perguntas serão feitas.
Trabalhando desta forma, uma equipe multidisciplinar de ciência de dados terá condições de compreender os dados como um aporte não somente quantitativo, mas compreende-los como reflexos de atividades significativas, essencialmente humanas. E é exatamente isso que irá contribuir para a conquista de grandes insights. [Webinsider]
. . . .
Midierson Maia
Midierson Maia (damaia@internucleos.com.br) é publicitário, professor e pesquisador pela ECA/USP. É também consultor para planejamento e análise de dados em comunicação e marketing digital e fundador da Internucleos Research and Innovation.