Sobre como pensar com dados

O conjunto de habilidades requerido para se trabalhar com dados recebe várias definições: alfabetização de dados (data literacy no inglês), capacidade digital (digital capability), entre outros. Na prática, são as habilidades necessárias para identificar e delimitar um problema, acessar e manipular uma base de dados referentes ao problema, extrair insights e comunicá-los. Saber executar bem estas etapas é um ótimo indicativo de uma pessoa orientada a dados (data-driven).

Como desenvolver tais habilidades é um tema que não é debatido em profundidade, ainda mais quando comparado com a atenção dada a novidades tecnológicas, como o desenvolvimento recente de redes neurais profundas, seus “transformers” e “LLMs”. Eu entendo, eu também li a notícia sobre o professor que conseguiu enganar ChatGPT e fazê-lo criar uma fábrica de vírus e fui fisgado. Avanços tecnológicos e o hype em volta são mesmo muito interessantes.

Mas quando o assunto muda para desenvolvimento de habilidades em dados, quando procurar algum curso na área, note que quase sempre o foco é em uma ferramenta, seja Python (quantas “trilhas para se tornar um cientista de dados usando Python” você já não viu?), Power BI, Tableau, etc. E muito pouco em como desenvolver uma mentalidade de resolução de problemas com dados que seja agnóstica à ferramenta.

O ponto principal que quero endereçar aqui é que tanto no mundo corporativo quanto na sociedade em geral, o foco excessivo e a superestimação dos últimos desenvolvimentos tecnológicos cria abismos imaginários para muitas pessoas que querem começar a usar mais dados mas que se sentem perdidas em meio a tanta informação com foco em tecnologia e ainda por cima usando termos obscuros em inglês. Isso se traduz na fatídica frase “isso não é pra mim”, que costuma andar junto com uma parecida, mais antiga: “eu não sou de exatas”.

Assim como não existe o mito da persona de exatas e da de humanas, também não existe a persona de dados e aquela que é incapaz de trabalhar com dados. Qualquer um pode e deve, e não é necessário ter um diploma em matemática ou estatística para isso. Da minha experiência nos últimos quatro anos trabalhando fornecendo treinamento e desenvolvendo programas para ajudar as pessoas a serem mais orientadas a dados em suas rotinas, o que vejo que falta nas organizações é simplesmente dar a devida valorização à questão, da mesma forma com que se dá às tecnologias mais faladas no momento. No fim das contas ainda são as pessoas que geram resultados. Com a tecnologia como meio. Das 15 habilidades listadas pela plataforma Gupy do profissional do futuro, pelo menos 5 tem relação direta uma mentalidade orientada a dados: aprendizagem ativa, pensamento analítico e inovação, criatividade, pensamento crítico e resolução de problemas complexos.

Existem duas perguntas que eu acredito que indivíduos e organizações devam se fazer quando pensamos em desenvolvimento de habilidades em dados. A primeira é o que queremos alcançar com isso? Parece uma pergunta simples e ingênua com uma resposta direta, mas não é. Uma resposta comum é conseguir uma mudança de paradigma. Pode ser que uma abordagem baseada em dados para resolver problemas não seja o padrão. Em vez disso, o status quo é baseado em intuição e experiências passadas. Ou pode ser que se deseje uma capacitação para uso de novas tecnologias, ou para se preparar para uma nova carreira, como analista, cientista ou engenheiro de dados. A resposta vai ajudar no direcionamento sobre quais conceitos, cursos ou treinamentos você precisa ir atrás.

A segunda pergunta é para quem quer a mudança de paradigma: o que significa ser orientado por dados? Não acredito que exista uma resposta bem definida e aceita, portanto vou dar a minha visão. Significa ser o mais objetivo e rigoroso possível nas conclusões tiradas da análise dos dados.

O rigor pode ser alcançado quando usamos as ferramentas certas para modelar, interpretar e visualizar dados. E as ferramentas neste caso vêm da Estatística, a linguagem dos dados. A boa notícia é que você não precisa de um diploma universitário em matemática para aprender o que é necessário. Precisa apenas saber quais ferramentas usar dentre uma gama de inúmeras opções. A resposta à primeira pergunta aliada a um bom programa de alfabetização de dados deve ser capaz de fornecer esse discernimento. Eu sou da opinião de que um ótimo ponto de partida é um sólido conhecimento em estatística descritiva.

A objetividade está relacionada a uma armadilha comum que estraga as análises: nossos vieses cognitivos. Se você usa o LinkedIn com certa frequência é muito provável que já tenha visto alguém postar sobre a história dos aviões da segunda guerra mundial. Esse post obrigatoriamente vem ilustrado com essa imagem aqui:

Fonte: algum dos milhares de textos do LinkedIn sobre este

Se você não conhece a história, segue um breve resumo. O governo americano chamou alguns matemáticos brilhantes para tentar resolver o seguinte problema: como melhor reforçar os aviões que voltavam de combate durante a segunda guerra para deixá-los mais resistentes para combates futuros? A base de dados que os matemáticos tinham eram os aviões que voltavam e as marcas dos tiros (as bolinhas vermelhas na imagem acima) que esses aviões sofreram. É muito comum quem olha essa imagem e o problema descrito pensar de cara que deve-se reforçar toda a região das asas e a cauda, quando na verdade é o contrário. A sacada está em entender que se o avião voltou ele é um sobrevivente e as regiões marcadas já são resilientes. O problema são os aviões que não sobreviveram e não compõem a base de dados. A solução foi reforçar justamente a região central do avião (a que não tem bolinhas vermelhas entre a asa e cauda) que é onde fica o motor. Os aviões que foram abatidos provavelmente tomaram tiro no motor e nunca voltaram para contar a história. Esse é um clássico exemplo de viés de sobrevivência.

Os efeitos dos vieses sobre nossos julgamentos se estendem por todos os aspectos do ciclo de alfabetização de dados: leitura, análise e comunicação. Não é coincidência que alguns dos melhores e mais famosos livros sobre o assunto têm algum tipo de jogo de palavras sobre isso em seus títulos. “Iludidos pelo Acaso”, de Nassim Taleb. “Como mentir com estatística”, de Darrel Huff. “Factfulness — dez razões pelas quais estamos errados sobre o mundo”, de Ola Rosling.

O exemplo a seguir ilustra bem a importância da combinação estatística + ciência cognitiva (também conhecida como teoria da decisão).

Suponha que temos uma empresa realiza empréstimos bancários para varejistas (nossa população para esta situação específica). Para avaliar se um negócio em particular é um bom pagador nós montamos uma base de dados a partir de pagamentos realizados via cartão de crédito (nossa amostra). Atualmente com as “maquininhas” é muito fácil coletar estes dados via internet. O problema de seguir com uma base de dados como esta para desenvolver um modelo de machine learning que vá classificar varejistas para ganhar ou não empréstimos é que nós estaríamos ignorando todos os varejistas (em geral os pequenos) que ainda dependem pagamentos em espécie. Esse é um caso típico do chamado viés de amostragem. Entender a relação entre população e amostra é estatística. Entender como uma amostragem inadequada pode afetar nosso julgamento é teoria de decisão.

No livro ‘Factfulness’, Ola Rosling lista dez instintos que nos impedem de fazer melhores interpretações do mundo, explorando como a dualidade do conhecimento estatístico e os vieses cognitivos afetam nossa interpretação dos dados. O exemplo a seguir vem do livro.

O gráfico à esquerda mostra a diferença entre as notas médias de matemática de homens e mulheres nos testes SAT nos Estados Unidos de 1965 a 2016. O gráfico à direita mostra a diferença entre a renda média das pessoas que vivem no México e nos Estados Unidos.

Fonte: Factfulness, College Board via Perry e Gapminder

Instintivamente, poderíamos olhar para esses gráficos e concluir que os homens são melhores em matemática do que as mulheres e que as pessoas que vivem nos Estados Unidos têm renda mais alta do que os mexicanos. Mas é realmente o caso? O que nós fizemos foi pegar todos os resultados do teste e, ano a ano, condensar os inúmeros resultados de garotos e garotas em uma única métrica: a média (exemplo de um conceito estatístico básico em ação: saber medida de tendência central). Uma maneira diferente de analisar os mesmos dados seria ver a distribuição das notas sem nenhum tipo de agregação, apenas mantendo a distinção por gênero. O gráfico abaixo mostra o resultado desta nova análise para o ano de 2016:

Fonte: Factfulness, College Board via Perry e Gapminder

Agora temos uma noção melhor de como os indivíduos compõem o número médio. Há uma sobreposição quase completa entre as pontuações de matemática de homens e mulheres. Isto é, a maioria das mulheres tem um par masculino: um homem com a mesma pontuação em matemática que elas. Quando se trata de rendimentos no México e nos Estados Unidos, a sobreposição também existe, apesar de parcial. O que fica claro, porém, olhando para os dados dessa maneira, é que os dois grupos de pessoas — homens e mulheres, mexicanos e pessoas que vivem nos Estados Unidos — não estão separados. Eles se sobrepõem.

Estes exemplos ilustram o que eu acredito ser os pilares de uma alfabetização em dados efetiva e que podem ser resumidos na equação a seguir:

Basear-se apenas nos números (fundamentação estatística), sem levar em conta os potenciais riscos discriminatórios dos nossos vieses cognitivos (teoria de decisão) na tomada de decisão é o que nos leva a erros de julgamento, discriminação algorítmica e a projetos de transformação digital que fracassam.

Uma resposta para “Sobre como pensar com dados”.

  1. […] Atrelar um número a uma conclusão passa um senso de autoridade. Ainda mais se as palavras “estatística”ou “ciência de dados” estiverem no meio. A cientista de decisão do Google Cassie Kozyrkov chama isso de viés de ciência de dados. O termo é excelente por que em meio a tanto hype em torno do uso de dados para tomada decisão, parece que salpicar um termo estatístico aqui e ali em uma apresentação ou análise automaticamente faz com a Verdade apareça. Um outro exemplo comum de viés de ciência de dados é atrelar um gráfico bonito a uma conclusão, mas que no fundo não complementa a análise ou até leva a conclusões enganosas. Eu falei um pouco disso nesse texto aqui. […]

    Curtir

Deixe um comentário