Uma das polêmicas mais interessantes na discussão do big data diz respeito a aplicabilidade de correlações encontradas nestes dados na vida prática. Aparentemente, o debate teve início em 2008, quando Chris Anderson, editor chefe da respeitada Wired, publicou “The Endof Theory: The Data Deluge Makes the Scientific Method Obsolete”, declarando resumidamente que “Petabytes nos permitem dizer: a correlação é suficiente”.
Com a frase de efeito, Chris queria expressar que o fato de termos uma vasta disponibilidade de dados e registros de toda natureza disponíveis para análise poderia: 1. Eliminar a necessidade de qualquer técnica de amostragem, dado que o universo estaria sempre representado; 2. Permitir que as correlações encontradas fossem tomadas como verdade, dado que mostrariam a realidade “nua e crua”, tal qual se encontra nos dados; 3. Dado que encontramos a correlação, não seria mais necessário buscar relações de causalidade, em outras palavras, justificar qual fato resultou no outro.
É claro que afirmações dessa natureza são suportadas por exemplos, e qualquer pessoa pode encontrar situações onde elas se aplicam. O ponto central, caro leitor, é que também podem ser encontradas situações onde a não avaliação de causalidade pode gerar previsões bastante incorretas, essencialmente obtidas das correlações e consequentemente, uma potencial tomada de decisão sem fundamento. Por exemplo, é famoso o caso das previsões do Google sobre futuros locais de epidemias de gripe que deu errado. Há N outros exemplos de correlações reais que não encontram explicação de causalidade.
Mesmo com todos os avanços da tecnologia de informação, ainda não é possível realizar análise de causalidade sem o bom senso humano. Isso faz com que, para decisões onde o risco de erro supera o valor da decisão automatizada suportada por correlações, seja necessário pisar forte nos freios e colocar pessoas muito competentes como comandantes dos processos de análise de dados.
Além do critério do risco associado com a decisão, também faz sentido perguntar o grau de confiança que temos de uma determinada correlação poder ser observada novamente no futuro. Sem esta medida, naturalmente estatística, as correlações são úteis apenas como instrumento de análise do passado. Não deixe de investigar mais!
Mãos a obra!
Leonardo Vieiralves Azevedo é diretor da Habber Tec Brasil.