Data Science - você tem prestado atenção a importância disso?

Tenho acompanhado de perto a evolução de Big Data no Brasil.
Publiquei um livro sobre o assunto em 2013. Em 2015, saiu a versão digital,
revisada. Em 2014, criamos uma startup focada em Data Science, a Litteris Consulting
e durante esses anos, em projetos e eventos especializados obtive uma visão
razoável do contexto de uso de Big Data. Esse termo, inclusive, não considero
adequado, pois passa a impressão de um imenso e estático volume de dados. O
valor real dos dados está em seu tratamento e análise, principalmente através
de algoritmos descritivos e/ou preditivos. E estamos evoluindo mais e mais em
direção a uma computação cognitiva, menos programática, onde o sistema pode
aprender por si mesmo. Portanto, talvez seja mais adequado começarmos a falar
em Machine Learning ou aprendizado de máquina e Deep Learning. Mas, para todos
os efeitos, o termo Big Data ainda está na pauta das conversas e reuniões com
executivos e vamos mantê-lo por enquanto.

Mas, discussões terminológicas à parte, é indiscutível que estamos
submersos em dados. Nosso mundo está cada vez mais sendo medido, mapeado e
registrado em bits. Nossas vidas físicas estão interligadas com a digital e nossa
pegada digital, que começa até antes do momento em que nascemos aumenta a
cada dia. Deixamos rastros digitais quando usamos nossos automóveis, caminhamos
na rua, fazemos buscas no Google, fazemos ligações ou usamos nossos apps,
pagamos uma conta com cartão, interagimos com amigos no Facebook, nos
divertimos com o Pokémon…

A importância desse novo mundo acelera um novo conjunto de
conhecimento que chamamos de Data Science. Dados passam a ser a nova moeda e
Data Science é o mecanismo e conhecimento para criar valor a partir dessa
moeda. O uso de analítica de dados tem impactos profundos na nossa sociedade. Provavelmente
muitos dos pressupostos que estão entranhados no nosso pensamento serão
modificados (alguns já estão) à medida que análise de dados for se disseminando
na sociedade. E, claro, surge uma nova função, que chamaremos de data scientist.
Um artigo icônico de 2102, chamou atenção
para esta função, com o título “Data
Scientist: The Sexiest Job of the 21st Century“.

Na prática, Data Science é a arte de transformar dados em
ações. É a capacidade que temos de responder questões mais complexas, que envolvem
uma amplitude de dados muito maior que as armazenadas nos nossos sistemas de
gestão. Sim, um ERP por exemplo, registra apenas as transações que os seus clientes
fizeram com você. Mas nada sabe sobre as transações que ele não fez com você,
mas com seus competidores, diretos ou indiretos. Então, analisando apenas sues
registos históricos você pode até comemorar que as compras mostram uma
tendência de crescimento e que em breve ele estará comprando o dobro do que
comprava no início do ano. Mas não mostra que ele poderá estar quintuplicando
as compras com seus concorrentes e na verdade você está perdendo market share!
A chave para obter essas respostas é entender e analisar os dados, através de
tecnologias, processos, métodos e algoritmos, e gerar ações a partir dos insights,
ações estas é que criarão valor para o negócio.

Na verdade, Data Science nos permite deslocar o eixo primordial
das decisões da intuição (baseado em hipóteses, pressupostos a até mesmo influência
da hierarquia) para indutivo, baseado em padrões descobertos pelas análises de padrões. É uma mudança fundamental no nosso processo
de tomada de decisões. Raciocínio indutivo nos permite formular e refinar novas
hipóteses e descobrir novos padrões. O modelo da realidade não é mais estático,
mas dinâmico, constantemente sendo atualizado e refinado. Novos modelos surgem constantemente!

A importância disso mostra por que começam a surgir estudo e
artigos destacando algoritmos. Por exemplo, “Games of
the future will be developed by algorithms, not humans” ou “An
MIT Algorithm Predicts the Future by Watching TV”.

Portanto, segundo o Gartner: Forget
Big Data, the Future is Algorithms. Mas, como começar esta jornada?

Antes de mais nada veja onde você se situa em termos
de maturidade em Data Science. Muitas organizações ainda estão envolvidas
apenas com o tradicional BI e nem começaram a usar Big Data. Algoritmos mais
sofisticados ainda passam longe das suas prioridades. Essas empresas, sem
sombra de dúvida, estão ainda na infância em termos de maturidade de Data Science.
À medida que a Quarta Revolução Industrial se dissemina pela sociedade, transformando
negócios e destruindo setores de indústria por completo, ou seja, avançamos na
“data economy”, Data Science torna-se ferramenta essencial. Sem uso contínuo de
analítica de dados e algoritmos, as dificuldades das empresas se manterem no mercado
ou continuarem relevantes aumentarão exponencialmente. É fácil e imaginar o contexto
competitivo: se você toma decisões baseados em intuições, sem dados, e seu
concorrente decide baseado na identificação de padrões e análises de dados,
qual sairá vitorioso? A probabilidade ele chega primeiro é imensamente maior. Vale
a pena ler o relatório da McKinsey, “The
need to lead in data and analytics“.
Apenas em casos excepcionais a decisão intuitiva pode ganhar. Aqui uma
ressalva: não significa que intuição não seja válida. Continua sendo, mas ela
ajuda a decidir por um caminho ou por outro, mas não derruba a validade dos dados.
Afinal, uma opinião sem dados é apenas uma opinião…

Há uns quinze anos atrás, antes do BI, a as decisões eram baseadas
única e exclusivamente na intuição, no instinto. Talvez uma boa uma exposição
fosse a vencedora, mesmo que apenas baseada em uma simples opinião. Com BI
passou-se a ter mais informações, mas como vimos acima, incompletas. Mas, por incrível
que pareça ainda encontramos empresas que nem tem um BI! Ainda está em seus
planos futuros!!! Suas decisões são baseadas única e exclusivamente na intuição
e experiência de seus executivos. Em um ambiente relativamente estável, até
funcionava. Mas em mundo que muda e evolui exponencialmente, o conhecimento de
dez anos atrás praticamente não tem mais valor nenhum…os próprios modelos de
negócios estão se transformando.

Mas, voltando ao Data Science e aos cientistas de dados. Tornar-se
um cientista de dados exige conhecimento e isso pode ser aprendido. Fundamental
é a capacidade de saber extrair insights das análises. E explicar como ele
chegou a determinadas conclusões. Deve garantir que sua análise foi efetuada em
cima de dados válidos (um grande problema nas maiorias das empresas), que os algoritmos
são válidos, foram testados e calibrados adequadamente, e claro, expor suas ideias
de forma clara, sem entrar nas tecnicidades das fórmulas matemáticas. A análise
para ter valor, tem que responder a uma questão de negócios. O que forma então
o conhecimento de Data Science? Conhecimento acumulado de ciência da computação,
matemática, estatística (cálculos e álgebra linear são fundamentais para que
entender as bases dos algoritmos a serem usados) e naturalmente conhecimento de
negócios. Fica claro que um profissional com todo este conhecimento é um
unicórnio. Um ser mítico, inexistente! Portanto, cada cientista de dados tem
seu viés, seja mais técnico seja mais focado em negócios ou ciência da
computação. Claro, tem que saber um pouco de tudo, mas tem conhecimento mais
aprofundado em um ou dois campos. Vejam este texto bem explicativo: “How
to Become a Data Scientist (Part 1/3)”.

Portanto estamos falando, para um projeto de analítica
avançada dar certo, de uma equipe de cientistas de dados. A composição da
equipe vai variar de empresa para empresa, mas deve evolver expertises em
matemática, ciência da computação e negócios. Uma equipe só de matemáticos ou
só de experts em ciência da computação pode fazer algoritmos incríveis, mas de pouco
valor para o negócio.

A jornada para Data Science, além talentos como cientista de
dados, passa também por muitas modificações na própria maneira da empresa operar.
Por exemplo, ainda é comum vermos dados fechados em silos, departamentalizados.
Um dado “fechado” é apenas uma pequena parecla do universo dos dos dados e
mostrará, se analisado, uma visão distorcida e incompleta da realidade. O primeiro
passo é eliminar isso. A proposta do conceito de Data Lake visa exatamente
acabar com essas barreiras artificiais, criadas pela estrutura departamentlziada
das empresas.

Data
Lake é um repositório que armazena um grande e variado volume de dados,
estruturados e não estruturados. É uma terminologia nova e, portanto, não
existe nem consenso quanto ao seu nome. Alguns chamam de Data Hub. Adotamos o
Data Lake pois é nome mais utilizado.

Com um Data Lake os diferentes dados são acessados e
armazenados em sua forma original e de lá podemos diretamente buscar
correlações e insights, como também gerar o tradicional Data Warehouse (DW)
para tratar dados estruturados. A diferença em relação ao Data Warehouse como
estamos acostumados é que no Data Lake os modelos de dados (ou schemas) não são
impostos up-front, mas emergem à medida que trabalhamos com os próprios dados.
Lembrando que no DW relacional o modelo de dados ou schema, deve ser
previamente definido. No Data Lake o conceito é de “late binding” ou “schema on
read”, quando o schema é construído em tempo de query. Chega em boa hora, pois
o tradicional modelo de Data Warehouse já existe há uns 30 anos, praticamente sem
modificações. Sempre foi baseado numa modelagem chamada de terceira forma
normal e que implica em uma única visão da verdade. Funcionou e funciona bem em
muitos casos, mas com o conceito de Big Data com volumes cada vez maiores,
variedades mais diversas de dados, muitas vezes não estruturadas e a
necessidade de ser flexível para fazermos perguntas não planejadas, o modelo DW
mostra claramente suas limitações. Não foi projetado para o mundo de hoje.

Para simplificar, um Data Lake pode ser imaginado como uma
imensa grid, com bilhões de linhas e colunas. Mas ao contrário de uma planilha
estruturada, cada célula deste grid pode conter um dado diferente. Assim uma
célula pode conter um documento, outra uma fotografia e uma terceira um
parágrafo ou uma única palavra de um texto. Outra contém um tuite ou um post do
Facebook. Não importa de onde o dado veio. Ele é apenas armazenado em uma
célula. Em outras palavras, um Data Lake é um Data Warehouse não estruturado
onde dados de diversas fontes são armazenados.

Um aspecto inovador do conceito é que não tendo a
necessidade de definir modelos previamente, eliminamos grande parte do tempo
gasto na preparação de dados, como necessário no modelo atual de Data
Warehouse. Se reduzirmos significativamente o tempo de preparação, nos
concentraremos nas análises. O que, de
fato, gera valor. Como os dados são armazenados em sua forma original, sem
passar por formatação prévia, podem ser analisados sob diversos contextos. Não
estão mais limitados a um único modelo de dados. Na prática é o modelo que
empresas como Google, Netflix e Yahoo usam para armazenar e pesquisar imensos e
variados volumes de dados.

O segredo do Data Lake é o conceito de metadado (dado sobre
dado). Cada dado inserido, ou como alguns dizem, ingerido, no Data Lake possui
um metadado de modo a identifica-lo e facilitar sua localização e posterior
análise. Como fazer isso? Colocar diversas tags em cada dado, de modo que
podemos localizar todos os dados de um determinado conjunto de tags. Uma
vantagem do conceito de tagging é que novos dados, de novas fontes, podem ser
inseridos e uma vez “tageados” passam a ser conectados aos que já estão
armazenados. Não há necessidade de reestruturações e redesenho dos modelos de
dados.

Como colocar em prática um Data Lake? A primeira etapa é
construir o repositório, onde dos dados são armazenados sem modificações,
tageados. A segunda etapa é a que gera valor, e é a que se costuma chamar de
destilação dos dados, onde as informações são extraídas e analisadas.

Mas alguns cuidados. À primeira vista Data Lake parece um
amontoado de dados sem controle. Não é verdade. É necessário um processo eficaz
de governança, que envolva segurança, controle de acesso e aderência a normas
de compliance. Também, por ser ainda um conceito novo, está cercado de hypes,
discursos ufanistas de fornecedores que o mostram como a solução de todos os
problemas de integração de dados. Realmente o apelo é forte, colocar todos os
dados em um lugar, e deixar que os usuários, por sua conta, façam suas buscas e
correlações, gerando eles mesmos os insights. Mas, todos nós sabemos que entre
o discurso e a prática existe um imenso gap. Aprenda com os pioneiros e
recomendo ler “Insights
From Early Data Lake Adopters“.

Lembre-se, antes de mergulhar em um Data Lake, estude mais o
assunto, defina claramente sua estratégia para usá-lo e se faz sentido para sua
empresa. Afinal, pato novo não mergulha em lago fundo…