Autor convidado: Elcio Santos, CEO, AlwaysOn
Todo dia é gerado um Everest de dados. Você tem a opção de ser soterrado por eles ou escalá-los para conseguir superar os desafios que tem à frente.
Não estou exagerando.
O Instituto Gartner calculou em 2019 que eram gerados a cada dia 2,2 milhões de terabytes de dados.
Nesse ritmo, já ultrapassamos um total de 40 trilhões de gigabytes de dados acumulados em todo o mundo.
A boa notícia é que essa imensa quantidade de dados está disponível para você.
A má notícia, entretanto, é que apenas um pequeno volume dessa cordilheira de everests – o Big Data – é constituído por dados estruturados em algum data warehouse corporativo, que você pode acessar eficientemente para embasar suas decisões de negócio — principalmente se sua empresa pretende ser “customer-centric”.
A grande maioria são dados não estruturados, praticamente impossíveis de serem utilizados em seu estado bruto.
Para funcionar, é preciso acrescentar um novo termo nessa equação: Big Data Analytics
Big Data vs. Big Data Analytics
Como disse acima, o termo “Big Data” refere-se a um volume de dados que é tão grande, rápido ou complexo que é difícil senão impossível de processar, usando métodos tradicionais.
O ato de acessar e armazenar grandes quantidades de informações para análises existe há muito tempo, mas o conceito de Big Data ganhou impulso no início dos anos 2000, quando Doug Laney, analista do Gartner, deu contornos mais nítidos à definição de Big Data, na medida em que a articulou em torno de três dimensões, os cinco V’s:
Volume
As organizações coletam dados de uma variedade de fontes, incluindo transações comerciais, dispositivos inteligentes (IOT), equipamentos industriais, vídeos, mídias sociais e muito mais.
No passado, o armazenamento teria sido um problema – mas agora o armazenamento em datalake e Hadoop reduziram o problema.
Velocidade
Com o crescimento da Internet das Coisas, os fluxos de dados para empresas ganharam uma velocidade sem precedentes e devem ser tratadas em tempo hábil.
Tags, sensores e medidores inteligentes estão dirigindo a necessidade de lidar com essas torrentes de dados em tempo quase real.
Variedade
Os dados são em todos os tipos de formatos – de bancos de dados tradicionais a bancos de dados de texto não estruturados, e-mails, vídeos, áudios, dados de ticker e transações financeiras.
Com o passar do tempo, duas outras dimensões foram acrescentadas para ajudar os cientistas de dados a serem mais efetivos e comunicarem melhor as características do Big Data:
Variabilidade
Os fluxos de dados são imprevisíveis — mudando frequentemente e variando muito.
É desafiador, mas as empresas precisam saber quando algo está se tornando uma tendência nas mídias sociais e como gerenciar picos de carga de dados diários, sazonais e acionados por eventos.
Veracidade
Como os dados vêm de muitas fontes diferentes, é difícil vincular, combinar, limpar e transformar dados entre sistemas.
As empresas precisam conectar e correlacionar relacionamentos, hierarquias e múltiplas ligações de dados.
Caso contrário, seus dados podem sair rapidamente do controle.
Essa última dimensão é fundamental.
Sem garantir a qualidade dos dados (data quality), você ainda estará correndo o risco de ficar soterrado por essa montanha de dados – e isso pode afetar até mesmo a experiência do seu cliente (customer experience).
Aqui é onde entra o Big Data Analytics.