Que desafios enfrenta o Big Data?

Que os desafios enfrenta o Big Data? A Teradata, uma empresa especializada em plataformas, aplicações de marketing e serviços de análises de dados, resolveu lançar um documento no qual explana as principais explora precisamente esses desafios e as grandes questões que os seus clientes têm de enfrentar.

big-data-analytics

As empresas com as quais a Teradata trabalha, não só vão mais além da análise de transações e eventos, mas também analisam as interações e dominam os cinco desafios chave do Big Data, explicam no documento:

O desafio dos dados multiestruturados: Os dados de transações e eventos que se foram armazenando, integrando e analisando nos Data Warehouses tradicionais e em aplicações de Business Intelligence durante as últimas três décadas, estão em grande parte orientados de forma registar ocorrências e definem-se em termos de esquema explícito. Nem sempre se pode dizer o mesmo das novas fontes de Big Data. Social data e machine log data caracterizam-se pela sua volatilidade, apresentando vários cenários: o modelo de informação que utilizamos para as entender pode ser implícito, orientado ao documento, incluindo ou não algum nível de organização hierárquica; ou pode mudar continuamente se quisermos aplicar diferentes interpretações aos dados em tempo real (esquema de leitura) em função de cada aplicação.
Martin Willcox, Diretor de Produto e Soluções de Marketing Internacional da Teradata Corporation, diz: “As novas gerações de analistas de sistemas de negócios ensinaram-nos que os processos de negócio estão a mudar continuamente, mas que os dados e as suas relações não, o que torna importante moldar os dados. O Big Data acaba com estes ensinamentos e faz com que a abordagem tradicional para integrar dados não seja produtiva, uma vez que obriga que se aplique um esquema rígido e inflexível aos dados, à medida que passam a fazer parte dum ambiente de análise”.

O desafio das analíticas interativas: As interações, tanto entre pessoas e coisas, pessoas e pessoas ou coisas e coisas, podem ser reproduzidos em redes ou gráficos. Muitas análises de interações caracterizam-se por operações em que a ordem de registo é importante. No entanto, a cronologia, a trajetória e o gráfico dão problemas devido às tecnologias do padrão ANSI SQL, uma vez que estão baseadas no modelo relacional e na teoria de conjuntos, em que a ordem de registo não tem importância. São várias as extensões que foram propostas ao longo dos anos para que o padrão ANSI SQL responda a estas limitações, entre elas as funções User Defined Functions (UDF) e Order Analytical OLAP. Contudo estas são apenas uma solução parcial, uma vez que nem sempre se poderá perceber quando é que uma função reflete o esquema preciso dos dados que necessitamos de processar.

“O problema destas consultas é que são muitas vezes difíceis de expressar no padrão ANSI SQL e pode ser demasiado caro a nível informático fazê-las funcionar em plataforma otimizadas para o processamento com base em conjuntos, mesmo sendo bem sucedidos”, explica Martin Willcox da Teradata.

O desafio dos dados com ruído: Alguns grupos de Big Data são extensos e com ruído, tornando-se ainda maiores de forma acelerada. O acesso aos mesmos é feito com pouca frequência de forma a ajudar ao processamento associado com objetivos de nível de serviço sem valor provado. As empresas têm que lidar com volumes de dados cada vez maiores em que o input útil está acompanhado por um volume ainda maior de dados que representam ruído para a maioria das empresas, que procuram modelos rentáveis de armazenamento e processamento de dados. No entanto, estes dados podem ser uma grande oportunidade para um pequeno grupo de Data Scientists.

• O desafio “pode haver uma agulha num palheiro, mas se são necessários 12 meses e 500.000€ para a descobrir, não há tempo nem dinheiro suficientes”: Muitas empresas sabem que os novos grupos de Big Data são valiosos mas não sabem onde procurá-los. As abordagens tradicionais de Integração de Dados, passam pela modelagem dos sistemas de origem, desenvolvimento de um novo modelo integrado de dados, aplicação dos modelos de origem aos de destino, desenvolvimento de processos ETL que captem e transformem de forma precisa os dados do sistema de origem para o modelo de destino, etc. Porém, estes processos costumam causar problemas com a captura de dados multiestruturados e têm ainda mais dificuldades nestes cenários, devido ao tempo e custo que existe entre o Data Scientist e o acesso a novos dados. Estima-se que os custos de aquisição, normalização e integração de dados representam 70% do custo total da implementação de uma base de dados analítica, e ainda assim é mais barata que as alternativas existentes.

“Quando não queremos perguntar ou responder de forma fiável, mas sim explorar novos conjuntos de dados para compreender se nos permitem levantar novas questões que valham a pena responder, talvez necessitemos de um novo método para adquirir dados que nos proporcionem uma qualidade de dados suficientemente boa”, afirma Martin Willcox. “Nestes contextos de “exploração e descoberta” as experiências com os dados para identificar novas hipóteses que mereçam ser testadas e para identificar novas fontes de dados, são contínuas. Sendo que muitas das experiências irão falhar, a produtividade e o ciclo de tempo são fundamentais para alcançar o sucesso”, conclui.

O desafio de ir mais além e o valor da entrega: Muitos fornecedores e analistas continuam a afirmar que “o objetivo dum projeto de Big Data é aumentar os conhecimentos empresariais”. No entanto, isto não está de todo correto, uma vez que o objetivo deve ser usar essa visão para mudar o negócio e assim impulsionar o retorno de investimento (ROI).

“Como disse um dos meus antigos chefes: “processos de negócios antiquados + tecnologia nova e cara = processos de negócios caros e antiquados”. Utilizar os conhecimentos obtidos a partir das experiências analíticas, por vezes obriga a que consideremos os dados e analíticas necessárias, de maneira que possamos partilhar de forma fiável e precisa novos KPI, medidas e alertas com toda a empresa”, diz Martin. “Embora seja certo que os Data Scientists são cada vez mais importantes para qualquer negócio, não são eles que o fazem funcionar, mas sim os gerentes, colaboradores, responsáveis pelo apoio ao cliente ou supervisores de logística. Além disso, todos os dados que não podem ser processados e partilhados fora do Laboratório de Dados não permitirão fazer um trabalho melhor que o anterior”, acrescentou.

Segundo a empresa, estes cinco desafios chave e as suas consequências é o que impulsiona a evolução de amplo alcance da Enterprise Analytical Architecture, desde que Devlin, Inmon, Kimball,etc. apresentaram o Enterprise Data Warehouse.