Hadoop - Visão geral de Big Data

“90% dos dados mundiais foram gerados nos últimos anos.”

Devido ao advento de novas tecnologias, dispositivos e meios de comunicação, como sites de redes sociais, a quantidade de dados produzidos pela humanidade está crescendo rapidamente a cada ano. A quantidade de dados produzidos por nós desde o início dos tempos até 2003 foi de 5 bilhões de gigabytes. Se você empilhar os dados na forma de discos, eles podem preencher um campo de futebol inteiro. O mesmo montante foi criado a cada dois dias em2011, e a cada dez minutos em 2013. Essa taxa ainda está crescendo enormemente. Embora todas essas informações produzidas sejam significativas e possam ser úteis quando processadas, estão sendo negligenciadas.

O que é Big Data?

Big dataé uma coleção de grandes conjuntos de dados que não podem ser processados ​​usando técnicas de computação tradicionais. Não é uma única técnica ou ferramenta, ao contrário, tornou-se um assunto completo, que envolve várias ferramentas, técnicas e frameworks.

O que vem no Big Data?

Big data envolve os dados produzidos por diferentes dispositivos e aplicativos. A seguir estão alguns dos campos que estão sob a égide de Big Data.

  • Black Box Data - É um componente de helicópteros, aviões e jatos, etc. Capta vozes da tripulação de voo, gravações de microfones e fones de ouvido e as informações de desempenho da aeronave.

  • Social Media Data - As redes sociais, como Facebook e Twitter, contêm informações e visualizações postadas por milhões de pessoas em todo o mundo.

  • Stock Exchange Data - Os dados da bolsa de valores contêm informações sobre as decisões de 'compra' e 'venda' feitas em uma ação de diferentes empresas pelos clientes.

  • Power Grid Data - Os dados da rede elétrica contêm informações consumidas por um nó específico em relação a uma estação base.

  • Transport Data - Os dados de transporte incluem modelo, capacidade, distância e disponibilidade de um veículo.

  • Search Engine Data - Os motores de busca recuperam muitos dados de bancos de dados diferentes.

Portanto, Big Data inclui grande volume, alta velocidade e variedade extensível de dados. Os dados serão de três tipos.

  • Structured data - Dados relacionais.

  • Semi Structured data - Dados XML.

  • Unstructured data - Word, PDF, texto, registros de mídia.

Benefícios do Big Data

  • Usando as informações mantidas em redes sociais como o Facebook, as agências de marketing estão aprendendo sobre a resposta de suas campanhas, promoções e outros meios de publicidade.

  • Usando as informações nas mídias sociais, como preferências e percepção do produto de seus consumidores, empresas de produtos e organizações de varejo estão planejando sua produção.

  • Com base nos dados do histórico médico prévio dos pacientes, os hospitais estão prestando um atendimento melhor e mais rápido.

Tecnologias de Big Data

As tecnologias de big data são importantes para fornecer análises mais precisas, o que pode levar a tomadas de decisões mais concretas, resultando em maior eficiência operacional, redução de custos e riscos reduzidos para os negócios.

Para aproveitar o poder do big data, você precisaria de uma infraestrutura que pode gerenciar e processar grandes volumes de dados estruturados e não estruturados em tempo real e pode proteger a privacidade e segurança dos dados.

Existem várias tecnologias no mercado de diferentes fornecedores, incluindo Amazon, IBM, Microsoft, etc., para lidar com big data. Enquanto olhamos para as tecnologias que lidam com big data, examinamos as seguintes duas classes de tecnologia -

Big Data Operacional

Isso inclui sistemas como MongoDB, que fornecem recursos operacionais para cargas de trabalho interativas em tempo real, onde os dados são principalmente capturados e armazenados.

Os sistemas NoSQL Big Data são projetados para aproveitar as vantagens das novas arquiteturas de computação em nuvem que surgiram na última década para permitir que cálculos massivos sejam executados de forma econômica e eficiente. Isso torna as cargas de trabalho operacionais de big data muito mais fáceis de gerenciar, mais baratas e mais rápidas de implementar.

Alguns sistemas NoSQL podem fornecer insights sobre padrões e tendências com base em dados em tempo real com codificação mínima e sem a necessidade de cientistas de dados e infraestrutura adicional.

Big Data Analítico

Isso inclui sistemas como sistemas de banco de dados Massively Parallel Processing (MPP) e MapReduce que fornecem recursos analíticos para análises retrospectivas e complexas que podem afetar a maioria ou todos os dados.

MapReduce fornece um novo método de análise de dados que é complementar aos recursos fornecidos pelo SQL e um sistema baseado em MapReduce que pode ser ampliado de servidores únicos para milhares de máquinas de ponta e alta.

Essas duas classes de tecnologia são complementares e frequentemente implantadas juntas.

Sistemas Operacionais vs. Analíticos

Operacional Analítico
Latência 1 ms - 100 ms 1 min - 100 min
Simultaneidade 1000 - 100.000 1 - 10
Padrão de Acesso Escreve e lê
Consultas Seletivo Não seletivo
Escopo de Dados Operacional Retrospectivo
Usuário final Cliente Cientista de Dados
Tecnologia NoSQL MapReduce, banco de dados MPP

Desafios de Big Data

Os principais desafios associados ao big data são os seguintes -

  • Captura de dados
  • Curation
  • Storage
  • Searching
  • Sharing
  • Transfer
  • Analysis
  • Presentation

Para atender aos desafios acima, as organizações normalmente usam a ajuda de servidores corporativos.