Antes de irmos para a introdução ao Big Data, você primeiro precisa saber
O que são dados?
As quantidades, caracteres ou símbolos nos quais as operações são realizadas por um computador, que podem ser armazenados e transmitidos na forma de sinais elétricos e gravados em mídia de gravação magnética, óptica ou mecânica.
Agora, vamos aprender a introdução do Big Data
O que é Big Data?
Big Data é uma coleção de dados de grande volume, mas que cresce exponencialmente com o tempo. São dados com tamanho e complexidade tão grandes que nenhuma das ferramentas tradicionais de gerenciamento de dados pode armazená-los ou processá-los com eficiência. Big data também é um dado, mas com um tamanho enorme.
Neste tutorial, você aprenderá,
- O que são dados?
- O que é Big Data?
- Exemplos de Big Data
- Tipos de Big Data
- Características do Big Data
- Vantagens do processamento de Big Data
Exemplos de Big Data
A seguir estão alguns dos exemplos de Big Data -
A Bolsa de Valores de Nova York gera cerca de um terabyte de novos dados comerciais por dia.
Mídia social
A estatística mostra que mais de 500 terabytes de novos dados são ingeridos nos bancos de dados do site de mídia social Facebook , todos os dias. Esses dados são gerados principalmente em termos de uploads de fotos e vídeos, trocas de mensagens, colocação de comentários, etc.
Um único motor Jet pode gerar mais de 10 terabytes de dados em 30 minutos de voo. Com muitos milhares de voos por dia, a geração de dados chega a muitos Petabytes.
Tipos de Big Data
A seguir estão os tipos de Big Data:
- Estruturada
- Não estruturado
- Semi-estruturado
Estruturada
Quaisquer dados que podem ser armazenados, acessados e processados na forma de formato fixo são denominados dados 'estruturados'. Com o passar do tempo, o talento em ciência da computação obteve maior sucesso no desenvolvimento de técnicas para trabalhar com esse tipo de dados (onde o formato é bem conhecido de antemão) e também na extração de valor dele. No entanto, hoje em dia, estamos prevendo problemas quando o tamanho desses dados aumenta muito, os tamanhos típicos estão na faixa de vários zetabytes.
Você sabe? 10 21 bytes iguais a 1 zetabyte ou um bilhão de terabytes formam um zetabyte .
Olhando para esses números, pode-se entender facilmente por que o nome Big Data é dado e imaginar os desafios envolvidos em seu armazenamento e processamento.
Você sabe? Os dados armazenados em um sistema de gerenciamento de banco de dados relacional são um exemplo de dados "estruturados" .
Exemplos de dados estruturados
Uma tabela 'Funcionário' em um banco de dados é um exemplo de Dados Estruturados
ID do Empregado | Nome do empregado | Gênero | Departamento | Salary_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Masculino | Finança | 650000 |
3398 | Pratibha Joshi | Fêmea | Admin | 650000 |
7465 | Shushil Roy | Masculino | Admin | 500000 |
7500 | Shubhojit Das | Masculino | Finança | 500000 |
7699 | Priya Sane | Fêmea | Finança | 550000 |
Não estruturado
Quaisquer dados com forma ou estrutura desconhecida são classificados como dados não estruturados. Além de serem enormes, os dados não estruturados apresentam vários desafios em termos de processamento para derivar valor deles. Um exemplo típico de dados não estruturados é uma fonte de dados heterogênea contendo uma combinação de arquivos de texto simples, imagens, vídeos etc. Hoje em dia, as organizações têm uma grande quantidade de dados disponíveis com eles, mas, infelizmente, eles não sabem como extrair valor disso desde esses dados estão em sua forma bruta ou formato não estruturado.
Exemplos de dados não estruturados
A saída retornada pela 'Pesquisa Google'
Semi-estruturado
Os dados semiestruturados podem conter as duas formas de dados. Podemos ver os dados semiestruturados como um formato estruturado, mas na verdade não é definido com, por exemplo, uma definição de tabela em um SGBD relacional. Um exemplo de dados semiestruturados são dados representados em um arquivo XML.
Exemplos de dados semiestruturados
Dados pessoais armazenados em um arquivo XML-
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Crescimento de dados ao longo dos anos
Observe que os dados do aplicativo da web, que não são estruturados, consistem em arquivos de log, arquivos de histórico de transações, etc. Os sistemas OLTP são construídos para trabalhar com dados estruturados em que os dados são armazenados em relações (tabelas).
Características do Big Data
Big data pode ser descrito pelas seguintes características:
- Volume
- Variedade
- Velocidade
- Variabilidade
(i) Volume - O próprio nome Big Data está relacionado a um tamanho que é enorme. O tamanho dos dados desempenha um papel crucial na determinação do valor dos dados. Além disso, se um dado específico pode realmente ser considerado um Big Data ou não, depende do volume de dados. Portanto, 'Volume' é uma característica que precisa ser considerada ao lidar com Big Data.
(ii) Variedade - O próximo aspecto do Big Data é sua variedade .
Variedade se refere a fontes heterogêneas e à natureza dos dados, tanto estruturados quanto não estruturados. Nos primeiros dias, planilhas e bancos de dados eram as únicas fontes de dados consideradas pela maioria dos aplicativos. Hoje em dia, dados na forma de e-mails, fotos, vídeos, dispositivos de monitoramento, PDFs, áudio, etc. também estão sendo considerados nas aplicações de análise. Essa variedade de dados não estruturados apresenta certos problemas para armazenamento, mineração e análise de dados.
(iii) Velocidade - O termo 'velocidade' refere-se à velocidade de geração de dados. A rapidez com que os dados são gerados e processados para atender às demandas determina o potencial real dos dados.
O Big Data Velocity lida com a velocidade com que os dados fluem de fontes como processos de negócios, logs de aplicativos, redes e sites de mídia social, sensores, dispositivos móveis, etc. O fluxo de dados é maciço e contínuo.
(iv) Variabilidade - refere-se à inconsistência que às vezes pode ser mostrada pelos dados, dificultando o processo de ser capaz de manipular e gerenciar os dados de forma eficaz.
Benefícios do processamento de Big Data
A capacidade de processar Big Data traz vários benefícios, como
- As empresas podem utilizar inteligência externa ao tomar decisões
O acesso a dados sociais de mecanismos de pesquisa e sites como o Facebook e o Twitter estão permitindo que as organizações ajustem suas estratégias de negócios.
- Melhor atendimento ao cliente
Os sistemas tradicionais de feedback do cliente estão sendo substituídos por novos sistemas projetados com tecnologias de Big Data. Nestes novos sistemas, Big Data e tecnologias de processamento de linguagem natural estão sendo usados para ler e avaliar as respostas do consumidor.
- Identificação antecipada de risco para o produto / serviços, se houver
- Melhor eficiência operacional
As tecnologias de Big Data podem ser usadas para criar uma área de teste ou zona de aterrissagem para novos dados antes de identificar quais dados devem ser movidos para o data warehouse. Além disso, essa integração de tecnologias de Big Data e data warehouse ajuda uma organização a descarregar dados acessados com pouca frequência.
Resumo
- Definição de Big Data: Big Data é definido como dados de grande tamanho. Bigdata é um termo usado para descrever uma coleção de dados de tamanho enorme, mas que cresce exponencialmente com o tempo.
- Os exemplos de análise de Big Data incluem bolsas de valores, sites de mídia social, motores a jato, etc.
- Big Data pode ser 1) estruturado, 2) não estruturado, 3) semiestruturado
- Volume, variedade, velocidade e variação são algumas características de Big Data
- Melhor atendimento ao cliente, melhor eficiência operacional, melhor tomada de decisões são algumas das vantagens do Bigdata