Ferramentas essenciais do Hadoop para trituração de dados de grande volume.

Hoje o termo mais popular no mundo de TI é ‘Hadoop’. Dentro de um curto espaço de tempo, Hadoop cresceu maciçamente e provou ser útil para uma grande coleção de diversos projetos. A comunidade Hadoop está evoluindo rapidamente e tem um papel proeminente em seu ecossistema.

Aqui está um olhar para as ferramentas essenciais Hadoop que é usado para lidar com grandes dados.

Ambari

Ambari é um projeto Apache apoiado por Hortonworks. Ele oferece uma GUI (interface gráfica de usuário) baseada na web com scripts de assistente para configurar clusters com a maioria dos componentes padrão. As provisões de Ambari controlam e monitora todos os conjuntos de trabalhos de Hadoop.

Hdfs-logo

O HDFS  distribuído sob licença Apache oferece uma estrutura básica para dividir-se recolhas de dados entre vários nós. Em HDFS, os arquivos grandes são divididos em blocos, onde vários nós mantêm todos os blocos de um arquivo. O sistema de arquivos é projetado de forma a misturar a tolerância a falhas com alto débito. Os blocos de HDFS são carregados para manter o streaming estável.Geralmente eles não são armazenados em cache para minimizar a latência.

Hbaselogo

HBase é um sistema de gerenciamento de banco de dados orientada a coluna que roda em cima do HDFS. Aplicativos HBase são escritos em Java, muito parecido com o aplicativo MapReduce. Ele compreende um conjunto de tabelas, onde cada tabela contém linhas e colunas como um banco de dados tradicional. Quando os dados caem na tabela grande, o HBase armazenará os dados, procurá-los-á e compartilhará automaticamente a tabela através dos vários nós de modo que os trabalhos de MapReduce possam o funcionar localmente. HBase oferece uma garantia limitada para algumas alterações locais. As alterações que acontecem em uma única linha podem ter êxito ou falhar ao mesmo tempo.

apache-hive.png

Hive .Se você já é fluente com o SQL, então você pode aproveitar Hadoop usando Hive. Ele foi desenvolvido por algumas pessoas no Facebook. Apache Hive regula o processo de extração de bits de todos os arquivos no HBase. Ele suporta a análise de grandes conjuntos de dados armazenados em HDFS Hadoop e sistemas de arquivos compatíveis. Ele também fornece um SQL como a linguagem chamada HSQL (HiveSQL) que entra nos arquivos e extrai os snippets necessários para o código.

Sqop

Apache Sqoop é especialmente concebido para transferir dados em massa de forma eficiente a partir dos bancos de dados tradicionais em Hive ou HBase. Ele também pode ser usado para extrair dados do Hadoop e exportá-los para dados externos estruturados, como bancos de dados relacionais e data warehouses corporativos. O Sqoop é uma ferramenta de linha de comando, mapeando entre as tabelas e a camada de armazenamento de dados, traduzindo as tabelas em uma combinação configurável de HDFS, HBase ou Hive.

Pig1

Apache Pig. Quando os dados armazenados é visível para Hadoop,  mergulha os dados e executa o código que está escrito na sua própria língua, chamada Pig Latin. Pig Latin é preenchido com abstrações para manipular os dados. Pig vem com funções padrão para tarefas comuns como a média de dados, trabalhando com datas ou para encontrar diferenças entre seqüências de caracteres. Pig também permite ao usuário escrever idiomas por conta própria, chamado UDF (User Defined Function), quando as funções padrão ficam aquém.

Zookeper

Zookeeper é um serviço centralizado que mantém, configura as informações, dá um nome e fornece sincronização distribuídas através de um cluster. Ele impõe uma hierarquia semelhante a um sistema de arquivos no cluster e armazena todos os metadados das máquinas para que possamos sincronizar o trabalho das várias máquinas.

NoSQL

Alguns clusters Hadoop integram com NoSQL, armazenamentos de dados que vêm com seus próprios mecanismos para armazenar dados em um cluster. Isso permite que eles armazenem e recuperem dados com todos os recursos do banco de dados NoSQL, após o qual o Hadoop pode ser usado para agendar jobs de análise de dados no mesmo cluster.

Mahoutlogo

Mahout foi concebido para implementar um grande número de algoritmos, classificações e filtragem de análise de dados para cluster do Hadoop. Muitos dos algoritmos padrão como K-means, Dirichelet, padrão paralelo e classificações bayesianas estão prontos para serem executados nos dados com um mapa de estilo Hadoop.

gemeos.jpg

Lucene escrito em Java e integrado facilmente com Hadoop, é um companheiro natural para Hadoop. É uma ferramenta destinada a indexar grandes blocos de texto não estruturado. O Lucene gerencia a indexação enquanto o Hadoop gerencia as consultas distribuídas em todo o cluster. Os recursos da Lucene-Hadoop estão evoluindo rapidamente à medida que novos projetos estão sendo desenvolvidos.

Avro

Avro é um sistema de serialização que agrupa os dados em conjunto com um esquema para entendê-lo. Cada pacote vem com uma estrutura de dados JSON. O JSON explica como os dados podem ser analisados. O cabeçalho do JSON especifica a estrutura dos dados, onde a necessidade de escrever tags extras nos dados para marcar os campos pode ser evitada. A saída é consideravelmente mais compacta do que os formatos tradicionais como XML.

oozie

Um trabalho pode ser simplificado por quebrá-lo em etapas. Em quebrar o projeto em que vários trabalhos do Hadoop, Oozie começa a processá-los na seqüência correta. Ele gerencia o fluxo de trabalho conforme especificado pelo DAG (Dirigido Gráfico Acíclico) e não há necessidade de monitoramento oportuno.

Ferramentas GIS

Trabalhar com mapas geográficos é um grande trabalho para clusters rodando o Hadoop. Os GIS ( Sistema de Informação Geográfica ferramentas) para projetos Hadoop se adaptaram melhores ferramentas baseadas em Java para a compreensão de informação geográfica para correr com Hadoop. Os bancos de dados agora podem lidar com consultas geográficas usando coordenadas e os códigos podem implantar as ferramentas GIS.

apache-hive

Reunir todos os dados é igual a armazená-lo e analisá-lo. Apache Flume coleta dados dos agentes especiais ‘despachos para reunir informações que serão armazenadas no HDFS. As informações coletadas podem ser arquivos de log, API do Twitter ou recados de sites. Estes dados podem ser encadeados e submetidos a análises.

Faísca

Spark é a próxima geração que praticamente funciona como Hadoop que processa dados armazenados em cache na memória. Seu objetivo é tornar a análise de dados rápida para executar e gravar com um modelo de execução geral. Isso pode otimizar gráficos de operadores arbitrários e suportar computação em memória o que permite que ele pesquise dados mais rápido do que os mecanismos baseados em disco como o Hadoop.

SQL on Hadoop

Quando é necessário executar uma consulta ad hoc rápida de todos os dados no cluster, um novo job do Hadoop pode ser gravado, mas isso leva algum tempo. Quando os programadores começaram a fazer isso com mais freqüência, eles vieram com ferramentas escritas na linguagem simples do SQL. Essas ferramentas oferecem acesso rápido aos resultados.

Apache Drill

O Apache Drill fornece consultas ad-hoc de baixa latência para fontes de dados numerosas e variadas, incluindo dados aninhados. A Drill, inspirada pela Dremel da Google, foi projetada para escalar até 10.000 servidores e consultar petabytes de dados em segundos.

Estas são as ferramentas essenciais do Hadoop para trituração de Big Data!,

 

Caso conheça outras ferramentas essenciais, contribua com post. Abs até a próxima.

 

 

Publicado em Big Data

Deixe um comentário

Arquivos
Follow SQL DATA BLOG on WordPress.com
Mais acessados
  • Nenhum