Quem é
O que faz?¶
O Engenheiro de Dados tem a função de projetar, desenhar, definir e construir sistemas e processos para soluções de dados
Envolvido na coleta, transformação, entrega, armazenamento, análise e deploy destes dados em escala Conhecimento da solução de ponta-a-ponta com as data pipelines
Traçar orçamentos, planejamentos, mais efetivos, envolvido na parte de projetos e negócios
Cuida mais da parte de BI, ETL e ELT orientados a BigData
Realizar a montagem de ecossistemas como Data Lakes, Warehouses, Lakehouses, etc
Cuida mais das soluções com o "back-end", escolhendo a arquitetura da infraestrutura
Garante que o requisito da aplicação de negócios aconteça
Define as fontes dos dados, como serão coletados, a frequência em que serão coletados, como eles serão geridos, etc
Você decide os formatos dos arquivos: JSON, Parquet, CSV, SQL, etc
Big Data¶
Deixamos de trabalhar somente com dados estruturados para trabalhar também com dados semi estruturados e não estruturados, com novos formatos de dados
Os 3 V's: Velocidade, Volume e Variedade
Supervisão de Aplicações¶
É interessante guardar informações de scripts e pipelines - a exemplo de status de ETLs - por meio de logs, erros, tempo de duração, custo do processamento
Pipelines¶
Definição de ambientes e arquiteturas, como on-premise e cloud ou híbrido
Especificar as tecnologias de armazenamento, como Data Lakes e Data Warehouses
Selecionar as formas de processamento como Streaming ou Clusters
Definir o monitoramento e padrões de segurança e integração com outros sistemas
Ferramentas de nuvem¶
- Databricks
- Confluent
- Cloudera
- Horton Works
- Microsoft Azure
- Google Cloud Plataform
- AWS
- Ecossistema Hadoop