




Descrição: Ferramentas e Stack Técnico Linguagens de Programação* Python (avançado: Pandas, NumPy, PySpark, Polars) * SQL (expert\-level: otimização de queries, análise de execution plans) * Scala ou Java (desejável) * Bash/Shell scripting Plataformas de Dados (expertise em pelo menos 2\)* Databricks (notebooks, clusters, jobs, Delta Lake, Unity Catalog, auto\-loader) * Snowflake (arquitetura, performance optimization, time\-travel, Iceberg) * AWS (Redshift, S3, Glue, Athena, Lake Formation) * Azure (Synapse Analytics, Data Lake Storage, MS Fabric) * Google BigQuery e Dataflow Transformação, Orquestração e Processamento* dbt com expertise em modularização, testes, documentação e CI/CD * Apache Spark com otimização de performance, particionamento e caching * Apache Airflow (DAGs, operators, sensors, SLA) ou Dagster/Prefect Infraestrutura, DevOps e Versionamento* Terraform (infraestrutura como código multi\-cloud) * CloudFormation (AWS) * GitHub Actions ou GitLab CI * Docker e containerização * Git avançado Habilidades Técnicas Essenciais Design e Arquitetura* Desenho de arquiteturas escaláveis, seguras e resilientes end\-to\-end * Compreensão de batch processing vs. real\-time streaming * Design de data contracts e schema governance * Avaliação de tecnologias apropriadas para cada caso de uso Performance e Otimização* SQL complexo: execution plans, indexação, particionamento * Spark optimization: RDD vs. DataFrames, shuffle, memory management * Cost optimization em cloud: spot instances, reserved capacity, particionamento * Troubleshooting de gargalos de performance Segurança e Compliance* RBAC e controle de acesso granular * Criptografia em repouso e em trânsito * Conformidade com LGPD, GDPR, SOC2 * Data masking e anonymization * Gestão de secrets (AWS Secrets Manager, Azure Key Vault) Desenvolvimento Ágil e Colaboração* Metodologias Scrum, sprints e estimativa de esforços * Colaboração multidisciplinar com Product, Negócio e Engenharia * Comunicação clara de requisitos técnicos complexos para públicos não\-técnicos Certificações Desejáveis* Databricks Certified Data Engineer Professional * AWS Certified Data Engineer Associate ou Solutions Architect Professional * Microsoft Certified: Azure Data Engineer Associate (DP\-203\) * Google Cloud Professional Data Engineer (se aplicável) Complementares* Terraform Associate Certification * dbt Fundamentals ou Advanced * Apache Airflow Fundamentals Habilidades Comportamentais Pensamento Estratégico e Consultivo* Pensamento estratégico considerando trade\-offs (custo, complexidade, performance) * Mentalidade consultiva: questionar requisitos, propor alternativas, educar clientes Problem\-Solving e Resiliência* Resiliência e capacidade de debug em ambientes complexos * Lidar com ambiguidades e gargalos de performance Liderança e Desenvolvimento* Mentoria e coaching de profissionais juniores * Elevação do nível técnico de equipes * Comunicação executiva traduzindo conceitos técnicos Contínuo Aprendizado e Ownership* Aprendizado contínuo acompanhando evolução de plataformas * Propriedade sobre a qualidade das soluções entregues * Colaboração efetiva em ambientes multidisciplinares Diferenciais Competitivos* Experiência em Machine Learning Engineering e MLOps * Contribuições a projetos open source (Spark, dbt, Airflow) * Data quality frameworks de ponta * Expertise em GenAI/LLM pipelines * Speaking em eventos técnicos e publicações * Data contracts e API\-first data platforms * Certificação em Data Governance * Fluência multilíngue (português \+ inglês \+ espanhol) Arquitetura e Implementação de Soluções de Dados* Desenhar e manter pipelines de dados escaláveis, resilientes e otimizados em arquiteturas Lakehouse e Data Mesh * Implementar soluções end\-to\-end (ingestão, transformação, qualidade, governança) em múltiplas plataformas cloud (AWS, Azure, GCP, Databricks, Snowflake) * Otimizar performance de queries e armazenamento com foco em custo\-benefício Projetos de GenAI e Machine Learning* Atuar como consultor técnico em pipelines de GenAI/ML * Preparar dados para treinamento de modelos, fine\-tuning e inferência em escala * Otimizar arquiteturas para workloads de machine learning Liderança Técnica e Consultoria Estratégica* Atuar como especialista técnico junto a clientes, fornecendo orientações sobre tecnologias emergentes * Treinar profissionais juniores através de treinamentos e compartilhamento de conhecimento * Servir como bridge entre times multidisciplinares, traduzindo requisitos em soluções técnicas * Comunicar recomendações complexas para públicos técnicos e executivos DevOps e Observabilidade* Implementar práticas de versionamento, testes automatizados e CI/CD * Configurar observabilidade e monitoração de pipelines * Aplicar metodologias Agile e DataOps na entrega Experiências Mandatórias* Vivência sólida em engenharia de dados, atuando com autonomia em projetos complexos, desde ingestão até disponibilização de dados para produtos analíticos. * Experiência aprofundada em ambientes cloud (AWS, Azure ou GCP), incluindo arquitetura, pipelines, segurança e observabilidade. * Domínio prático em Databricks e/ou Snowflake, com uso de Unity Catalog, Delta Lake, Lakehouse e boas práticas de governança e versionamento. * Atuação comprovada em consultoria ou squads multi\-clientes, conduzindo múltiplos projetos simultaneamente com diferentes stakeholders. * Participação efetiva em iniciativas de GenAI/ML, incluindo preparação, organização e qualidade de dados para modelos de IA. * Capacidade de liderar discussões técnicas, definir padrões e orientar times sobre melhores práticas de engenharia e governança de dados. Expertise com Plataformas Cloud* AWS: S3, EC2, Lambda, Glue, EMR, Athena, Lake Formation, Redshift, DataBrew, RDS, DynamoDB, SQS, SNS * Azure: Data Factory, Data Lake Storage, Synapse Analytics, Azure Machine Learning, Cosmos DB, MS Fabric * GCP: BigQuery, Dataflow, Cloud Composer (Airflow), Pub/Sub * Migração de dados entre plataformas e avaliação de soluções multi\-cloud Arquitetura e Design de Dados* Profundo conhecimento de Lakehouse/Delta Lake e Medallion Architecture (Bronze, Silver, Gold) * Implementação de Data Mesh e domain\-driven data architecture * Modelagem OLAP e OLTP * Design de soluções para processar terabytes em tempo real e batch Stack Técnico Essencial* Apache Spark e PySpark com otimização de workloads distribuídos * SQL avançado (window functions, CTEs, performance tuning) * dbt para transformação declarativa * Apache Airflow ou equivalente para orquestração * Terraform para infraestrutura como código * Git e práticas de CI/CD 2512120202501126806


