




**Responsabilidades e atribuições:** Projetar e manter pipelines de dados eficientes para ingestão, transformação e disponibilização. Trabalhar com AWS Athena, Glue e S3 para consulta e organização de grandes volumes de dados em formato Parquet. Integrar e modelar dados em MySQL e PostgreSQL para sistemas transacionais e analíticos. Implementar e manter processos de ETL/ELT usando ferramentas como Apache Spark, Airflow, Databricks, etc. Criar e manter dashboards e relatórios em Superset e Power BI, garantindo confiabilidade e boa experiência de uso. Trabalhar junto com times de engenharia, ciência de dados e produto para suportar decisões baseadas em dados. Garantir governança de dados, qualidade, versionamento e documentação. Implementar boas práticas de segurança e compliance em todo o ciclo de vida dos dados. **Requisitos e qualificações:** Experiência prática com AWS Athena e formatos Parquet. Forte conhecimento em ETL/ELT e ferramentas de orquestração como Apache Airflow. Experiência com Python para manipulação e transformação de dados. Domínio de SQL e experiência em MySQL e PostgreSQL. Conhecimento de Apache Spark e processamento distribuído de dados. Experiência em criação de dashboards em Power BI e/ou Apache Superset. Vivência com pipelines de dados em ambientes de nuvem (AWS, Azure ou GCP). Capacidade de trabalhar de forma autônoma, com boa comunicação e clareza técnica. **Diferenciais desejáveis:** Experiência em governança e catálogo de dados (Glue Data Catalog, DataHub, Apache Atlas). **Vivência com pipelines de streaming (ex.:** Kinesis, Kafka). Conhecimento em integrações com ferramentas de observabilidade de dados. Experiência prévia em times ágeis e squads multidisciplinares.


