




Garantir a visibilidade e monitoramento contínuo da saúde dos sistemas e aplicações, implementando soluções de observabilidade que permitam identificar, diagnosticar e resolver problemas de forma proativa, assegurando alta disponibilidade e performance dos serviços.Responsabilidades **Implementar e manter ferramentas de observabilidade (monitoramento, métricas, logs e tracing).** Criar dashboards e alertas para acompanhamento de performance e disponibilidade. **Analisar métricas e logs para identificar tendências e possíveis falhas.** Trabalhar junto às equipes de desenvolvimento e infraestrutura para melhorar a visibilidade dos sistemas. **Apoiar incidentes críticos com análise detalhada e recomendações de melhoria.** Garantir conformidade com práticas de SRE (Site Reliability Engineering) e DevOps.Requisitos Técnicos **Experiência com ferramentas como Prometheus, Grafana, ELK Stack, Datadog, New Relic ou similares.** Conhecimento em métricas, logs, tracing e conceitos de observabilidade. **Familiaridade com ambientes em nuvem (AWS, Azure, GCP).** Noções de automação e scripts (Python, Shell). **Conhecimento em containers e orquestração (Docker, Kubernetes).** **Competências Comportamentais** Capacidade analítica e resolução de problemas. **Proatividade e atenção aos detalhes.** Boa comunicação e colaboração com times multidisciplinares. Tipo de vaga: Efetivo CLT Pagamento: R$10\.500,00 \- R$12\.000,00 por mês Benefícios: * Assistência médica * Assistência odontológica * Auxílio\-educação * Participação nos lucros * Seguro de vida * Vale\-alimentação * Vale\-refeição * Vale\-transporte Local do trabalho: Remoto híbrido para Pinheiros, SP


