IT Specialist (Arquitetura Observabilidade/SRE)

Indeed

Tempo Integral

Presencial

Sem Limite de Experiência

Sem Limite de Formação

Praça do Patriarca, 62 - Centro Histórico de São Paulo, São Paulo - SP, 01002-010, Brazil

Favoritos

Descrição

Resumo da Vaga: Especialista em Observabilidade/SRE para definir, implementar e evoluir padrões de observabilidade, gerenciar clusters Kubernetes e plataformas de mensageria. Principais Destaques: 1. Definir, implementar e evoluir padrões de observabilidade 2. Gerenciar e otimizar clusters Kubernetes com Service Mesh 3. Administrar e evoluir plataformas de mensageria (Kafka, RabbitMQ) IT Specialist (Arquitetura Observabilidade/SRE) Country: Brazil **\# QUEM SOMOS** A F1RST é o futuro e sua carreira está aqui! Nossa cultura é baseada em “Pessoas, Inovação e Resultados”. Aqui promovemos serviços e experiência para os mais de 60 milhões de clientes de todo o ecossistema Santander. Venha fazer parte do time que tem como propósito apoiar as pessoas e fazer os negócios prosperarem. Somos apaixonados por tecnologia. Somos F1RST Digital Services. Siga o nosso LinkedIn e fique por dentro de todas as novidades: https://www.linkedin.com/company/f1rstdigitalservices Temos uma vaga para você se tornar **Especialista em Observabilidade/SRE** . **Aqui, seu papel será:** * Definir, implementar e evoluir padrões de observabilidade para aplicações e infraestrutura * Implantar e sustentar stacks de monitoramento e tracing (Prometheus, Grafana, Dynatrace, OTEL, Jaeger, ELK/Kibana) * Gerenciar e otimizar clusters Kubernetes (EKS) com Service Mesh (Istio), garantindo visibilidade e controle de tráfego entre serviços * Administrar e evoluir plataformas de mensageria (Kafka e RabbitMQ), assegurando disponibilidade, performance e confiabilidade * Atuar na definição de padrões de instrumentação de aplicações com OpenTelemetry * Monitorar e analisar métricas, logs e traces para antecipação de incidentes e melhoria contínua * Realizar troubleshooting em ambientes distribuídos, identificando gargalos de performance e falhas de comunicação entre serviços * Apoiar squads de desenvolvimento na adoção de boas práticas de observabilidade e arquitetura orientada a eventos * Automatizar provisionamento e gestão de recursos via Operators no Kubernetes * Documentar arquiteturas, padrões técnicos e procedimentos operacionais **Requisitos Imprescindíveis:** * Conhecimentos avançados em Observabilidade: implementação e sustentação de métricas, logs e tracing distribuído em arquiteturas cloud\-native * Experiência com ferramentas de Monitoramento: Dynatrace, Grafana, Prometheus e Kibana, incluindo configuração de dashboards, alertas, SLO/SLI e troubleshooting * Conhecimentos em Observability Tools: OpenTelemetry (OTEL) para instrumentação de aplicações e Jaeger para análise de traces distribuídos * Experiência sólida com Kubernetes (EKS): administração de clusters, troubleshooting, tuning de recursos, gestão de namespaces e políticas * Conhecimentos em Service Mesh: Istio, incluindo controle de tráfego, mTLS, políticas de segurança, observabilidade de serviços e gerenciamento de sidecars * Experiência com plataformas de mensageria: Apache Kafka (Confluent), incluindo uso de ferramentas como Kafdrop para inspeção e troubleshooting, e RabbitMQ (Amazon MQ) * Conhecimentos em operadores (Operators) no Kubernetes para automação de deploy e gestão de workloads stateful (ex: Kafka Operator, RabbitMQ Operator) * Experiência em arquitetura orientada a eventos (EDA) e microsserviços, incluindo padrões como pub/sub, consumer groups, DLQ e retry strategies * Conhecimentos em troubleshooting avançado de performance e latência em ambientes distribuídos * Experiência com gestão de incidentes, análise de causa raiz (RCA) e definição de planos de ação preventivos **Requisitos Desejáveis:** * Certificações em Kubernetes (CKA, CKAD) ou especializações em observabilidade * Conhecimento e uso prático de ferramentas de IA de mercado para aumento de produtividade como Devin, Claude, Cursor, ChatGPT Enterprise, GitHub Copilot, entre outras * Experiência com gestão de capacidade e performance tuning em clusters Kafka e RabbitMQ * Conhecimentos em estratégias de alta disponibilidade e disaster recovery para plataformas de mensageria * Experiência com integração de métricas e traces em pipelines de CI/CD * Conhecimentos em segurança em Kubernetes e Service Mesh (mTLS, RBAC, policies) * Experiência com ambientes multi\-cluster e multi\-region * Inglês e espanhol avançado para interação com times globais **Local de trabalho:** Geração Digital – Av Interlagos, 3501 – Interlagos, São Paulo \- SP **\# BENEFÍCIOS:** ➡️ Auxílio refeição; ➡️ Convênio médico; ➡️ Convênio Odontológico: Plano básico e intermediário; ➡️ Vale Transporte; ➡️ Flex Férias: 24 dias úteis de férias podendo ser divididos em até 6 vezes, e a cada 2 meses trabalhados você já pode aproveitar 4 dias úteis; ➡️ DayOff Aniversário; ➡️ Programa de Participação nos Resultados (PPR); ➡️ Parceiros de academia: Wellhub, Totalpass; ➡️ Flex Working: Modelo de trabalho híbrido: 2 dias Home Office e 3 dias presenciais; ➡️ Plataformas de treinamento com mais de 100 mil cursos; ➡️ Linhas de carreira para o seu desenvolvimento profissional; ➡️ Flex Learning: Incentivo para estudos exclusivo a funcionários com Alta Performance; ➡️ Auxílio Creche; ➡️ Programa Nascer e Licença Paternidade estendida; ➡️ Seguro de vida; ➡️ Programa Nascer; ➡️ Be Healthy \- Programa que incentiva todos a terem hábitos mais saudáveis; ➡️ PAPE \- Programa de apoio pessoal especializado; \#LI\-Hybrid

Fonte da Informação: indeed Ver publicação original

João Silva

Indeed · HR

Empresa

Indeed

João Silva

Indeed · HR

Vagas semelhantes

IT Specialist (Arquitetura Observabilidade/SRE)

Descrição

Empresa

Vagas semelhantes

Soldador PEC MOR #1297 - #1297

Auxiliar de Serviços Gerais

Apresentadora LiveShop

GARÇOM MOR #1297 - #1297

Subchefe de Cozinha Gran #1297 - #1297

Ajudande Geral