Site Reliability Engineer

BaufestMexico, Mexico

Hace 22 días

Descripción del trabajo

Estamos en búsqueda de un / a Ingeniero / a SRE senior para potencialmente sumarse a un proyecto de consultoría.

El rol tendrá como objetivo fortalecer la confiabilidad, estabilidad y resiliencia de los sistemas críticos, guiando el diseño e implementación de un modelo operativo SRE basado en las prácticas de Google y el marco CALMS.

Responsabilidades principales :

Diseñar y adaptar el modelo operativo SRE al contexto de la organización.
Relevar flujos críticos, dependencias y puntos de falla en sistemas clave.
Definir y mantener el catálogo de servicios SRE (incidentes, postmortems, observabilidad, capacity planning, error budgets).
Estandarizar procesos de despliegue y cambios en entornos multicloud (AWS, OCI, otros).
Integrar métricas técnicas con impacto de negocio.
Colaborar con equipos de consultoría, calidad y change management para asegurar una implementación transversal y sostenible.
Impulsar la adopción cultural de prácticas de confiabilidad mediante comunicación, capacitación y gestión del conocimiento.
Acompañar la ejecución de postmortems y planes de mejora continua.
Apoyar la capacitación práctica de equipos de monitoreo y soporte.

Requisitos :

5 años en roles de SRE o confiabilidad en entornos críticos (idealmente banca / finanzas).

Experiencia en gestión de incidentes de alta criticidad y definición de procesos de estabilidad.

Conocimiento profundo en observabilidad (Dynatrace, Prometheus, OpenTelemetry, etc.) y correlación de métricas.

Experiencia en automatización de despliegues, pruebas de regresión y frameworks CI / CD.

Capacidad demostrada de traducir métricas técnicas en impacto de negocio y de liderar procesos de cambio cultural hacia la confiabilidad.

Capacidad para entender el negocio del cliente y lo traducirlo en decisiones de SRE.

Capacidad para generar documentación clara y ejecutiva (mapas de arquitectura, modelos de equipo, roadmaps, etc.).

Excelente comunicación para interactuar con perfiles técnicos y no técnicos.

Certificaciones deseables (al menos 2 de ellas) :

Cloud (AWS / OCI / Multicloud)

AWS Certified Solutions Architect – Professional

AWS Certified DevOps Engineer – Professional

AWS Certified Advanced Networking – Specialty

Oracle Cloud Infrastructure (OCI)

Architect Professional (opcional, por presencia de OCI en el entorno).

Dynatrace Associate / Professional Certification

Prometheus Certified Associate (CNCF)

Google Professional Cloud DevOps Engineer

Kubernetes Certified Administrator (CKA) o Certified Kubernetes Application Developer (CKAD)

HashiCorp Terraform Associate

SRE Foundation (DevOps Institute)

SRE Practitioner (para reforzar el marco cultural y de procesos).

ITIL 4 Specialist : High Velocity IT

Si te interesa el desafío y cumplís con los requisitos, no dudes en postularte a fin de que podamos contactarte para compartirte más detalles.

¡Gracias y te esperamos!

Crear una alerta de empleo para esta búsqueda

Site Reliability Engineer • Mexico, Mexico