Talent.com
Site Reliability Engineer

Site Reliability Engineer

BaufestMexico, Mexico
Hace 22 días
Descripción del trabajo

Estamos en búsqueda de un / a Ingeniero / a SRE senior para potencialmente sumarse a un proyecto de consultoría.

El rol tendrá como objetivo fortalecer la confiabilidad, estabilidad y resiliencia de los sistemas críticos, guiando el diseño e implementación de un modelo operativo SRE basado en las prácticas de Google y el marco CALMS.

Responsabilidades principales :

  • Diseñar y adaptar el modelo operativo SRE al contexto de la organización.
  • Relevar flujos críticos, dependencias y puntos de falla en sistemas clave.
  • Definir y mantener el catálogo de servicios SRE (incidentes, postmortems, observabilidad, capacity planning, error budgets).
  • Estandarizar procesos de despliegue y cambios en entornos multicloud (AWS, OCI, otros).
  • Integrar métricas técnicas con impacto de negocio.
  • Colaborar con equipos de consultoría, calidad y change management para asegurar una implementación transversal y sostenible.
  • Impulsar la adopción cultural de prácticas de confiabilidad mediante comunicación, capacitación y gestión del conocimiento.
  • Acompañar la ejecución de postmortems y planes de mejora continua.
  • Apoyar la capacitación práctica de equipos de monitoreo y soporte.

Requisitos :

  • 5 años en roles de SRE o confiabilidad en entornos críticos (idealmente banca / finanzas).
  • Experiencia en gestión de incidentes de alta criticidad y definición de procesos de estabilidad.
  • Conocimiento profundo en observabilidad (Dynatrace, Prometheus, OpenTelemetry, etc.) y correlación de métricas.
  • Experiencia en automatización de despliegues, pruebas de regresión y frameworks CI / CD.
  • Capacidad demostrada de traducir métricas técnicas en impacto de negocio y de liderar procesos de cambio cultural hacia la confiabilidad.
  • Capacidad para entender el negocio del cliente y lo traducirlo en decisiones de SRE.
  • Capacidad para generar documentación clara y ejecutiva (mapas de arquitectura, modelos de equipo, roadmaps, etc.).
  • Excelente comunicación para interactuar con perfiles técnicos y no técnicos.
  • Certificaciones deseables (al menos 2 de ellas) :

  • Cloud (AWS / OCI / Multicloud)
  • AWS Certified Solutions Architect – Professional
  • AWS Certified DevOps Engineer – Professional
  • AWS Certified Advanced Networking – Specialty
  • Oracle Cloud Infrastructure (OCI)
  • Architect Professional (opcional, por presencia de OCI en el entorno).
  • Dynatrace Associate / Professional Certification
  • Prometheus Certified Associate (CNCF)
  • Google Professional Cloud DevOps Engineer
  • Kubernetes Certified Administrator (CKA) o Certified Kubernetes Application Developer (CKAD)
  • HashiCorp Terraform Associate
  • SRE Foundation (DevOps Institute)
  • SRE Practitioner (para reforzar el marco cultural y de procesos).
  • ITIL 4 Specialist : High Velocity IT
  • Si te interesa el desafío y cumplís con los requisitos, no dudes en postularte a fin de que podamos contactarte para compartirte más detalles.

    ¡Gracias y te esperamos!

    Crear una alerta de empleo para esta búsqueda

    Site Reliability Engineer • Mexico, Mexico