¿Cómo sé en qué nivel de madurez está mi empresa?

El diagnóstico más fiable combina tres evidencias: el estado de la infraestructura como código (IaC), el nivel de observabilidad disponible y si la empresa tiene un proceso formal de gestión de costes cloud. Una organización sin IaC y sin etiquetado de recursos está en el nivel 1 o 2. Una organización con pipelines CI/CD maduros, on-call documentado y revisión mensual de FinOps está en el nivel 3 o 4. El checklist de autoevaluación de esta guía permite hacer ese diagnóstico en menos de 30 minutos.

¿Cuánto tiempo lleva pasar del nivel 2 al nivel 4?

Según Gartner (Magic Quadrant for Cloud Management Platforms, 2024), la progresión media del nivel 2 al nivel 4 es de 18 a 24 meses con inversión dedicada. Organizaciones con equipos pequeños y deuda técnica acumulada pueden tardar hasta 36 meses. La aceleración más significativa se produce cuando se resuelven dos bloqueos simultáneamente: implementar IaC de forma consistente y establecer un proceso real de revisión de costes cloud. Sin esos dos cimientos, los equipos avanzan en alguna dimensión pero retroceden en otras.

¿Qué diferencia hay entre AWS CAF y Microsoft CAF?

AWS CAF organiza la madurez en seis perspectivas (Negocio, Personas, Gobernanza, Plataforma, Seguridad, Operaciones) y pone el énfasis en la transformación organizacional. Microsoft CAF (también conocido como Azure CAF) tiene una estructura similar pero añade la fase de 'Ready' con zonas de aterrizaje (Landing Zones) como concepto central, lo que lo hace más prescriptivo en la arquitectura de red y gestión de identidades. Google Cloud Maturity Assessment es más orientado a la evaluación del estado actual que a la hoja de ruta. En la práctica, las diferencias son menores que las similitudes: cualquier equipo puede beneficiarse de los tres como referencias complementarias.

¿Es necesario pasar por todos los niveles?

Sí, aunque el ritmo puede variar por dimensión. No existe un atajo directo desde el nivel 1 al nivel 4: las organizaciones que intentan implementar prácticas de nivel avanzado sin las bases previas acumulan deuda operacional que termina por colapsar en forma de incidentes. Lo que sí es posible es priorizar algunas dimensiones antes que otras: por ejemplo, un equipo de desarrollo puede madurar la práctica de CI/CD (nivel 3-4) mientras las operaciones de infraestructura siguen en nivel 2, siempre que esa asimetría sea deliberada y temporal.

¿Qué métricas demuestran progreso en madurez cloud?

Las métricas más fiables son: tiempo de aprovisionamiento de infraestructura nueva (baja a medida que se avanza en IaC), porcentaje de recursos etiquetados correctamente (proxy de gobernanza FinOps), MTTR (Mean Time to Recover) de incidentes, frecuencia de despliegues y tasa de fallos en cambios (estas dos últimas son métricas DORA). En el nivel 4, un equipo maduro tiene MTTR inferior a 30 minutos para incidentes de alta prioridad y una frecuencia de despliegue de al menos una vez por semana por servicio.

¿Cómo se relacionan FinOps y madurez cloud?

FinOps y madurez cloud son marcos complementarios pero independientes. Un equipo puede tener prácticas FinOps maduras (nivel 3 en el modelo FinOps Foundation) y estar en el nivel 2 de madurez operacional cloud, o viceversa. En la práctica, el progreso está correlacionado: sin etiquetado consistente de recursos (nivel 2 de madurez cloud) es imposible hacer atribución de costes por equipo o producto (nivel 2 de FinOps). La recomendación es avanzar ambos en paralelo, priorizando la gobernanza de etiquetas como punto de intersección.

¿Qué errores impiden avanzar de nivel?

Los ocho antipatrones más frecuentes son: (1) aplicar FinOps sin gobernanza previa de etiquetas, (2) desplegar Kubernetes sin prácticas SRE establecidas, (3) usar IaC solo para nuevos recursos mientras el entorno existente permanece sin gestionar, (4) medir disponibilidad por uptime de VM en lugar de SLOs de servicio, (5) centralizar la seguridad como función de audit sin integrarla en los pipelines, (6) confundir observabilidad con métricas de infraestructura (sin trazas distribuidas ni correlación de logs), (7) no tener proceso formal de postmortem tras incidentes, y (8) asumir que la contratación de más ingenieros resuelve problemas que son fundamentalmente de proceso.

¿Cómo sé en qué nivel de madurez está mi empresa?

El diagnóstico más fiable combina tres evidencias: el estado de la infraestructura como código (IaC), el nivel de observabilidad disponible y si la empresa tiene un proceso formal de gestión de costes cloud. Una organización sin IaC y sin etiquetado de recursos está en el nivel 1 o 2. Una organización con pipelines CI/CD maduros, on-call documentado y revisión mensual de FinOps está en el nivel 3 o 4. El checklist de autoevaluación de esta guía permite hacer ese diagnóstico en menos de 30 minutos.

¿Cuánto tiempo lleva pasar del nivel 2 al nivel 4?

Según Gartner (Magic Quadrant for Cloud Management Platforms, 2024), la progresión media del nivel 2 al nivel 4 es de 18 a 24 meses con inversión dedicada. Organizaciones con equipos pequeños y deuda técnica acumulada pueden tardar hasta 36 meses. La aceleración más significativa se produce cuando se resuelven dos bloqueos simultáneamente: implementar IaC de forma consistente y establecer un proceso real de revisión de costes cloud. Sin esos dos cimientos, los equipos avanzan en alguna dimensión pero retroceden en otras.

¿Qué diferencia hay entre AWS CAF y Microsoft CAF?

AWS CAF organiza la madurez en seis perspectivas (Negocio, Personas, Gobernanza, Plataforma, Seguridad, Operaciones) y pone el énfasis en la transformación organizacional. Microsoft CAF (también conocido como Azure CAF) tiene una estructura similar pero añade la fase de 'Ready' con zonas de aterrizaje (Landing Zones) como concepto central, lo que lo hace más prescriptivo en la arquitectura de red y gestión de identidades. Google Cloud Maturity Assessment es más orientado a la evaluación del estado actual que a la hoja de ruta. En la práctica, las diferencias son menores que las similitudes: cualquier equipo puede beneficiarse de los tres como referencias complementarias.

¿Es necesario pasar por todos los niveles?

Sí, aunque el ritmo puede variar por dimensión. No existe un atajo directo desde el nivel 1 al nivel 4: las organizaciones que intentan implementar prácticas de nivel avanzado sin las bases previas acumulan deuda operacional que termina por colapsar en forma de incidentes. Lo que sí es posible es priorizar algunas dimensiones antes que otras: por ejemplo, un equipo de desarrollo puede madurar la práctica de CI/CD (nivel 3-4) mientras las operaciones de infraestructura siguen en nivel 2, siempre que esa asimetría sea deliberada y temporal.

¿Qué métricas demuestran progreso en madurez cloud?

Las métricas más fiables son: tiempo de aprovisionamiento de infraestructura nueva (baja a medida que se avanza en IaC), porcentaje de recursos etiquetados correctamente (proxy de gobernanza FinOps), MTTR (Mean Time to Recover) de incidentes, frecuencia de despliegues y tasa de fallos en cambios (estas dos últimas son métricas DORA). En el nivel 4, un equipo maduro tiene MTTR inferior a 30 minutos para incidentes de alta prioridad y una frecuencia de despliegue de al menos una vez por semana por servicio.

¿Cómo se relacionan FinOps y madurez cloud?

FinOps y madurez cloud son marcos complementarios pero independientes. Un equipo puede tener prácticas FinOps maduras (nivel 3 en el modelo FinOps Foundation) y estar en el nivel 2 de madurez operacional cloud, o viceversa. En la práctica, el progreso está correlacionado: sin etiquetado consistente de recursos (nivel 2 de madurez cloud) es imposible hacer atribución de costes por equipo o producto (nivel 2 de FinOps). La recomendación es avanzar ambos en paralelo, priorizando la gobernanza de etiquetas como punto de intersección.

¿Qué errores impiden avanzar de nivel?

Los ocho antipatrones más frecuentes son: (1) aplicar FinOps sin gobernanza previa de etiquetas, (2) desplegar Kubernetes sin prácticas SRE establecidas, (3) usar IaC solo para nuevos recursos mientras el entorno existente permanece sin gestionar, (4) medir disponibilidad por uptime de VM en lugar de SLOs de servicio, (5) centralizar la seguridad como función de audit sin integrarla en los pipelines, (6) confundir observabilidad con métricas de infraestructura (sin trazas distribuidas ni correlación de logs), (7) no tener proceso formal de postmortem tras incidentes, y (8) asumir que la contratación de más ingenieros resuelve problemas que son fundamentalmente de proceso.

Read this article in English

Whitepapers

Cloud & DevOps

Modelo de Madurez Cloud: Guía Definitiva 2026

abemon

| 15 de abril de 2026 | 18 min de lectura | Escrito por profesionales

Según el informe State of the Cloud 2025 de Flexera, el 41% de las empresas con más de 250 empleados en Europa opera todavía en los dos niveles más bajos del modelo de madurez cloud: sin infraestructura como código consistente, sin gestión formal de costes y con incidentes que se resuelven de forma reactiva. En el extremo opuesto, solo el 8% alcanza el nivel de organización optimizada donde la infraestructura es un producto interno y los equipos de desarrollo pueden aprovisionar entornos autónomamente. El 51% restante vive atrapado en los niveles intermedios: ha completado la migración técnica al cloud, pero no ha resuelto los problemas organizacionales y operacionales que determinan si esa migración genera valor real.

La Comisión Europea, en el informe DESI 2024 (Digital Economy and Society Index), sitúa a España en el percentil 55 de adopción avanzada de servicios cloud entre grandes empresas, por debajo de la media UE-27. Esta brecha no es tecnológica: las plataformas están disponibles para cualquier organización. Es una brecha de práctica operacional.

Esta guía proporciona un marco de referencia preciso —con criterios, herramientas, métricas y hojas de ruta por etapa— para que equipos técnicos y directivos puedan diagnosticar su posición actual y definir los pasos concretos para avanzar.

¿Qué es un modelo de madurez cloud?

Un modelo de madurez cloud es un marco de referencia que describe la progresión de una organización desde el uso no estructurado de servicios cloud hasta operaciones completamente automatizadas y orientadas al valor de negocio. A diferencia de los marcos de certificación (ISO 27001, SOC 2), un modelo de madurez no certifica un estado: describe un continuo de mejora en dimensiones medibles.

Los tres marcos de referencia principales son:

AWS Cloud Adoption Framework (CAF): organiza la madurez en seis perspectivas (Negocio, Personas, Gobernanza, Plataforma, Seguridad, Operaciones) y sitúa la transformación organizacional al mismo nivel que la técnica. AWS CAF distingue entre fases de proyecto (Envision, Align, Launch, Scale) más que entre niveles de madurez numéricos, pero sus capacidades se mapean directamente a las cinco etapas del modelo estándar.
Microsoft Cloud Adoption Framework (Azure CAF): más prescriptivo en arquitectura de red y gestión de identidades. Introduce el concepto de Landing Zone como unidad básica de adopción: un entorno de Azure preconfigurado con controles de gobernanza, seguridad y red que sirve de base para cada carga de trabajo. Útil como referencia de arquitectura de referencia en entornos Azure.
Google Cloud Maturity Assessment: más orientado al diagnóstico del estado actual que a la hoja de ruta. Evalúa cuatro dominios (Infraestructura, Aplicaciones, Datos y ML, Seguridad) con preguntas binarias y genera un perfil de madurez por dominio.

Los tres marcos convergen en las mismas conclusiones fundamentales: la madurez cloud requiere cambios organizacionales y culturales, no solo técnicos; el progreso es observable a través de métricas objetivas; y existen dependencias entre dimensiones que hacen ineficaz saltarse etapas.

Los 5 niveles de madurez

El modelo estándar de cinco niveles tiene su origen en el CMM (Capability Maturity Model) del Software Engineering Institute, adaptado al contexto cloud. Cada nivel describe un estado observable, no una aspiración.

Nivel	Infraestructura	Operaciones	Seguridad	Gestión de costes	Tamaño típico del equipo
1 · Ad hoc	Recursos creados manualmente, sin IaC	Incidentes reactivos, sin runbooks	Permisos amplios, sin política formal	Sin etiquetado, sin visibilidad de gasto	1-3 personas con acceso admin
2 · Repeatable	IaC parcial (nuevos recursos), módulos sin estandarizar	On-call documentado, runbooks básicos	Política de mínimo privilegio iniciada, MFA obligatorio	Etiquetado parcial, alertas de presupuesto básicas	2-5 ingenieros de infraestructura
3 · Defined	IaC al 100% en git, pipelines de validación, policy-as-code	SLOs definidos, revisión de postmortem, MTTR < 60 min	CSPM activo, secrets management, DR testado	FinOps proceso mensual, showback por equipo	Equipo SRE dedicado o shared DevOps
4 · Managed	Módulos internos reutilizables, drift detection automático	Observabilidad 360 (métricas, logs, trazas correlacionados), remediación automatizada	Detección automática de anomalías, compliance continuo	Chargeback por producto, rightsizing automático	SRE + FinOps engineer
5 · Optimized	Platform engineering, self-service de infraestructura, IA en operaciones	Ingeniería de fiabilidad proactiva, zero-touch deployments	Security-as-code, threat modeling integrado en ciclo de desarrollo	Previsión de costes con ML, optimización continua de compromisos	Equipo de plataforma dedicado

Checklist de autoevaluación

Marque las afirmaciones que son verdaderas para su organización hoy. La concentración de marcas en cada bloque indica el nivel de madurez predominante.

Nivel 1 — Ad hoc

Todos los recursos cloud tienen un propietario identificado y documentado
Existe un inventario actualizado de todos los servicios activos en cloud
Los accesos de administrador están restringidos a un número limitado de personas con justificación
Se aplica MFA en todas las cuentas con acceso a consola cloud
Hay al menos una alerta de presupuesto configurada en cada cuenta cloud
Los secretos (API keys, contraseñas, certificados) no están almacenados en repositorios de código
Se realiza una revisión periódica (al menos trimestral) de los recursos activos y su coste

Nivel 2 — Repeatable

Al menos el 50% de los recursos de infraestructura se gestiona con IaC (Terraform, Pulumi, CDK)
Existe un proceso documentado de on-call con escalado definido
Los runbooks de los incidentes más frecuentes están escritos y son accesibles al equipo
Se realizan backups regulares con retención documentada y restauración testada
El etiquetado de recursos cubre al menos entorno, equipo y proyecto en más del 70% de los recursos
Los pipelines CI/CD existen para al menos la mitad de los servicios en producción
Se realizan revisiones de seguridad antes de cada despliegue importante

Nivel 3 — Defined

El 100% de la infraestructura en producción se gestiona mediante IaC en control de versiones
Policy-as-code (Open Policy Agent, Sentinel, AWS SCPs) valida cada cambio antes de aplicarlo
Los SLOs (Service Level Objectives) están definidos y son visibles para el equipo de negocio
El MTTR medio de incidentes de alta prioridad es inferior a 60 minutos
Existe un proceso formal de postmortem sin culpas para cada incidente de severidad alta
La estrategia de DR está documentada, testada y con RTO/RPO conocidos
FinOps tiene ciclo mensual con revisión de anomalías y showback por equipo
La postura de seguridad se monitoriza continuamente con CSPM (Prisma Cloud, Wiz, AWS Security Hub)

Nivel 4 — Managed

Métricas, logs y trazas distribuidas están correlacionados en una única plataforma (Datadog, Grafana + Tempo, Elastic)
La remediación de incidentes comunes está automatizada (auto-scaling, reinicio de pods, failover)
Las métricas DORA (deployment frequency, lead time, MTTR, change failure rate) se miden y se reportan mensualmente
El rightsizing de recursos se ejecuta automáticamente o en ciclo quincenal
El chargeback de costes cloud está asignado por producto o línea de negocio
Existe detección automática de anomalías de coste y seguridad
Los equipos de desarrollo tienen visibilidad directa sobre el coste de sus servicios

Nivel 5 — Optimized

Los desarrolladores pueden aprovisionar entornos nuevos en autoservicio en menos de 30 minutos
El portal de plataforma interno (Backstage o equivalente) documenta y expone todos los servicios internos
Los compromisos cloud (Reserved Instances, Savings Plans, CUDs) se gestionan con herramientas de previsión
La ingeniería de caos (Chaos Monkey, LitmusChaos) forma parte del proceso de validación de resiliencia
Security threat modeling se realiza como parte del ciclo de diseño de cada nuevo servicio
La infraestructura se despliega mediante GitOps (ArgoCD, Flux) sin intervención manual en producción

Nivel 1: Ad hoc — cómo es y qué resolver primero

En el nivel ad hoc, los recursos cloud se crean cuando alguien los necesita, de la forma que resulta más rápida en ese momento. La infraestructura existe en la consola del proveedor pero no en ningún sistema de gestión: nadie sabe con certeza qué está activo, quién lo creó ni por qué. Los incidentes se resuelven por memoria individual, no por proceso documentado. El coste cloud es una sorpresa mensual.

Lo que se observa en el día a día: llamadas en Slack del tipo “¿sabes quién tiene acceso a esa base de datos?”, buckets S3 o blobs de Azure creados para un proyecto que ya no existe pero que nadie se atreve a eliminar, y facturas cloud que crecen un 20-30% cada mes sin que nadie pueda explicar por qué.

Qué resolver primero (en este orden):

Inventario y etiquetado de emergencia. Sin saber qué tienes, no puedes gestionar nada. Ejecutar aws resourcegroupstaggingapi get-resources o el equivalente en Azure/GCP para obtener todos los recursos activos y su estado de etiquetado. Objetivo: en 30 días, todos los recursos tienen al menos tres etiquetas: entorno, equipo, proyecto.
Mínimo privilegio e identidad. Eliminar todas las cuentas de acceso compartido. Implementar IAM/Entra ID con principio de mínimo privilegio. Activar MFA sin excepción. Herramienta recomendada: AWS IAM Access Analyzer o Azure AD Privileged Identity Management para detectar permisos excesivos.
Primer repositorio IaC. No hace falta migrar todo el entorno. El objetivo es que cada recurso nuevo que se cree a partir de ahora tenga su definición en Terraform o Pulumi. Esto establece el hábito sin crear un proyecto de migración de varios meses.

Métrica de salida: el 100% de los recursos creados durante el último mes está documentado en IaC y tiene etiquetado completo.

Nivel 2: Repeatable — IaC, monitorización base, etiquetado de costes

El nivel Repeatable es el más habitado por empresas medianas europeas: hay procesos, pero dependen de personas específicas. Si el ingeniero que configuró el pipeline de CI/CD no está disponible, el proceso se detiene. Si el SRE senior entra de vacaciones, el on-call se convierte en caos.

El objetivo del nivel 2 es eliminar la dependencia de personas concretas mediante documentación y automatización básica.

Infraestructura como código consistente. En este nivel, el trabajo es migrar el entorno existente a IaC, no solo los recursos nuevos. La estrategia recomendada es la importación gradual: usar terraform import para traer los recursos existentes al estado de Terraform sin recrearlos. Prioridad: los recursos de mayor coste y mayor riesgo operacional primero (bases de datos, balanceadores, grupos de seguridad).

Monitorización de línea base. Implementar dashboards de infraestructura (CPU, memoria, disco, latencia de red) y alertas sobre umbrales críticos. Herramientas: Datadog (mejor integración cloud), Grafana + Prometheus (mayor control y menor coste), CloudWatch/Azure Monitor (suficientes para empezar sin coste adicional). Lo importante no es la herramienta: es que cada alerta tenga un runbook asociado que cualquier miembro del equipo pueda seguir.

Etiquetado y gobernanza de costes. Implementar política de etiquetado obligatorio mediante policy-as-code. En AWS: Service Control Policies que rechacen la creación de recursos sin las etiquetas obligatorias. En Azure: Azure Policy en modo Deny. Activar AWS Cost Explorer o Azure Cost Management con vistas por etiqueta.

La referencia de coste al salir del nivel 2 debe ser: sé cuánto gasto en cloud, sé a qué entorno y equipo corresponde cada gasto, y recibo alertas cuando el gasto supera el umbral esperado.

Herramientas clave: Terraform 1.x con remote state en S3+DynamoDB o Terraform Cloud, Datadog o Grafana Cloud para monitorización, AWS Cost Anomaly Detection o Azure Cost Alerts para vigilancia de costes.

Nivel 3: Defined — FinOps, DR, CI/CD maduro, base de compliance

El nivel Defined es donde las organizaciones pasan de gestionar incidentes a gestionar servicios. La diferencia es fundamental: en el nivel 2 se responde a lo que ocurre; en el nivel 3 se define lo que se espera (SLOs) y se mide la distancia entre expectativa y realidad.

FinOps como proceso formal. El ciclo FinOps en el nivel 3 tiene tres fases:

Inform: visibilidad completa de costes por equipo, producto y entorno, actualizada diariamente.
Optimize: identificación y ejecución de oportunidades de ahorro (rightsizing, eliminación de recursos idle, cambio a instancias spot o preemptible donde aplique).
Operate: gobernanza continua con alertas de anomalía y revisión mensual de compromisos.

Según el State of FinOps 2024 de FinOps Foundation, las organizaciones en el nivel 3 de FinOps ahorran entre el 18 y el 28% del gasto cloud anual respecto a organizaciones sin proceso formal.

Disaster Recovery testado. Un plan de DR que nunca se ha testado no es un plan: es un documento. En el nivel 3, el proceso de recuperación ante desastres debe haberse ejecutado al menos una vez en un entorno no productivo y los resultados deben coincidir con los RTO/RPO documentados. Herramientas: AWS Elastic Disaster Recovery, Azure Site Recovery, o Velero para cargas de trabajo en Kubernetes.

CI/CD maduro. Los pipelines de CI/CD en el nivel 3 incluyen validación de IaC (checkov, tfsec), análisis estático de seguridad (SAST), tests de integración automatizados y aprobaciones de despliegue con trazabilidad. Herramientas: GitHub Actions, GitLab CI o ArgoCD para entornos Kubernetes con GitOps.

Base de compliance. Implementar CSPM (Cloud Security Posture Management) para monitorización continua de la postura de seguridad. Las herramientas más utilizadas son Prisma Cloud (Palo Alto), Wiz, y AWS Security Hub con AWS Config Rules. El objetivo no es pasar una auditoría: es tener visibilidad continua de las desviaciones respecto a una línea base de seguridad.

Métrica de salida: MTTR < 60 min, SLOs definidos y medidos, el 100% de los recursos en IaC, revisión FinOps mensual con showback documentado.

Para una referencia detallada sobre la reducción de costes en servicios gestionados, ver el análisis de modelo de costes y servicios gestionados.

Nivel 4: Managed — prácticas SRE, observabilidad 360, remediación automatizada

El nivel Managed marca la transición de operaciones reactivas a operaciones de ingeniería. En este nivel, el equipo no solo responde a incidentes: los previene mediante error budgets, gestiona la fiabilidad como una función de ingeniería y automatiza la respuesta a las condiciones anómalas más frecuentes.

Prácticas SRE. La ingeniería de fiabilidad de sitios (SRE) en el nivel 4 se traduce en práctica concreta: SLOs por servicio visibles para el equipo de negocio, error budgets que gobiernan la velocidad de despliegue (si el presupuesto de error está agotado, los deploys no urgentes se pausan), y postmortems sin culpas que generan acciones de mejora medibles.

Observabilidad 360. La diferencia entre monitorización (nivel 2-3) y observabilidad (nivel 4) es la capacidad de responder preguntas no anticipadas sobre el comportamiento del sistema. Esto requiere los tres pilares correlacionados: métricas de negocio y técnicas (Prometheus + Grafana o Datadog), logs estructurados con contexto de traza (OpenTelemetry + Elasticsearch o Datadog Logs), y trazas distribuidas que permitan reconstruir el flujo de una petición a través de todos los servicios (Jaeger, Tempo, Datadog APM).

La implementación de OpenTelemetry como capa de instrumentación estandarizada evita el vendor lock-in en observabilidad y facilita la migración entre plataformas de análisis. Para profundizar en la implementación de observabilidad en arquitecturas de microservicios, ver observabilidad en microservicios: lecciones del campo.

Remediación automatizada. Los incidentes recurrentes y bien comprendidos deben tener respuesta automatizada. Ejemplos concretos: auto-scaling de pods en Kubernetes ante aumento de latencia (HPA + KEDA), reinicio automático de servicios que no responden al health check, failover automático de base de datos con Amazon RDS Multi-AZ o Azure SQL Business Critical.

Coste: chargeback y rightsizing. En el nivel 4, el showback del nivel 3 evoluciona a chargeback real: los equipos de producto tienen asignado un presupuesto cloud y son responsables de gestionarlo. El rightsizing se ejecuta con herramientas automatizadas como AWS Compute Optimizer o Datadog Cloud Cost Management, con ciclos quincenales de revisión.

Métrica de salida: MTTR < 30 min para P1, frecuencia de despliegue semanal o superior, trazas distribuidas disponibles para el 80% de los servicios críticos, chargeback por equipo de producto operativo.

Nivel 5: Optimizado — platform engineering, autoservicio, entrega continua de infraestructura

El nivel Optimizado es donde la infraestructura deja de ser un cuello de botella para el desarrollo de producto. El equipo de plataforma no gestiona servidores: gestiona un producto interno que permite a los equipos de desarrollo aprovisionar, desplegar y operar sus servicios de forma autónoma.

Platform engineering. El concepto central es el Internal Developer Platform (IDP): una capa de abstracción sobre la infraestructura cloud que expone servicios de alto nivel (bases de datos, colas, cachés, pipelines CI/CD) a través de una interfaz de autoservicio. La herramienta de referencia es Backstage (open-source, creado por Spotify), que actúa como catálogo de software, portal de autoservicio y documentación centralizada.

Un equipo que llega al nivel 5 puede medir el resultado de forma concreta: el tiempo desde que un desarrollador solicita un nuevo entorno hasta que está disponible pasa de días (nivel 2-3) a menos de 30 minutos (nivel 5).

GitOps y entrega continua de infraestructura. ArgoCD o Flux gestionan el estado de los clústeres de Kubernetes mediante reconciliación continua con el repositorio Git. Cualquier desviación entre el estado deseado (Git) y el estado real (cluster) se detecta y corrige automáticamente. Los despliegues en producción no requieren intervención manual: se ejecutan mediante pull requests que pasan por pipelines automatizados de validación.

Ingeniería de caos como práctica estándar. LitmusChaos o Chaos Monkey inyectan fallos de forma controlada en producción (o en entornos de staging de alta fidelidad) para validar la resiliencia del sistema ante condiciones reales. Los resultados de cada experimento de caos alimentan el backlog de mejoras de fiabilidad.

Optimización continua de compromisos cloud. En el nivel 5, los compromisos de capacidad (Reserved Instances, Savings Plans en AWS; Reserved VM Instances en Azure; Committed Use Discounts en GCP) se gestionan con herramientas de previsión como CloudHealth (VMware) o el propio Spot.io (Flexera) para maximizar el descuento sin sobreaprovisionar. Según Flexera 2025, las organizaciones en nivel 5 logran un aprovechamiento del 85-92% de sus compromisos cloud frente al 45-60% de las organizaciones en nivel 3.

Herramientas representativas: Backstage (IDP), ArgoCD (GitOps), LitmusChaos (ingeniería de caos), Crossplane (infraestructura como API Kubernetes), Datadog o Grafana + OpenTelemetry (observabilidad), Spot.io o CloudHealth (optimización de compromisos).

Cómo avanzar de nivel en nivel: planes de 6 a 12 meses

La progresión entre niveles no ocurre sola: requiere un proyecto con sponsor ejecutivo, presupuesto asignado y métricas de éxito definidas antes de empezar. Las organizaciones que “van mejorando poco a poco” sin un plan explícito tienden a estancarse en la frontera entre niveles 2 y 3 durante años.

Nivel 1 → Nivel 2 (6 meses)

Mes	Acción
1-2	Inventario completo, etiquetado de emergencia, IAM con mínimo privilegio
2-3	Primer repositorio IaC, importar los 10 recursos de mayor coste
3-4	On-call documentado, runbooks para los 5 incidentes más frecuentes
4-5	Alertas de monitorización base, alertas de presupuesto
5-6	Política de etiquetado obligatorio, revisión de accesos trimestrales

Nivel 2 → Nivel 3 (9-12 meses)

El salto del nivel 2 al nivel 3 es el más exigente en términos organizacionales. Requiere introducir SLOs (que cambian cómo el equipo de operaciones rinde cuentas ante negocio), FinOps como proceso formal (que introduce fricción deliberada en la creación de recursos), y DR testado (que requiere tiempo dedicado fuera de los sprints habituales).

Estructura recomendada: establecer un equipo de transición con miembros de infraestructura, desarrollo y negocio, con revisión mensual de progreso contra las métricas de salida del nivel 3.

Nivel 3 → Nivel 4 (12-18 meses)

La transición al nivel 4 es principalmente de instrumentación y cultura. La observabilidad completa requiere instrumentar todos los servicios con OpenTelemetry, lo que en entornos heredados puede ser un proyecto de varios meses. La adopción de prácticas SRE (error budgets, SLO reviews) requiere cambios en cómo el equipo de ingeniería y el negocio negocian la velocidad de desarrollo.

Nivel 4 → Nivel 5 (12-24 meses)

El nivel 5 requiere la creación de un equipo de plataforma (platform team) que trabaja para los demás equipos como cliente interno. Este cambio organizacional es el más difícil de todos porque implica redefinir quién trabaja en qué y cómo se mide el éxito de los ingenieros de infraestructura.

Errores que bloquean el progreso

Los antipatrones siguientes aparecen repetidamente en organizaciones que llevan años intentando avanzar de nivel sin lograrlo:

FinOps sin gobernanza previa. Implementar dashboards de costes sin haber resuelto el etiquetado y la atribución genera datos que nadie confía y que nadie usa para tomar decisiones.
Kubernetes sin SRE. Adoptar Kubernetes como plataforma de despliegue sin las prácticas operacionales correspondientes (on-call, runbooks, MTTR medido) resulta en una plataforma más compleja con la misma fiabilidad que antes.
IaC solo para recursos nuevos. El entorno legacy no gestionado sigue generando deuda operacional y coste oculto. La migración IaC debe tener un plan de finalización.
Medir uptime de VM en lugar de SLOs de servicio. Un servidor que está activo el 99,9% del tiempo puede estar sirviendo errores el 30% de las peticiones. El uptime de infraestructura no es un proxy válido de la experiencia del usuario.
Seguridad como función de auditoría externa. Cuando el equipo de seguridad solo revisa los sistemas después de los cambios, los problemas se detectan tarde y las correcciones son costosas. La seguridad debe integrarse en los pipelines CI/CD mediante SAST, análisis de imágenes de contenedor y policy-as-code.
Confundir observabilidad con dashboards de infraestructura. Tener métricas de CPU y memoria no es observabilidad. La observabilidad real permite reconstruir el comportamiento del sistema ante cualquier fallo sin haber añadido instrumentación específica para ese fallo.
No hacer postmortems. Las organizaciones que no analizan sus incidentes cometen los mismos errores repetidamente. Un proceso de postmortem sin culpas que genera acciones medibles con responsable y fecha es el mecanismo de aprendizaje más eficaz disponible.
Resolver con contratación lo que es un problema de proceso. Añadir ingenieros a un equipo con procesos inmaduros multiplica el caos. Primero el proceso, luego la capacidad.

Madurez cloud vs métricas DORA vs madurez FinOps

Los tres marcos se miden por separado pero progresan de forma interdependiente. La tabla siguiente muestra las correlaciones esperadas entre niveles:

Nivel de madurez cloud	Métricas DORA esperadas	Nivel FinOps equivalente	Indicadores clave de correlación
Nivel 1 · Ad hoc	Élite: imposible. Bajo rendimiento: frecuente	Crawl (FinOps Foundation)	Sin etiquetado, sin pipeline, sin visibilidad de costes
Nivel 2 · Repeatable	Bajo a medio rendimiento	Crawl - Walk	Etiquetado parcial, CI/CD básico, alertas de presupuesto
Nivel 3 · Defined	Medio rendimiento (deployments semanales, MTTR < 1h)	Walk	Showback operativo, DR testado, SLOs medidos
Nivel 4 · Managed	Alto rendimiento (deployments diarios, MTTR < 30 min)	Walk - Run	Chargeback real, error budgets, anomaly detection
Nivel 5 · Optimizado	Élite (múltiples deployments/día, MTTR < 10 min)	Run	Compromisos cloud optimizados, platform self-service

La referencia DORA es el informe Accelerate State of DevOps de Google. Las métricas DORA de élite en 2024 incluyen frecuencia de despliegue múltiple al día, lead time de cambios inferior a una hora, MTTR inferior a una hora y tasa de fallos en cambios inferior al 5%.

Un equipo que alcanza nivel 4 en madurez cloud casi siempre alcanza simultáneamente rendimiento DORA alto o élite, porque las prácticas que habilitan uno habilitan el otro. Intentar mejorar las métricas DORA sin mejorar la madurez cloud operacional —o viceversa— produce resultados parciales que no se sostienen.

Fuentes

Flexera — State of the Cloud Report 2025
AWS — AWS Cloud Adoption Framework (CAF)
Microsoft — Microsoft Cloud Adoption Framework for Azure
Google Cloud — Google Cloud Adoption Framework Whitepaper
European Commission / Eurostat — DESI 2024: Digital Economy and Society Index
DORA / Google — Accelerate State of DevOps Report — DORA metrics
FinOps Foundation — Cloud FinOps Framework
CMMI Institute — Capability Maturity Model Integration (CMMI)

Cómo abemon puede acompañar su progresión

El progreso entre niveles de madurez cloud requiere dos cosas que raramente coexisten en los equipos internos: la capacidad técnica para implementar los cambios y la perspectiva externa para identificar los bloqueos que desde dentro son invisibles.

Los servicios de cloud y DevOps de abemon cubren la evaluación del estado actual, la definición del plan de transición y la implementación técnica de cada etapa. Para organizaciones que no quieren construir un equipo SRE completo de forma permanente, los servicios gestionados permiten operar en nivel 3-4 sin el coste de mantener ese equipo internamente.

Las soluciones cloud de abemon están diseñadas para organizaciones en los niveles 2 y 3 que necesitan avanzar sin interrumpir las operaciones actuales. El punto de partida es siempre un diagnóstico técnico honesto, sin agenda de venta.

Si desea discutir en qué nivel se encuentra su organización y cuáles son los próximos pasos más rentables, puede contactar con el equipo técnico.

Preguntas frecuentes

¿Qué es un modelo de madurez cloud?: Un modelo de madurez cloud es un marco de referencia que describe la progresión de una organización desde el uso ad hoc de servicios cloud hasta operaciones completamente optimizadas y automatizadas. Establece criterios objetivos en cinco dimensiones —infraestructura, operaciones, seguridad, costes y cultura— para que los equipos puedan identificar su posición actual y definir las acciones necesarias para avanzar. Los marcos más citados son el AWS Cloud Adoption Framework (CAF), el Microsoft Cloud Adoption Framework y el Google Cloud Maturity Assessment, aunque todos convergen en las mismas etapas fundamentales.
¿Cómo sé en qué nivel de madurez está mi empresa?: El diagnóstico más fiable combina tres evidencias: el estado de la infraestructura como código (IaC), el nivel de observabilidad disponible y si la empresa tiene un proceso formal de gestión de costes cloud. Una organización sin IaC y sin etiquetado de recursos está en el nivel 1 o 2. Una organización con pipelines CI/CD maduros, on-call documentado y revisión mensual de FinOps está en el nivel 3 o 4. El checklist de autoevaluación de esta guía permite hacer ese diagnóstico en menos de 30 minutos.
¿Cuánto tiempo lleva pasar del nivel 2 al nivel 4?: Según Gartner (Magic Quadrant for Cloud Management Platforms, 2024), la progresión media del nivel 2 al nivel 4 es de 18 a 24 meses con inversión dedicada. Organizaciones con equipos pequeños y deuda técnica acumulada pueden tardar hasta 36 meses. La aceleración más significativa se produce cuando se resuelven dos bloqueos simultáneamente: implementar IaC de forma consistente y establecer un proceso real de revisión de costes cloud. Sin esos dos cimientos, los equipos avanzan en alguna dimensión pero retroceden en otras.
¿Qué diferencia hay entre AWS CAF y Microsoft CAF?: AWS CAF organiza la madurez en seis perspectivas (Negocio, Personas, Gobernanza, Plataforma, Seguridad, Operaciones) y pone el énfasis en la transformación organizacional. Microsoft CAF (también conocido como Azure CAF) tiene una estructura similar pero añade la fase de 'Ready' con zonas de aterrizaje (Landing Zones) como concepto central, lo que lo hace más prescriptivo en la arquitectura de red y gestión de identidades. Google Cloud Maturity Assessment es más orientado a la evaluación del estado actual que a la hoja de ruta. En la práctica, las diferencias son menores que las similitudes: cualquier equipo puede beneficiarse de los tres como referencias complementarias.
¿Es necesario pasar por todos los niveles?: Sí, aunque el ritmo puede variar por dimensión. No existe un atajo directo desde el nivel 1 al nivel 4: las organizaciones que intentan implementar prácticas de nivel avanzado sin las bases previas acumulan deuda operacional que termina por colapsar en forma de incidentes. Lo que sí es posible es priorizar algunas dimensiones antes que otras: por ejemplo, un equipo de desarrollo puede madurar la práctica de CI/CD (nivel 3-4) mientras las operaciones de infraestructura siguen en nivel 2, siempre que esa asimetría sea deliberada y temporal.
¿Qué métricas demuestran progreso en madurez cloud?: Las métricas más fiables son: tiempo de aprovisionamiento de infraestructura nueva (baja a medida que se avanza en IaC), porcentaje de recursos etiquetados correctamente (proxy de gobernanza FinOps), MTTR (Mean Time to Recover) de incidentes, frecuencia de despliegues y tasa de fallos en cambios (estas dos últimas son métricas DORA). En el nivel 4, un equipo maduro tiene MTTR inferior a 30 minutos para incidentes de alta prioridad y una frecuencia de despliegue de al menos una vez por semana por servicio.
¿Cómo se relacionan FinOps y madurez cloud?: FinOps y madurez cloud son marcos complementarios pero independientes. Un equipo puede tener prácticas FinOps maduras (nivel 3 en el modelo FinOps Foundation) y estar en el nivel 2 de madurez operacional cloud, o viceversa. En la práctica, el progreso está correlacionado: sin etiquetado consistente de recursos (nivel 2 de madurez cloud) es imposible hacer atribución de costes por equipo o producto (nivel 2 de FinOps). La recomendación es avanzar ambos en paralelo, priorizando la gobernanza de etiquetas como punto de intersección.
¿Qué errores impiden avanzar de nivel?: Los ocho antipatrones más frecuentes son: (1) aplicar FinOps sin gobernanza previa de etiquetas, (2) desplegar Kubernetes sin prácticas SRE establecidas, (3) usar IaC solo para nuevos recursos mientras el entorno existente permanece sin gestionar, (4) medir disponibilidad por uptime de VM en lugar de SLOs de servicio, (5) centralizar la seguridad como función de audit sin integrarla en los pipelines, (6) confundir observabilidad con métricas de infraestructura (sin trazas distribuidas ni correlación de logs), (7) no tener proceso formal de postmortem tras incidentes, y (8) asumir que la contratación de más ingenieros resuelve problemas que son fundamentalmente de proceso.

Fuentes

Flexera — Flexera State of the Cloud Report 2025
AWS — AWS Cloud Adoption Framework (CAF)
Microsoft — Microsoft Cloud Adoption Framework for Azure
Google Cloud — Google Cloud Adoption Framework Whitepaper
European Commission / Eurostat — DESA 2024 — Digital Economy and Society Index: Spain
DORA / Google — Accelerate State of DevOps Report — DORA metrics
FinOps Foundation — FinOps Foundation — Cloud FinOps Framework
CMMI Institute — CMM — Capability Maturity Model Integration (CMMI)

Etiquetas

Cloud DevOps FinOps Estrategia Migracion

Sobre el autor

abemon engineering

Equipo de ingenieria

Equipo multidisciplinar de ingenieria, datos e IA con sede en Canarias. Construimos, desplegamos y operamos soluciones de software a medida para empresas de cualquier escala.

Síguenos: LinkedIn GitHub

Articulos relacionados

Whitepapers

¿Qué es un modelo de madurez cloud?

Los 5 niveles de madurez

Checklist de autoevaluación

Nivel 1 — Ad hoc

Nivel 2 — Repeatable

Nivel 3 — Defined

Nivel 4 — Managed

Nivel 5 — Optimized

Nivel 1: Ad hoc — cómo es y qué resolver primero

Nivel 2: Repeatable — IaC, monitorización base, etiquetado de costes

Nivel 3: Defined — FinOps, DR, CI/CD maduro, base de compliance

Nivel 4: Managed — prácticas SRE, observabilidad 360, remediación automatizada

Nivel 5: Optimizado — platform engineering, autoservicio, entrega continua de infraestructura

Cómo avanzar de nivel en nivel: planes de 6 a 12 meses

Errores que bloquean el progreso

Madurez cloud vs métricas DORA vs madurez FinOps

Fuentes

Cómo abemon puede acompañar su progresión

Preguntas frecuentes

Fuentes

Etiquetas

Sobre el autor

Articulos relacionados

GreenOps y cloud sostenible: medir y reducir la huella de carbono digital

Multi-cloud en la practica: AWS + Azure + GCP en la misma empresa

Platform engineering: la siguiente evolucion de DevOps