Vision por Computador en Industria: Casos Reales y ROI

Mas alla del proof of concept

La vision por computador tiene un problema de credibilidad. Hay miles de demos impresionantes en LinkedIn: un modelo que detecta grietas en puentes, otro que cuenta personas en una tienda, otro que identifica defectos en una linea de produccion. Lo que falta en esas demos son tres cosas: el coste real de operarlo, la precision real en condiciones de produccion (no en el dataset curado), y los numeros que demuestran que la inversion se recupera.

Este articulo documenta tres implementaciones reales en sectores diferentes, con sus numeros reales. No son proyectos hipoteticos. Son sistemas que procesan imagenes todos los dias y generan valor medible.

Caso 1: Seguimiento de progreso de obra (construccion)

El problema

Un promotor inmobiliario con 6 obras simultaneas necesitaba verificar el avance real de cada obra contra el cronograma. El metodo existente: un jefe de obra visita cada obra semanalmente, toma fotos, escribe un informe, y lo envia por email. El promotor recibe 6 informes subjetivos con 3-5 dias de retraso.

Las consecuencias de no detectar retrasos a tiempo: penalizaciones contractuales de hasta 1.500 euros diarios por obra, sobrecostes por re-planificacion, y tension con compradores que esperan fechas de entrega.

La solucion

Camaras fijas instaladas en cada obra (una por cada fachada principal, tipicamente 4 por obra) capturan imagenes cada hora. Un modelo de deteccion de objetos entrenado con YOLOv8 identifica elementos estructurales: pilares, forjados, cerramientos, cubiertas, carpinteria. Un segundo modelo compara el estado detectado contra el BIM del proyecto y calcula el porcentaje de avance por fase.

El pipeline es: camara -> almacenamiento en S3 -> inferencia en GPU (un T4 de AWS) -> comparacion con BIM -> dashboard en Grafana con porcentaje de avance por obra y por fase -> alertas si el avance real diverge del planificado mas de un 5%.

La precision del modelo en produccion: 91.4% en deteccion de elementos estructurales (medido contra inspeccion manual trimestral). El error se concentra en fases tempranas (cimentacion) donde los elementos son visualmente ambiguos desde camaras fijas. En fases de estructura y acabados, la precision sube al 95.8%.

El ROI

Costes:

Hardware: 24 camaras (4 por obra x 6 obras) a 280 euros cada una = 6.720 euros.
Infraestructura cloud: GPU T4 spot instance + almacenamiento = 340 euros/mes.
Desarrollo e integracion: 35.000 euros (una vez).
Mantenimiento: 2.000 euros/mes (monitorizacion, re-entrenamiento trimestral).

Ahorros:

Deteccion temprana de retrasos: reduccion del 40% en penalizaciones contractuales. El promotor pagaba una media de 22.000 euros anuales en penalizaciones. Reduccion: 8.800 euros/ano.
Eliminacion de 80% de visitas fisicas del jefe de obra (solo necesita visitar cuando el sistema detecta anomalias). Ahorro en tiempo y desplazamientos: 14.400 euros/ano.
Mejora en planificacion: reduccion del 15% en sobrecostes por re-planificacion. Ahorro estimado: 45.000 euros/ano.

Payback: El coste total del primer ano (hardware + desarrollo + operacion) es aproximadamente 65.000 euros. El ahorro anual es 68.200 euros. Payback en 11.4 meses. A partir del segundo ano, el coste operativo es 28.000 euros contra un ahorro de 68.200. El ROI neto es de 144%.

Caso 2: Monitorizacion de estanterias (retail)

El problema

Una cadena de supermercados con 45 tiendas perdia un estimado del 3.2% de ventas por roturas de stock no detectadas. Los lineales vacios representan ventas perdidas directas. El metodo existente: reposicion programada cada 4 horas y reportes manuales de los empleados de planta. Los vacios entre reposiciones no se detectaban hasta que un cliente se quejaba o hasta el siguiente ciclo.

La solucion

Camaras existentes de seguridad (ya instaladas en todas las tiendas) reutilizadas para monitorizacion de lineales. Un modelo de deteccion de vacios entrenado con un dataset propio de 12.000 imagenes etiquetadas por personal de la cadena. El modelo detecta secciones de estanteria vacias y las cruza con el planograma para identificar que producto falta.

El pipeline procesa una imagen por pasillo cada 15 minutos. Cuando detecta un vacio que persiste en dos capturas consecutivas (30 minutos), genera una alerta al equipo de reposicion con la ubicacion y el producto identificado.

La precision: 88.7% en deteccion de vacios, 76.3% en identificacion del producto faltante. La identificacion de producto es el punto debil porque las camaras de seguridad no tienen la resolucion optima para leer etiquetas. Para mejorar este punto, combinamos la deteccion visual con datos de inventario: si el lineal esta vacio y el stock en almacen del producto asignado a esa posicion es mayor que cero, la probabilidad de que sea ese producto es alta.

El ROI

Costes:

Hardware adicional: cero (se reutilizan camaras existentes; se anade un NVR con capacidad de export por tienda, 800 euros x 45 = 36.000 euros).
Infraestructura cloud: procesamiento de imagenes = 1.200 euros/mes.
Desarrollo: 42.000 euros (una vez, incluyendo etiquetado de dataset).
Mantenimiento: 1.500 euros/mes.

Ahorros:

Reduccion de roturas de stock del 3.2% al 1.8%. En una cadena con una facturacion media de 180.000 euros mensuales por tienda, eso representa un incremento de ventas recuperadas de 2.520 euros/tienda/mes. Con 45 tiendas: 113.400 euros/mes.
Reduccion del 25% en horas de reposicion por mejor priorizacion. Ahorro estimado: 18.000 euros/mes en toda la cadena.

Payback: Coste del primer ano: 110.400 euros (hardware + desarrollo + 12 meses de operacion). Ahorro del primer ano: 1.576.800 euros. Payback en 25 dias. Estos numeros explican por que computer vision en retail es uno de los casos de uso con adopcion mas rapida.

Caso 3: Inspeccion de paquetes (logistica)

El problema

Un operador logistico que procesa 8.000 paquetes diarios necesitaba detectar danos visibles (aplastamientos, roturas, humedad) antes de la entrega al destinatario. El metodo existente: inspeccion visual manual en la zona de expedicion. Con 8.000 paquetes y 12 operarios, cada operario disponia de una media de 6 segundos por paquete. La tasa de deteccion de danos era del 62% (medida contra auditorias aleatorias).

Los paquetes danados entregados generaban reclamaciones, devoluciones, y costes de re-envio que sumaban una media de 18.000 euros mensuales.

La solucion

Cuatro camaras de alta velocidad instaladas en el tunel de expedicion, capturando cada paquete desde cuatro angulos mientras pasa por la cinta transportadora. Un modelo de deteccion de anomalias entrenado con ResNet-50 como backbone y fine-tuned con un dataset de 8.500 imagenes de paquetes (4.200 con danos, 4.300 sin danos). El modelo clasifica cada paquete como “OK” o “requiere revision” en 180 milisegundos.

Los paquetes marcados como “requiere revision” son desviados automaticamente a una linea de inspeccion manual donde un operario verifica el estado y decide si se entrega, se reempaqueta o se devuelve.

Precision en produccion: 94.1% de recall (detecta el 94.1% de los danos reales) con un 8.3% de false positives (paquetes marcados como danados que estan bien). El false positive rate es aceptable porque el coste de revisar un paquete innecesariamente es bajo (30 segundos de un operario), mientras que el coste de no detectar un dano es alto (reclamacion, re-envio, cliente insatisfecho).

El ROI

Costes:

Hardware: 4 camaras industriales + iluminacion del tunel + PC de inferencia con GPU = 12.800 euros.
Integracion con cinta transportadora (desvio automatico) = 8.500 euros.
Desarrollo y entrenamiento: 28.000 euros.
Mantenimiento: 1.200 euros/mes.

Ahorros:

Reduccion del 52% en reclamaciones por danos (de 18.000 a 8.640 euros/mes). Ahorro: 9.360 euros/mes.
Reduccion de 4 operarios dedicados a inspeccion visual (reasignados a otras tareas). Ahorro en coste de oportunidad: 7.200 euros/mes.
Reduccion del 35% en costes de re-envio. Ahorro: 3.150 euros/mes.

Payback: Coste del primer ano: 63.700 euros. Ahorro del primer ano: 236.520 euros. Payback en 3.2 meses.

Patrones comunes de implementacion

Los tres casos comparten patrones que se repiten en cualquier despliegue de vision por computador en produccion.

Edge vs. cloud. La decision de procesar en el edge (en la ubicacion) o en cloud depende de la latencia requerida y el volumen de imagenes. La inspeccion de paquetes requiere 180ms de latencia: edge obligatorio. La monitorizacion de obra puede tolerar minutos: cloud es mas eficiente. El retail es un caso intermedio donde el procesamiento puede ser local (en el NVR) o en cloud con batching cada 15 minutos.

Re-entrenamiento continuo. Los modelos se degradan cuando las condiciones visuales cambian (nueva iluminacion, nuevos tipos de producto, cambio de estacion). Un pipeline de re-entrenamiento trimestral con imagenes frescas de produccion mantiene la precision. Automatizar el etiquetado asistido (el modelo propone, un humano valida) reduce el coste de re-entrenamiento en un 60%.

Metricas de negocio, no metricas de modelo. El mAP del modelo es relevante para el equipo tecnico. El negocio quiere saber: cuantos danos detectamos, cuantas roturas de stock evitamos, cuanto nos ahorramos en penalizaciones. Las metricas de modelo alimentan las metricas de negocio, pero el dashboard que ve el director financiero muestra euros, no porcentajes de precision.

Empezar simple. Los tres proyectos empezaron con modelos pre-entrenados y fine-tuning con datasets relativamente pequenos (entre 4.000 y 12.000 imagenes). Ninguno requirio entrenar un modelo desde cero. La inversion en etiquetado de datos es significativa pero predecible. La inversion en arquitecturas de modelo exoticas es impredecible y rara vez justificada en aplicaciones industriales.

Errores comunes que arruinan proyectos

Despues de participar en mas de una docena de proyectos de vision por computador en diferentes sectores, hay errores que vemos con suficiente frecuencia para considerarlos sistematicos.

Subestimar las condiciones de produccion. El modelo funciona perfecto en el laboratorio con iluminacion controlada y camaras de alta resolucion. En produccion, la iluminacion cambia con el clima y la hora del dia, las camaras se ensucian, la vibracion de la maquinaria causa blur. Un modelo entrenado exclusivamente con imagenes limpias pierde entre 8 y 15 puntos de precision cuando se enfrenta a condiciones reales. La solucion es obvia pero requiere disciplina: entrenar con imagenes de produccion, no con imagenes de laboratorio. Incluir augmentation que simule las condiciones adversas reales (cambios de luminosidad, blur por movimiento, oclusiones parciales).

Ignorar los false positives. Mucha atencion se dedica al recall (no perder detecciones) y poca a la precision (no generar falsas alarmas). En un contexto industrial, un false positive tiene coste: un operario que revisa un paquete que no tiene dano, un reponedor que va a un lineal que no esta vacio, una alerta de progreso de obra que no corresponde. Si la tasa de false positives es demasiado alta, el equipo operativo pierde confianza en el sistema y deja de atender las alertas. Alert fatigue mata proyectos de vision por computador igual que mata proyectos de monitoring.

No planificar la infraestructura de etiquetado. El entrenamiento inicial es una fraccion del etiquetado total del proyecto. El re-entrenamiento trimestral, la correccion de errores, la adaptacion a nuevos productos o condiciones requieren etiquetado continuo. Sin un proceso de etiquetado eficiente (herramientas como Label Studio o CVAT, un pipeline de etiquetado asistido por modelo, y personas asignadas a la tarea), el modelo se queda congelado en su version inicial y se degrada.

Optimizar la metrica equivocada. El equipo tecnico optimiza mAP. El negocio necesita optimizar el coste de errores no detectados vs. el coste de falsas alarmas. Estas dos metricas no siempre se alinean. Un umbral de confianza alto reduce falsas alarmas pero aumenta los errores no detectados. Un umbral bajo hace lo contrario. El punto optimo depende de la economia del caso de uso, no de la metrica del modelo. Incluir al equipo de negocio en la decision del umbral de confianza es mas importante que mejorar el mAP un punto porcentual.

Cuando no usar vision por computador

No todo problema visual requiere vision por computador. Hay casos donde sensores mas simples (peso, infrarrojo, ultrasonido) resuelven el problema con menos complejidad y menor coste. Si la pregunta es “hay algo en esta posicion?” un sensor de presencia cuesta 15 euros y tiene una fiabilidad del 99.9%. Un modelo de vision que responde a la misma pregunta cuesta miles en desarrollo y tiene una fiabilidad del 95%.

La vision por computador se justifica cuando la pregunta es visual y semantica: “que hay en esta posicion y en que estado esta?” “ha cambiado algo respecto a la imagen de referencia?” “este objeto tiene un defecto visible?” Si la pregunta puede responderse sin interpretar una imagen, probablemente hay una solucion mas simple y fiable.

La vision por computador en industria ya no es tecnologia experimental. Es tecnologia de produccion con ROI demostrable. El factor limitante no es el modelo. Es la ingenieria que conecta la camara con la decision de negocio.

Para el caso especifico de retail, nuestro articulo sobre smart retail y gestion de stock con IA profundiza en la monitorizacion de estanterias. Y para llevar estos modelos a produccion con un pipeline fiable, consulta nuestra guia de MLOps.

Vision por computador en industria: casos reales y ROI

Mas alla del proof of concept

Caso 1: Seguimiento de progreso de obra (construccion)

El problema

La solucion

El ROI

Caso 2: Monitorizacion de estanterias (retail)

El problema

La solucion

El ROI

Caso 3: Inspeccion de paquetes (logistica)

El problema

La solucion

El ROI

Patrones comunes de implementacion

Errores comunes que arruinan proyectos

Cuando no usar vision por computador

Etiquetas

Sobre el autor

Articulos relacionados

Agentes de IA en produccion: lecciones aprendidas tras 18 meses

LLMs en produccion: costes, latencia y las metricas que nadie cuenta

IA en atencion al cliente: mas alla del chatbot