
Cuando hacés pronósticos de demanda, los errores son inevitables, pero medirlos correctamente es clave para tomar mejores decisiones. Estas son las 5 métricas más usadas y cómo aplicarlas:
¿Cuál elegir? Combiná métricas según el contexto: para portafolios diversos, usá WMAPE + Sesgo; en productos de alto valor, sumá el RMSE; para demandas bajas, el MAD es más confiable. Estas herramientas te ayudan a entender y mejorar tus pronósticos, minimizando costos y maximizando ingresos.
El MAD (Desviación Media Absoluta) es una de las métricas más simples para evaluar errores de pronóstico. Su cálculo es bastante directo: se mide la diferencia entre la demanda real y el pronóstico, se toma el valor absoluto de esa diferencia y luego se promedia.
Una de las razones por las que el MAD es tan práctico es que se expresa en las mismas unidades del producto que estás analizando. Por ejemplo, si pronosticás la venta de cajas de shampoo, el MAD te indicará, en promedio, cuántas cajas te equivocás por período. Esto lo convierte en una herramienta fácil de interpretar, especialmente útil para quienes manejan inventarios.
"El MAD muestra qué tan grande es, en promedio, un error en el pronóstico." - AWS Prescriptive Guidance
Una de sus ventajas principales es que no exagera el impacto de errores grandes, algo que sí ocurre con métricas como el MSE. Al tratar todas las desviaciones de forma lineal, el MAD es menos sensible a valores atípicos. Sin embargo, tiene una limitación importante: . Por ejemplo, un MAD de 10 unidades sería preocupante para un producto que vende 20 unidades al mes, pero insignificante para uno que vende 1.000.
Para aprovechar al máximo esta métrica, podés usar el MAD como un indicador de alerta. Si el MAD de un producto aumenta de manera constante, es una señal de que el modelo de pronóstico podría estar perdiendo precisión y necesita ajustes. Además, en una distribución normal, el 99% de los errores de pronóstico caen dentro de ±4 MAD, lo que lo convierte en un buen punto de partida para establecer límites de control en productos con altos volúmenes de venta.
El MAPE convierte el error en un porcentaje de la demanda real, lo que lo hace más útil que el MAD, ya que no solo muestra la cantidad errada, sino que también es independiente de la escala. Esto lo convierte en una herramienta ideal para comparar la precisión de pronósticos entre líneas de productos muy diferentes. Sin embargo, esta ventaja viene acompañada de ciertos inconvenientes.
Una de sus mayores ventajas es que un MAPE del 8% se comprende fácilmente sin necesidad de conocer los volúmenes de venta. Como referencia general, un MAPE inferior al 10% suele considerarse muy preciso, entre el 10% y el 20% es aceptable, mientras que valores superiores al 50% indican que el pronóstico es poco confiable. Estos umbrales, sin embargo, varían según la industria: en consumo masivo (CPG) es común encontrar errores promedio cercanos al 39%, mientras que en el sector farmacéutico se espera que oscilen entre el 10% y el 20%.
A pesar de su utilidad, el MAPE enfrenta retos, especialmente en productos con baja demanda. Por ejemplo, si un producto vendió 2 unidades y el pronóstico se desvió en 2 unidades, el MAPE reflejará un error del 100%, aunque el impacto absoluto sea mínimo. Además, la fórmula del MAPE puede generar asimetrías: las sobreestimaciones pueden resultar en errores superiores al 100%, mientras que las subestimaciones están limitadas a ese mismo valor. Esto puede llevar a que los modelos tiendan a subestimar la demanda de manera sistemática.
No utilices el MAPE como única métrica: combinalo con una medida de Bias y, para portafolios diversos, recurrí al WMAPE, que asigna mayor peso a los productos de mayor volumen. En la siguiente sección, exploraremos cómo el MSE ofrece otra perspectiva para analizar estos errores.
El Error Cuadrático Medio (MSE) calcula el promedio de las diferencias al cuadrado entre los valores reales y los pronosticados, lo que da como resultado cifras expresadas en "unidades al cuadrado". Esto puede dificultar su interpretación directa.
Una de sus características más destacadas es su alta sensibilidad a los errores grandes. Al elevar al cuadrado las diferencias, los valores atípicos tienen un impacto desproporcionado en el cálculo del MSE. Por ejemplo, al analizar ventas de smartphones, un cambio en el error de -194,33 a -572,39 unidades hizo que el MSE pasara de 9.441,01 a 65.526,85. Este ejemplo ilustra cómo un solo dato atípico puede alterar drásticamente el resultado.
"MSE penaliza los errores más grandes, un único error muy grande aumenta significativamente el MSE." - Miguel García, Celeberrima
Por esta razón, el MSE es especialmente útil en contextos donde los errores grandes son inaceptables o tienen un costo elevado, como en la gestión de inventarios críticos o en el ámbito financiero, donde una desviación considerable puede generar consecuencias importantes. Sin embargo, si los datos contienen valores atípicos que no reflejan el comportamiento habitual, el MSE puede dar resultados inflados y ofrecer una perspectiva distorsionada del modelo.
Para facilitar la comunicación de los resultados a equipos no técnicos, se suele complementar el MSE con el RMSE (Raíz del Error Cuadrático Medio). El RMSE traduce el error a las mismas unidades que los datos originales, haciendo que sea mucho más sencillo de entender y explicar. En la siguiente sección, profundizaremos en el RMSE y cómo simplifica la interpretación de los errores.
El RMSE, derivado del MSE, ofrece una interpretación más clara al expresarse en las mismas unidades que los datos originales, como unidades vendidas, kilogramos o litros.
La Raíz del Error Cuadrático Medio (RMSE) se calcula tomando la raíz cuadrada del MSE. Esto permite que el resultado sea más fácil de entender, ya que utiliza las mismas unidades que los datos analizados. Tanto el RMSE como el MSE son especialmente sensibles a errores grandes, lo que significa que valores atípicos pueden impactar significativamente en los resultados. Un RMSE de 0 indica un modelo perfectamente ajustado, aunque esto es prácticamente imposible en escenarios reales.
Es clave tener en cuenta que el RMSE depende de la escala de los datos, por lo que no es adecuado usarlo para comparar productos con volúmenes muy diferentes. Como señala Yvonne Badulescu:
"Se expresa en las mismas unidades de los datos (por ejemplo, unidades vendidas, litros o toneladas). Refleja la magnitud de los errores de pronóstico, pero no puede compararse de manera significativa entre productos."
El RMSE tiene una ventaja importante sobre el MSE: su facilidad para comunicar resultados. Al estar en las mismas unidades del negocio, es más sencillo explicar a equipos no técnicos qué tan lejos estuvo el pronóstico de los resultados reales. Por esta razón, cuando se reportan resultados a stakeholders, el RMSE suele ser más útil que el MSE. Sin embargo, para obtener una visión completa, es recomendable complementarlo con una medida de sesgo (Bias), ya que el RMSE solo mide la magnitud del error, pero no su dirección.
Después de calcular la magnitud de los errores con métricas como MAD, MAPE, MSE y RMSE, es fundamental analizar la tendencia de los pronósticos. El sesgo no mide el tamaño del error, sino si el modelo tiende a sobreestimar o subestimar de manera constante la demanda real.
El sesgo se calcula promediando los errores (Real - Pronóstico). Un resultado positivo indica que el modelo subestima la demanda, mientras que un valor negativo señala una sobreestimación. Para facilitar comparaciones entre productos con diferentes volúmenes, el sesgo también puede expresarse como porcentaje, utilizando el Error Porcentual Medio (MPE).
Sin embargo, el sesgo tiene una limitación importante: los errores pueden compensarse entre sí. Por ejemplo, un modelo podría mostrar un sesgo cercano a cero, pero aún así tener errores significativos en cada período. Como explica Krish Naidu de Mathnal Analytics:
"Una previsión con 20% de MAPE pero sesgo cero es mucho menos dañina que una con 15% de MAPE y un sesgo consistente del 10% de sobreprevisión. Los errores que se cancelan son ruido. Los errores que se acumulan son destrucción."
La señal de seguimiento es otra herramienta clave. Se calcula dividiendo el Error Acumulado (CFE) por el MAD. Si este valor supera ±4, indica que el modelo necesita ajustes urgentes. A pesar de su importancia, cerca del 45% de las empresas no realiza un seguimiento formal del sesgo, lo que puede generar costos operativos exponenciales, en contraste con el impacto más lineal de otras métricas de error. Por eso, monitorear y ajustar continuamente esta métrica es esencial para mejorar los modelos de pronóstico.
5 Métricas de Error en Pronósticos: Guía Comparativa
Resumamos las cinco métricas para entender mejor su uso y contexto. Como señala WFM Labs, "la elección de la métrica importa tanto como la elección del método: diferentes métricas premian comportamientos diferentes".
| Métrica | Unidad de medida | Sensibilidad a errores grandes | Mejor caso de uso | Interpretabilidad |
|---|---|---|---|---|
| MAD | Unidades originales | Baja (lineal) | Gestión operativa de inventario y demanda estable | Alta |
| MAPE | Porcentaje (%) | Moderada (se distorsiona con volúmenes bajos) | Reportes ejecutivos y comparación entre productos | Muy alta |
| MSE | Unidades al cuadrado | Muy alta (cuadrática) | Optimización matemática y entrenamiento de modelos de ML | Baja |
| RMSE | Unidades originales | Alta (cuadrática) | Artículos de alto valor donde un error grande es muy costoso | Moderada |
| Sesgo | Unidades originales o % | Baja (los errores se cancelan) | Detectar sobreestimación o subestimación sistemática | Alta |
Esta tabla complementa lo explicado anteriormente, facilitando una comparación práctica de las métricas. Hay dos puntos clave a destacar: MSE y RMSE penalizan fuertemente los errores grandes, siendo útiles cuando un error grave puede generar costos elevados. Por otro lado, el sesgo es la única métrica que indica la dirección del error.
Es importante evitar el uso del MAPE en situaciones donde la demanda sea cero o casi cero, como en lanzamientos o repuestos de baja rotación. En estos casos, el MAD o el RMSE son opciones más confiables.
"La exactitud del pronóstico no es una verdad única y objetiva. Depende de qué estás midiendo, qué importa para tu negocio y qué tipo de patrones muestra tu información." - Yvonne Badulescu
No hay una métrica única que sirva como estándar absoluto para medir errores en pronósticos. Cada una aporta una perspectiva diferente: el MAD y el MAPE reflejan el tamaño promedio del error; el RMSE da mayor peso a los desvíos grandes, y el sesgo identifica si el modelo tiende a sobrestimar o subestimar de manera sistemática. Si se usan de manera aislada, pueden ofrecer una visión parcial - o incluso equivocada - del desempeño real.
Una combinación inicial recomendable es WMAPE + Sesgo. El WMAPE ajusta los errores según el volumen de ventas, mostrando cómo estos afectan realmente al negocio, mientras que el sesgo ayuda a detectar problemas recurrentes como exceso de stock o faltantes. Juntas, estas métricas abarcan tanto la magnitud como la dirección del error.
Para productos de alto valor o perecederos, incluir el RMSE en este análisis es útil para identificar desvíos extremos que podrían generar pérdidas significativas. Por otro lado, en el caso de artículos con baja rotación o demanda intermitente, el MAD resulta más confiable que el MAPE, ya que este último se distorsiona cuando los volúmenes son bajos o cercanos a cero.
"La exactitud del pronóstico por sí sola no garantiza el éxito del negocio y debe conectarse con acciones y KPIs como disponibilidad, merma y rotación de inventario." - RELEX Solutions
Es fundamental medir los errores al nivel en el que se toman las decisiones de reposición - ya sea por SKU, depósito o canal - y no solo en niveles agregados. De lo contrario, los errores individuales pueden compensarse entre sí, dando una percepción de precisión que no refleja la realidad operativa.
Identificá los valores reales (At) y los pronosticados (Ft). Por ejemplo, si los valores reales son 100 y 200, y los pronósticos son 120 y 190, los cálculos serían los siguientes:
Con Burbuxa, estas métricas se convierten en herramientas clave para optimizar ventas y mejorar el soporte en tiempo real, ajustando estrategias con mayor precisión.
Cuando la demanda es nula o extremadamente baja, el MAPE deja de ser práctico porque dividir por valores cercanos a cero puede generar errores inestables o incluso infinitos. En estas situaciones, conviene recurrir a métricas más confiables, como:
Es clave ajustar el modelo en los siguientes casos: