
Si alguna vez viste "productos similares" en una tienda online, ya conocés las recomendaciones visuales. Pero, ¿sabías que las redes neuronales convolucionales (CNNs) están revolucionando cómo funcionan? Estas redes no dependen de etiquetas manuales ni historiales de compra: analizan directamente las imágenes para identificar patrones como texturas, colores y formas. Esto mejora las sugerencias, incluso para productos nuevos o en sectores con alta rotación, como la moda.
Además, herramientas como Burbuxa integran estas recomendaciones en canales como WhatsApp e Instagram, respondiendo consultas en menos de 200 ms. Esto no solo optimiza la conversión, sino que también automatiza flujos como recuperación de carritos y técnicas de venta cruzada.
Conclusión: Las CNNs no solo mejoran la precisión de las recomendaciones, sino que también las hacen más rápidas y relevantes, adaptándose a las necesidades del e-commerce actual.
Para mejorar el sistema de recomendaciones visuales, es fundamental identificar los desafíos que afectan su desempeño, especialmente en sectores como moda, belleza y hogar. Antes de implementar soluciones basadas en redes neuronales convolucionales (CNNs), es clave entender los problemas que limitan su efectividad.
El problema del cold start surge cuando un producto nuevo entra al catálogo sin datos previos de clics, compras o interacciones. Sin esta información, los algoritmos no pueden recomendarlo ni clasificarlo de manera adecuada. En Argentina, este desafío se intensifica debido a la alta rotación estacional, particularmente en la industria de la moda. Los cambios de temporada introducen constantemente nuevos productos, dejando a muchos SKUs sin el tráfico necesario para generar datos relevantes durante un tiempo considerable.
Cuando los sistemas dependen de etiquetas manuales o metadatos, la calidad de las recomendaciones puede verse comprometida. Por ejemplo, si una remera azul marino está etiquetada únicamente como "remera", el sistema podría sugerirla junto a una remera blanca estampada simplemente porque comparten la misma categoría, ignorando características clave como el color o el estilo.
"Si tu e-commerce todavía usa un widget genérico de 'los clientes también compraron', estás perdiendo dinero." - Kenneth Pangan, escritor y especialista en marketing, eesel AI
Las CNNs procesan imágenes aprendiendo primero los bordes, luego las texturas y finalmente las formas. Sin embargo, cuando las fotos de productos en un catálogo son inconsistentes - combinando fondos de estudio con imágenes en ambientes reales, diferentes niveles de iluminación o ángulos variados - , el modelo puede enfocarse más en los elementos del entorno que en el producto en sí. Esto es especialmente problemático en sectores como hogar y decoración, donde el sistema podría recomendar productos que "lucen bien juntos" en las fotos, pero que no coinciden en dimensiones o estilo. Esto puede llevar a devoluciones y a una pérdida de confianza por parte del cliente.
"El sistema aumenta el CTR recomendando productos 'lindos' aunque estén sin stock... el dashboard se ve bien, pero la conversión cae y las cancelaciones suben."
A continuación, analizaremos cómo las CNNs pueden abordar estos problemas de manera eficiente.
Los tres desafíos mencionados anteriormente - cold start, baja relevancia y fotografía inconsistente - tienen un punto en común: dependen de descripciones o etiquetas manuales de los productos. Las CNNs eliminan esta dependencia al aprender directamente de las imágenes.
Una CNN analiza cada imagen a través de varias capas. Las capas iniciales identifican bordes y líneas simples, las intermedias combinan estos elementos para reconocer texturas y formas, y las más profundas detectan conceptos complejos, como un cuello en V o una tela brillante. Este enfoque, conocido como aprendizaje jerárquico de características, ocurre de manera automática durante el entrenamiento, sin necesidad de etiquetado manual.
Las capas convolucionales emplean filtros de 3×3 o 5×5 píxeles que recorren la imagen en busca de patrones específicos. Por su parte, las capas de pooling reducen estos mapas al conservar solo las señales más fuertes, lo que refuerza la capacidad del modelo para manejar variaciones en ángulo, iluminación o encuadre. Esta robustez es clave para resolver el problema de fotografías inconsistentes.
Después de procesar una imagen, la CNN la transforma en un vector numérico llamado embedding. Este vector encapsula las características visuales del producto - como color, textura, forma y estructura - , permitiendo que dos productos con embeddings similares sean considerados visualmente parecidos, incluso si no comparten categoría o etiquetas de texto.
Esto aborda directamente el problema de baja relevancia. En lugar de sugerir "otras remeras" basándose únicamente en la categoría, el sistema recomienda prendas que realmente coinciden en color, corte y estilo. Un ejemplo práctico es Pinterest, que utiliza CNNs para sugerir objetos con atributos visuales específicos, como un color rojo o una textura particular.
Los embeddings visuales se vuelven aún más efectivos al integrarse con datos de comportamiento, como clics, compras y tiempo en página, además de texto de descripciones y reseñas. Esta combinación permite generar recomendaciones relevantes incluso para productos nuevos. Así, un SKU recién agregado puede vincularse inmediatamente con productos similares que ya cuentan con datos de comportamiento. Este enfoque integrado facilita la incorporación de recomendaciones basadas en CNNs directamente en tu plataforma de e-commerce. Esto es especialmente útil si buscas automatización en WhatsApp para e-commerce para potenciar tus ventas.
Para empezar, centralizá todas las imágenes y metadatos de tu catálogo, incluyendo SKUs, categorías y descripciones. Si usás plataformas como Shopify, Tiendanube o VTEX, podés aprovechar sus APIs para sincronizar esta información en tiempo real. Esto asegura que las recomendaciones siempre estén actualizadas, incluso cuando cambien los stocks o se agreguen nuevos productos.
Luego, estandarizá las imágenes a una resolución uniforme, generalmente 224×224 píxeles en formato RGB, y normalizá los valores de los píxeles. Esto ayuda a que el modelo funcione de manera estable durante el entrenamiento. También es útil aplicar data augmentation para mejorar el reconocimiento de productos en diferentes contextos. Usá herramientas como TensorFlow o PyTorch para realizar rotaciones, ajustes de brillo y cambios de escala en las imágenes.
Con las imágenes listas, el siguiente paso es entrenar un modelo de recomendaciones basado en redes neuronales convolucionales (CNNs).
Entrenar una CNN desde cero puede ser complicado si no contás con una gran cantidad de datos y recursos computacionales. Por eso, el transfer learning es una excelente opción. Este método utiliza modelos preentrenados como ResNet, EfficientNet o VGG16 y ajusta sus capas finales con las imágenes de tu catálogo. Estos modelos ya probados ofrecen buenos resultados incluso cuando el conjunto de datos etiquetados es pequeño.
Al configurar el modelo, prestá atención a parámetros como el stride (que define el desplazamiento del filtro) y el padding (que controla cómo se manejan los bordes de las imágenes). Estos detalles influyen directamente en la calidad de las características extraídas. Además, programá reentrenamientos regulares - de ser posible, diarios - para que el modelo se mantenga alineado con cambios en el catálogo, como productos nuevos o variaciones estacionales.
Una vez entrenado el modelo, es hora de integrarlo en tu tienda y empezar a generar recomendaciones.
El siguiente paso es decidir en qué puntos específicos del recorrido del cliente aparecerán las recomendaciones. Los embeddings generados por el modelo se pueden integrar en varias etapas clave de la experiencia de compra.
Cuando combinás estos embeddings visuales con datos de comportamiento, como clics, tiempo en página e historial de compras, podés ofrecer recomendaciones precisas desde el primer día. Esto es especialmente útil para productos nuevos que aún no tienen historial propio.

Burbuxa con CNNs vs. Métodos Tradicionales de Recomendación
Una vez que tenés los embeddings visuales generados y las recomendaciones listas en tu tienda, el siguiente paso es llevarlas a los canales donde tus clientes realmente interactúan: WhatsApp e Instagram. Es aquí donde la infraestructura técnica se combina con una capa conversacional en tiempo real, impulsada por la inteligencia artificial de Burbuxa.
El Commerce Brain de Burbuxa se basa en tres fuentes clave: los embeddings visuales, el historial de compras y el contexto conversacional. En lugar de depender de reglas predefinidas como "si compró X, mostrar Y", este sistema cruza datos de similitud visual con el comportamiento del cliente para ofrecer recomendaciones que se ajustan al momento.
Esto significa que incluso los productos nuevos, sin historial de ventas, pueden ser recomendados con precisión, ya que la similitud visual compensa la falta de datos previos.
Imaginá que un cliente te escribe por WhatsApp o Instagram preguntando: "¿Tienen algo parecido a esto?" o "¿Qué combina con lo que compré?". El agente de IA de Burbuxa analiza los embeddings del catálogo y genera recomendaciones en menos de 200 ms. No es una búsqueda basada en palabras clave, sino un análisis vectorial que compara imágenes dentro del catálogo. Esto permite identificar similitudes visuales que una búsqueda textual no detectaría.
Acá tenés una comparación que muestra cómo Burbuxa con CNNs supera a los métodos tradicionales:
| Característica | Burbuxa con CNNs | Métodos tradicionales |
|---|---|---|
| Canal | WhatsApp e Instagram | Email y pop-ups en web |
| Fuente de datos | Embeddings visuales + datos de comportamiento | Reglas manuales |
| Tiempo de respuesta | Tiempo real (<200 ms) | Procesamiento por lotes/estático |
| Auto-resolución | 95%+ | Requiere intervención humana |
| Engagement | 3,5x mayor | Estándar/bajo |
Además de responder consultas en tiempo real, Burbuxa utiliza los datos generados por las CNNs para automatizar flujos clave en el recorrido del cliente. Por ejemplo, si un cliente abandona un carrito, el sistema puede enviar un mensaje de recuperación que incluya no solo el producto olvidado, sino también alternativas visualmente similares o complementos sugeridos por la CNN.
De manera similar, se pueden generar alertas de reposición de stock o campañas de cross-sell personalizadas según el historial de compras.
Estos flujos no son estáticos. Burbuxa realiza miles de pruebas diarias ajustando tiempos de envío, variantes de mensajes y promociones. Esto asegura que las recomendaciones sean cada vez más efectivas, sin necesidad de intervención manual.
Las CNNs (redes neuronales convolucionales) se destacan porque pueden interpretar lo que los clientes ven, no solo lo que buscan o compran. Esto las diferencia de los métodos tradicionales. Al analizar características visuales como texturas, colores y formas, estas redes logran generar recomendaciones precisas, incluso para productos que se acaban de agregar al catálogo.
Los resultados hablan por sí mismos: plataformas digitales de moda que implementaron clasificadores basados en redes neuronales lograron transformar una percepción negativa a una valoración positiva del 90% por parte de los usuarios. Además, estas redes son altamente escalables. Una vez entrenado el modelo, se pueden incorporar miles de productos nuevos sin necesidad de etiquetado manual ni ajustes en las reglas, lo cual reduce el trabajo operativo y asegura resultados consistentes.
Cuando esta capacidad visual se combina con una capa conversacional, como la de Burbuxa, el impacto se amplifica. Los embeddings generados por las CNNs se integran directamente en flujos de WhatsApp e Instagram, permitiendo que el agente de inteligencia artificial responda consultas visuales, recupere carritos abandonados con alternativas personalizadas y ejecute campañas de cross-sell en tiempo real, sin intervención humana. Esta integración no solo optimiza las recomendaciones, sino que también mejora la conversión y la experiencia de compra, consolidando a las CNNs como una herramienta clave para el crecimiento del e-commerce.
Si estás dando tus primeros pasos en el mundo de las redes neuronales convolucionales (CNNs) aplicadas a recomendaciones visuales, lo primero es familiarizarte con herramientas como TensorFlow/Keras o PyTorch. Estas plataformas te ofrecen una base sólida para experimentar y construir modelos.
Al comenzar, es recomendable trabajar con arquitecturas ya probadas. En términos generales, necesitarás combinar tres tipos de capas esenciales: capas convolucionales, capas de pooling y capas totalmente conectadas. Aquí te dejamos un ejemplo básico en Keras para que te hagas una idea de cómo estructurar un modelo:
import tensorflow as tf
from tensorflow.keras import layers, models
model = models.Sequential([
layers.Conv2D(32, (3, 3), activation='relu', input_shape=(128, 128, 3)),
layers.MaxPooling2D((2, 2)),
layers.Flatten(),
layers.Dense(64, activation='relu'),
layers.Dense(10, activation='softmax')
])
Por último, vale la pena investigar cómo plataformas como Burbuxa están utilizando inteligencia artificial para mejorar las ventas y optimizar la atención al cliente. Estas soluciones demuestran cómo las CNNs pueden tener aplicaciones prácticas en el mundo real.
Para evaluar si las recomendaciones basadas en embeddings realmente impulsan las ventas, es fundamental analizar su efecto tanto en las tasas de conversión como en el comportamiento del cliente. Esto implica comparar métricas clave, como la conversión y la satisfacción del cliente, antes y después de implementar el modelo.
En el caso de Burbuxa, el uso de embeddings mejora la relevancia de las sugerencias ofrecidas. Esto no solo facilita que los clientes encuentren productos que encajen con su estilo, sino que también convierte esas interacciones en compras concretas, optimizando la experiencia de compra.
Burbuxa se integra en tiempo real con tu tienda online (como Shopify, Tiendanube o VTEX) para sincronizar de forma automática el catálogo, el inventario y el historial de compras. Gracias a su IA, analiza el comportamiento de los usuarios y utiliza datos RFM para ofrecer sugerencias precisas, como productos relacionados. Estas recomendaciones se envían mediante flujos automatizados que se activan inmediatamente después de una interacción, logrando tasas de conversión superiores al 5% y funcionando de manera continua las 24 horas del día.