Holdout Test: Qué Es y Cómo Medir Incrementalidad

Q: ¿Cómo se diferencia un holdout test de una prueba A/B convencional?

Una prueba A/B convencional compara dos versiones de un anuncio, página o experiencia para determinar cuál genera más conversiones. Un holdout test compara la presencia versus la ausencia total de publicidad para determinar qué volumen de conversiones fue causado por la campaña versus el que habría ocurrido sin ella. El holdout test responde a la pregunta de si vale la pena gastar en publicidad en absoluto; la prueba A/B responde a qué versión de la publicidad es más efectiva.

Q: ¿Durante cuánto tiempo debe ejecutarse un holdout test?

Un holdout test debe ejecutarse durante el tiempo suficiente para que el grupo holdout acumule al menos 100 conversiones. En la práctica, la mayoría de los holdouts en SaaS B2B se ejecutan entre 3 y 6 semanas. Terminar el holdout antes de alcanzar el tamaño de muestra planeado invalida los resultados porque la estimación del lift tiene intervalos de confianza demasiado amplios para ser accionables. Es importante definir la duración mínima antes de comenzar la prueba y no terminarla anticipadamente aunque los resultados preliminares parezcan concluyentes.

En resumen

Un holdout test retiene la publicidad de un 10-20% aleatorio de usuarios para medir la tasa de conversión sin el anuncio. El grupo holdout es el grupo de control que permite calcular qué conversiones fueron causadas por la campaña versus las que habrían ocurrido de todos modos. Sin holdout, el ROAS reportado por plataforma sobreestima el impacto real de la publicidad. En SaaS B2B LATAM, la diferencia entre el ROAS de plataforma y el ROAS incremental medido por holdout suele ser de 2x a 4x.

Definición

Un holdout test es un experimento de incrementalidad que funciona reteniendo la publicidad de un subconjunto aleatorio de usuarios que normalmente serían incluidos en la audiencia objetivo de una campaña. Ese subconjunto —el grupo holdout— no recibe ningún anuncio de la campaña durante el período de la prueba. Al comparar la tasa de conversión del grupo expuesto con la del grupo holdout, se puede estimar qué fracción de las conversiones del grupo expuesto fue causada directamente por la publicidad y qué fracción habría ocurrido de todos modos —sea por búsqueda orgánica, acceso directo, email, o simplemente por la intención de compra preexistente del usuario.

La premisa fundamental del holdout test es que la asignación aleatoria hace que los dos grupos sean estadísticamente equivalentes antes del experimento. Si la asignación fue verdaderamente aleatoria, la única diferencia sistemática entre el grupo expuesto y el grupo holdout es la exposición al anuncio. Por lo tanto, cualquier diferencia en tasas de conversión observada durante el experimento puede atribuirse causalmente a la publicidad, no a diferencias previas entre los grupos. Esta es la diferencia crítica entre el holdout test y los modelos de atribución de marketing convencionales: el holdout establece causalidad, no correlación.

El holdout test es la metodología de referencia para medir el conversion lift a nivel de usuario. Plataformas como Meta Ads, Google Ads y The Trade Desk ofrecen herramientas nativas de holdout —conocidas como Brand Lift Studies, Conversion Lift Studies o Incrementality Tests— que implementan esta metodología internamente. Sin embargo, los holdouts de plataforma tienen una limitación importante: son diseñados y medidos por la misma plataforma que tiene incentivo en mostrar resultados positivos. Los equipos que quieren validación independiente realizan holdouts propios usando segmentación de CRM o herramientas de Customer Data Platform para controlar quién ve y quién no ve los anuncios.

Cómo se calcula

El cálculo del holdout test compara directamente las métricas de conversión entre el grupo expuesto y el grupo holdout durante el período del experimento. La medición principal es el lift porcentual en la tasa de conversión, pero el número más accionable para la gestión de inversión publicitaria es el costo por conversión incremental.

Lift incremental = (CVR_expuesto − CVR_holdout) / CVR_holdout

Ejemplo en MXN: Grupo expuesto (80,000 usuarios) → 1,600 conversiones → CVR 2.0%. Grupo holdout (20,000 usuarios) → 280 conversiones → CVR 1.4%. Lift = (2.0% − 1.4%) / 1.4% = 42.9%. Conversiones incrementales = 1,600 − (80,000 × 1.4%) = 1,600 − 1,120 = 480 conversiones incrementales. Si el gasto publicitario fue de MXN $240,000, el costo por conversión incremental real es de MXN $500, versus el costo por conversión reportado por la plataforma de MXN $150 por las 1,600 conversiones totales atribuidas.

El ROAS incremental se calcula dividiendo el ingreso generado por las conversiones incrementales entre el gasto publicitario total. Si cada conversión vale MXN $8,000 en promedio, las 480 conversiones incrementales representan MXN $3,840,000. Con un gasto de MXN $240,000, el iROAS es de 16x. El ROAS de plataforma sobre las 1,600 conversiones atribuidas sería de 53.3x. La diferencia entre ambos números ilustra cuánto sobreestiman los modelos de atribución de plataforma el verdadero impacto de la campaña.

Ejemplo práctico

Una empresa de SaaS B2B con sede en Ciudad de México vende software de gestión financiera a PyMEs. Ejecuta campañas de retargeting en Meta Ads dirigidas a usuarios que visitaron su sitio web en los últimos 30 días. La plataforma reporta un ROAS de 8.2x y un costo por prueba gratuita registrada de MXN $320. Sin embargo, el equipo de marketing sospecha que muchos de esos usuarios habrían registrado una prueba gratuita de todas formas dada su alta intención de compra demostrada por la visita al sitio.

El equipo implementa un holdout test de 4 semanas. De la audiencia de retargeting de 45,000 usuarios, se asigna aleatoriamente el 15% —6,750 usuarios— al grupo holdout mediante exclusión de audiencia en Meta Ads. Los 38,250 usuarios restantes reciben los anuncios de retargeting normalmente. Al final de las 4 semanas, el grupo expuesto registra una tasa de prueba gratuita del 2.8% y el grupo holdout registra una tasa del 1.9%.

El lift incremental es del 47.4% respecto al grupo holdout: de las 1,071 pruebas gratuitas del grupo expuesto, solo 344 fueron causadas por el retargeting. El costo por prueba gratuita incremental real es de MXN $1,220 —casi 4 veces mayor al costo reportado por Meta Ads. Esta información lleva al equipo a reconsiderar la estrategia de retargeting: en lugar de invertir MXN $420,000 al mes en retargeting amplio, reasigna la mitad del presupuesto a prospección de audiencias frías donde el lift incremental es estructuralmente más alto porque la intención orgánica de compra es menor.

Análisis en profundidad

El holdout test es especialmente revelador en campañas de retargeting. El retargeting se dirige a usuarios que ya visitaron el sitio web, búsqueda de marca, o se encuentran en etapas avanzadas del funnel de ventas —lo que significa que tienen una intención de compra preexistente que no fue creada por el anuncio. Esto hace que las tasas de conversión del retargeting sean elevadas, pero gran parte de esas conversiones habrían ocurrido de todos modos. El holdout test descompone ese volumen: cuántas conversiones son atribuibles al anuncio versus cuántas provienen de la intención orgánica del usuario. En campañas de retargeting de SaaS B2B, el lift incremental real suele estar entre el 20% y el 50%, lo que significa que el 50-80% de las conversiones atribuidas por la plataforma habrían ocurrido sin el anuncio.

Para que la asignación aleatoria del holdout sea válida, el grupo de control debe estar completamente aislado de la publicidad que se está midiendo. En Meta Ads y Google Ads, esto se implementa creando una audiencia de exclusión que contiene al grupo holdout. Sin embargo, las plataformas no garantizan que el grupo de exclusión esté perfectamente aislado —los usuarios del grupo holdout pueden ver anuncios de retargeting en otros canales no excluidos, o pueden haber sido incluidos previamente en campañas similares en la misma plataforma. Para mayor control, se puede implementar el holdout a nivel de CRM, marcando el 10-20% de los contactos como holdout y excluyéndolos de todas las audiencias de paid media a través de integración de CRM con las plataformas publicitarias.

La alternativa geográfica al holdout a nivel de usuario es la prueba de geo-lift, que usa mercados geográficos en lugar de usuarios individuales como unidad de asignación. Los holdouts a nivel de usuario tienen mayor granularidad y permiten medir el lift en segmentos específicos —por industria, tamaño de empresa, etapa del funnel— pero requieren herramientas de segmentación de plataforma o integración de CRM. Los geo-lifts son más sencillos de implementar de forma independiente pero no pueden segmentarse por perfil de usuario. La mejor práctica es combinar ambas metodologías: geo-lifts para mediciones de canal a nivel agregado y holdouts a nivel de usuario para campañas específicas de alto valor.

En el contexto LATAM, los holdout tests presentan un desafío práctico relacionado con el tamaño de las audiencias. Las empresas B2B en México o Colombia que se dirigen a segmentos de mercado específicos —por ejemplo, CFOs de empresas manufactureras con más de 50 empleados— pueden tener audiencias de retargeting de solo 5,000 a 15,000 usuarios. Con un holdout del 15%, el grupo de control tiene entre 750 y 2,250 usuarios, lo que puede no ser suficiente para generar las 100 conversiones mínimas necesarias para detectar diferencias estadísticamente significativas en un período razonable de 4 a 6 semanas. En esos casos, se puede ampliar el período de la prueba, usar eventos de conversión intermedios con mayor frecuencia —como visitas a páginas de precios o descargas de contenido— o aplicar la metodología de geo-lift como alternativa más adecuada para audiencias pequeñas.

La interpretación correcta de los resultados del holdout test requiere considerar el efecto de supresión de demanda: si el grupo holdout habría convertido de todos modos, retener la publicidad de ese grupo no solo reduce el gasto sino que también puede adelantar o retrasar la conversión —no eliminarla. Esto significa que el lift incremental medido en el período de la prueba puede no ser idéntico al lift incremental a largo plazo. Un usuario del grupo holdout que no ve el retargeting durante 4 semanas puede convertir en la semana 5 cuando sí lo ve, o puede convertir de forma orgánica en la semana 6. Para decisiones de presupuesto a largo plazo, es útil medir el comportamiento del grupo holdout durante varias semanas después de que termina el experimento para entender la demanda diferida.

Errores frecuentes

✗
Terminar el holdout antes de alcanzar el tamaño de muestra mínimo. El error más frecuente en holdout tests es interrumpir el experimento cuando los resultados preliminares parecen claros, ya sea porque el lift parece alto o porque parece nulo. Los resultados de holdouts con menos de 100 conversiones en el grupo de control tienen intervalos de confianza muy amplios, lo que significa que el lift estimado puede ser significativamente diferente del lift real. La duración mínima debe definirse antes de comenzar el experimento, basada en el volumen de conversiones esperado y el lift mínimo detectable relevante para la decisión de inversión.
✗
Confiar únicamente en los holdout tests de plataforma sin validación independiente. Las herramientas de medición de lift que ofrecen Meta, Google y otras plataformas implementan la metodología de holdout, pero tienen conflicto de interés estructural: la plataforma diseña y ejecuta el experimento que determina si el gasto en esa misma plataforma está justificado. Los estudios independientes han encontrado que los Brand Lift Studies de plataforma sobreestiman el lift real en un 20-40% en promedio. Para decisiones de inversión significativas, se debe implementar al menos un holdout test independiente —ya sea a través de exclusión de audiencia controlada externamente o mediante una prueba de geo-lift— para validar los resultados de la plataforma.
✗
Aplicar holdout tests a campañas de prospección con el mismo marco que a campañas de retargeting. El holdout test mide el lift incremental de la publicidad sobre el comportamiento de conversión de la audiencia objetivo. Para campañas de retargeting, donde la audiencia tiene alta intención de compra preexistente, el lift incremental suele ser moderado —20-50%— porque muchos usuarios habrían convertido de todas formas. Para campañas de prospección de audiencias frías, el lift incremental suele ser mayor —60-90%— porque la intención orgánica de compra es más baja. Interpretar un lift bajo en retargeting como señal de que la campaña no funciona, o un lift alto en prospección como señal de gran eficiencia, sin considerar el contexto de intención de la audiencia, lleva a conclusiones incorrectas sobre la asignación óptima del presupuesto.

Cómo lo rastrea Fairview

Fairview integra los resultados de holdout tests en el cuadro de mando de atribución de marketing para que los equipos puedan ver en un solo lugar el ROAS reportado por plataforma, el lift incremental medido por holdout y el ROAS incremental calculado a partir de los experimentos. Cuando se carga un resultado de holdout test, Fairview recalcula automáticamente la contribución incremental del canal y actualiza la asignación presupuestaria óptima recomendada. Si el costo por conversión incremental supera el umbral de rentabilidad definido para el negocio, Fairview genera una Next Best Action con el rango de reducción de gasto recomendado y el impacto estimado en el ROAS mezclado total. Para equipos de marketing en LATAM que gestionan múltiples canales —Meta, Google, LinkedIn, programática— la capacidad de comparar el lift incremental real de cada canal en una sola vista es la base de cualquier decisión de asignación presupuestaria fundamentada en datos de causalidad, no de correlación.

Ver cómo Fairview integra resultados de holdout →

Preguntas frecuentes

¿Qué porcentaje de usuarios se debe retener en un holdout test?

El tamaño estándar del grupo holdout es entre el 10% y el 20% de la audiencia total. Un holdout menor al 5% puede no generar suficientes conversiones para detectar diferencias estadísticamente significativas. Un holdout mayor al 30% representa un costo de oportunidad relevante si la campaña es efectiva. El tamaño óptimo depende del volumen de conversiones esperado: se necesitan al menos 100 conversiones en el grupo holdout.

¿Cómo se diferencia un holdout test de una prueba A/B convencional?

Una prueba A/B compara dos versiones de un anuncio para determinar cuál convierte mejor. Un holdout test compara la presencia versus la ausencia total de publicidad para determinar qué volumen de conversiones fue causado por la campaña. El holdout responde si vale la pena gastar en publicidad en absoluto; la prueba A/B responde qué versión de la publicidad es más efectiva.

¿Durante cuánto tiempo debe ejecutarse un holdout test?

Un holdout test debe ejecutarse durante el tiempo necesario para que el grupo holdout acumule al menos 100 conversiones. En la práctica, la mayoría de los holdouts en SaaS B2B se ejecutan entre 3 y 6 semanas. Es importante definir la duración mínima antes de comenzar y no terminarla anticipadamente aunque los resultados preliminares parezcan concluyentes.

¿Qué métricas se deben medir en un holdout test?

Las métricas principales son: tasa de conversión del grupo expuesto versus el grupo holdout, volumen de conversiones incrementales totales, costo por conversión incremental real y lift porcentual. Si los datos lo permiten, también se debe medir el valor de las conversiones para calcular el ROAS incremental. En modelos de suscripción SaaS B2B, es útil medir si las conversiones incrementales tienen tasas de retención y LTV similares a las del grupo expuesto.

Holdout Test (Prueba de Retención de Publicidad)