Prueba de Geo-Lift: Qué Es y Cómo Funciona

En resumen

Una prueba de geo-lift usa mercados geográficos como grupos de prueba y control para medir el impacto incremental real de la publicidad. Las pruebas típicas en SaaS B2B duran entre 4 y 6 semanas usando pares de mercados similares. Es la alternativa práctica cuando las herramientas de holdout de plataforma no están disponibles o no son confiables. En LATAM, las pruebas se ejecutan habitualmente entre ciudades como Ciudad de México, Monterrey, Bogotá y Medellín para comparar resultados entre mercados con perfiles similares.

Definición

Una prueba de geo-lift es un experimento de incrementalidad que divide el mercado publicitario en unidades geográficas —ciudades, estados, regiones, países— y asigna algunas de esas unidades al grupo de prueba (donde se ejecutan las campañas) y otras al grupo de control (donde se retiene la publicidad). Al final del período de prueba, se compara la tasa de conversión del grupo de prueba con la del grupo de control para estimar el volumen de conversiones que fue causado directamente por la publicidad, en oposición al volumen que habría ocurrido de todos modos.

La lógica central de la prueba de geo-lift descansa en la construcción de un contrafactual: ¿qué habría pasado en los mercados de prueba si no hubieran recibido publicidad? La respuesta se aproxima observando lo que ocurrió en los mercados de control, que se seleccionan por ser similares a los mercados de prueba en las variables relevantes: volumen histórico de conversiones, perfil demográfico del comprador, comportamiento estacional y tendencias de crecimiento de base. Si los mercados de control son buenos proxies del comportamiento contrafactual de los mercados de prueba, la diferencia en tasas de conversión entre grupos es el lift incremental atribuible a la campaña.

La prueba de geo-lift se distingue de otras metodologías de medición de atribución de marketing en un aspecto fundamental: no depende de los datos de la plataforma que sirve la publicidad. Los modelos de atribución estándar —último clic, primer clic, multitoque— usan las impresiones y clics registrados por la plataforma como base del cálculo, lo que los hace inherentemente optimistas porque la plataforma tiene incentivos para atribuirse el mayor número posible de conversiones. La prueba de geo-lift observa el comportamiento de conversión en el mundo real, independientemente de si la plataforma registró el evento o no.

Cómo se calcula

El cálculo del geo-lift sigue una estructura de diferencias en diferencias (DiD): se compara la diferencia entre la tasa de conversión del mercado de prueba en el período de prueba versus el período previo, contra la misma diferencia para el mercado de control. Este enfoque controla por las diferencias de base entre mercados y por las tendencias de tiempo que afectan a todos los mercados por igual.

Fórmula base: Lift = (CVR_prueba_post / CVR_control_post) / (CVR_prueba_pre / CVR_control_pre) − 1

Donde CVR = tasa de conversión. Si el mercado de prueba convirtió al 3.2% durante la prueba, el mercado de control al 2.4%, y la relación pre-prueba era de 1.0 (mercados equivalentes), el lift es: (3.2% / 2.4%) / 1.0 − 1 = 0.333 = 33.3% de incrementalidad. Convertido a volumen: si el mercado de prueba habría tenido 240 conversiones sin publicidad (como el control), pero tuvo 320, el lift incremental es de 80 conversiones directamente atribuibles a la campaña.

Para calcular el ROAS incremental a partir del geo-lift, se divide el ingreso generado por las conversiones incrementales entre el gasto publicitario en los mercados de prueba durante el período. Si las 80 conversiones incrementales representan MXN $640,000 en ingresos y el gasto en publicidad fue de MXN $120,000, el iROAS es de 5.3x — significativamente diferente del ROAS reportado por la plataforma, que típicamente atribuye todas las conversiones del período sin descontar las que habrían ocurrido de todos modos.

Ejemplo práctico

Una empresa de software B2B con sede en Bogotá quiere medir el impacto real de su campaña de Google Ads sobre los registros de prueba gratuita. La plataforma reporta un costo por conversión de COP $180,000, pero el equipo sospecha que gran parte de los registros habrían ocurrido de todas formas dado el tráfico orgánico existente. Diseña una prueba de geo-lift de 5 semanas.

Se seleccionan seis ciudades colombianas pareadas por volumen histórico de tráfico y tasas de registro: Bogotá y Medellín como par 1 (ciudades grandes), Cali y Barranquilla como par 2 (ciudades medianas), Bucaramanga y Pereira como par 3 (ciudades intermedias). Dentro de cada par, una ciudad se asigna a prueba y la otra a control mediante asignación aleatoria. Durante 5 semanas, Google Ads sirve anuncios únicamente en las ciudades de prueba; las de control no reciben ningún anuncio pagado de la empresa.

Al final de la prueba, las ciudades de prueba registran una tasa de conversión de visita-a-registro del 4.1%, frente al 2.9% de las ciudades de control. Ajustado por las diferencias pre-prueba, el lift incremental estimado es del 28%. El costo por registro incremental real es de COP $430,000 —un número 2.4 veces mayor al reportado por la plataforma— lo que cambia materialmente la evaluación de la rentabilidad del canal y lleva al equipo a reasignar presupuesto hacia canales con menor costo incremental de adquisición.

Análisis en profundidad

La prueba de geo-lift es la metodología de medición de incrementalidad más accesible para equipos de marketing que no tienen acceso a herramientas avanzadas de experimentos a nivel de usuario, como las que ofrecen Meta o Google para holdouts de plataforma. Su principal ventaja es la independencia de la plataforma: el experimento se diseña y mide externamente, sin depender de los sistemas de medición de quien tiene incentivo en los resultados. Esta independencia es especialmente valiosa en un contexto de restricciones de cookies y privacidad de datos donde los píxeles de terceros son cada vez menos confiables.

La selección de mercados comparables es el paso más crítico del diseño de la prueba. Los mercados de prueba y control deben ser similares en: volumen absoluto de tráfico y conversiones, tendencia histórica de crecimiento, composición del perfil del comprador, estacionalidad y exposición a eventos externos como conferencias de industria o ciclos presupuestarios. Cuando los mercados no son verdaderamente similares, la diferencia en tasas de conversión puede reflejar características estructurales del mercado en lugar del efecto de la publicidad, invalidando las conclusiones. Herramientas estadísticas como el algoritmo de control sintético de Google pueden ayudar a construir un grupo de control más robusto cuando no existe un mercado naturalmente comparable.

Un riesgo metodológico importante en contextos LATAM es el efecto de derrame geográfico (geographic spillover). En mercados donde los usuarios se mueven físicamente entre ciudades —como entre Ciudad de México y Toluca, o entre Bogotá y Chía— los usuarios del mercado de control pueden verse expuestos a anuncios digitales dirigidos al mercado de prueba, especialmente en canales donde la segmentación geográfica no es perfecta. Esto subestimaría el lift incremental porque contamina el grupo de control. La forma de mitigarlo es elegir mercados con menor superposición física y usar ventanas de tiempo donde el movimiento intermercado sea menor.

La potencia estadística de una prueba de geo-lift depende directamente del número de conversiones por grupo. Con menos de 50 conversiones por grupo durante el período de prueba, los intervalos de confianza son tan amplios que el lift estimado es estadísticamente indistinguible de cero, incluso si existe un efecto real. La regla práctica es diseñar la prueba para que cada grupo genere al menos 100 conversiones, lo que para muchas empresas B2B de ticket alto requiere períodos de prueba de 6 a 10 semanas o el uso de eventos de conversión intermedios —como demos agendadas o contenido descargado— en lugar de ventas cerradas.

La prueba de geo-lift es complementaria, no sustituta, del marketing mix modeling (MMM). El MMM produce estimaciones de elasticidad a nivel de canal usando datos históricos agregados, pero sus resultados tienen incertidumbre significativa y requieren volúmenes históricos de 2 a 3 años para ser estables. La prueba de geo-lift genera una medición puntual más precisa y reciente. La mejor práctica es usar el MMM para calibrar la asignación estratégica de presupuesto entre canales a largo plazo, y usar pruebas de geo-lift para validar supuestos específicos sobre canales o creatividades clave antes de escalar inversión.

Errores frecuentes

✗
Elegir mercados de prueba y control con perfiles históricos diferentes. Si el mercado de prueba tiene una tasa de conversión base del 4% y el mercado de control tiene una base del 2%, cualquier diferencia observada durante la prueba puede reflejar esa diferencia estructural en lugar del efecto de la publicidad. La selección de mercados debe basarse en datos históricos de al menos 8 semanas antes del período de prueba, verificando que las tendencias de conversión sean paralelas. Mercados con tendencias de crecimiento divergentes en el período pre-prueba son señal de que no son comparables.
✗
Terminar la prueba antes de alcanzar significancia estadística. El sesgo de observación de resultados preliminares —stopping early when results look good— es el error más frecuente en experimentos de marketing. Si la prueba se detiene a las 2 semanas porque el lift parece alto, la estimación final tiene alta varianza y puede sobreestimar el efecto real. Se debe definir la duración mínima de la prueba antes de comenzar, basada en el volumen de conversiones esperado y el nivel de lift mínimo detectable que sea relevante para la decisión de negocio, y no modificar esa duración durante la ejecución.
✗
Ignorar el efecto de derrame entre mercados adyacentes. En contextos urbanos densos de LATAM, los usuarios de ciudades de control pueden estar expuestos a publicidad digital dirigida a ciudades de prueba si la segmentación geográfica de la plataforma no es perfecta. Esto contamina el grupo de control y subestima el lift incremental. Adicionalmente, si existe publicidad fuera de línea —radio, espectaculares, eventos— en los mercados de prueba, ese gasto también influye en los mercados de control cercanos. Se debe revisar todos los canales activos, no solo el canal bajo prueba, y excluir cualquier actividad que no pueda contenerse dentro de los límites geográficos definidos.

Cómo lo rastrea Fairview

Fairview integra los resultados de pruebas de geo-lift en el cuadro de mando de atribución de marketing para que los equipos puedan comparar directamente el ROAS reportado por plataforma versus el ROAS incremental medido por experimento. Cuando se cargan los resultados de una prueba de geo-lift, Fairview recalcula automáticamente la asignación presupuestaria óptima entre canales usando los multiplicadores de incrementalidad observados. Si el lift incremental de un canal cae por debajo del umbral mínimo de retorno definido para el negocio, Fairview genera una Next Best Action con el rango de reasignación presupuestaria recomendado y el impacto estimado en el ROAS mezclado total. Para equipos que gestionan múltiples canales en mercados LATAM, la visibilidad del gap entre atribución de plataforma e incrementalidad real es la diferencia entre escalar un canal rentable y escalar un canal que está midiendo correlación, no causalidad.

Ver cómo Fairview integra medición de incrementalidad →

Preguntas frecuentes

¿Cuánto tiempo debe durar una prueba de geo-lift?

La mayoría de las pruebas de geo-lift en SaaS B2B y D2C duran entre 4 y 6 semanas. Un período inferior a 3 semanas rara vez genera suficientes conversiones para alcanzar significancia estadística. Períodos superiores a 8 semanas aumentan el riesgo de que factores externos contaminen los resultados. El período óptimo depende del volumen de conversiones esperado: se necesitan al menos 100 conversiones por grupo para que los resultados sean confiables.

¿Cuántos mercados se necesitan para una prueba de geo-lift válida?

El mínimo práctico son dos mercados: uno de prueba y uno de control. Lo ideal es trabajar con al menos 4 a 6 pares de mercados similares para que el análisis estadístico sea robusto. En LATAM, los mercados más usados son Ciudad de México, Monterrey, Guadalajara, Bogotá y Medellín.

¿Qué diferencia hay entre una prueba de geo-lift y un holdout test?

Un holdout test retiene la publicidad de un subconjunto aleatorio de usuarios individuales dentro de la misma plataforma. Una prueba de geo-lift retiene la publicidad de mercados geográficos completos y no depende de las capacidades de segmentación de la plataforma. El geo-lift tiene menor granularidad individual pero puede ejecutarse sin acceso a herramientas de holdout nativas.

¿Cómo se calcula el lift incremental en una prueba de geo-lift?

El lift incremental se calcula comparando la tasa de conversión del mercado de prueba versus la del mercado de control durante el período de prueba, ajustada por la diferencia de tasas basales en el período previo. La fórmula estándar es: Lift = (Conversiones en prueba / Conversiones esperadas sin publicidad en prueba) − 1. Las conversiones esperadas se estiman usando el comportamiento histórico del mercado de control como proxy del comportamiento contrafactual del mercado de prueba.

Prueba de Geo-Lift (Geo-Lift Test)