¿Los warehouses modernos como Snowflake (la plataforma) prefieren el snowflake schema?

No, a pesar de compartir el nombre. Snowflake, la plataforma de cloud warehouse, funciona igualmente bien con star schemas y snowflake schemas, pero la recomendación de la propia comunidad de usuarios y de dbt Labs es usar star schemas desnormalizados para la capa de marts analíticos. Los warehouses columnares como Snowflake comprimen los valores repetidos de texto mediante encodings de diccionario, eliminando la ventaja de almacenamiento del snowflake schema. La confusión de nombres es frecuente entre equipos que asumen que usar Snowflake-el-warehouse implica usar snowflake-el-schema.

Snowflake Schema: definición y cuándo usarlo

Q: ¿Cuándo tiene sentido usar un snowflake schema en lugar de un star schema?

El snowflake schema tiene sentido en escenarios muy específicos: dimensiones con jerarquías muy profundas (geografía con 5 o más niveles: país → región → estado → ciudad → colonia), dimensiones de alta cardinalidad donde la redundancia de atributos textuales generaría un volumen de almacenamiento genuinamente problemático en un motor de filas, o entornos donde la actualización de atributos de dimensión ocurre con alta frecuencia y la normalización reduce el costo de los UPDATEs. En la práctica, los warehouses columnares modernos como BigQuery, Snowflake o Redshift comprimen valores duplicados casi a cero, eliminando el argumento de almacenamiento y dejando el star schema como la opción por defecto en la mayoría de los proyectos analíticos.

Q: ¿Cómo afecta el snowflake schema al rendimiento de las herramientas de BI?

Las herramientas de BI como Looker, Tableau, Power BI y Metabase están optimizadas internamente para star schemas con dimensiones desnormalizadas. El snowflake schema obliga a las herramientas a generar SQL con múltiples JOINs anidados, lo cual incrementa la latencia de las consultas y puede producir resultados de fanout inesperados si los JOINs no están correctamente modelados. Algunos motores de BI generan queries incorrectos cuando las dimensiones tienen más de dos niveles de normalización. Por esta razón, incluso cuando la capa de staging o la capa intermedia usa normalización, la capa de marts expuesta a herramientas de BI suele desnormalizar las dimensiones.

En resumen

El snowflake schema normaliza las dimensiones en sub-tablas jerárquicas para reducir la redundancia de datos. Fue popular cuando el almacenamiento era costoso; hoy, los warehouses columnares comprimen los valores repetidos casi a cero, eliminando su principal ventaja. El star schema es el patrón por defecto en 2025; el snowflake schema se reserva para dimensiones con jerarquías muy profundas o requisitos de actualización de alta frecuencia.

Definición

El snowflake schema es un patrón de modelado dimensional en el que las tablas de dimensión no se mantienen planas y desnormalizadas — como en el star schema — sino que se descomponen en múltiples sub-tablas relacionadas mediante claves foráneas. El resultado es un esquema con forma de copo de nieve: una tabla de hechos central conectada a dimensiones, que a su vez se ramifican en sub-dimensiones jerárquicas.

El término proviene de la representación gráfica de ese grafo de relaciones: si se dibuja la tabla de hechos en el centro y se trazan líneas hacia cada tabla de dimensión — y desde cada dimensión hacia sus sub-tablas — el diagrama resultante se asemeja a un copo de nieve, con ramas que se bifurcan simétricamente desde el núcleo. En contraste, el star schema produce un diagrama de estrella simple: la tabla de hechos conectada directamente a dimensiones planas sin más niveles de normalización.

Conceptualmente, el snowflake schema aplica las reglas de la tercera forma normal (3NF) a las dimensiones del modelo analítico. En la 3NF, ningún atributo no clave puede depender de otro atributo no clave — lo cual obliga a separar en tablas distintas los atributos que tienen dependencias transitivas entre sí. En una dimensión de geografía desnormalizada, los campos ciudad, estado y país conviven en la misma fila del registro del cliente. En un snowflake schema, ciudad apunta a una tabla separada de estados, que a su vez apunta a una tabla de países.

Cómo se implementa

La implementación de un snowflake schema comienza identificando las jerarquías presentes en cada dimensión del modelo. Una jerarquía es una relación de muchos-a-uno entre atributos dentro de la misma dimensión: muchas ciudades pertenecen a un mismo estado, muchos estados pertenecen a un mismo país. En el star schema, todos esos atributos conviven en la tabla de dimensión del cliente. En el snowflake schema, cada nivel de la jerarquía se extrae a su propia tabla.

Star schema (desnormalizado):

dim_cliente(cliente_id, nombre, ciudad, estado, region, pais, segmento, canal_adquisicion)

Snowflake schema (normalizado en sub-tablas):

dim_cliente(cliente_id, nombre, ciudad_id, segmento, canal_adquisicion)
dim_ciudad(ciudad_id, nombre_ciudad, estado_id)
dim_estado(estado_id, nombre_estado, region_id)
dim_region(region_id, nombre_region, pais_id)
dim_pais(pais_id, nombre_pais, codigo_iso)

Una consulta que filtre por región ahora requiere JOIN a través de cuatro tablas en lugar de un WHERE directo sobre una columna de la tabla de cliente.

En la práctica, la implementación con herramientas modernas como dbt se realiza creando los modelos de dimensión como tablas separadas y definiendo las relaciones en el archivo schema.yml o en la capa semántica. Si el equipo usa Kimball como metodología, el snowflake schema se documenta explícitamente en el diagrama entidad-relación de la capa de marts. Si el equipo sigue las convenciones de dbt Labs, la recomendación es desnormalizar los marts y reservar la normalización únicamente para las capas de staging e intermedia.

Ejemplo práctico

Considere una empresa de e-commerce con sede en Ciudad de México que vende productos a minoristas en toda América Latina. Su tabla de hechos central registra cada transacción de venta con las métricas de ingreso, cantidad y costo. La dimensión de territorio tiene cuatro niveles: tienda → ciudad → estado → país. La dimensión de producto tiene tres niveles: SKU → subcategoría → categoría.

Si el equipo de datos implementa un star schema desnormalizado, la tabla dim_tienda incluye las columnas ciudad, estado y país como atributos planos del registro de cada tienda. Hay 450 tiendas distribuidas en 80 ciudades de 12 países. El atributo "México" aparece en la columna país para cada una de las 180 tiendas en territorio mexicano — 180 repeticiones de la misma cadena de texto.

Con un snowflake schema, "México" se almacena una sola vez en la tabla dim_pais y las 180 tiendas mexicanas apuntan a ese único registro mediante una clave entera. El ahorro de almacenamiento con datos de este volumen es de unos pocos kilobytes — trivial incluso para proyectos con presupuesto de datos muy ajustado. Sin embargo, una consulta que filtre ventas por país ahora requiere un JOIN a través de ciudad → estado → país en lugar de un WHERE directo sobre la columna país de dim_tienda. Para el analista que escribe SQL manual o para la herramienta de BI que genera la consulta automáticamente, esa cadena de JOINs añade fricción con cero beneficio mensurable de rendimiento en un warehouse columnar moderno.

Análisis en profundidad

El snowflake schema nació en una era donde el almacenamiento de bases de datos era costoso y los motores relacionales usaban almacenamiento orientado a filas (row-store). En ese contexto, tener la cadena de texto "Estados Unidos Mexicanos" repetida en millones de registros de ventas tenía un costo real y medible. La normalización 3NF reducía esa redundancia de forma significativa y aceleraba los UPDATEs porque un cambio en el nombre del país solo requería modificar una fila en la tabla de países, no millones de filas en la tabla de hechos.

Los warehouses columnares modernos — Snowflake, BigQuery, Redshift, ClickHouse, DuckDB — cambiaron radicalmente esa ecuación. En el almacenamiento columnar, los valores de cada columna se almacenan contiguamente y se comprimen usando encodings específicos para el tipo de dato. Los valores de texto repetitivos se comprimen mediante dictionary encoding: el motor mantiene internamente un diccionario de valores únicos y almacena índices enteros en lugar de cadenas completas. El resultado es que "México" repetido 180 veces ocupa prácticamente el mismo espacio que una sola ocurrencia — la misma ventaja de almacenamiento que el snowflake schema pretendía ofrecer mediante normalización explícita, pero sin el costo de complejidad de consulta.

La complejidad adicional de consulta del snowflake schema tiene efectos concretos en tres dimensiones. Primero, los analistas que escriben SQL ad hoc deben recordar la cadena de JOIN correcta para navegar por cada jerarquía — un punto de fricción que ralentiza la exploración y aumenta la probabilidad de errores lógicos cuando un JOIN se omite o se realiza en el orden incorrecto. Segundo, las herramientas de BI que generan SQL automáticamente deben tener modelados todos los caminos de JOIN en su capa semántica; un modelo de BI incorrecto puede producir resultados de fanout — recuentos inflados por multiplicación de filas cuando los JOINs no están bien definidos. Tercero, en warehouses que no tienen optimizaciones específicas para JOINs en tablas de dimensión pequeñas, la latencia de consulta puede incrementar de forma medible en análisis con muchos niveles de jerarquía.

El único caso de uso donde el snowflake schema sigue siendo la elección técnicamente superior en 2025 es el de dimensiones con jerarquías muy profundas — cinco o más niveles — donde la desnormalización produciría un número de columnas que dificultaría la gestión del esquema, no el almacenamiento. Un ejemplo es una dimensión de clasificación de productos con niveles: empresa → división → departamento → categoría → subcategoría → SKU → variante. Mantener esos seis niveles como columnas planas en la misma tabla de dimensión es manejable, pero si el equipo necesita añadir atributos específicos a cada nivel (descripción larga de categoría, código EAN de variante, responsable de departamento), la normalización permite gestionar los atributos de cada nivel de forma independiente sin inflar la tabla de hechos.

En el contexto de equipos de datos en LATAM que trabajan con presupuestos ajustados, el debate entre star schema y snowflake schema tiene una respuesta práctica clara: comenzar con star schemas desnormalizados en la capa de marts, construir en dbt siguiendo las convenciones de capa de staging → intermedia → marts, y reservar el snowflake schema como decisión explícita solo cuando una dimensión específica tiene una jerarquía de profundidad superior a cuatro niveles y el equipo tiene la madurez técnica para gestionar los JOINs adicionales en las herramientas de BI. La complejidad adicional del snowflake schema nunca debe ser la opción por defecto; debe ser una decisión de diseño documentada con justificación específica.

Errores frecuentes

✗
Aplicar el snowflake schema por defecto porque el nombre del warehouse es "Snowflake". El cloud warehouse Snowflake y el snowflake schema son conceptos completamente independientes. Snowflake-el-warehouse funciona con star schemas y snowflake schemas indistintamente; su nombre es una referencia a la arquitectura de almacenamiento en nube, no a un patrón de modelado dimensional preferido. Muchos equipos que migran a Snowflake asumen erróneamente que deben usar el esquema homónimo, generando complejidad innecesaria desde el inicio del proyecto.
✗
Normalizar dimensiones para ahorrar almacenamiento sin medir el costo real. El argumento más común para adoptar el snowflake schema es reducir el tamaño del warehouse. Antes de tomar esa decisión, el equipo debe medir el espacio que ocupan las columnas de atributos de dimensión repetidos. En la mayoría de los proyectos analíticos, las tablas de dimensión representan menos del 1% del almacenamiento total — el grueso está en las tablas de hechos con miles de millones de filas. Normalizar las dimensiones para reducir ese 1% al costo de mayor complejidad de consulta es una optimización prematura que rara vez está justificada.
✗
Exponer un snowflake schema directamente a herramientas de BI sin modelar los JOINs en la capa semántica. Conectar una herramienta como Tableau, Metabase o Power BI directamente a un snowflake schema sin definir explícitamente las relaciones y los caminos de JOIN en el modelo de la herramienta produce invariablemente errores de fanout o resultados incorrectos. El analista que construye el dashboard debe conocer cada jerarquía de JOIN para evitar cruces de tablas incorrectos. Este error es la causa más común de métricas duplicadas o infladas en dashboards de BI construidos sobre esquemas normalizados.

Cómo lo rastrea Fairview

Fairview conecta a las fuentes de datos operativas del negocio — CRM, ERP, plataformas de facturación, herramientas de ventas — y construye internamente un modelo dimensional optimizado para consulta analítica. La arquitectura de datos de Fairview usa star schemas desnormalizados en la capa de presentación: cada dashboard y cada métrica consume dimensiones planas sin necesidad de JOINs jerárquicos. Cuando el warehouse subyacente del cliente usa un snowflake schema, los conectores de Fairview abstraen esa complejidad y presentan los datos en el formato correcto para análisis sin exponer la cadena de JOINs al usuario final.

Para los equipos que están en proceso de diseñar o rediseñar su modelo de datos analítico, Fairview proporciona visibilidad sobre los patrones de consulta reales — qué dimensiones se usan más frecuentemente, qué jerarquías se navegan en cada análisis — lo que permite tomar decisiones de normalización basadas en evidencia de uso, no en supuestos de diseño a priori. El resultado es un modelo de datos que equilibra la simplicidad de mantenimiento con el rendimiento de consulta según los patrones reales de la organización.

Ver cómo Fairview modela sus datos →

Preguntas frecuentes

¿En qué se diferencia el snowflake schema del star schema?

En un star schema, las tablas de dimensión están desnormalizadas: todos los atributos descriptivos de un cliente, producto o territorio conviven en una sola tabla ancha. En un snowflake schema, esas dimensiones se descomponen en sub-tablas normalizadas — por ejemplo, ciudad apunta a estado, que apunta a país. El resultado es un grafo con forma de copo de nieve. La ventaja es menor redundancia de datos; la desventaja es que cada consulta requiere más JOINs y mayor complejidad de SQL.

¿Cuándo tiene sentido usar un snowflake schema en lugar de un star schema?

El snowflake schema tiene sentido en dimensiones con jerarquías muy profundas (cinco o más niveles), dimensiones de alta cardinalidad donde la redundancia de atributos textuales sería genuinamente costosa, o entornos con actualización frecuente de atributos de dimensión. En la práctica, los warehouses columnares modernos comprimen valores duplicados casi a cero, eliminando el argumento de almacenamiento y dejando el star schema como la opción por defecto.

¿Los warehouses modernos como Snowflake prefieren el snowflake schema?

No, a pesar de compartir el nombre. Snowflake-el-warehouse funciona igualmente bien con ambos patrones, pero la recomendación de la comunidad y de dbt Labs es usar star schemas desnormalizados para la capa de marts. El warehouse comprime los valores repetidos de texto mediante encodings de diccionario, eliminando la ventaja de almacenamiento del snowflake schema. La confusión de nombres es frecuente pero no implica ninguna afinidad técnica entre la plataforma y el patrón de modelado.

¿Cómo afecta el snowflake schema al rendimiento de las herramientas de BI?

Las herramientas de BI como Looker, Tableau y Power BI están optimizadas para star schemas con dimensiones desnormalizadas. El snowflake schema obliga a generar SQL con múltiples JOINs anidados, lo que incrementa la latencia y puede producir resultados de fanout si los JOINs no están correctamente modelados en la capa semántica de la herramienta. Por esta razón, incluso cuando la capa intermedia usa normalización, la capa de marts expuesta a BI suele desnormalizar las dimensiones.