O que é infraestrutura de dados? Uma única visão, sem precisar de analista.
O modern data stack (warehouse mais ELT mais dbt mais BI) foi desenhado para times de analytics. As plataformas de Operating Intelligence consolidam os mesmos componentes em um único produto pensado para operadores. Esta página explica quando vale a pena montar o stack completo e quando uma plataforma operacional o substitui com menor custo e menor dívida técnica.
Definição em uma frase
Infraestrutura de dados é a camada de pipelines, armazenamento e modelagem que transporta informação dos sistemas de origem (CRM, faturamento, mídia, e-commerce) até um formato unificado e pronto para consulta.
Por que a infraestrutura de dados importa em 2026
Durante a última década, a doutrina dominante foi clara: qualquer empresa que aspirasse a tomar decisões com base em dados deveria construir o chamado modern data stack. A arquitetura típica encadeia cinco camadas. A ingestão, com ferramentas como Fivetran ou Airbyte, replica as fontes para o warehouse. A camada de armazenamento, normalmente Snowflake, BigQuery ou Redshift, abriga o dado bruto. A transformação, gerida com dbt, produz as tabelas fato e dimensão. A camada semântica centraliza as definições de métricas. E, por fim, a camada de apresentação entrega os dashboards à diretoria.
Esse modelo funcionou para empresas com times de dados dedicados e orçamentos analíticos consistentes. O problema apareceu quando o restante do mercado tentou reproduzi-lo. Uma marca brasileira de e-commerce com R$ 60 milhões de faturamento raramente consegue sustentar um analytics engineer, um data engineer e um analista sênior com a senioridade necessária para manter a infraestrutura viva. O resultado foi previsível: pipelines quebrados, modelos sem documentação e dashboards que mostravam números diferentes a cada consulta.
A consolidação veio com as plataformas de Operating Intelligence. Em vez de obrigar o operador a montar cinco produtos, elas integram as cinco camadas em um único ambiente. Conectam as fontes, armazenam o dado modelado, mantêm a camada semântica viva e apresentam a próxima ação a executar. Onde antes havia uma orquestra de fornecedores e uma fatura mensal de cinco dígitos, agora existe um produto único e um custo previsível.
Esta página descreve os componentes do stack moderno, os critérios para escolher entre construir ou consolidar, e o guia de compra que os operadores brasileiros com faturamento abaixo de R$ 250 milhões aplicam hoje para evitar a dívida de infraestrutura que paralisou tantos times entre 2020 e 2024.
Os cinco componentes da infraestrutura de dados moderna
Nenhum componente resolve sozinho o problema operacional. Um stack maduro combina-os e os governa como um único produto interno.
Componente 01
Ingestão e conectores
Replica as fontes para o warehouse em cadência horária ou diária. Fivetran e Airbyte dominam o espaço gerenciado; times com orçamento apertado recorrem a conectores próprios. A métrica chave é o percentual de fontes com freshness inferior a uma hora.
Definição de ETL →Componente 02
Warehouse ou lakehouse
Camada de armazenamento colunar capaz de absorver volumes de terabytes com tempo de resposta de segundos. Snowflake, BigQuery e Redshift cobrem o segmento enterprise; Databricks lidera em cargas tipo lakehouse com dados não estruturados.
Definição de data warehouse →Componente 03
Transformação e modelagem
Camada SQL que converte tabelas brutas em tabelas fato e dimensão documentadas. O dbt é o padrão de fato. A modelagem dimensional continua sendo o padrão mais robusto para dashboards operacionais.
Definição de ELT →Componente 04
Camada semântica e métricas
Define cada métrica do negócio uma única vez. Cube, dbt Semantic Layer e MetricFlow lideram o espaço. Sem essa camada, cada ferramenta calcula a receita do seu jeito e a diretoria perde uma hora por reunião discutindo números.
Definição de metric store →Componente 05
Ativação, BI operacional e ETL reverso
Devolve o dado modelado às ferramentas operacionais. Looker, Mode e Metabase entregam a leitura analítica; Hightouch e Census executam o ETL reverso que sincroniza segmentos para Salesforce, HubSpot, RD Station ou Klaviyo. As plataformas de Operating Intelligence absorvem essa camada com visões acionáveis para o operador, não para o analista.
Definição de BI headless →Quem opera a infraestrutura de dados no dia a dia
O COO e o responsável por revenue ops. Não escrevem SQL nem mantêm modelos dbt, mas dependem da infraestrutura para fechar o ciclo semanal. O critério de sucesso é muito concreto: o número que aparece no dashboard da segunda coincide com o fechamento contábil do mês e com a previsão do trimestre.
O analytics engineer e o engenheiro de dados. São as figuras que mantêm viva a camada de transformação, escrevem os modelos dbt, gerenciam permissões no warehouse e resolvem alertas de freshness. Em empresas com menos de 50 pessoas, esse papel costuma se combinar com o de analista. Acima de 200, desdobra-se em dois perfis separados.
O CFO e o time de planejamento. Consomem as saídas do warehouse para preparar o forecast rodado, a análise de variação orçamentária e o material trimestral do board. A exigência principal sobre a infraestrutura é a rastreabilidade: poder reconstruir, métrica por métrica, como cada número foi calculado desde a fonte original. Para essa disciplina, vale revisar o hub de business intelligence.
O fundador ou o CEO. Tem um único requisito sobre a infraestrutura: que a pergunta "quanto faturamos neste trimestre, por canal e por região?" seja respondida em menos de 30 segundos, sem abrir cinco ferramentas. Quando esse requisito não é atendido, a conversa interna sai da estratégia e migra para a qualidade do dado, e a velocidade de decisão cai.
Modern data stack vs plataforma de Operating Intelligence
A escolha entre montar o stack moderno ou consolidar com uma plataforma operacional depende menos de sofisticação técnica e mais da maturidade do time e do volume de decisões diárias que dependem do dado.
| Critério | Modern data stack | Plataforma operacional |
|---|---|---|
| Usuário principal | Time de dados e analytics | Operador e diretoria financeira |
| Custo anual típico | De US$ 300 mil a US$ 800 mil (R$ 1,5 a R$ 4 milhões) | De US$ 1.800 a US$ 8.400 (R$ 9 mil a R$ 42 mil) |
| Tempo até o primeiro dashboard útil | De 3 a 6 meses | De 1 a 3 dias |
| Manutenção recorrente | Analytics engineer em tempo integral | Operador em tempo parcial |
| Flexibilidade analítica avançada | Muito alta, SQL livre sobre o warehouse | Moderada, visões curadas prontas para decidir |
| Limiar típico de adoção | Acima de US$ 50 milhões de receita ou 200 funcionários | Entre US$ 1 e US$ 50 milhões de receita |
A fronteira prática entre as duas abordagens fica perto de US$ 50 milhões de faturamento (algo como R$ 250 milhões na cotação atual). Abaixo, o stack moderno introduz mais dívida técnica que valor; acima, a plataforma operacional começa a ficar curta em flexibilidade analítica avançada. A transição não exige substituir nada de uma vez: uma plataforma operacional pode conviver com um warehouse durante o primeiro ano de escala.
Como é uma infraestrutura de dados moderna
Uma infraestrutura de dados moderna se desenha sobre cinco princípios. O primeiro é o de uma única fonte da verdade: uma métrica, uma definição, uma tabela de origem, sem exceções. O segundo é a rastreabilidade: qualquer número visível em um dashboard deve poder ser rastreado até o sistema fonte com dois cliques. O terceiro é a observabilidade: cada pipeline emite sinais de freshness e de qualidade que são monitorados como qualquer outro serviço crítico.
O quarto princípio é a separação entre armazenamento e computação, característica que fez Snowflake e BigQuery decolarem. Permite escalar a consulta de forma independente do volume guardado, o que evita os gargalos clássicos dos warehouses locais. O quinto é a governança: o catálogo de dados, a rastreabilidade de linhagem e as permissões por linha são requisitos não negociáveis quando o dado circula por mais de um departamento. No Brasil, a LGPD reforça esse ponto: titulares têm direito a saber quais dados pessoais estão armazenados e a solicitar exclusão.
Na prática, poucas organizações abaixo de R$ 250 milhões de receita constroem os cinco princípios internamente. O padrão habitual consiste em delegar as camadas de ingestão e armazenamento a fornecedores gerenciados, manter um repositório dbt para a transformação crítica e consolidar o resto em uma plataforma operacional. Essa combinação entrega 80 por cento da utilidade analítica com um décimo do custo total de propriedade.
Como escolher a infraestrutura de dados correta
A decisão depende de três variáveis: o volume de fontes a consolidar, a maturidade analítica do time e a criticidade do dado para o ciclo semanal de decisão.
- Passo 1 — Inventariar as fontes e os consumidores. Liste as fontes que alimentam a diretoria hoje e as ferramentas que as consomem. Quando o inventário ultrapassa 12 fontes e 5 consumidores distintos, a infraestrutura formal deixa de ser opcional e vira prioridade de operações.
- Passo 2 — Definir o custo real da opção "planilha". Calcule quantas horas semanais analistas e operadores gastam consolidando relatórios manualmente. Multiplique por 52 semanas e pelo custo carregado por hora. O número resultante costuma tornar evidente a decisão de investir em infraestrutura.
- Passo 3 — Escolher a profundidade do stack. Abaixo de 20 milhões de dólares de ARR ou de 30 milhões de GMV, uma plataforma operacional consolidada cobre 80 por cento dos casos. Entre 20 e 50 milhões, vale combinar plataforma operacional e warehouse leve. Acima de 50 milhões, o stack moderno completo se justifica.
- Passo 4 — Garantir a camada semântica desde o primeiro dia. Qualquer que seja a arquitetura escolhida, defina as métricas críticas (receita, MRR, margem de contribuição) como contratos antes de construir um único dashboard. Sem essa disciplina, a dívida de infraestrutura aparece em menos de seis meses.
- Passo 5 — Conectar a saída à cadência operacional. Uma infraestrutura que não alimenta uma revisão semanal com próxima ação identificada não gera retorno. Sobre esse ponto de saída, vale revisar o hub paralelo de business intelligence e a disciplina de revisão operacional.
Termos relacionados à infraestrutura de dados
Data warehouse
Camada de armazenamento colunar para analytics.
Data lake
Repositório para dados brutos não estruturados.
Lakehouse
Arquitetura híbrida entre data lake e warehouse.
ETL
Extração, transformação e carga clássica.
ELT
Variante moderna que transforma dentro do warehouse.
ETL reverso
Devolve o dado do warehouse para ferramentas operacionais.
Camada semântica
Definição única de cada métrica de negócio.
Metric store
Repositório centralizado de definições de métricas.
BI headless
Métricas como serviço para qualquer interface.
Modelagem dimensional
Padrão clássico de tabelas fato e dimensão.
Tabela fato
Tabela central com métricas quantitativas.
Linhagem de dados
Rastreabilidade da origem ao destino do dado.
CDC
Captura de mudanças quase em tempo real.
Perguntas frequentes
O que é o modern data stack?
A combinação de ingestão (Fivetran, Airbyte), data warehouse em nuvem (Snowflake, BigQuery, Redshift), transformação (dbt), camada semântica (Cube) e ferramentas de BI (Looker, Mode). Surgiu por volta de 2018 e amadureceu próximo de 2022 como arquitetura de referência para times de analytics.
Você precisa de um data warehouse dedicado?
Para a maioria dos operadores abaixo de 20 milhões de dólares de ARR ou 30 milhões de GMV, não. Uma plataforma de Operating Intelligence como o Fairview cumpre as funções de warehouse, transformação e apresentação em um único produto. Acima dessa escala, um warehouse dedicado passa a ser justificável.
Qual a diferença entre ETL e ELT?
ETL extrai, transforma e depois carrega no warehouse. ELT extrai, carrega o dado bruto no warehouse e transforma posteriormente, dentro do warehouse. ELT se tornou o padrão moderno porque é mais rápido, mais econômico e dá mais flexibilidade aos analistas que trabalham downstream.
O que é ETL reverso?
É o movimento de dados do warehouse de volta para ferramentas operacionais como Salesforce, HubSpot, RD Station ou Marketo. Soluções como Hightouch e Census fecham o ciclo e permitem que segmentos modelados pelo time de dados alimentem campanhas e fluxos de revenue ops.
O que é uma camada semântica?
É uma camada de definição que nomeia cada métrica de negócio (receita, MRR, churn) uma única vez e a expõe de forma consistente para todas as ferramentas downstream. Evita o problema clássico de cada dashboard mostrar números diferentes para o mesmo conceito.
Quanto custa construir o modern data stack internamente?
No primeiro ano, uma marca de porte médio investe entre 300 mil e 800 mil dólares (aproximadamente R$ 1,5 a R$ 4 milhões na cotação atual) em ferramentas e pessoal de engenharia de dados. Só a fatura recorrente de SaaS costuma ficar entre 80 mil e 180 mil dólares por ano.
Quando contratar um engenheiro de dados?
A regra prática é contratar o primeiro analytics engineer quando o volume de transformações dbt ultrapassa cem tarefas semanais ou quando o time de operações perde mais de um dia inteiro por semana resolvendo divergências entre dashboards. Abaixo desse limiar, uma plataforma operacional pronta para uso costuma bastar.
A LGPD muda os requisitos de infraestrutura de dados no Brasil?
Sim. A LGPD exige rastreabilidade de dados pessoais, base legal explícita e capacidade de atender pedidos de titular em até 15 dias. Isso reforça a importância de catálogo de dados, linhagem e gestão de permissões na camada de warehouse, independentemente do porte da operação.
Consolide sua infraestrutura. Decida com um único número.
Conecte suas fontes (CRM, faturamento, mídia, e-commerce) e o Fairview entrega uma camada semântica viva, dashboards operacionais e a próxima ação para o fechamento da segunda, sem precisar de um time de dados dedicado.
Demonstração ao vivo de 25 minutos · Adaptada à sua stack