Hub thématique · Infrastructure de données

Qu'est-ce que l'infrastructure de données ? Une vue unique, sans analyste requis.

La modern data stack — entrepôt, ELT, dbt, BI — a été conçue pour des équipes d'analystes internalisées. Les plateformes d'operating intelligence consolident les mêmes briques dans un produit unique pensé pour les opérateurs. Ce hub couvre les cas où le stack complet reste pertinent et ceux où une plateforme d'operating intelligence le remplace.

Voir Fairview en action Voir les tarifs

§ 01 · Définition

Définition en une phrase

L'infrastructure de données est la couche de pipelines, de stockage et de modélisation qui transporte la donnée depuis les systèmes sources (CRM, facturation, régies publicitaires, ecommerce) vers un format unifié, prêt à être interrogé.

§ 02 · Contexte

Pourquoi l'infrastructure de données compte en 2026

La modern data stack a émergé autour de 2018 comme la réponse pragmatique à un problème ancien : comment unifier les données dispersées dans le CRM, le moteur de facturation, les régies publicitaires, la plateforme ecommerce et les outils internes pour produire une vue de gestion cohérente. Cinq briques se sont imposées : ingestion managée (Fivetran, Airbyte, Stitch), entrepôt de données cloud (Snowflake, BigQuery, Redshift), couche de transformation déclarative (dbt), couche sémantique (Cube, dbt metrics) et outils de restitution BI (Looker, Mode, Metabase).

Cette architecture a été pensée pour des équipes data internalisées, avec au moins un analytics engineer dédié, un budget annuel à six chiffres et un horizon de mise en production de plusieurs trimestres. Pour les opérateurs en dessous de 20 M$ d'ARR ou 30 M$ de GMV, le ratio coût-bénéfice se dégrade rapidement : le coût total de possession dépasse souvent 300 000 € la première année, pour un délai avant première décision opérationnelle de six à neuf mois.

En parallèle, une seconde catégorie de produits a émergé : les plateformes d'operating intelligence. Elles consolident l'ingestion, le stockage analytique, la transformation et la restitution dans un seul produit, avec des connecteurs prêts à l'emploi, une couche sémantique pré-modélisée pour les indicateurs SaaS et ecommerce, et une interface conçue pour la prise de décision, pas pour l'exploration ad hoc. Pour les opérateurs sous-équipés en data, c'est devenu la voie par défaut.

Cette page rassemble les composants, les arbitrages et les seuils qui déterminent si vous devez construire votre stack interne, l'externaliser à une plateforme intégrée, ou combiner les deux approches au fur et à mesure de votre croissance.

§ 03 · Cadre

Les cinq couches de l'infrastructure de données moderne

Chaque couche résout un problème distinct. Les comprendre dans cet ordre permet d'identifier ce que vous devez réellement construire et ce que vous pouvez consommer comme service intégré.

Couche 01

Ingestion et connecteurs

Fivetran, Airbyte, Stitch. Ces outils maintiennent les connecteurs vers les API sources (Stripe, Shopify, HubSpot, Salesforce, Google Ads, Meta) et synchronisent la donnée à intervalle régulier. La complexité réelle ne vient pas du premier connecteur mais des changements de schéma silencieux côté fournisseur.

Définition ETL →

Couche 02

Entrepôt cloud

Snowflake, BigQuery, Redshift, Databricks. Stockage colonne séparé du compute, élastique, facturé à l'usage. C'est le centre de gravité du stack : tout converge ici avant transformation. Le choix entre fournisseurs est largement secondaire ; le coût réel se joue sur la discipline de modélisation et la gouvernance des requêtes.

Définition entrepôt →

Couche 03

Transformation déclarative

dbt est devenu le standard de fait. Modélisation SQL versionnée, tests automatisés, lineage et documentation générée. C'est aussi l'outil qui matérialise la modélisation dimensionnelle en tables de faits et de dimensions exploitables en aval.

Modélisation dimensionnelle →

Couche 04

Couche sémantique

Cube, dbt metrics, MetricFlow. Définit chaque indicateur métier une seule fois (revenu reconnu, MRR, NRR, ROAS véritable) et l'expose de manière cohérente à tous les consommateurs en aval. C'est la couche qui résout le problème « chaque dashboard donne un chiffre différent ».

Couche sémantique →

Couche 05

Restitution et reverse ETL

Deux flux sortants. Les outils BI (Looker, Mode, Metabase, Tableau, Power BI) pour la lecture analytique. Le reverse ETL (Hightouch, Census) pour renvoyer les segments modélisés vers les outils opérationnels (Salesforce, HubSpot, Braze). Une plateforme d'operating intelligence ajoute une troisième sortie : la prochaine action recommandée pour l'opérateur.

Définition reverse ETL →

§ 04 · Profils

Qui construit et qui consomme l'infrastructure de données

Les analytics engineers. Profils hybrides entre data engineer et analyste, ils possèdent la modélisation dbt, les tests de qualité, la gouvernance des indicateurs et la couche sémantique. Pour la plupart des équipes B2B SaaS entre 50 et 300 personnes, le premier recrutement structurant en data n'est plus un data engineer mais un analytics engineer.

Les data engineers. Ils interviennent quand le volume de données dépasse plusieurs téraoctets, quand les contraintes de latence imposent du streaming, ou quand des cas d'usage data science demandent un data lakehouse. En dessous de ces seuils, l'analytics engineer suffit.

Les opérateurs et dirigeants. COO, CFO, directeur des opérations, fondateur. Ils consomment la sortie de la stack, pas le stack lui-même. Leur enjeu : disposer d'un tableau de bord opérationnel fiable, mis à jour quotidiennement, et capable de remonter la prochaine action sans devoir solliciter l'équipe data pour chaque question.

Les équipes RevOps et FinOps. Elles s'appuient sur la couche sémantique pour aligner les définitions entre Sales, Finance et Marketing. Sans alignement sémantique, le forecast commercial, le reporting financier et les vues marketing produisent des chiffres divergents pour les mêmes indicateurs — et le comité de direction passe plus de temps à arbitrer des écarts qu'à décider.

§ 05 · Comparaison

Modern data stack vs plateforme d'operating intelligence

Les deux approches résolvent le même problème — produire des décisions à partir de données fragmentées — mais avec des architectures, des compétences et des budgets très différents. Le bon choix dépend de votre stade, de votre maturité data et de l'urgence opérationnelle.

Critère	Modern data stack	Operating intelligence
Coût annuel typique	300 000 € à 800 000 € la première année	2 000 € à 25 000 € par an
Délai avant première valeur	6 à 9 mois	2 à 4 semaines
Compétence interne requise	Analytics engineer dédié + ingénierie data	Opérateur autonome, pas de SQL requis
Flexibilité de modélisation	Maximale, tout est personnalisable	Modèles SaaS et ecommerce pré-construits
Cas d'usage cible	Exploration ad hoc, data science, BI complexe	Revue opérationnelle hebdomadaire, décisions opérateur
Seuil de pertinence	Au-delà de 20 M$ ARR ou 30 M$ GMV	De la pré-série A jusqu'à 50 M$ de revenu

La frontière n'est pas binaire : beaucoup d'organisations matures combinent les deux, en gardant l'entrepôt comme socle d'exploration et en plaçant la plateforme d'operating intelligence comme couche de décision pour le comité de direction. Voir aussi le hub business intelligence.

§ 06 · Architecture

À quoi ressemble une plateforme d'operating intelligence

Une plateforme d'operating intelligence assemble en interne les cinq couches du modern data stack et expose une interface conçue pour la décision opérationnelle. La couche d'ingestion intègre des connecteurs maintenus vers Stripe, Shopify, Salesforce, HubSpot, QuickBooks, NetSuite et les principales régies publicitaires. Les schémas sources sont surveillés et les ruptures sont notifiées avant de polluer les indicateurs en aval.

La couche d'entrepôt analytique reste invisible pour l'utilisateur final. Elle stocke les données normalisées dans un format colonne, optimisé pour les agrégats. La couche de transformation matérialise des tables de faits (transactions, abonnements, dépenses média) et de dimensions (clients, produits, canaux), modélisées selon les schémas standards de l'industrie SaaS et ecommerce.

La couche sémantique pré-définit les indicateurs canoniques : MRR, ARR, churn, NRR, contribution margin, ROAS véritable, MER, cohorte de rétention. Toute vue en aval s'appuie sur ces définitions uniques, ce qui élimine les écarts entre dashboards. Enfin, la couche de décision présente les indicateurs sous une forme actionable : ce qui a bougé depuis la semaine dernière, pourquoi, et quelle action recommander.

C'est cette dernière couche qui distingue une plateforme d'operating intelligence d'un outil BI traditionnel. Un dashboard Looker montre un chiffre ; un produit comme Fairview montre le chiffre, son écart, sa cause probable et l'action à exécuter.

§ 07 · Guide d'achat

Comment choisir entre construction interne et plateforme intégrée

Le choix dépend de trois variables : votre stade, votre maturité data interne, et la nature des décisions à outiller. Voici la séquence d'arbitrage à conduire avant tout investissement.

Étape 1 — Lister les décisions opérationnelles. Quelles décisions hebdomadaires, mensuelles et trimestrielles dépendent d'une donnée fiable ? Si la liste tient en dix éléments, une plateforme intégrée suffit. Au-delà de cinquante, avec des cas data science et exploration ad hoc, le stack interne devient justifiable.
Étape 2 — Évaluer le coût total de possession. Pour un stack interne, additionnez les licences (Fivetran, Snowflake, dbt Cloud, BI), le salaire chargé d'au moins un analytics engineer, et les coûts d'infrastructure. Comptez 300 000 € minimum la première année pour une équipe de 50 à 100 personnes.
Étape 3 — Mesurer le délai d'industrialisation. Un stack interne demande 6 à 9 mois avant de produire un tableau de bord opérationnel stable. Une plateforme intégrée comme Fairview rend le premier comité opérationnel consommable en 2 à 4 semaines.
Étape 4 — Tester la couche sémantique pré-construite. Sur les indicateurs canoniques (MRR, NRR, contribution margin, ROAS véritable), la définition par défaut de la plateforme doit correspondre à la définition que vous utiliseriez en interne. Si elle ne correspond pas, vérifiez les paramètres de configuration avant de conclure à un blocage.
Étape 5 — Prévoir le scénario de migration. Toute plateforme intégrée doit pouvoir exporter ses données vers un entrepôt cloud le jour où vous atteignez le seuil de bascule. Vérifiez la disponibilité de l'export, la fréquence, et le format. C'est l'assurance d'une trajectoire sans rupture vers le stack interne quand le moment viendra.

§ 08 · Glossaire

Termes liés à l'infrastructure de données

Entrepôt de données

Stockage colonne analytique, séparé du compute.

Data lakehouse

Hybride entre data lake et data warehouse.

ETL

Extraire, transformer, charger.

Reverse ETL

Renvoi de l'entrepôt vers les outils opérationnels.

Couche sémantique

Définition unique des indicateurs métier.

Metric store

Référentiel centralisé des métriques.

Headless BI

BI découplée de l'interface de restitution.

Modélisation dimensionnelle

Tables de faits et tables de dimensions.

Table de faits

Mesures quantitatives indexées par dimensions.

Table de dimensions

Attributs descriptifs des entités métier.

Data catalog

Inventaire et documentation des jeux de données.

Data lineage

Traçabilité de bout en bout des transformations.

Données connectées

Unification cross-source pour la décision.

Operating intelligence

Plateforme intégrée pour la décision opérateur.

§ 09 · FAQ

Questions fréquentes

Qu'est-ce que la modern data stack ?

La combinaison de cinq briques : ingestion (Fivetran, Airbyte), entrepôt cloud (Snowflake, BigQuery, Redshift), transformation (dbt), couche sémantique (Cube, dbt metrics) et outils BI (Looker, Mode). Architecture apparue vers 2018, devenue standard vers 2022 pour les équipes data internalisées.

Ai-je besoin d'un entrepôt de données ?

Pour la plupart des opérateurs en dessous de 20 M$ d'ARR ou 30 M$ de GMV, non. Une plateforme d'operating intelligence comme Fairview joue le rôle d'entrepôt, de couche de transformation et de présentation dans un seul produit. Au-delà de ce seuil, un entrepôt dédié devient justifiable.

Quelle différence entre ELT et ETL ?

ETL : extraire la donnée, la transformer, la charger dans l'entrepôt. ELT : extraire, charger la donnée brute dans l'entrepôt, puis transformer en aval. L'ELT est devenu le standard moderne car il est plus rapide, plus économique et laisse plus de flexibilité aux analystes en aval.

Qu'est-ce que le reverse ETL ?

Le reverse ETL renvoie la donnée depuis l'entrepôt vers les outils opérationnels (Salesforce, HubSpot, Marketo). Outils typiques : Hightouch, Census. Il ferme la boucle pour que les segments modélisés par l'équipe data alimentent les campagnes et les workflows commerciaux.

Qu'est-ce qu'une couche sémantique ?

Une couche sémantique définit chaque indicateur métier (revenu, MRR, churn) une seule fois et l'expose de manière cohérente à tous les outils en aval. Elle résout le problème classique où chaque tableau de bord affiche un chiffre différent pour le même indicateur.

Quel budget annuel pour une modern data stack interne ?

Pour une équipe de 30 à 100 personnes, comptez entre 300 000 € et 800 000 € la première année en outillage et ingénierie : licences Fivetran ou Airbyte, crédits Snowflake ou BigQuery, contrats dbt Cloud, licence BI, et au moins un analytics engineer dédié à temps plein.

Quand préférer une plateforme d'operating intelligence ?

Quand l'enjeu est de produire des décisions opérationnelles rapides plutôt que d'industrialiser une fonction data interne. En dessous de 50 employés, sans analytics engineer dédié, une plateforme d'operating intelligence comme Fairview consolide 80 % du stack pour 10 % du coût.

Faut-il un data lake ou un data warehouse ?

Un data warehouse stocke des données structurées prêtes pour la requête analytique. Un data lake stocke des données brutes, structurées ou non, à faible coût. Pour la majorité des opérateurs B2B SaaS ou DTC, le data warehouse suffit. Le data lake devient utile au-dessus d'un volume de plusieurs téraoctets, ou pour des cas d'usage data science avancés.

Arrêtez de construire des pipelines. Décidez à partir de données connectées.

Connectez votre CRM, votre comptabilité, votre facturation et vos régies publicitaires. Fairview consolide l'ingestion, la modélisation et la restitution dans un seul produit, livrable en quelques semaines.

Réserver une démo Voir les tarifs

Démo en direct de 25 minutes · Adaptée à votre stack