La data en 2025 — Like it or Leave it | BLOG OSSIA

Le monde de la data est compliqué.

Et en 2024, il ressemble à ça.

‍

Cela vous donne le vertige ?
Normal. Des centaines d’outils différents pour chaque besoin.
Pourtant, j'ai découvert qu'une grande partie de nos besoins data peuvent être résolus avec quelques outils bien en place.

Avec cet article, je vais essayer de mettre le doigt sur quelques technos émergentes avec énormément de potentiels et donc capable de défier l’existant.
‍‍

La star du jour #1 : DuckDB
‍‍

Laissez-moi vous raconter mon cas le plus marquant :
Plusieurs dizaines de milliers de fichiers à analyser. Un vrai cauchemar : CSV non standardisés, JSON mal structurés, dates au format incohérent. Et surtout des dizaines de Gb de données à traiter. Tout ça fait en local …

‍

La solution classique ?

1. Écrire des scripts de nettoyage

2. Configurer un data warehouse

3. Mettre en place des pipelines ETL
3. Bis - Mettre en place un cluster Spark ( dans le cas de beaucoup de data )

4. Prier pour que ça passe en prod

Avec DuckDB ? Quelques lignes de SQL.

‍

con.execute("""
    SELECT 
        actor.login, 
        actor.display_login, 
        COUNT(*) as events
    FROM read_json_auto(‘s3://bucket/prefix/table/partitions=*/github_events.json.gz’)
    GROUP BY actor.login, actor.display_login
    ORDER BY events DESC
"""

‍‍

Et tout est processé localement, sans infrastructure complexe.

‍

Ce qui m'a vraiment impressionné :

→ Détection automatique des schémas

→ Performance proche des solutions enterprise

→ Compatibilité native avec Python, R, et même le web

→ Capacité à interroger directement les data lakes

‍

Les grands l'ont compris : OKTA utilise DuckDB pour prétraiter des TRILLIONS de lignes sur leur infrastructure.

‍

Pourquoi ça marche si bien ?

Des optimisations intelligentes :

- Lecture sélective des données utiles

- Traitement colonne par colonne en mode vectoriel

- Compression automatique en mémoire

- Planification intelligente des requêtes

En plus … C’est open source. Quelques MB à peine.

Dans un monde où la complexité règne, DuckDB prouve qu'on peut faire simple et puissant.

‍

La star du jour #2 : SqlMesh

‍

Vous pensiez que DBT était le nec plus ultra pour transformer vos données ? Attendez de découvrir SQLMesh.

‍

MODEL (
  name push_events,
  kind INCREMENTAL,
  cron '@daily',
  grain [repo_id, actor_id, created_at]
)
SELECT 
  repo.id as repo_id,
  actor.id as actor_id,
  created_at,
  type,
  payload
FROM source_data
WHERE type = 'PushEvent

‍

J'ai passé des mois à explorer cette nouvelle technologie qui bouscule les standards établis par DBT.

‍

Bloc de Code : Voici pourquoi SQLMesh change la donne.

‍

1. Environnements virtuels de données

→ Création de snapshots versionnés pour chaque modèle

→ Vues pointant vers les derniers snapshots validés

→ Rollbacks sans retraitement des données

‍

2. Tests unitaires nouvelle génération

→ Tests d'entrée-sortie simples et rapides

→ Focus sur la validation fonctionnelle

→ Exécution beaucoup plus rapide que les tests DBT

‍

3. Métadonnées intégrées directement dans le SQL

→ Fini les fichiers YAML séparés

→ Tout est centralisé dans un seul fichier

→ Maintenance simplifiée

‍

4. Macros qui comprennent réellement SQL

→ Interprétation de la sémantique SQL

→ Pas un simple remplacement de chaînes

→ Flexibilité accrue pour les transformations complexes

‍

Mais attention, DBT garde des avantages :

• Communauté massive et établie

• Documentation exhaustive

• Intégration avec tout l'écosystème data

• Adoption généralisée dans l'industrie

‍

La bonne nouvelle ? SQLMesh est compatible avec vos projets DBT existants. La meilleure façon d'évoluer n'est pas de tout jeter, mais d'adopter progressivement les innovations qui résolvent vos problèmes spécifiques.

L'avenir appartient à ceux qui savent quand rester fidèles aux standards et quand embrasser le changement.

‍

Star du jour # 3: Dagster / MageAI

‍

Le paysage des orchestrateurs de données évolue rapidement avec l'émergence d'alternatives modernes à Apache Airflow. Airflow a longtemps régné en maître sur l'orchestration de données. Mais son paradigme basé sur les DAGs montre ses limites face aux besoins actuels. Voici pourquoi Dagster et MageAI gagnent du terrain :
‍

Dagster repense l'orchestration avec une approche centrée sur les assets:

→ Organisation autour des données produites plutôt que des processus

→ Observabilité avancée avec suivi de lignée de données

→ Framework de test puissant intégré au code

→ Validation des schémas entre les étapes

‍

MageAI mise sur l'expérience utilisateur:

→ Interface visuelle avec création avec le fameux drag&drop
Mais ultra configurable vu qu’on touche au code directement.

→ Notebooks intégrés pour le développement interactif

→ Connecteurs prêts à l'emploi pour de nombreuses sources

→ Monitoring en temps réel avec visualisations

‍

@data_loader
def load_data():
    return pd.read_csv("s3://bucket/data.csv")

@transformer
def transform_data(df, *args, **kwargs):
    # Transformation avec visualisation intégrée
    return df.groupby('category').agg({'sales': 'sum'})

@data_exporter
def export_data(df, *args, **kwargs):
    df.to_parquet("s3://bucket/transformed/data.parquet"

‍

Ces différences fondamentales avec Airflow changent la donne:

1. Meilleure gestion des dépendances de données

2. Tests plus robustes et intégrés

3. Interfaces plus modernes et intuitives

4. Déploiement simplifié

‍

La question n'est plus de savoir si ces alternatives vont s'imposer, mais quand.

L'avenir appartient aux outils qui comprennent que l'orchestration moderne doit être centrée sur les données, pas sur les processus.

Star du jour # 4 : Les catalogues de données nouvelle génération

‍
On en parlait dans un article précédent Ossia sur les lakeshouses, mais l'écosystème des data-Lakes connaît une évolution majeure avec l'émergence de catalogues de métadonnées modernes. Pendant des années, nous avons été prisonniers des solutions propriétaires pour gérer nos données.(coucou Glue Catalog, Unity Catalog, même s’ils ont entamé leur open source récemment….) Mais la révolution est enfin là… Les catalogues de données nouvelle génération comme REST Catalog, Nessie et Polaris transforment radicalement notre approche des lakehouses.

‍

Voici pourquoi ces solutions méritent votre attention:

1. L'API REST Catalog d'Apache Iceberg définit un standard ouvert qui libère vos données

2. Project Nessie apporte le versionnement Git-like à vos données structurées

3. Apache Polaris offre une sécurité avancée avec un contrôle d'accès granulaire

‍

Les avantages sont considérables:

→ Élimination du verrouillage fournisseur

→ Développement parallèle des données

→ Gouvernance centralisée

→ Architecture flexible

→ Interopérabilité entre moteurs de calcul

‍

Ces technologies permettent enfin de construire des lakehouses véritablement ouverts et interopérables.

• La liberté de choisir ses outils sans contrainte technique.

• La capacité de collaborer efficacement sur les données.

• L'indépendance vis-à-vis des fournisseurs cloud.

N'attendez plus pour explorer ces solutions qui redéfinissent l'avenir de la gestion des données.

Conclusion
‍

Je suis intimement convaincu qu’une partie de ces technos seront incontournables dans le futur. Il résolvent de véritables point de douleurs que tout pratiquant de la data a connu encore & encore. Notamment DuckDb par exemple qui permet de scaler sur un noeud unique sans tomber en Out Of memory/ Ou les catalogs portables qui sont véritablement des pépites.

L'écosystème data évolue vers plus de simplicité, d'efficacité et d'interopérabilité. SQLMesh transforme radicalement notre approche des transformations de données avec son système de versionnement intelligent. Les orchestrateurs comme Dagster et MageAI nous libèrent des contraintes d'Airflow tout en offrant une meilleure visibilité sur nos pipelines. Et les catalogues REST apportent enfin la portabilité tant attendue à nos lacs de données.

Je vous encourage vivement à explorer ces technologies, à les tester dans vos environnements et à voir par vous-mêmes comment elles peuvent transformer votre approche de l'ingénierie des données.

‍

Article par B.ERRAJI, consultant data OSSIA SONATE

La data en 2025 — Like it or Leave it

Le monde de la data est compliqué.

Et en 2024, il ressemble à ça.

La star du jour #1 : DuckDB
‍‍

La star du jour #2 : SqlMesh

Star du jour # 3: Dagster / MageAI

Star du jour # 4 : Les catalogues de données nouvelle génération

Conclusion
‍

Découvrez aussi

TECH NEWS - Mai 2024

TECH NEWS - Juillet 2024

The way of the Data Engineer

Inscrivez-vous à notre newsletter

La data en 2025 — Like it or Leave it

Le monde de la data est compliqué.

Et en 2024, il ressemble à ça.

La star du jour #1 : DuckDB ‍‍

La star du jour #2 : SqlMesh

Star du jour # 3: Dagster / MageAI

Star du jour # 4 : Les catalogues de données nouvelle génération

Conclusion‍

Découvrez aussi

TECH NEWS - Mai 2024

TECH NEWS - Juillet 2024

The way of the Data Engineer

Inscrivez-vous à notre newsletter

La star du jour #1 : DuckDB
‍‍

Conclusion
‍