Accueil Snowflake s’ouvre à Apache Spark avec Snowpark Connect

Snowflake s’ouvre à Apache Spark avec Snowpark Connect

Snowflake franchit une nouvelle étape dans son intégration avec l’écosystème open source en annonçant la préversion publique de Snowpark Connect pour Apache Spark. Cette extension permet désormais aux entreprises d’exécuter leurs workloads Spark directement sur le moteur haute performance de Snowflake, sans migration préalable, ce qui se traduit par des performances accrues, une réduction des coûts et une gestion opérationnelle simplifiée.

Snowpark Connect s’appuie sur une architecture client-serveur découplée, inspirée de Spark Connect. Désormais, le code Spark s’exécute directement dans Snowflake, tandis que le plan logique des tâches est transmis depuis des environnements familiers comme VSCode, Jupyter Notebooks, Apache Airflow ou Snowflake Notebooks. Cette approche libère les équipes IT des contraintes classiques de l’infrastructure Spark, notamment la gestion des dépendances, les mises à jour ou les problèmes de compatibilité, tout en offrant un gain immédiat en efficacité. Le moteur vectorisé de Snowflake prend automatiquement en charge l’optimisation et la mise à l’échelle des traitements, tout en renforçant la gouvernance des données.

Les premiers retours d’expérience sont significatifs. Les entreprises qui utilisent Snowpark Connect bénéficient de la puissance du moteur Snowflake pour leurs pipelines Spark sans avoir à administrer des environnements Spark autonomes. Selon une étude interne, les pipelines créés avec Snowpark Client offrent en moyenne des performances 5,6 fois supérieures à celles d’un Spark managé, avec jusqu’à 41 % d’économies à la clé.

Compatible avec Spark 3.5.x, Snowpark Connect prend en charge l’exécution du code DataFrame, Spark SQL et des fonctions définies par l’utilisateur. Il permet également d’accéder aux tables Apache Iceberg, qu’elles soient hébergées en interne ou via un catalogue externe. Les entreprises peuvent ainsi exploiter Snowflake, Iceberg et leurs stockages cloud existants sans avoir à réécrire leur code ni à déplacer leurs données.

Avec cette ouverture vers Spark, Snowflake confirme sa transformation en plateforme de données unifiée et répond à l’une des attentes majeures des organisations : réduire la complexité de leurs architectures hybrides tout en accélérant la mise en production de leurs projets data et IA.