Optimisation de l'intégration de données massives via API : votre approche avec les données de l'ADEME ou d'autres sources similaires

Bonjour,

Je souhaite avoir un retour d’expérience concernant la récupération de jeux de données via une API. Quelle méthode privilégiez-vous pour intégrer des données provenant d'une plateforme externe (notamment lorsque les données sont volumineuses) ?

Plusieurs approches sont possibles :

Télécharger toutes les données et ajouter ensuite une nouvelle source.
Ajouter une URL de téléchargement via une requête API, cependant cette méthode pose des problèmes en ce qui concerne la mise à jour régulière des jeux de données, nécessitant une veille constante.
Passer par des serveurs internes afin de mettre en place une récupération automatique des données, puis ajouter une source qui puise les données sur le serveur. Il est à noter que ces données sont très volumineuses, et que le système d'API repose sur la pagination en profondeur.

Quelles sont vos pratiques à ce sujet ? À titre d'exemple, prenons les données provenant de l'ADEME sur les DPE.

Dans l'attente de vos retours et de vos expériences partagées,

Cordialement,

Auto-translation 🪄

Hello, I would like to have some feedback regarding the retrieval of datasets via an API. What method do you prefer to integrate data from an external platform (especially when the data is large)? Several approaches are possible: Download all the data and then add a new source. Add a download URL via an API request, however this method poses problems regarding regular updating of datasets, requiring constant monitoring. Go through internal servers to set up automatic data recovery, then add a source that draws the data from the server. It should be noted that this data is very voluminous, and that the API system relies on deep paging. What are your practices on this subject? As an example, let's take the data from ADEME on DPE. Looking forward to your feedback and experiences

Page 1 / 1

Bonjour,

selon mes expériences, la meilleure approche est de créer le jeux de données via une connexion HTTP (un URL d’API), si la taille du jeux de données ne dépasse pas 500 Mo, soit la limite. Afin d’assurer une mise à jour régulière sans avoir une surveillance constante du jeux de données, vous pouvez mettre en place un planificateur pour le JDD créé:

Votre troisième proposition est également pertinente, puisque si les données sont stockées sur un serveur FTP interne (si j’ai bien compris), la limitation de la taille des ressources n’applique plus. Quand il s'agit de données très volumineuses, il est possible d'ajouter plusieurs fichiers à la ressource (voir ce documentation pour détail). La mise à jour des données peut également être assurée par un planificateur.

En espérant que cela vous inspire,

Yier

Reply

Sign up

Already have an Opendatasoft account ?

Login to the community

Already have an Opendatasoft account ?

Scanning file for viruses.

This file cannot be downloaded