Skip to main content
Solved

SIREN V3 - format Parquet corrompu

  • October 24, 2024
  • 5 replies
  • 120 views
  • Translate

Bonjour à tous,

Je rencontre actuellement un problème avec l’un des exports de données au format Parquet. Lorsque je télécharge le fichier et tente de l’ouvrir ou de l’utiliser, j’obtiens une erreur indiquant que le fichier est corrompu.

Le dataset est le SIRENE V3 consolidée - France (https://public.opendatasoft.com/explore/dataset/economicref-france-sirene-v3/information/).
 

```
$ parquet meta economicref-france-sirene-v3.parquet
> Unknown error
java.lang.RuntimeException: file:/Users/utilisateur/Documents/code/data/economicref-france-sirene-v3.parquet is not a Parquet file. Expected magic number at tail, but found [2, 0, 0, 0]
```

Je voulais savoir si quelqu’un d’autre a déjà rencontré ce problème avec les fichiers Parquet exportés depuis Open Data Soft. Le fichier lorsque je le télécharge, ne fait jamais la même taille (500 à 610MB). Il va s’en dire que j’ai une connexion fibrée très stable.

 

Merci d’avance pour vos réponses et votre aide !

Auto-translation 🪄

Hello all,I am currently having an issue with one of the Parquet data exports. When I download the file and try to open or use it, I get an error that the file is corrupted. The dataset is the SIRENE V3 Consolidated - France (https://public.opendatasoft.com/explore/dataset/economicref-france-sirene-v3/information/). ```$ parquet meta economicref-france-sirene-v3.parquet> Unknown errorjava.lang.RuntimeException: file:/Users/user/Documents/code/data/economicref-france-sirene-v3.parquet is not a Parquet file. Expected magic number at tail, but found [2, 0, 0, 0]```I wanted to know if anyone else has had this issue with Parquet files exported from Open Data Soft. The file when I download it, is never the same size (500 to 610MB). It goes without saying that I have a very stable fiber connection. Thank you in advance for your answers and help!

Best answer by Benwa

Bonjour,

Nous avons effectivement un souci sur la génération de fichiers Parquet sur un grand nombre d’enregistrements comme c’est le cas sur le jeu de données SIRENE v3.

Nos équipes travaillent pour essayer de trouver une solution permettant que cette génération aboutisse.

Dans l’attente, nous vous invitons à :

  • Soit filter les données afin d’avoir un nombre d’enregistrements plus réduit
  • Soit télécharger l’export statique (en CSV à ce jour) qui est pré-généré toutes les semaines (disponible en bas de l’onglet Export)

Nous vous prions de bien vouloir nous excuser des difficultés rencontrées.

Auto-translation 🪄

Hello,We do indeed have a problem with the generation of Parquet files on a large number of records as is the case on the SIRENE v3 dataset.Our teams are working to try to find a solution allowing this generation to succeed.In the meantime, we invite you to:Either filter the data in order to have a smaller number of recordsOr download the static export (in CSV to date) which is pre-generated every week (available at the bottom of the Export tab)We apologize for the difficulties encountered.
View original

Benwa
ODS Team
  • ODS Team
  • October 24, 2024

Bonjour,

Nous avons effectivement un souci sur la génération de fichiers Parquet sur un grand nombre d’enregistrements comme c’est le cas sur le jeu de données SIRENE v3.

Nos équipes travaillent pour essayer de trouver une solution permettant que cette génération aboutisse.

Dans l’attente, nous vous invitons à :

  • Soit filter les données afin d’avoir un nombre d’enregistrements plus réduit
  • Soit télécharger l’export statique (en CSV à ce jour) qui est pré-généré toutes les semaines (disponible en bas de l’onglet Export)

Nous vous prions de bien vouloir nous excuser des difficultés rencontrées.

Auto-translation 🪄

Hello,We do indeed have a problem with the generation of Parquet files on a large number of records as is the case on the SIRENE v3 dataset.Our teams are working to try to find a solution allowing this generation to succeed.In the meantime, we invite you to:Either filter the data in order to have a smaller number of recordsOr download the static export (in CSV to date) which is pre-generated every week (available at the bottom of the Export tab)We apologize for the difficulties encountered.
Translate

  • Beginner
  • October 24, 2024

Merci pour votre réponse!
Je ne suis donc pas fou. :-)

Entendu, je vais faire ce que je peux avec le .csv!

Avez-vous une page dédiée pour suivre la résolution du problème?

Auto-translation 🪄

Thanks for your reply! So I'm not crazy. :-)Understood, I'll do what I can with the .csv!Do you have a dedicated page to track the resolution of the problem?
Translate

Benwa
ODS Team
  • ODS Team
  • October 24, 2024

Non vous n’êtes pas fou, ne vous inquiétez pas :-)

Nous avons une page dédiée à l’ensemble des changements de la plateforme Opendatasoft :

https://changes.opendatasoft.com/fr?all=

Sinon, vous avez la possibilité sinon d’écrire au support Opendatasoft, nous pouvons vous prévenir lorsque le problème sera corrigé en liant votre mail au ticket de correction correspondant.

Auto-translation 🪄

No, you're not crazy, don't worry :-) We have a page dedicated to all the changes to the Opendatasoft platform: https://changes.opendatasoft.com/fr?all= Otherwise, you have the option of writing to Opendatasoft support, we can let you know when the problem is corrected by linking your email to the corresponding correction ticket.
Translate

  • Beginner
  • November 22, 2024

Bonjour,

Il semble que les exports statiques ne soient plus disponibles du tout pour ce dataset?

Également, le vitesse de DL dépasse à peine les 120kBs pour le format parquet...

 

Translate

  • Beginner
  • January 3, 2025

Bonjour !
Avez-vous des nouvelles concernant les exports statiques de ce dataset?

Auto-translation 🪄

Hello! Do you have any news regarding the static exports of this dataset?
Translate

Reply


Cookie policy

We use cookies to enhance and personalize your experience. If you accept you agree to our full cookie policy. Learn more about our cookies.

 
Cookie settings