Skip to main content

Bonjour à tous,

Je rencontre actuellement un problème avec l’un des exports de données au format Parquet. Lorsque je télécharge le fichier et tente de l’ouvrir ou de l’utiliser, j’obtiens une erreur indiquant que le fichier est corrompu.

Le dataset est le SIRENE V3 consolidée - France (https://public.opendatasoft.com/explore/dataset/economicref-france-sirene-v3/information/).
 

```
$ parquet meta economicref-france-sirene-v3.parquet
> Unknown error
java.lang.RuntimeException: file:/Users/utilisateur/Documents/code/data/economicref-france-sirene-v3.parquet is not a Parquet file. Expected magic number at tail, but found a2, 0, 0, 0]
```

Je voulais savoir si quelqu’un d’autre a déjà rencontré ce problème avec les fichiers Parquet exportés depuis Open Data Soft. Le fichier lorsque je le télécharge, ne fait jamais la même taille (500 à 610MB). Il va s’en dire que j’ai une connexion fibrée très stable.

 

Merci d’avance pour vos réponses et votre aide !

Auto-translation 🪄

Hello all,I am currently having an issue with one of the Parquet data exports. When I download the file and try to open or use it, I get an error that the file is corrupted. The dataset is the SIRENE V3 Consolidated - France (https://public.opendatasoft.com/explore/dataset/economicref-france-sirene-v3/information/). ```$ parquet meta economicref-france-sirene-v3.parquet> Unknown errorjava.lang.RuntimeException: file:/Users/user/Documents/code/data/economicref-france-sirene-v3.parquet is not a Parquet file. Expected magic number at tail, but found E2, 0, 0, 0]```I wanted to know if anyone else has had this issue with Parquet files exported from Open Data Soft. The file when I download it, is never the same size (500 to 610MB). It goes without saying that I have a very stable fiber connection. Thank you in advance for your answers and help!

Bonjour,

Nous avons effectivement un souci sur la génération de fichiers Parquet sur un grand nombre d’enregistrements comme c’est le cas sur le jeu de données SIRENE v3.

Nos équipes travaillent pour essayer de trouver une solution permettant que cette génération aboutisse.

Dans l’attente, nous vous invitons à :

  • Soit filter les données afin d’avoir un nombre d’enregistrements plus réduit
  • Soit télécharger l’export statique (en CSV à ce jour) qui est pré-généré toutes les semaines (disponible en bas de l’onglet Export)

Nous vous prions de bien vouloir nous excuser des difficultés rencontrées.

Auto-translation 🪄

Hello,We do indeed have a problem with the generation of Parquet files on a large number of records as is the case on the SIRENE v3 dataset.Our teams are working to try to find a solution allowing this generation to succeed.In the meantime, we invite you to:Either filter the data in order to have a smaller number of recordsOr download the static export (in CSV to date) which is pre-generated every week (available at the bottom of the Export tab)We apologize for the difficulties encountered.

Merci pour votre réponse!
Je ne suis donc pas fou. :-)

Entendu, je vais faire ce que je peux avec le .csv!

Avez-vous une page dédiée pour suivre la résolution du problème?

Auto-translation 🪄

Thanks for your reply! So I'm not crazy. :-)Understood, I'll do what I can with the .csv!Do you have a dedicated page to track the resolution of the problem?

Non vous n’êtes pas fou, ne vous inquiétez pas :-)

Nous avons une page dédiée à l’ensemble des changements de la plateforme Opendatasoft :

https://changes.opendatasoft.com/fr?all=

Sinon, vous avez la possibilité sinon d’écrire au support Opendatasoft, nous pouvons vous prévenir lorsque le problème sera corrigé en liant votre mail au ticket de correction correspondant.

Auto-translation 🪄

No, you're not crazy, don't worry 🙂 We have a page dedicated to all the changes to the Opendatasoft platform: https://changes.opendatasoft.com/fr?all= Otherwise, you have the option of writing to Opendatasoft support, we can let you know when the problem is corrected by linking your email to the corresponding correction ticket.

Reply