Datasets Open Source

Des jeux de donnees gratuits et librement reutilisables. Explorer, comparer, acceder aux sources.

219 datasets 13 categories 4 formats

French Legal Translation Compliance Dataset

High Quality French Legal & Compliance Dataset This dataset contains high-quality labeled French business and compliance communications designed for AI training and NLP applications. Overview Language

Parquet Voir la source

🤖

Lexia French Legal V2

ML / IA

Dataset Lexia French Legal V2 disponible sur HuggingFace pour le traitement du langage francais.

Parquet Voir la source

🤖

Lexia French Legal

ML / IA

Dataset Lexia French Legal disponible sur HuggingFace pour le traitement du langage francais.

Parquet Voir la source

🤖

Brevets Francais 2017 Claims

ML / IA

Dataset Brevets Francais 2017 Claims disponible sur HuggingFace pour le traitement du langage francais.

Parquet Voir la source

🤖

Brevets Francais 2019 Claims

ML / IA

Dataset Brevets Francais 2019 Claims disponible sur HuggingFace pour le traitement du langage francais.

Parquet Voir la source

🤖

Brevets Francais 2020 Claims

ML / IA

Dataset Brevets Francais 2020 Claims disponible sur HuggingFace pour le traitement du langage francais.

Parquet Voir la source

🤖

Brevets Francais 2022 Claims

ML / IA

Dataset Brevets Francais 2022 Claims disponible sur HuggingFace pour le traitement du langage francais.

Parquet Voir la source

🤖

Brevets Francais 2025 Claims

ML / IA

Dataset Brevets Francais 2025 Claims disponible sur HuggingFace pour le traitement du langage francais.

Parquet Voir la source

🤖

Brevets Francais 1981 2026 Clean

ML / IA

🇫🇷 Brevets français 1981–2026 — Clean 🇫🇷 Dataset de brevets français publiés entre 1981 et 2026, extrait depuis les XML d’origine, avec un document = une ligne (texte complet). Format : Parquet, p

Parquet Voir la source

🤖

Brevets Francais 1981 2026 Raw

ML / IA

🇫🇷 Brevets français 1981–2026 — Raw 🇫🇷 Dataset de brevets français publiés entre 1981 et 2026, extrait depuis les XML d’origine, avec un document = une ligne (texte complet). Format : Parquet Sour

Parquet Voir la source

🤖

Brevets Francais 2000 2026 Raw

ML / IA

Dataset Brevets Francais 2000 2026 Raw disponible sur HuggingFace pour le traitement du langage francais.

Parquet Voir la source

🤖

Brevets Francais 2024 Chunked

ML / IA

🇫🇷 Brevets français 2024 Chunké 🇫🇷 Dataset de brevets français publiés en 2024, extrait depuis les XML d’origine et chunké au niveau des balises xml Format : Parquet, prêt pour chargement streamin

Parquet Voir la source

Datasets Open Source

French Legal Translation Compliance Dataset

Lexia French Legal V2

Lexia French Legal

Brevets Francais 2017 Claims

Brevets Francais 2019 Claims

Brevets Francais 2020 Claims

Brevets Francais 2022 Claims

Brevets Francais 2025 Claims

Brevets Francais 1981 2026 Clean

Brevets Francais 1981 2026 Raw

Brevets Francais 2000 2026 Raw

Brevets Francais 2024 Chunked

Chaque semaine, le meilleur de la tech francaise