Datasets Open Source
Des jeux de donnees gratuits et librement reutilisables. Explorer, comparer, acceder aux sources.
French Financial News
ML / IA[!NOTE] Dataset origin: https://www.kaggle.com/datasets/arcticgiant/french-financial-news Context This dataset contains around 41 500 french news from 11/2018 to 03/2021 scraped on a famous financial
French Legal Glossary
ML / IA[!NOTE] Dataset origin: https://www.kaggle.com/datasets/bernardngandu/french-legal-glossary Content: Contains a collection of legal terms in French alongside their corresponding categories. Structure:
Culture - Action de la région en faveur de la restauration du patrimoine de 2016 à 2024 en région Hauts-de-France
FinanceCette carte des Hauts-de-France représente les projets de restauration du patrimoine protégés et non protégés (public et privé sans distinction) soutenus par la Région sur la période 2016 à 2024. Pour
Base Permanente des Equipements BPE 2023 Sport Loisir Culture CD76
ML / IALa base permanente des équipements (BPE) est une base de données à vocation statistique tenue à jour par l’Insee qui répertorie un large éventail d'équipements et de services, marchands ou non, access
Claire Dialogue English 0.1
ML / IAClaire English Dialogue Dataset (CEDD) A collection of English dialogue transcripts This is the first packaged version of the datasets used to train the english variants of the Claire family of large
Réseau CVLmobilité - plan de transport théorique ligne A (format GTFS)
ML / IACC Chinon Vienne et Loire, AOM locale, organise une ligne régulière de transport en commun reliant Saint-Benoît-la-Forêt, Chinon, Beaumont-en-Véron, Avoine, Port-Boulet et Bourgueil. La donnée présent
French Orca Dpo Pairs Revised
ML / IAFull revision of the dataset AIffl/french_orca_dpo_pairsfrench translation of the 12k DPO Intel/orca_dpo_pairs built from Orca style dataset Open-Orca/OpenOrca. Revision made with mistral-large-2402 f
French MMLU Medical Genetics Benchmark
ML / IA💻 Dataset Usage Run the following command to load the testing set: from datasets import load_dataset dataset = load_dataset('shuyuej/French-MMLU-Medical-Genetics-Benchmark', split='test') print(datas
Eng To French Translation
ML / IADataset Eng To French Translation disponible sur HuggingFace pour le traitement du langage francais.
Cold French Law
GouvernementCollaborative Open Legal Data (COLD) - French Law COLD French Law is a dataset containing over 800 000 french law articles, filtered and extracted from France's LEGI dataset and formatted as a single
Spelling Correction French News
ML / IASpelling correction dataset (French) This dataset is generated by transforming/corrupting sentences of a French news corpus provided by the University of Leipzig. The following transformations are app
Résultats Elections Européennes 2024
FinanceCe fichier contient les résultats des élections européennes du 9 juin 2024 à Issy-les-Moulineaux, bureau de vote par bureau de vote, liste par liste. Le fichier contient les données de localisation de