diff --git a/data/README.md b/data/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..6bb4143bace8d6f511ae552c7d90449ab1a1d2a6
--- /dev/null
+++ b/data/README.md
@@ -0,0 +1,7 @@
+# Data
+
+Outils pour générer la base de données avec les statistiques de Parcoursup.
+
+Le jeu de données est disponible [ici](https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-parcoursup/). Il y a un document expliquant les différents champs [ici](https://data.enseignementsup-recherche.gouv.fr/api/datasets/1.0/fr-esr-parcoursup/attachments/methodologie_opendata_2021_pdf/).
+
+La base de données semble beaucoup trop grande, donc je ne garde qu'un échantillon de 1000 formations.