Jeux de données pour l'apprentissage profond

Cette page liste quelques-un des datasets utilisés pour l'apprentissage profond, les réseaux de neurones, la classification ... Je la mets à jour régulièrement.

Je suis actuellement à la recherche de dataset de traduction, si vous en connaissez (de bonne qualité) qui ne sont pas listés ici, n'hésitez pas à me contacter.

Si vous trouvez un lien érroné ou une erreur sur la page, là encore, n'hésitez pas à me contacter.

Natural images

The MNIST database of handwritten digits.
MNIST database

Base de données de caractères écrits à la main, jeu de données de 60 000 exemples pour l'apprentissage et 10 000 pour le test.

NIST Special Database 19, corpus of training materials for handprinted document and character recognition.
NIST Special Database 19

Base de données de document et caractères manuscrits pour la reconnaissance de caractères. Ce jeu contient 800 000 images classifées et vérifiées à la main.

The CIFAR-10 dataset, images in 10 classes for deep learning.
The CIFAR-10 dataset

60 000 image couleur de 32x32 pixels classifiées dans 10 classes (avion, chat, oiseau, camion...) avec 6 000 images par classe (50 000 images d'entrainement et 10 000 images de test).

Caltech 101, pictures of objectcts belonging to 101 categories.
Caltech 101

Images d'objets appartenant à 101 categories. De 40 à 800 images par categorie d'approximativement 300 x 200 pixels.

Caltech 256, pictures of objectcts belonging to 256 categories.
Caltech 256

Photos d'objets appartenant à 101 categories.

Texte

Voir aussi


Dernière mise à jour : 24/10/2021