L'erreur de prédiction, donc la perte attendue sur des données futures, est la mesure standard pour la qualité des modèles d'apprentissage statistique. Quand la distribution des données est inconnue, cette erreur ne peut être calculée mais plusieurs méthodes de rééchantillonnage, comme la validation croisée, peuvent être utilisées pour obtenir un estimateur non-biaisé de l'erreur de prédiction. Cependant pour comparer des algorithmes d'apprentissage, il faut aussi estimer l'incertitude autour de cet estimateur d'erreur future, car cette incertitude peut être très grande. Cependant, les estimateurs ordinaires de variance d'une moyenne pour des échantillons indépendants ne peuvent être utilisés à cause du recoupement des ensembles d'apprentissage utilisés pour effectuer la validation croisée. Le résultat principal de cet article est qu'il n'existe pas d'estimateur non-biaisé universel (indépendant de la distribution) de la variance de la validation croisée, en se basant sur les mesures d'erreur faites durant la validation croisée. L'analyse fournit une meilleure compréhension de la difficulté d'estimer l'incertitude autour de la validation croisée. Ces résultats se généralisent à d'autres méthodes de rééchantillonnage pour lesquelles des données sont réutilisées pour l'apprentissage ou le test.

Voir le document

Dernières publications

2017s-08 CS
An experimental investigation of rating-market regulation
Claudia Keser, Asri Özgümüs, Emmanuel Peterlé et Martin Schmidt
Voir le document

2017s-07 CS
Statistical tests of the demand for insurance: an “all or nothing” decision
Anne Corcos, François Pannequin et Claude Montmarquette
Voir le document

2017RP-02 RP
Politiques favorables à l’innovation en santé
Nadia Benomar, Joanne Castonguay, Marie-Hélène Jobin et François Lespérance
Voir le document

2017RP-01 RP
Évaluation économique du service de premiers répondants sur le territoire de l’agglomération de Montréal
Nathalie de Marcellis-Warin, François Vaillancourt, Ingrid Peignier, Brigitte Bouchard-Milord et Alain Vaillancourt
(document non-disponible)

2017MO-02 MO
Perception des risques - Baromètre Cirano 2017
Nathalie de Marcellis-Warin et Ingrid Peignier
Voir le document


Centre interuniversitaire de recherche en analyse des organisations
1130 rue Sherbrooke Ouest, suite 1400
Montréal, Québec (Canada) H3A 2M8
(514) 985-4000
(514) 985-4039
reception@cirano.qc.ca

© 2017 CIRANO. Tous droits réservés.



Partenaire de :