CIRANO /Sommaire / No unbiased Estimator of the Variance of K-Fold Cross-Validation

No unbiased Estimator of the Variance of K-Fold Cross-Validation

L'erreur de prédiction, donc la perte attendue sur des données futures, est la mesure standard pour la qualité des modèles d'apprentissage statistique. Quand la distribution des données est inconnue, cette erreur ne peut être calculée mais plusieurs méthodes de rééchantillonnage, comme la validation croisée, peuvent être utilisées pour obtenir un estimateur non-biaisé de l'erreur de prédiction. Cependant pour comparer des algorithmes d'apprentissage, il faut aussi estimer l'incertitude autour de cet estimateur d'erreur future, car cette incertitude peut être très grande. Cependant, les estimateurs ordinaires de variance d'une moyenne pour des échantillons indépendants ne peuvent être utilisés à cause du recoupement des ensembles d'apprentissage utilisés pour effectuer la validation croisée. Le résultat principal de cet article est qu'il n'existe pas d'estimateur non-biaisé universel (indépendant de la distribution) de la variance de la validation croisée, en se basant sur les mesures d'erreur faites durant la validation croisée. L'analyse fournit une meilleure compréhension de la difficulté d'estimer l'incertitude autour de la validation croisée. Ces résultats se généralisent à d'autres méthodes de rééchantillonnage pour lesquelles des données sont réutilisées pour l'apprentissage ou le test.

[ - ]

[ + ]

Date de parution 1 mai 2003

Numéro de référence 2003s-22

Auteur(s) Yoshua Bengio et Yves Grandvalet

Type de publication Cahiers scientifiques

Mots-clés Erreur de prédiction, validation croisée, estimateur de variance multivariée, comparaison statistique des algorithmes

Référence bibliographique Bengio, Y., & Grandvalet, Y. (2003). No unbiased Estimator of the Variance of K-Fold Cross-Validation (2003s-22, Cahiers scientifiques, CIRANO.) https://cirano.qc.ca/fr/sommaires/2003s-22

À la une

Affiliation, accessibilité des services de première ligne et besoins non comblés au Québec

Coûts liés à l'utilisation des services médicaux et hospitaliers pour les soins buccodentaires au Québec

When Neighbors Stop Knocking: The Impact of Canada’s 2025 Tourism Decline on U.S. Local Labor Markets

Former pour la bioéconomie de demain

Suivez-nous

No unbiased Estimator of the Variance of K-Fold Cross-Validation

À la une

Suivre l'actualité CIRANO

Inscrivez-vous à notre liste de diffusion pour recevoir nos dernières actualités, événements, publications...