Comment dois-je construire mon modèle ?
On me pose souvent cette question, et il est difficile d’y répondre à première vue – cela dépend trop de votre situation particulière.
L’approche de la construction d’un modèle comporte en réalité trois parties : la stratégie, la technique pour mettre en œuvre cette stratégie et les critères de décision utilisés dans le cadre de cette technique.
Le choix de ces trois parties dépend d’un certain nombre de choses, notamment
– Vos questions de recherche – quelles informations sur les variables essayez-vous de glaner dans le modèle ?
– Quel type de modèle spécifique utilisez-vous – ANOVA, régression logistique, modèle linéaire mixte, etc.
– Les questions relatives aux données – combien de prédicteurs avez-vous et quel est leur lien avec les données ?
– Objectif du modèle – est-il purement prédictif ou testez-vous des effets spécifiques ?
Dans cet article, je vais vous présenter les deux stratégies de base que vous pouvez adopter et quelques considérations sur la stratégie qui fonctionnera le mieux dans votre situation. Allez sur ce site pour en savoir plus.
1. La stratégie descendante
Dans la stratégie descendante, vous commencez avec un modèle complet et vous supprimez les prédicteurs qui n’aident pas le modèle.
La stratégie descendante est généralement appropriée lorsque vous avez des hypothèses spécifiques sur la relation entre les prédicteurs et la variable de résultat.
Imaginez une anova à double sens avec des hypothèses spécifiques sur une interaction et des effets principaux, avec quelques variables de contrôle potentielles.
Ces variables de contrôle ont été incluses dans le modèle juste pour voir si elles expliquent l’effet du principal prédicteur ou si elles expliquent une partie de la variance inexpliquée. Les hypothèses à leur sujet ne sont pas si spécifiques que nous ne sommes pas intéressés par la version du modèle qui convient. Nous pouvons donc supprimer les prédicteurs jusqu’à ce que le modèle s’adapte raisonnablement bien.
En général, les prédicteurs qui peuvent être supprimés sont soit des covariables – variables de contrôle potentielles – soit des interactions ou des termes quadratiques pour lesquels vous n’avez pas d’hypothèses spécifiques, mais que vous ne faites que vérifier.
Si vous avez une variable clé indépendante ou même une variable clé de contrôle dans le modèle, la plupart du temps vous la laisserez, même si tous les indicateurs disent que cela n’aide pas le modèle. Le fait qu’il ne prévoie pas le résultat peut être intéressant en soi.
2. La stratégie d’intensification
La stratégie d’intensification commence avec un modèle vide, puis ajoute lentement des prédicteurs potentiels. Et le modèle vide est exactement comme il est décrit, c’est-à-dire sans prédicteurs.
On l’appelle aussi souvent modèle d’interception seulement.
Un modèle vide modélise toujours quelque chose. Tous les modèles doivent inclure deux éléments : une interception et une mesure de la variance résiduelle.
Dans un modèle vide, le coefficient d’interception est la moyenne de Y, le résultat. Rappelez-vous que l’intercept mesure toujours la moyenne de Y lorsque tous les X=0. Comme il n’y a pas de X dans le modèle vide, l’intercept est juste la moyenne de Y.
De même, dans le modèle vide, la variance résiduelle est simplement la variance de Y. Habituellement, nous considérons la variance résiduelle comme une variance inexpliquée, et c’est vrai ici aussi – c’est juste que toute la variance est inexpliquée, parce que nous n’avons pas de prédicteurs expliquant une quelconque variation de Y.
L’avantage de cette stratégie est qu’en ajoutant des prédicteurs au modèle, vous pouvez voir si et dans quelle mesure chaque prédicteur réduit la variation inexpliquée.
Elle est utile lorsque votre modèle est plus exploratoire – vous souhaitez comprendre quels prédicteurs sont liés à la variable de résultat.
Mais c’est aussi une stratégie utile lorsqu’il est très clair quelles hypothèses vous voulez tester et quels prédicteurs vont tester ces hypothèses, mais qu’il n’est pas clair comment les combinaisons de prédicteurs vont fonctionner ensemble ou que l’accent est mis sur la variation expliquée par les ensembles de prédicteurs.
Une chose à garder à l’esprit est que les stratégies se distinguent des techniques utilisées pour les mettre en œuvre et des critères que vous utilisez pour prendre des décisions.
Par exemple, une technique de construction automatique de modèles comme la régression par étapes ou une technique plus méthodique, basée sur la théorie, peut être utilisée dans le cadre de stratégies descendantes ou ascendantes.
De même, chaque technique peut être basée sur des critères de décision différents à chaque étape. La décision d’ajouter ou de soustraire un prédicteur peut se fonder sur l’une des nombreuses mesures de l’adéquation générale du modèle ou sur la signification spécifique de ce prédicteur.
C’est bien sûr ce qui rend la construction de modèles si unique à chaque situation.