Les inconvénients de la régression linéaire – Cusiritati.com


La régression linéaire est une méthode statistique pour examiner la relation entre une variable dépendante et une ou plusieurs variables indépendantes. La variable dépendante doit être continue (c’est-à-dire capable de prendre n’importe quelle valeur) ou au moins proche de continue. Les variables indépendantes peuvent être de tout type. Bien que la régression ne puisse pas montrer la relation causale en elle-même, la variable dépendante est généralement affectée par les variables indépendantes.

Il est uniquement basé sur des relations linéaires

De par sa nature, la régression linéaire est uniquement basée sur des relations linéaires entre des variables dépendantes et indépendantes. Autrement dit, on suppose qu’il existe une relation linéaire entre eux. Parfois, c’est faux. Par exemple, la relation entre le revenu et l’âge est courbe, c’est-à-dire que le revenu a tendance à augmenter au début de l’âge adulte, à se stabiliser à l’âge mûr et à diminuer après la retraite. Vous pouvez savoir s’il s’agit d’un problème en examinant les représentations graphiques des relations.

Il est uniquement basé sur la moyenne de la variable dépendante

La régression linéaire examine une relation entre la moyenne de la variable dépendante et les variables indépendantes. Par exemple, si nous examinons la relation entre le poids à la naissance des bébés et les caractéristiques maternelles telles que l’âge, la régression linéaire examinera le poids moyen des bébés nés de mères d’âges différents. Cependant, il est parfois nécessaire de regarder les extrêmes de la variable dépendante, par exemple, les bébés sont à risque lorsque leur poids est faible, vous devez donc regarder les extrêmes dans cet exemple.

Tout comme la moyenne n’est pas une description complète d’une seule variable, la régression linéaire n’est pas une description complète des relations entre les variables. Vous pouvez faire face à ce problème en utilisant la régression quantile.

Sensible aux valeurs aberrantes

Les valeurs aberrantes sont des données surprenantes. Les valeurs extrêmes peuvent être univariées (basées sur une variable) ou multiples. Si vous regardez l’âge et le revenu, les valeurs aberrantes univariées seraient des choses comme une personne qui a 118 ans, ou une personne qui a gagné 12 millions de dollars l’année dernière. Une valeur aberrante multivariée serait un garçon de 18 ans qui a gagné 100 000 $. Dans ce cas, ni l’âge ni le revenu ne sont très extrêmes, mais très peu de jeunes de 18 ans gagnent autant d’argent.

Les valeurs aberrantes peuvent avoir d’énormes effets sur la régression. Vous pouvez faire face à ce problème en demandant des statistiques d’influence à partir de votre logiciel statistique.

Les données doivent être indépendantes

La régression linéaire suppose que les données sont indépendantes. Cela signifie que les scores d’un sujet (par exemple, une personne) n’ont rien à voir avec ceux d’un autre. Ceci est souvent, mais pas toujours, sensible. Deux cas courants où cela n’a pas de sens est le regroupement dans l’espace et le temps.

Un exemple classique de regroupement d’espace est les résultats des tests des élèves, lorsque vous avez des élèves de plusieurs classes, classes, écoles et districts scolaires. Les élèves d’une même classe ont tendance à être similaires à bien des égards, c’est-à-dire qu’ils viennent souvent des mêmes quartiers, ont les mêmes enseignants, etc. Par conséquent, ils ne sont pas indépendants.

Des exemples de groupes de temps sont des études dans lesquelles les mêmes sujets peuvent être mesurés plusieurs fois. Par exemple, dans une étude de l’alimentation et du poids, il est possible de mesurer chaque personne plusieurs fois. Ces données ne sont pas indépendantes, car ce qu’une personne pèse à une occasion est lié à ce qu’elle pèse à d’autres occasions. Une façon de résoudre ce problème est d’utiliser des modèles à plusieurs niveaux.



Source link

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *