Calculer les valeurs aberrantes

Auteur: Charles Brown
Date De Création: 8 Février 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
Maths 7 - Les valeurs aberrantes
Vidéo: Maths 7 - Les valeurs aberrantes

Contenu

Une aberrante ou alors aberrante dans les statistiques est un point de données qui diffère considérablement des autres points de données dans un échantillon. Souvent, les valeurs aberrantes indiquent aux statisticiens des écarts ou des erreurs dans les mesures, après quoi ils peuvent supprimer la valeur aberrante de l'ensemble de données. S'ils choisissent effectivement de supprimer les valeurs aberrantes de l'ensemble de données, cela pourrait entraîner des changements significatifs dans les conclusions tirées de l'étude. C'est pourquoi il est important de calculer et de déterminer les valeurs aberrantes si vous souhaitez interpréter correctement les données statistiques.

Avancer d'un pas

  1. Apprenez à repérer les valeurs aberrantes possibles. Avant de pouvoir décider de supprimer les valeurs anormales d'un ensemble de données particulier, nous devons bien sûr d'abord identifier les valeurs aberrantes possibles dans l'ensemble de données. En général, les valeurs aberrantes sont les points de données qui s'écartent considérablement de la tendance qui forment les autres valeurs de l'ensemble - en d'autres termes, ils tirer des autres valeurs. Il est généralement facile de le reconnaître dans les tableaux et (surtout) dans les graphiques. Si l'ensemble de données est représenté graphiquement, les valeurs aberrantes seront «éloignées» des autres valeurs. Par exemple, si la plupart des points d'un ensemble de données forment une ligne droite, les valeurs aberrantes ne seront pas conformes à cette ligne.
    • Jetons un coup d'œil à un ensemble de données montrant les températures de 12 objets différents dans une pièce. Si la température de 11 des objets fluctue de quelques degrés tout au plus autour de 21 ° C, alors qu'un objet, un four, a une température de 150 ° C, vous pouvez voir en un coup d'œil que le four est probablement une valeur aberrante.
  2. Triez tous les points de données du plus bas au plus élevé. La première étape du calcul des valeurs aberrantes consiste à trouver la valeur médiane (ou la valeur médiane) de l'ensemble de données. Cette tâche devient beaucoup plus facile si les valeurs de l'ensemble sont dans l'ordre du plus bas au plus élevé. Donc, avant de continuer, triez les valeurs de votre ensemble de données comme ceci.
    • Continuons avec l'exemple ci-dessus. Voici notre ensemble de données montrant les températures en degrés Fahrenheit de différents objets dans une pièce: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si nous trions les valeurs de l'ensemble de la plus basse à la plus élevée, cela devient notre nouvel ensemble: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Calculez la médiane de l'ensemble de données. La médiane d'un ensemble de données est le point de données où la moitié des données est au-dessus, et la moitié des données est en dessous - c'est, en fait, le «centre» de l'ensemble de données. Si l'ensemble de données contient un nombre impair de points, la médiane est facile à trouver - la médiane est le point avec autant de points ci-dessus que ci-dessous. S'il y a un nombre pair de points, parce qu'il n'y a pas un centre, vous devez prendre la moyenne des deux points centraux pour trouver la médiane. Lors du calcul des valeurs aberrantes, la médiane est généralement désignée par la variable Q2 - car elle se situe entre Q1 et Q3, les premier et troisième quartiles. Nous déterminerons ces variables plus tard.
    • Ne soyez pas confus par les ensembles de données avec un nombre pair de points - la moyenne des deux points médians est souvent un nombre qui ne se trouve pas dans l'ensemble de données lui-même - ce n'est pas grave. Cependant, si les deux points médians sont identiques, la moyenne sera bien sûr aussi ce nombre - c'est aussi D'accord.
    • Dans notre exemple, nous avons 12 points. Les deux termes du milieu sont respectivement les points 6 et 7 - 70 et 71. La médiane de notre ensemble de données est donc la moyenne de ces deux points: ((70 + 71) / 2) =70,5.
  4. Calculez le premier quartile. Ce point, que nous désignons par la variable Q1, est le point de données en dessous duquel se trouvent 25 pour cent (ou un quart) des observations. En d'autres termes, il s'agit du centre de tous les points de votre ensemble de données sous la médiane. S'il y a un nombre pair de valeurs en dessous de la médiane, vous devez à nouveau prendre la moyenne des deux valeurs médianes pour trouver Q1, comme vous auriez pu le faire pour déterminer vous-même la médiane.
    • Dans notre exemple, six points sont au-dessus de la médiane et six points en dessous. Donc, pour trouver le premier quartile, nous devons prendre la moyenne des deux points médians des six derniers points. Les points 3 et 4 des six derniers sont tous deux 70, donc leur moyenne est ((70 + 70) / 2) =70. Notre valeur pour Q1 est donc de 70.
  5. Calculez le troisième quartile. Ce point, que nous désignons par la variable Q3, est le point de données au-dessus duquel se trouvent 25% des données. Trouver Q3 est pratiquement le même que trouver Q1, sauf que nous examinons les points dans ce cas dessus la médiane.
    • En continuant avec l'exemple ci-dessus, nous voyons que les deux points médians des six points au-dessus de la médiane sont 71 et 72. La moyenne de ces deux points est ((71 + 72) / 2) =71,5. Notre valeur pour Q3 est donc 71,5.
  6. Trouvez l'intervalle interquartile. Maintenant que nous avons déterminé Q1 et Q3, nous devons calculer la distance entre ces deux variables. Vous pouvez trouver la distance entre Q1 et Q3 en soustrayant Q1 de Q3. La valeur que vous obtenez pour l'intervalle interquartile est cruciale pour déterminer les limites des points non divergents de votre ensemble de données.
    • Dans notre exemple, les valeurs pour Q1 et Q3 sont respectivement 70 et 71,5. Pour trouver l'intervalle interquartile, nous calculons Q3 - Q1: 71,5 - 70 =1,5.
    • Cela fonctionne même si Q1, Q3 ou les deux nombres sont négatifs. Par exemple, si notre valeur pour Q1 était de -70, l'intervalle interquartile serait 71,5 - (-70) = 141,5, ce qui est correct.
  7. Trouvez les «limites internes» de l'ensemble de données. Vous pouvez reconnaître les valeurs aberrantes en déterminant si elles se situent dans un certain nombre de limites numériques; les soi-disant «limites intérieures» et «limites extérieures». Un point qui se situe en dehors des limites internes de l'ensemble de données est classé comme un valeur aberrante légère, et un point en dehors des limites extérieures est classé comme un valeur aberrante extrême. Pour trouver les limites internes de votre ensemble de données, multipliez d'abord l'intervalle interquartile par 1,5. Ajoutez le résultat à Q3 et soustrayez-le de Q1. Les deux résultats sont les limites internes de votre ensemble de données.
    • Dans notre exemple, l'intervalle interquartile est (71,5 - 70) ou 1,5. Multipliez cela par 1,5 pour obtenir 2,25. Nous ajoutons ce nombre à Q3 et le soustrayons de Q1 pour trouver les limites intérieures comme suit:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Les frontières intérieures sont donc 67,75 et 73,75.
    • Dans notre ensemble de données, seule la température du four - 300 degrés Fahrenheit - est en dehors de cette plage. Cela peut donc être une valeur aberrante légère. Cependant, nous n'avons pas encore déterminé si cette température est une valeur aberrante extrême, alors ne sautons pas aux conclusions pour l'instant.
  8. Trouvez les "limites extérieures" de l'ensemble de données. Vous faites cela de la même manière qu'avec les limites intérieures, à la seule différence que vous multipliez la distance interquartile par 3 au lieu de 1,5. Vous ajoutez ensuite le résultat à Q3 et soustrayez de Q1 pour trouver les valeurs limites extérieures.
    • Dans notre exemple, nous multiplions la distance interquartile par 3 pour obtenir (1,5 * 3) ou 4,5. Nous pouvons maintenant trouver les limites extérieures de la même manière que les limites intérieures:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Donc, les limites extérieures sont 65,5 et 76.
    • Les points de données situés en dehors des limites externes sont considérés comme des valeurs aberrantes extrêmes. Dans notre exemple, la température du four, 300 degrés Fahrenheit, est bien au-delà des limites extérieures. La température du four est donc sans aucun doute une valeur aberrante extrême.
  9. Utilisez une évaluation qualitative pour déterminer si vous devez «rejeter» les valeurs aberrantes. Avec la méthode ci-dessus, vous pouvez déterminer si certains points sont des valeurs aberrantes légères, des valeurs aberrantes extrêmes ou aucune valeur aberrante du tout. Mais ne vous y trompez pas - reconnaître un point comme une valeur aberrante en fait juste un candidat à supprimer de l'ensemble de données, et non immédiatement un point qui est supprimé doit devenir. le raison La raison pour laquelle une valeur aberrante diffère du reste des points de l'ensemble est cruciale pour déterminer si la valeur aberrante doit être supprimée. En général, les valeurs aberrantes causées par une erreur - une erreur dans les mesures, dans les enregistrements ou dans la conception expérimentale, par exemple - sont supprimées. En revanche, les valeurs aberrantes qui ne sont pas causées par des erreurs et qui révèlent de nouvelles informations ou tendances imprévues deviennent généralement ne pas supprimé.
    • Un autre critère à considérer est de savoir si les valeurs aberrantes affectent la moyenne d'un ensemble de données d'une manière biaisée ou trompeuse. Ceci est particulièrement important si vous prévoyez de tirer des conclusions à partir de la moyenne de votre ensemble de données.
    • Jugons notre exemple. Depuis le plus haut Il est peu probable que le four ait atteint une température de 300 ° F en raison d'une force imprévue de la nature.Dans notre exemple, nous pouvons conclure avec une certitude à presque 100% que le four a été allumé accidentellement, provoquant une lecture de température anormalement élevée. De plus, si nous ne supprimons pas la valeur aberrante, la moyenne de notre ensemble de données ressort à (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, tandis que la moyenne sans pour autant la valeur aberrante sort à (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Étant donné que la valeur aberrante a été causée par une erreur humaine et qu'il est incorrect de dire que la température ambiante moyenne était proche de 32 ° C, nous devons choisir d'utiliser notre valeur aberrante. supprimer.
  10. Comprendre l'importance de (parfois) conserver les valeurs aberrantes. Alors que certaines valeurs aberrantes doivent être supprimées d'un ensemble de données parce qu'elles sont le résultat d'erreurs ou parce qu'elles faussent les résultats de manière trompeuse, d'autres valeurs aberrantes doivent être préservées. Par exemple, si une valeur aberrante a été correctement obtenue (et donc pas le résultat d'une erreur) et / ou si la valeur aberrante offre un nouvel aperçu du phénomène à mesurer, elle ne doit pas être supprimée immédiatement. Les expériences scientifiques sont des situations particulièrement délicates lorsqu'il s'agit de traiter les valeurs aberrantes - supprimer par erreur une valeur aberrante peut signifier jeter des informations importantes sur une nouvelle tendance ou découverte.
    • Par exemple, imaginons que nous concevions un nouveau médicament pour faire grandir le poisson d'une ferme piscicole. Utilisons notre ancien ensemble de données ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), à la différence que chaque point représente désormais la masse d'un poisson (en grammes ) après traitement avec un autre médicament expérimental dès la naissance. En d'autres termes, le premier médicament a donné à un poisson une masse de 71 grammes, le second a donné à un autre poisson une masse de 70 grammes, et ainsi de suite. Dans cette situation, 300 encore une valeur aberrante énorme, mais nous ne devrions pas la supprimer maintenant. Car, si nous supposons que la valeur aberrante n'est pas le résultat d'une erreur, cela représente un grand succès dans notre expérience. Le médicament qui a produit un poisson de 300 grammes fonctionnait mieux que tout autre médicament, alors c'est tout les plus point de données important dans notre ensemble, au lieu du moins point de données important.

Conseils

  • Si vous trouvez des valeurs aberrantes, essayez de les expliquer avant de les supprimer de l'ensemble de données; ils peuvent indiquer des erreurs de mesure ou des écarts dans la distribution.

Nécessités

  • Calculatrice