Comment calculer les émissions

Auteur: Janice Evans
Date De Création: 23 Juillet 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
Zelda Breath of the Wild #231 Les Soeurs de Pierre
Vidéo: Zelda Breath of the Wild #231 Les Soeurs de Pierre

Contenu

En statistiques, les valeurs aberrantes sont des valeurs qui diffèrent fortement des autres valeurs de l'ensemble de données collectées. Une valeur aberrante peut indiquer des anomalies dans la distribution des données ou des erreurs de mesure, de sorte que les valeurs aberrantes sont souvent exclues de l'ensemble de données. En éliminant les valeurs aberrantes de l'ensemble de données, vous pouvez arriver à des conclusions inattendues ou plus précises. Par conséquent, il est nécessaire de pouvoir calculer et estimer les valeurs aberrantes afin d'assurer une bonne compréhension des statistiques.

Pas

  1. 1 Apprenez à reconnaître les valeurs aberrantes potentielles. Les valeurs aberrantes potentielles doivent être identifiées avant d'exclure les valeurs aberrantes de l'ensemble de données. Les valeurs aberrantes sont des valeurs très différentes de la plupart des valeurs de l'ensemble de données ; en d'autres termes, les valeurs aberrantes sont en dehors de la tendance de la plupart des valeurs. C'est facile à trouver dans des tableaux de valeurs ou (surtout) dans des graphiques. Si les valeurs de l'ensemble de données sont tracées, les valeurs aberrantes seront éloignées de la plupart des autres valeurs. Si, par exemple, la plupart des valeurs tombent sur une ligne droite, les valeurs aberrantes se trouvent des deux côtés d'une telle ligne droite.
    • Par exemple, considérons un ensemble de données représentant les températures de 12 objets différents dans une pièce. Si 11 objets sont à environ 70 degrés, mais que le douzième objet (peut-être une fournaise) est à 300 degrés, un rapide coup d'œil aux valeurs peut indiquer que la fournaise est une éruption probable.
  2. 2 Triez les données par ordre croissant. La première étape pour déterminer les valeurs aberrantes consiste à calculer la médiane de l'ensemble de données. Cette tâche est grandement simplifiée si les valeurs du jeu de données sont classées par ordre croissant (du plus petit au plus grand).
    • En poursuivant avec l'exemple ci-dessus, considérons l'ensemble de données suivant représentant les températures de plusieurs objets : {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Cet ensemble doit être commandé comme suit : {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3 Calculer la médiane de l'ensemble de données. La médiane d'un ensemble de données est la valeur au milieu de l'ensemble de données. Si l'ensemble de données contient un nombre impair de valeurs, la médiane est la valeur avant et après laquelle il y a le même nombre de valeurs dans l'ensemble de données. Mais si l'ensemble de données contient un nombre pair de valeurs, vous devez alors trouver la moyenne arithmétique des deux moyennes. Notez que lors du calcul des valeurs aberrantes, la médiane est généralement appelée Q2, car elle se situe entre Q1 et Q3, les quartiles inférieur et supérieur, que nous définirons plus tard.
    • N'ayez pas peur de travailler avec des ensembles de données qui ont un nombre pair de valeurs - la moyenne arithmétique des deux moyennes sera un nombre qui ne se trouve pas dans l'ensemble de données ; c'est normal. Mais si les deux valeurs moyennes sont le même nombre, alors la moyenne arithmétique est égale à ce nombre ; c'est aussi dans l'ordre des choses.
    • Dans l'exemple ci-dessus, les 2 valeurs du milieu sont 70 et 71, donc la médiane est ((70 + 71) / 2) = 70,5.
  4. 4 Calculez le quartile inférieur. Cette valeur, appelée Q1, est en dessous de laquelle se situent 25% des valeurs de l'ensemble de données. Autrement dit, c'est la moitié des valeurs jusqu'à la médiane. S'il y a un nombre pair de valeurs de l'ensemble de données avant la médiane, vous devez trouver la moyenne arithmétique des deux moyennes afin de calculer Q1 (cela est similaire au calcul de la médiane).
    • Dans notre exemple, 6 valeurs sont situées après la médiane et 6 valeurs - avant. Cela signifie que pour calculer le quartile inférieur, nous devons trouver la moyenne arithmétique des deux moyennes des six valeurs situées avant la médiane. Ici les valeurs moyennes sont 70 et 70. Ainsi, Q1 = ((70 + 70) / 2) = 70.
  5. 5 Calculez le quartile supérieur. Cette valeur, appelée Q3, est au-dessus de laquelle se situent 25% des valeurs de l'ensemble de données. Le processus de calcul de Q3 est similaire au processus de calcul de Q1, mais ici, les valeurs après la médiane sont prises en compte.
    • Dans l'exemple ci-dessus, les deux moyennes des six après la médiane sont 71 et 72. Donc Q3 = ((71 + 72) / 2) = 71,5.
  6. 6 Calculer l'intervalle interquartile. Après avoir calculé Q1 et Q3, il faut trouver la distance entre ces valeurs. Pour ce faire, soustrayez Q1 de Q3. La valeur de l'intervalle interquartile est extrêmement importante pour déterminer les limites des valeurs qui ne sont pas des valeurs aberrantes.
    • Dans notre exemple, Q1 = 70 et Q3 = 71,5. L'intervalle interquartile est 71,5 - 70 = 1,5.
    • Notez que cela s'applique également aux valeurs négatives Q1 et Q3. Par exemple, si Q1 = -70, alors l'intervalle interquartile est 71,5 - (-70) = 141,5.
  7. 7 Trouvez les "limites intérieures" des valeurs dans l'ensemble de données. Les valeurs aberrantes sont déterminées en analysant les valeurs - qu'elles relèvent ou non des "limites internes" et des "limites externes". Une valeur en dehors des « limites intérieures » est classée comme une « valeur aberrante mineure », tandis qu'une valeur en dehors des « limites extérieures » est classée comme une « valeur aberrante significative ». Pour trouver les limites internes, vous devez multiplier l'intervalle interquartile par 1,5 ; le résultat doit être ajouté à Q3 et soustrait de Q1. Les deux nombres trouvés sont les limites internes de l'ensemble de données.
    • Dans notre exemple, l'intervalle interquartile est (71,5 - 70) = 1,5. Plus loin : 1,5 * 1,5 = 2,25. Ce nombre doit être ajouté à Q3 et soustrait de Q1 pour trouver les limites intérieures :
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Ainsi, les limites internes sont 67,75 et 73,75.
    • Dans notre exemple, seule la température du four - 300 degrés - se situe en dehors de ces limites et peut être considérée comme une émission insignifiante. Mais ne sautez pas aux conclusions - nous devons déterminer si cette température est une valeur aberrante significative.
  8. 8 Trouvez les « limites extérieures » de l'ensemble de données. Cela se fait de la même manière que pour les limites intérieures, sauf que l'intervalle interquartile est multiplié par 3 au lieu de 1,5. Le résultat doit être ajouté à Q3 et soustrait de Q1. Les deux nombres trouvés sont les limites extérieures de l'ensemble de données.
    • Dans notre exemple, multipliez l'intervalle interquartile par 3 : 1,5 * 3 = 4,5. Calculez les limites extérieures :
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Les limites extérieures sont donc 65,5 et 76.
    • Toutes les valeurs qui se situent en dehors des limites extérieures sont considérées comme des émissions importantes. Dans notre exemple, une température de four de 300 degrés est considérée comme une éruption importante.
  9. 9 Utilisez une estimation qualitative pour déterminer si les valeurs aberrantes doivent être exclues de l'ensemble de données. La méthode décrite ci-dessus permet de déterminer si certaines valeurs sont des valeurs aberrantes (mineures ou significatives). Ne vous y trompez pas, une valeur classée comme aberrante n'est qu'un « candidat » pour une exception, ce qui signifie que vous n'avez pas à l'exclure. La cause de la valeur aberrante est le principal facteur influençant la décision d'exclure la valeur aberrante. En règle générale, les valeurs aberrantes résultant d'erreurs (dans les mesures, les enregistrements, etc.) sont exclues. D'un autre côté, les valeurs aberrantes associées non pas à des erreurs mais à de nouvelles informations ou tendances sont généralement laissées dans l'ensemble de données.
    • Il est tout aussi important d'évaluer l'effet des valeurs aberrantes sur la médiane de l'ensemble de données (qu'elles la faussent ou non). Ceci est particulièrement important lorsque vous tirez des conclusions à partir de la médiane d'un ensemble de données.
    • Dans notre exemple, il est extrêmement improbable que le four chauffe jusqu'à une température de 300 degrés (sauf si l'on prend en compte les anomalies naturelles). Par conséquent, on peut conclure (avec un degré élevé de certitude) qu'une telle température est une erreur de mesure qui doit être exclue de l'ensemble de données. De plus, si vous n'excluez pas la valeur aberrante, la médiane de l'ensemble de données sera (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 degrés, mais si vous excluez la valeur aberrante, la médiane sera (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 degrés.
      • Les valeurs aberrantes sont généralement le résultat d'une erreur humaine, de sorte que les valeurs aberrantes doivent être exclues des ensembles de données.
  10. 10 Comprendre l'importance des valeurs aberrantes (parfois) laissées dans l'ensemble de données. Certaines valeurs aberrantes doivent être exclues de l'ensemble de données car elles sont dues à des erreurs et à des problèmes techniques ; les autres valeurs aberrantes doivent être laissées dans l'ensemble de données. Si, par exemple, une valeur aberrante n'est pas le résultat d'une erreur et/ou fournit une nouvelle compréhension du phénomène testé, alors elle doit être laissée dans l'ensemble de données. Les expériences scientifiques sont particulièrement sensibles aux valeurs aberrantes - en éliminant par erreur une valeur aberrante, vous pouvez passer à côté d'une nouvelle tendance ou découverte.
    • Par exemple, nous développons un nouveau médicament pour augmenter la taille des poissons dans les pêcheries. Nous utiliserons l'ancien jeu de données ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), mais cette fois chaque valeur représentera le poids du poisson (en grammes) après ingestion du médicament expérimental. En d'autres termes, le premier médicament entraîne une augmentation du poids du poisson jusqu'à 71 g, le deuxième médicament - jusqu'à 70 g, et ainsi de suite. Dans cette situation, 300 est une valeur aberrante significative, mais nous ne devons pas l'exclure ; si nous supposons qu'il n'y a pas eu d'erreurs de mesure, alors une telle valeur aberrante est un succès significatif dans l'expérience. Le médicament, qui a augmenté le poids du poisson à 300 grammes, fonctionne beaucoup mieux que les autres médicaments ; 300 est donc la valeur la plus importante de l'ensemble de données.

Conseils

  • Lorsque des valeurs aberrantes sont trouvées, essayez d'expliquer leur présence avant de les exclure de l'ensemble de données. Ils peuvent indiquer des erreurs de mesure ou des anomalies de distribution.

De quoi avez-vous besoin

  • Calculatrice