Calculer la covariance

Auteur: Judy Howell
Date De Création: 2 Juillet 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
Stats à 2 variables-Calculer une Covariance-COURS et exemple-maths complémentaires et autres
Vidéo: Stats à 2 variables-Calculer une Covariance-COURS et exemple-maths complémentaires et autres

Contenu

La covariance est un calcul statistique pour rendre la relation entre deux ensembles de données plus transparente. Par exemple, supposons que les anthropologues étudient la taille et le poids d'une population au sein d'une culture particulière. Pour chaque personne de l'étude, la taille et le poids peuvent être affichés avec une paire de données (x, y). Ces valeurs peuvent être utilisées dans une formule standard pour calculer la relation de covariance. Cet article explique d'abord les calculs permettant de déterminer la covariance d'un ensemble de données. Ensuite, deux autres méthodes automatisées de détermination du résultat seront discutées.

Avancer d'un pas

Méthode 1 sur 4: Calculez la covariance à la main en utilisant la formule standard

  1. Apprenez la formule de covariance standard et ses parties. La formule standard pour calculer la covariance est Σ(XjeXmoy)(yjeymoy)/(n1){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) (y_ {i} -y _ { text {avg}}) / (n-1)}Construisez votre tableau de données. Avant de commencer, il est utile de collecter vos données. Créez un tableau composé de cinq colonnes. Vous devez déclarer chaque colonne comme suit:
    • X{ displaystyle x}Calculez la moyenne des x points de données. Cet exemple d'ensemble de données contient 9 nombres. Pour trouver la moyenne, additionnez-les et divisez la somme par 9. Cela donne le résultat 1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44. Lorsque vous divisez cela par 9, vous obtenez la moyenne 4.89. C'est la valeur que vous utiliserez comme x (moy) pour les calculs à venir.
    • Calculez la moyenne des y points de données. Cette colonne y doit également comprendre 9 points de données qui coïncident avec les x points de données. Déterminez la moyenne de ceux-ci. Pour cet exemple d'ensemble de données, cela devient 8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 49. Divisez ce total par 9 pour obtenir une moyenne de 5,44. Vous allez utiliser 5,44 comme valeur de y (moy) pour les calculs à venir.
    • Calculez les valeurs (XjeXmoy){ displaystyle (x_ {i} -x _ { text {avg}})}Calculez les valeurs (yjeymoy){ displaystyle (y_ {i} -y _ { text {avg}})}Calculez les produits pour chaque ligne de données. Vous remplissez les lignes de la dernière colonne en multipliant les nombres que vous avez calculés dans les deux colonnes précédentes de (XjeXmoy){ displaystyle (x_ {i} -x _ { text {avg}})}Trouvez la somme des valeurs dans la dernière colonne. C'est là que le symbole Σ entre en jeu. Après avoir effectué tous les calculs jusqu'à présent, additionnez les résultats. Pour cet exemple d'ensemble de données, vous devriez maintenant avoir neuf valeurs dans la dernière colonne. Additionnez ces neuf nombres ensemble. Faites très attention à savoir si un nombre est positif ou négatif.
      • La somme de cet exemple d'ensemble de données doit s'élever à -64,57. Écrivez ce total dans l'espace au bas de la colonne. Il s'agit de la valeur du numérateur de la formule de covariance standard.
    • Calculez le dénominateur de la formule de covariance. Le numérateur de la formule de covariance standard est la valeur que vous venez de calculer. Le dénominateur est représenté par (n-1) et est inférieur de un au nombre de paires de données de votre ensemble de données.
      • Dans cet exemple de problème, il y a neuf paires de données, donc n vaut 9. Par conséquent, la valeur de (n-1) est égale à 8.
    • Divisez le numérateur par le dénominateur. La dernière étape du calcul de la covariance consiste à diviser le numérateur, Σ(XjeXmoy)(yjeymoy){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) (y_ {i} -y _ { text {avg}})}Remarquez quels sont les calculs répétitifs. La covariance est un calcul que vous devez faire à la main plusieurs fois pour comprendre la signification du résultat. Cependant, si vous utilisez régulièrement la covariance pour interpréter les données, vous avez besoin d'un moyen plus rapide et plus automatisé pour obtenir les résultats. À présent, vous avez peut-être remarqué qu'avec notre ensemble de données relativement petit de seulement neuf paires de données, les calculs consistaient en deux moyennes, dix-huit soustractions distinctes, neuf multiplications, une addition et enfin une autre division. C'est 31 calculs relativement petits pour trouver la solution. En cours de route, vous courez le risque de manquer des signes négatifs ou de copier les résultats de manière incorrecte, de sorte que la réponse ne soit plus correcte.
    • Créez une feuille de calcul pour calculer la covariance. Si vous connaissez Excel (ou un autre programme de calcul), vous pouvez facilement créer un tableau pour déterminer la covariance. Étiquetez les en-têtes des cinq colonnes comme vous l'avez fait pour les calculs à la main: x, y, (x (i) -x (avg)), (y (i) -y (avg)) et Product.
      • Pour simplifier la dénomination, appelez la troisième colonne quelque chose comme «différence x» et la quatrième colonne «différence y», tant que vous vous souvenez de la signification des données.
      • Si le tableau commence dans le coin supérieur gauche de la feuille de calcul, la cellule A1 sera étiquetée x, tandis que les autres étiquettes continuent jusqu'à la cellule E1.
    • Entrez les points de données. Entrez les valeurs de données dans les deux colonnes x et y. N'oubliez pas que l'ordre des points de données est important, vous devez donc faire correspondre chaque y avec la valeur correspondante de x.
      • Les valeurs x commencent dans la cellule A2 et continuent jusqu'au nombre de points de données dont vous avez besoin.
      • Les valeurs y commencent dans la cellule B2 et continuent jusqu'au nombre de points de données dont vous avez besoin.
    • Déterminez les moyennes des valeurs x et y. Excel calcule les moyennes pour vous très rapidement. Dans la première cellule vide sous chaque colonne de données, tapez la formule = MOYENNE (A2: A ___). Remplissez l'espace vide avec le numéro de la cellule qui correspond à votre dernier point de données.
      • Par exemple, si vous avez 100 points de données, les cellules A2 à A101 sont remplies, donc dans la cellule vous tapez = MOYENNE (A2: A101).
      • Pour les données y, tapez la formule = MOYENNE (B2: B101).
      • N'oubliez pas qu'une formule dans Excel commence par un signe "=".
    • Tapez la formule de la colonne (x (i) -x (avg)). Dans la cellule C2, entrez la formule de calcul de la première soustraction. Cette formule devient: = A2 -___. Remplissez l'espace vide avec l'adresse de cellule contenant la moyenne des données x.
      • Par exemple, sur les 100 points de données, la moyenne sera dans la cellule A103, donc votre formule devient: = A2-A103.
    • Répétez la formule pour les points de données (y (i) -y (avg)). Suivant le même exemple, il entre dans la cellule D2. La formule devient: = B2-B103.
    • Tapez la formule de la colonne "Produit". Dans la cinquième colonne, tapez dans la cellule E2 la formule pour calculer le produit des deux cellules précédentes. Cela devient alors: = C2 * D2.
    • Copiez les formules pour remplir le tableau. Jusqu'à présent, vous n'avez programmé que les premiers points de données de la ligne 2. À l'aide de votre souris, marquez les cellules C2, D2 et E2. Placez votre curseur sur la petite boîte dans le coin inférieur droit jusqu'à ce qu'un signe plus apparaisse. Cliquez et maintenez le bouton de la souris et faites glisser la souris vers le bas pour développer la sélection et remplir toute la table de données. Cette étape copiera automatiquement les trois formules des cellules C2, D2 et E2 dans l'ensemble du tableau. Le tableau doit être automatiquement rempli avec tous les calculs.
    • Programmez la somme de la dernière colonne. Vous avez besoin de la somme des éléments dans la colonne "Produit". Dans la cellule vide immédiatement sous le dernier point de données de cette colonne, tapez la formule: = SOMME (E2: E ___). Remplissez l'espace vide avec l'adresse de cellule du dernier point de données.
      • Dans l'exemple avec 100 points de données, cette formule entre dans la cellule E103. Tapez: = SOMME (E2: E102).
    • Déterminez la covariance. Vous pouvez également demander à Excel d'effectuer le calcul final à votre place. Le dernier calcul de la cellule E103 de notre exemple représente le numérateur de la formule de covariance. Juste en dessous de cette cellule, tapez la formule: = E103 / ___. Remplissez l'espace vide avec le nombre de points de données dont vous disposez. Dans notre exemple, c'est 100. Le résultat est la covariance de vos données.

Méthode 3 sur 4: Utilisation des calculateurs de covariance en ligne

  1. Recherchez en ligne des calculateurs de covariance. Diverses écoles, entreprises ou autres sources ont des sites Web qui calculent les valeurs de covariance très facilement pour vous. Utilisez le terme de recherche «calculateur de covariance» dans un moteur de recherche.
  2. Entrez vos coordonnées. Lisez attentivement les instructions sur le site Web pour vous assurer de saisir correctement les informations. Il est important que vos paires de données soient conservées dans l'ordre, sinon le résultat généré sera une covariance incorrecte. Les sites Web ont différents styles de saisie de données.
    • Par exemple, sur le site Web http://ncalculators.com/statistics/covariance-calculator.htm, il y a une case horizontale pour saisir les valeurs x et une seconde case horizontale pour saisir les valeurs y. Vous devez saisir vos données séparées par des virgules. Ainsi, l'ensemble de données x calculé précédemment dans cet article doit alors être saisi sous la forme 1,3,2,5,8,7,12,2,4. Les données y sont 8,6,9,4,3,3,2,7,7.
    • Sur un autre site, https://www.thecalculator.co/math/Covariance-Calculator-705.html, il vous sera demandé de saisir les données x dans la première case. Les données sont saisies verticalement, avec un élément par ligne. Par conséquent, l'entrée sur ce site ressemble à:
    • 1
    • 3
    • 2
    • 5
    • 8
    • 7
    • 12
    • 2
    • 4
  3. Calculez vos résultats. La chose intéressante à propos de ces calculs en ligne est qu'après avoir saisi les données, il vous suffit généralement de cliquer sur le bouton "Calculer" et les résultats apparaîtront automatiquement. La plupart des sites vous fourniront les calculs intermédiaires de x (avg), y (avg) et n.

Méthode 4 sur 4: Interprétation des résultats de la covariance

  1. Recherchez une relation positive ou négative. La covariance est un nombre statistique unique qui indique la relation entre un ensemble de données et un autre. Dans l'exemple mentionné en introduction, la taille et le poids sont mesurés. On peut s'attendre à ce que, à mesure que les gens grandissent, leur poids augmente également, ce qui conduit à une vision de covariance positive. Un autre exemple: supposons que des données soient collectées qui indiquent le nombre d'heures qu'une personne pratique le golf et le score qu'elle ou elle obtient. Dans ce cas, vous vous attendez à une covariance négative, ce qui signifie qu'à mesure que le nombre d'heures d'entraînement augmente, le score de golf diminuera. (Au golf, un score plus bas est meilleur).
    • Considérez l'exemple d'ensemble de données calculé ci-dessus. La covariance résultante est -8,07. Le signe moins signifie que lorsque les valeurs x augmentent, les valeurs y ont tendance à diminuer. Vous pouvez voir que cela est vrai en examinant certaines des valeurs. Par exemple, les valeurs x de 1 et 2 correspondent aux valeurs y de 7, 8 et 9. Les valeurs x de 8 et 12 sont liées aux valeurs y de 3 et 2, respectivement .
  2. Interprétez l'ampleur de la covariance. Si le nombre du score de covariance est grand, qu'il s'agisse d'un grand nombre positif ou d'un grand nombre négatif, vous pouvez l'interpréter comme deux éléments de données fortement connectés, de manière positive ou négative.
    • La covariance -8,07 de l'ensemble de données de l'échantillon est assez grande. Notez que les données vont de 1 à 12. Donc 8 est un nombre assez grand. Cela indique une relation assez forte entre les ensembles de données x et y.
  3. Comprenez l'absence de relation. Si votre résultat est une covariance égale ou très proche de 0, vous pouvez conclure que les points de données ne sont pas liés. Autrement dit, une augmentation d'une valeur peut, mais ne doit pas nécessairement entraîner une augmentation de l'autre. Les deux termes sont liés de manière presque aléatoire.
    • Supposons que vous associez les pointures aux notes d'examen. Comme il y a tellement de facteurs qui influencent les notes d'examen d'un étudiant, on peut s'attendre à un score de covariance proche de 0. Cela indique qu'il n'y a pratiquement aucune relation entre les deux valeurs.
  4. Visualisez la relation graphiquement. Pour comprendre visuellement la covariance, vous pouvez tracer vos points de données sur un graphique x, y. Lorsque vous faites cela, vous devriez voir assez facilement que les points, bien que n'étant pas exactement en ligne droite, ont tendance à s'approcher d'un cluster en diagonale de haut à gauche en bas à droite. C'est la description d'une covariance négative. Vous pouvez également voir que la valeur de la covariance est égale à -8,07. C'est un nombre assez important par rapport aux points de données. Le nombre élevé suggère que la covariance est assez forte, ce que vous pouvez déduire de la forme linéaire des points de données.
    • Pour revoir cela, lisez les articles sur le dessin de points dans un système de coordonnées sur wikiHow.

Mises en garde

  • La covariance a une application limitée dans les statistiques. C'est souvent une étape vers le calcul des coefficients de corrélation ou d'autres concepts. Faites attention aux interprétations trop audacieuses basées sur un score de covariance.