Déterminer le coefficient de corrélation

Auteur: Morris Wright
Date De Création: 28 Avril 2021
Date De Mise À Jour: 19 Juin 2024
Anonim
Déterminer le coefficient de corrélation - Conseils
Déterminer le coefficient de corrélation - Conseils

Contenu

Le coefficient de corrélation, noté r ou ρ, est la mesure de la corrélation linéaire (la relation, à la fois en force et en direction) entre deux variables. Il varie de -1 à +1, en utilisant les signes plus et moins pour représenter la corrélation positive et négative. Si le coefficient de corrélation est exactement -1, alors la relation entre les deux variables est complètement négative; si le coefficient de corrélation est exactement +1, alors la relation est complètement positive. Deux variables peuvent avoir une corrélation positive, une corrélation négative ou aucune corrélation du tout. Vous pouvez calculer la corrélation à la main, en utilisant certains des calculs de corrélation gratuits disponibles en ligne, ou en utilisant les fonctions statistiques d'une bonne calculatrice graphique.

Avancer d'un pas

Méthode 1 sur 4: Calculez le coefficient de corrélation à la main

  1. Collectez d'abord vos données. Pour commencer à calculer une corrélation efficace, examinez d'abord les paires de données. Il est utile de les mettre dans un tableau, à la fois verticalement et horizontalement. Étiquetez chaque ligne ou colonne x et y.
    • Par exemple, supposons que vous ayez quatre paires de données pour X et y. Le tableau peut alors ressembler à ceci:
      • x || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  2. Calculez la moyenne de X. Pour calculer la moyenne, vous avez besoin de toutes les valeurs de X ajoutez puis divisez par le nombre de valeurs.
    • En utilisant l'exemple ci-dessus, notez que vous avez quatre valeurs pour X. Pour calculer la moyenne, vous additionnez toutes les valeurs X et divisez-le par 4. Le calcul ressemble à ceci:
    • μX=(1+2+4+5)/4{ displaystyle mu _ {x} = (1 + 2 + 4 + 5) / 4}Trouvez la moyenne de y. À la moyenne de y Pour le trouver, suivez les mêmes étapes, en ajoutant toutes les valeurs de y ensemble, puis en divisant par le nombre de valeurs.
      • Dans l'exemple ci-dessus, vous avez également quatre valeurs pour y. Additionnez toutes ces valeurs ensemble, puis divisez-les par 4. Les calculs ressembleront à ceci:
      • μy=(1+3+5+7)/4{ displaystyle mu _ {y} = (1 + 3 + 5 + 7) / 4}Déterminez l'écart type de X. Une fois que vous avez vos moyens, vous pouvez calculer l'écart type. Pour ce faire, utilisez la formule:
        • σX=1n1Σ(XμX)2{ displaystyle sigma _ {x} = { sqrt {{ frac {1} {n-1}} Sigma (x- mu _ {x}) ^ {2}}}}Calculez l'écart type de y. En utilisant les mêmes étapes de base, trouvez l'écart type de y. Vous allez utiliser la même formule, en utilisant les points de données pour y.
          • Avec les exemples de données, vos calculs ressembleront à ceci:
          • σy=141((14)2+(34)2+(54)2+(74)2){ displaystyle sigma _ {y} = { sqrt {{ frac {1} {4-1}} * ((1-4) ^ {2} + (3-4) ^ {2} + ( 5-4) ^ {2} + (7-4) ^ {2})}}}Passez en revue la formule de base pour déterminer un coefficient de corrélation. La formule de calcul d'un coefficient de corrélation utilise des moyennes, des écarts-types et le nombre de paires dans un ensemble de données (représenté par n). Le coefficient de corrélation lui-même est représenté par la lettre minuscule r ou la lettre grecque ρ (rho). Pour cet article, nous utiliserons la formule connue sous le nom de coefficient de corrélation de Pearson, comme indiqué ci-dessous:
            • ρ=(1n1)Σ(XμXσX)(yμyσy){ displaystyle rho = left ({ frac {1} {n-1}} right) Sigma left ({ frac {x- mu _ {x}} { sigma _ {x}} } right) * left ({ frac {y- mu _ {y}} { sigma _ {y}}} right)}Déterminez le coefficient de corrélation. Vous avez maintenant les moyennes et les écarts types de vos variables, vous pouvez donc passer à la formule du coefficient de corrélation. Souviens-toi que n représente le nombre de valeurs dont vous disposez. Vous avez déjà élaboré les autres informations pertinentes dans les étapes ci-dessus.
              • À l'aide des exemples de données, vous pouvez saisir les données dans la formule du coefficient de corrélation et la calculer comme suit:
              • ρ=(1n1)Σ(XμXσX)(yμyσy){ displaystyle rho = left ({ frac {1} {n-1}} right) Sigma left ({ frac {x- mu _ {x}} { sigma _ {x}} } right) * left ({ frac {y- mu _ {y}} { sigma _ {y}}} right)}Interprétez le résultat. Pour cet ensemble de données, le coefficient de corrélation est de 0,988. Ce nombre vous indique deux choses sur les données. Regardez le signe du nombre et la taille du nombre.
                • Puisque le coefficient de corrélation est positif, vous pouvez dire qu'il existe une corrélation positive entre les données x et les données y. Cela signifie que si les valeurs x augmentent, vous vous attendez à ce que les valeurs y augmentent également.
                • Le coefficient de corrélation étant très proche de +1, les données x et les données y sont très étroitement liées. Si vous deviez représenter graphiquement ces points, vous verriez qu'ils sont une très bonne approximation d'une ligne droite.

Méthode 2 sur 4: Utilisation des calculateurs de corrélation en ligne

  1. Recherchez en ligne des calculateurs de corrélation. La mesure de la corrélation est un calcul assez classique pour les statisticiens. Le calcul peut devenir très fastidieux pour les grands ensembles de données s'il est fait à la main. Par conséquent, de nombreuses sources ont mis en ligne des calculs de corrélation courants. Utilisez n'importe quel moteur de recherche et entrez le terme de recherche "calculateur de corrélation".
  2. Entrez les données. Lisez attentivement les instructions sur le site Web afin de pouvoir saisir correctement les données. Il est important que les paires de données soient conservées dans l'ordre, sinon vous obtiendrez un résultat de corrélation incorrect. Différents sites Web utilisent différents formats pour saisir des données.
    • Par exemple, sur le site Web http://ncalculators.com/statistics/correlation-coefficient-calculator.htm, vous trouverez une case horizontale pour la saisie des valeurs x et une deuxième case horizontale pour la saisie des valeurs y. Vous entrez les termes, séparés uniquement par des virgules. Ainsi, l'ensemble de données x calculé précédemment dans cet article doit être entré comme 1,2,4,5. L'ensemble de données y est entré sous la forme 1,3,5,7.
    • Sur un autre site, http://www.alcula.com/calculators/statistics/correlation-coefficient/, vous pouvez saisir des données horizontalement ou verticalement, à condition de garder les points de données dans l'ordre.
  3. Calculez les résultats. Ces sites de calcul sont populaires car après avoir entré les données, il vous suffit généralement de cliquer sur le bouton "Calculer" - le résultat apparaîtra automatiquement.

Méthode 3 sur 4: Utilisation d'une calculatrice graphique

  1. Entrez vos coordonnées. Sur votre calculatrice graphique, activez la fonction statistiques puis sélectionnez la commande "Modifier".
    • Chaque calculatrice a des raccourcis clavier légèrement différents. Cet article fournit les instructions spécifiques à la Texas Instruments TI-86.
    • Pour accéder à la fonction Stat, appuyez sur [2nd] -Stat (au-dessus de la touche "+") puis appuyez sur F2-Edit.
  2. Supprimez toutes les anciennes données stockées. La plupart des calculatrices conserveront les données statistiques jusqu'à ce qu'elles soient effacées. Pour vous assurer de ne pas confondre d'anciennes données avec de nouvelles données, vous devez d'abord effacer toutes les informations précédemment enregistrées.
    • Utilisez les touches fléchées pour déplacer le curseur afin de mettre en surbrillance la catégorie «xStat». Appuyez ensuite sur «Effacer» et «Entrée». Cela devrait effacer toutes les valeurs de la colonne xStat.
    • Utilisez les touches fléchées pour mettre en surbrillance la catégorie "yStat". Appuyez sur "Effacer" et "Entrée" pour effacer également les données de cette colonne.
  3. Entrez vos valeurs de données. Utilisez les touches fléchées pour déplacer le curseur sur le premier espace sous l'en-tête xStat. Tapez votre première valeur de données, puis appuyez sur Entrée. Vous devriez voir l'espace en bas de l'écran "xStat (1) = __", où votre valeur remplit l'espace vide. Lorsque vous appuyez sur Entrée, les données rempliront le tableau, le curseur se déplacera sur la ligne suivante et la ligne en bas de l'écran devrait maintenant lire "xStat (2) = __".
    • Continuez à saisir toutes les valeurs x.
    • Lorsque vous avez entré les valeurs x, utilisez les touches fléchées pour accéder à la colonne yStat et entrez les valeurs y.
    • Lorsque toutes les données ont été saisies, appuyez sur Exit pour effacer l'écran et quitter le menu Stat.
  4. Calculez les statistiques de régression linéaire. Le coefficient de corrélation est une mesure de la proximité des données avec une ligne droite. Une calculatrice graphique avec des fonctions statistiques peut calculer très rapidement la meilleure ligne d'ajustement et le coefficient de corrélation.
    • Entrez dans la fonction Stat, puis appuyez sur le bouton Calc. Sur la TI-86, il s'agit de [2nd] [Stat] [F1].
    • Choisissez les calculs de régression linéaire. Sur la TI-86, il s'agit de [F3], étiqueté «LinR». L'écran graphique affichera alors la ligne «LinR _» avec un curseur clignotant.
    • Vous devez maintenant saisir les noms des deux variables que vous souhaitez calculer. Ce sont xStat et yStat.
      • Sur la TI-86, sélectionnez la liste de noms ("Noms") en appuyant sur [2nd] [List] [F3].
      • La ligne du bas de votre écran devrait maintenant afficher les variables disponibles. Choisissez [xStat] (c'est probablement le bouton F1 ou F2), puis entrez une virgule puis [yStat].
      • Appuyez sur Entrée pour calculer les données
  5. Interprétez les résultats. Lorsque vous appuyez sur Entrée, la calculatrice calcule immédiatement les informations suivantes pour les données que vous avez saisies:
    • y=une+bX{ displaystyle y = a + bx}Comprenez le concept de corrélation. La corrélation fait référence à la relation statistique entre deux quantités. Le coefficient de corrélation est un nombre unique que vous pouvez calculer pour deux ensembles de points de données. Le nombre est toujours compris entre -1 et +1 et indique à quel point les deux ensembles de données sont proches.
      • Par exemple, si vous mesuriez la taille et l'âge des enfants jusqu'à environ 12 ans, vous vous attendriez à trouver une forte corrélation positive. En vieillissant, les enfants ont tendance à grandir.
      • Un exemple de corrélation négative consiste à comparer le temps qu'une personne passe à pratiquer le golf avec le score de golf de cette personne. Au fur et à mesure que la pratique progresse, le score devrait baisser.
      • En fin de compte, vous vous attendriez à peu de corrélation, positive ou négative, entre la pointure d'une personne, par exemple, et ses notes d'examen.
    • Calculez la moyenne. La moyenne arithmétique, ou «moyenne», d'un ensemble de données est calculée en additionnant toutes les valeurs des données, puis en divisant par le nombre de valeurs de l'ensemble. Pour déterminer le coefficient de corrélation de vos données, vous devez calculer la moyenne de chaque ensemble de données.
      • La moyenne d'une variable est indiquée par la variable avec une ligne horizontale au-dessus. Ceci est souvent appelé «barre x» ou «barre y» pour les ensembles de données de x et y. Alternativement, la moyenne peut être désignée par la lettre grecque minuscule μ (mu). Par exemple, pour indiquer la moyenne des points de données de x, vous pouvez utiliser μX ou μ (x).
      • Par exemple, si vous avez un ensemble de x (1,2,5,6,9,10), la moyenne de ces données est calculée comme suit:
        • μX=(1+2+5+6+9+10)/6{ displaystyle mu _ {x} = (1 + 2 + 5 + 6 + 9 + 10) / 6}Connaissez l'importance de l'écart type. En statistique, l'écart type mesure la variation, montrant la dispersion des nombres par rapport à la moyenne. Un groupe de nombres avec un faible écart type est assez proche les uns des autres. Un groupe de nombres avec un écart type élevé est plus dispersé.
          • En tant que symbole, l'écart type est exprimé à l'aide de la lettre minuscule s ou de la lettre grecque σ (sigma). Ainsi, l'écart type des données x s'écrit sX ou σX.
        • Reconnaissez la notation de sommation. L'opérateur de sommation est l'un des opérateurs les plus courants en mathématiques et il indique une somme de valeurs. Il est représenté par la lettre majuscule grecque, sigma ou ∑.
          • Par exemple, si vous avez une collection de points de données x (1,2,5,6,9,10), alors ∑x signifie:
            • 1+2+5+6+9+10 = 33

Conseils

  • Le coefficient de corrélation est parfois appelé «coefficient de corrélation produit-moment de Pearson» en l'honneur de Karl Pearson, son développeur.
  • En général, un coefficient de corrélation supérieur à 0,8 (positif ou négatif) représente une forte corrélation; un coefficient de corrélation inférieur à 0,5 (positif ou négatif à nouveau) représente un coefficient de corrélation faible.

Mises en garde

  • La corrélation montre que deux ensembles de données sont connectés d'une manière ou d'une autre. Cependant, veillez à ne pas interpréter cela comme une relation causale. Par exemple, si vous comparez les pointures des chaussures des gens et leur hauteur, vous constaterez probablement une forte corrélation positive. Les personnes plus grandes ont généralement de plus gros pieds. Cependant, cela ne signifie pas que devenir grand fera grandir vos pieds, ou que de grands pieds vous feront grandir. Ils se produisent simplement ensemble.