Séries statistiques à deux variables

Merci !

Fiches
Classe(s) : Tle ST2S | Thème(s) : Statistique

Séries statistiques à deux variables

On observe que, dans certains cas, il semble exister un lien entre les deux caractères d’une série statistique à deux variables, par exemple entre le poids et la taille d’un nouveau né, entre les maxima de tension artérielle et l’âge d’une population, entre la consommation et la vitesse d’une voiture…

Il est alors intéressant d’étudier simultanément deux caractères d’une même population. Nous pouvons alors présenter les résultats sous forme de tableaux ou de graphique.

1Tableaux croisés d’effectifs

Exemple

On a relevé à un moment donné le taux de cholestérol (exprimé en grammes par litre de sang) et l’âge (en années) d’un échantillon de la population d’une région.

Les résultats sont consignés dans le tableau d’effectifs à double entrée suivant.

On peut lire, par exemple, que dans l’échantillon considéré il y a 8 individus entre 50 et 60 ans qui ont un taux de cholestérol compris entre 2,0 et 2,2.

PB_9782216129331_T_ST2S_04_Maths_Tab_42

• Notons A l’ensemble des personnes de la tranche d’âge [40, 50[.

• Notons B l’ensemble des personnes dont le taux de cholestérol est dans l’intervalle [2,0 ; 2,2[.

• La sous-population AB est l’ensemble des personnes qui possèdent conjointement les deux propriétés suivantes :

– leur âge appartient à l’intervalle [40, 50[ ;

– leur taux de cholestérol appartient à l’intervalle [2,0 ; 2,2[.

• La fréquence fA de la sous-population A dans l’ensemble E des 220 personnes est fA=382200,17. De même la fréquence fB de la sous-population B dans l’ensemble E est fB=452200,20.

• La fréquence de A ∩ B est appelée fréquence conjointe de A et B, fAB=72200,03.

• La fréquence des personnes dont l’âge est dans l’intervalle [40, 50[ sachant que ces personnes ont un taux de cholestérol dans l’intervalle [2,0 ; 2,2[ est notée fB(A)=7450,16. fB(A) est une fréquence conditionnelle.

fB(A)=745 et fABfB=722045220=fB(A).

Définition

Pour toutes sous-populations A et B d’une population E, la fréquence de A sachant que B est :

fB(A)=fABfB.

2Tableaux de données, nuages de points

A Tableaux de données

Exemple

Le tableau suivant donne le nombre d’habitants d’une ville nouvelle entre les années 1985 et 2015.

PB_9782216129331_T_ST2S_04_Maths_Tab_41

B Nuage de points

Le plan étant muni d’un repère, nous pouvons associer au couple (xi, yi) de la série statistique double, le point Mi de coordonnées xi et yi.

L’ensemble des points Mi obtenus constitue le nuage de points représentant la série statistique.

Maths_C03_01

Exemple

Avec l’exemple du A, on obtient le nuage de points ci-contre.

Dans cet exemple, on peut penser, qu’en première approximation, une droite 𝔇 peut être tracée « le plus près possible » des sept points du nuage. C’est le problème de l’ajustement affine.

C Point moyen

Lorsqu’on pense pouvoir réaliser un ajustement affine d’un nuage, il peut sembler intéressant, avant de tracer la droite d’ajustement, de placer le point G dont l’abscisse est la moyenne x¯ des abscisses xi et l’ordonnée, la moyenne y¯ des ordonnées yi.

Définition

On appelle point moyen d’un nuage de n points Mi de coordonnées (xi, yi) le point G de coordonnées : xG=x¯ et yG=y¯.

Exemple

On vérifie que, dans l’exemple du paragraphe A, le point moyen G a pour coordonnées : (15, 32). Le point G a été placé sur la figure du paragraphe B.

3Ajustement affine

A Ajustement affine par une méthode graphique

Exemple

On reprend le nuage de points de l’exemple du paragraphe A. On se propose de faire des prévisions pour le nombre d’habitants de la ville nouvelle à partir des données relevées entre 1985 et 2015.

Un moyen d’y parvenir est de tracer « au jugé » une droite 𝔇 passant le plus près possible des points du nuage et d’admettre que les nombres d’habitants yi et les rangs de l’année xi sont liés par l’équation yaxb de 𝔇.

On peut, par exemple, prendre pour droite 𝔇 la droite passant par le point moyen G et par le point A(5, 21). Une équation de cette droite est y = 1,1x + 15,5. La droite 𝔇 est tracée sur la figure au  B.

On peut choisir une autre droite…

En remplaçant x par 35 dans l’équation de 𝔇, on obtient y = 54. On peut estimer à 54 000 le nombre d’habitants en 1 985 + 35 = 2 020.

B Différentes méthodes d’ajustement

La méthode graphique ci-dessus a l’avantage de sa simplicité apparente et de sa rapidité ; en revanche chaque utilisateur de cette méthode peut tracer une droite différente, ce qui peut poser le problème du choix entre plusieurs propositions.

Pour surmonter cette difficulté, sans introduire de longs calculs à la main, d’autres méthodes ont été mises en œuvre avant l’apparition d’outils de calcul performants.

Avec les calculatrices et les tableurs-grapheurs actuels, les calculs nécessaires à la mise en œuvre d’une méthode débouchant sur la meilleure droite possible suivant certains critères sont programmés : il suffit d’entrer les valeurs numériques des données pour obtenir une équation et le tracé de cette droite dans le repère choisi.

La détermination d’une droite d’ajustement à l’aide d’une calculatrice repose sur la méthode « des moindres carrés ».

Aucune connaissance sur cette méthode n’est exigible en Terminale ST2S.