Racine Math - Manuel 5e année - 4 période/semaine - EXTRAIT

Page 1


RACINE

MANUEL MATH

4 périodes / semaine

VAN

MANUEL 5e RACINE MATH

Anne-Laure Andrieu
Justine Bellistrì
Pauline Pirenne

, la plate-forme d’apprentissage en ligne pour les élèves et les enseignants

La plate-forme te donne, par exemple*, accès à :

–des exercices en ligne pour t’entraîner, –un aperçu de tes progrès et de tes résultats, –du matériel de cours, –des vidéos et des audios, –et bien plus encore...

*En fonction de la méthode

Crée-toi un compte sur www.ididdit.be/fr et accède à ton contenu à l’aide du code d’activation ci-dessous : CODE ÉLÈVE

Cette licence est valable pendant 1 an à partir de la date d’activation.

Comment activer ton code sur  ?

Scanne le code QR ci-contre ou copie l’url suivante dans ton navigateur : www.vanin.be/ididdit-aide.

RACINE MATH 5 4 périodes/semaine – m anuel

Composition de Racine Math 5 4 périodes/semaine

Pour l’élève –1 manuel –des exercices numériques via

Pour l’enseignant(e) –un guide de l’enseignant(e)

– un accès professeur via au manuel numérique, aux compléments et aux exercices numériques

Auteures : Anne-Laure Andrieu, Justine Bellistrì et Pauline Pirenne

Couverture : Nord Compo

Mise en page : Nord Compo

Les photocopieuses sont d’un usage très répandu et beaucoup y recourent de façon constante et machinale. Mais la production de livres ne se réalise pas aussi facilement qu’une simple photocopie. Elle demande bien plus d’énergie, de temps et d’argent. La rémunération des auteurs, et de toutes les personnes impliquées dans le processus de création et de distribution des livres, provient exclusivement de la vente de ces ouvrages.

En Belgique, la loi sur le droit d’auteur protège l’activité de ces différentes personnes.

Lorsqu’il copie des livres, en entier ou en partie, en dehors des exceptions définies par la loi, l’usager prive ces différentes personnes d’une part de la rémunération qui leur est due.

C’est pourquoi les auteurs et les éditeurs demandent qu’aucun texte protégé ne soit copié sans une autorisation écrite préalable, en dehors des exceptions définies par la loi.

L’éditeur s’est efforcé d’identifier tous les détenteurs de droits. Si, malgré cela, quelqu’un estime entrer en ligne de compte en tant qu’ayant droit, il est invité à s’adresser à l’éditeur.

ÉditionsVANIN

© Éditions VAN IN, Mont-Saint-Guibert – Wommelgem, 2025

Tous droits réservés.

En dehors des exceptions définies par la loi, cet ouvrage ne peut être reproduit, enregistré dans un fichier informatisé ou rendu public, même partiellement, par quelque moyen que ce soit, sans l’autorisation écrite de l’éditeur.

1re édition : 2025

ISBN 978-94-651-4023-0 D/2025/0078/159

Art. 609014/01

Mot des auteures

Chers professeur(e)s, élèves, lecteurs et lectrices, Il nous tenait à cœur de concevoir une méthode qui accompagne l’apprentissage avec une structure claire et progressive, fidèle à la logique d’un cours : des découvertes pour éveiller la curiosité, une théorie rigoureuse pour poser les bases, puis des exercices pour s’entraîner et approfondir les notions.

Nous souhaitons exprimer notre profonde gratitude à Horacio Tellez Pérez, dont la relecture attentive a été d’une aide précieuse tout au long de l’élaboration de cet ouvrage.

Nous espérons que cette méthode vous guidera efficacement dans votre enseignement ou votre apprentissage et vous donnera autant de plaisir à l’utiliser que nous en avons eu à la rédiger.

Bonne lecture et bon travail !

ÉditionsVANIN

Justine et Pauline

Introduction

Bienvenue dans Racine Math 5

Pour utiliser au mieux le potentiel de ce manuel, voici quelques informations sur sa structure et sur les compléments numériques qui l’accompagnent.

Ce manuel rassemble les cinq UAA (Unités d’Acquis d’Apprentissage) du programme de mathématiques 4 périodes/semaine de 5e année.

Prérequis

Certaines UAA sont introduites par une partie « Prérequis » afin de rappeler les notions nécessaires à la découverte de la matière.

Introduction historique

Afin de donner du sens à l’apprentissage, chaque UAA commence par une mise en contexte historique de la matière et par des exemples de son application dans le quotidien.

Toujours dans l’idée d’ancrer les concepts mathématiques dans la réalité, un défi t’est proposé à la fin de cette introduction. Tu seras en mesure de le résoudre au terme du chapitre grâce aux connaissances que tu auras acquises.

Découverte

La matière de chaque UAA est divisée en plusieurs parties cohérentes et structurées afin de garantir un apprentissage progressif et clair. Tu es ainsi invité(e) à découvrir la nouvelle matière de chaque partie via des activités, à la fin desquelles la rubrique πG conclut ce qui a été découvert.

Théorie

La partie « Théorie » reprend les notions essentielles à la compréhension de la matière. Celles-ci sont classées dans différentes rubriques :

Définition Propriété Vocabulaire

Démonstration

Exercices

Méthodo

le diagramme qu’elle souhaite obtenir et a déterminé les amplitudes des angles au centre pour chaque secteur correspondant à une branche : 143° pour l’analyse ; 112° pour les statistiques ; 88°

Les exercices permettent d’appliquer la théorie vue.

Tous les schémas nécessaires à la réalisation d’un exercice sont disponibles en ligne sur en PDF imprimable. Les schémas concernés sont signalés par ce logo :

Des exercices dits de « dépassement » sont parfois proposés et sont reconnaissable à ce logo :

Pour chaque chapitre, tu trouveras également une série d’exercices complémentaires sur la plateforme iDiddit afin de t’exercer.

Synthèse et Exercices récapitulatifs

Chaque chapitre se conclut avec une synthèse claire et précise. Celle-ci est suivie d’exercices récapitulatifs qui te permettent de retravailler de façon transversale toutes les notions vues.

GeoGebra

ASYMPTOTES ET LIMITES 3 UAA EXERCICES RÉCAPITULATIFS 1. Considérons les fonctions et g définies par fx() =+ 2 et g = 3 – 3. (a) Associe chaque fonction à sa représentation

au domaine de f Le taux d’accroissement de entre a (ou entre et a +  est égal à : fx fa () ()ou fa hf h () () +est dérivable en a lim () () fx faou lim () () fa hf+- existe et est un réel. est dérivable en a le nombre dérivé de noté f ), est défini par fa fx fa xa () lim () ()f fa hf h a () lim () () +• Le nombre dérivé représente le taux d’accroissement instantané de a Autrement dit, représente la pente de la tangente au graphe de au point d’abscisse

de au point d’abscisse a s’écrit y ( )  x ) +  ( Dérivée des fonctions de référence k = 0 où k ∈ •  ) = 1   = 2

La visualisation de certaines notions et concepts mathématiques est rendue possible grâce à l’utilisation de l’application GeoGebra. Soit via des manipulations, soit via des vidéos, tu es invité(e) à découvrir une notion, comprendre la construction d’un schéma ou faire un exercice. Les GeoGebra sont proposés via des codes QR, mais sont également disponibles sur la plateforme numérique

Toutes les vidéos et les animations GeoGebra sont accessibles en un clic via ton smartphone ou ta tablette

1. Télécharge l’application Sésame des Éditions Van In

2. Scanne le code sur la page : tu auras directement accès aux contenus multimédias de cette page !

1 UAA ÉditionsVANIN

STATISTIQUE À DEUX VARIABLES

Objectifs

Connaître

• Expliquer le vocabulaire statistique.

• Expliquer l’intérêt d’un ajustement.

• Expliquer par un exemple la différence entre causalité et corrélation.

• Associer nuages de points et coefficients de corrélation.

• Expliquer le principe de la méthode des moindres carrés.

Appliquer

• Déterminer l’équation d’une droite de Mayer.

• Calculer un coefficient de corrélation.

• Déterminer l’équation d’une droite de régression par la méthode des moindres carrés.

• Utiliser une calculatrice graphique ou un tableur pour déterminer un ajustement linéaire et un coefficient de corrélation.

• Calculer une valeur théorique correspondant à un ajustement linéaire.

Transférer

• Critiquer et commenter des informations présentées ou calculées.

Les bases de la statistique à deux variables sont posées par Mayer qui développe, en 1750, une méthode qui permet de modéliser des données astronomiques à deux variables à l’aide d’une droite : la droite de Mayer.

En 1805, Legendre formalise une méthode pour ajuster une droite à des données : c’est la méthode des moindres carrés. Elle s’est avérée essentielle dans le développement de l’analyse des relations entre deux variables. En 1809, Gauss appliquera d’ailleurs cette méthode à des données astronomiques.

Mais cela ne s’arrête pas au seul domaine de l’astronomie. Galton, au cours de ses recherches sur l’hérédité, étudie notamment le lien entre la taille des parents et celle de leurs enfants. C’est ainsi qu’en 1886, il introduit le concept de corrélation qui va permettre de quantifier la qualité d’un ajustement. Dix ans plus tard, Pearson formalise la notion de coefficient de corrélation linéaire, ainsi que la covariance que tu étudieras dans ce chapitre.

Introduction historique ÉditionsVANIN

L’étude de la relation entre deux variables connaît une nouvelle avancée grâce à l’apparition des ordinateurs, en 1960, qui sont capables de stocker une plus grande quantité de données.

Tu l’as constaté à la lecture de cette introduction, la statistique à deux variables est exploitée dans de nombreux domaines très divers. En voici quelques exemples :

• en astronomie : pour estimer la distance des étoiles ou galaxies d’après leur luminosité ;

• en médecine : pour étudier la relation entre le tabagisme lors d’une grossesse et la santé du nourrisson ;

• en marketing : pour analyser la relation entre le budget alloué à la publicité et la vente du produit promu ;

• en politique : pour comprendre la relation entre le taux de participation aux élections et les résultats d’un candidat ;

• en psychologie : pour observer les effets du télétravail sur la productivité du personnel.

Fulvia s’est lancé le défi de participer aux 20 km de Bruxelles. Pour s’y préparer, elle s’entraîne une fois par semaine à la salle de sport et une fois par semaine en allant courir dans sa ville.

Elle a relevé les distances qu’elle a parcourues en ville, ainsi que le temps qu’il lui a fallu pour les réaliser.

Distance (km) 45,67,18,710,211,813,314,916,418

Temps (min) 2338455358677793101112

Elle aimerait estimer le temps qu’elle mettra pour courir les 20 km de Bruxelles. À la fin de ce chapitre, tu seras capable de l’aider à répondre à sa question.

Prérequis

TEST DIAGNOSTIQUE

Appliquer

1. Les droites suivantes sont-elles croissantes ou décroissantes ? Justifie.

(a) d1 ≡ y = 5x – 10

(c) d3 ≡ 2x + 4y = 1

(b) dy x 2 8 3 2 13 = =- -

(d) d4 ≡ x – y = 0

2. Détermine une équation cartésienne explicite de la droite d passant par les points A et B si

(a) A(4; 2) et B(8; –13)

3. Soit la droite dy x = =+ 14 15 2 5

(b) A(–2; –6) et B(6; –3)

(a) Détermine la valeur du réel a afin que A(10; a) appartienne à d.

(b) Détermine la valeur du réel b afin que Bb; 8 5 appartienne à d.

THÉORIE

Définition

Équation cartésienne explicite d’une droite

Toute droite non parallèle à l’axe Oy a une équation cartésienne de la forme y = mx + p où m, p ∈ , appelée équation cartésienne explicite de la droite.

Vocabulaire

ÉditionsVANIN

Si y = mx + p où m, p ∈  est l’équation cartésienne explicite d’une droite,

• m est appelé la pente de la droite ;

• p est appelé l’ordonnée à l’origine de la droite.

(0; p) +1 m x y

1 1 0

Propriété

Calcul de la pente à partir des coordonnées de deux points de la droite

Soient les points A(xA; yA) et B(xB; yB) où xA ≠ xB

La pente de la droite non verticale AB est :

Méthodo

Déterminer l’équation cartésienne explicite d’une droite d passant par deux points A(xA; yA) et B(xB; yB)

Pour déterminer l’équation cartésienne explicite d’une droite d ≡ y = mx + p où m, p ∈  passant par deux points A(xA; yA) et B(xB; yB) où xxAB ≠ , il faut :

1. calculer la pente m de la droite à l’aide de la formule :

2. calculer l’ordonnée à l’origine p de la droite en remplaçant x et y par les coordonnées de  A (ou de B) dans l’équation de d : A(xA; yA) ∈ d ⇔ yA = m · xA + p ⇔ p = yA – m · xA ;

3. écrire l’équation de d en remplaçant m et p par les valeurs calculées aux points 1 et 2.

Propriété

(Dé)croissance d’une droite

Soit une droite d d’équation y = mx + p où m, p ∈ 

• Si m > 0, alors la droite d est strictement croissante.

• Si m = 0, alors la droite d est constante.

• Si m < 0, alors la droite d est strictement décroissante.

ÉditionsVANIN

Connecte-toi sur   et entraîne-toi avec des exercices complémentaires.

1. Représentation et ajustements

DÉCOUVERTE

Activité Représenter un nuage de points

Un statisticien souhaite analyser le comportement d’une voiture en fonction de sa vitesse. Pour cela, il a effectué plusieurs mesures sur cette voiture roulant à différentes vitesses, allant de 10 km/h à 120 km/h. Il s’intéresse à trois aspects en particulier :

• le temps de freinage de la voiture, c’est-à-dire le temps nécessaire pour que la voiture s’arrête complètement à partir du moment où le conducteur commence à freiner ;

• la distance de freinage qui représente la distance parcourue par la voiture pendant le freinage complet sur sol sec ;

• la consommation instantanée de carburant, exprimée en litres pour 100 km parcourus à chaque vitesse donnée.

Le tableau ci-dessous résume les données relevées par le statisticien.

Vitesse (km/h)Temps de freinage (s)Distance de freinage (m)

1. Dans trois repères différents, place les points donnant :

(a) le temps de freinage (en s) en fonction de la vitesse (en km/h) de la voiture.

(b) la distance de freinage (en m) en fonction de la vitesse (en km/h) de la voiture.

(c) la consommation de carburant (en l/100 km) en fonction de la vitesse (en km/h) de la voiture.

πG

Tu viens de découvrir qu’on représente une série statistique à deux variables à l’aide d’un nuage de points.

2. Si l’on cherche la fonction qui ajuste le mieux chacun des nuages de points représentés ci-avant, lequel serait le mieux ajusté par une fonction du premier degré ?

πG

Lorsqu’un nuage de points peut être ajusté par une fonction du premier degré, on parle alors d’ajustement linéaire ou de régression linéaire.

THÉORIE

Vocabulaire et notations

Soient deux variables statistiques numériques x et y mesurées sur une même population de N individus.

x1 et y1 correspondent aux données mesurées pour le premier individu, x2 et y2 correspondent aux données mesurées pour le deuxième individu, …, xN et yN correspondent aux données mesurées pour le nième individu.

Les couples (x1; y1), (x2; y2), …, (xN ; yN) forment une série statistique à deux variables.

Exemple

(162; 56), (173; 64), (164; 58), (183; 79), (175; 91) est une série statistique à deux variables donnant la taille en cm et la masse en kg d’un groupe de 5 personnes.

Remarques

• Lorsque la variable x fait référence au temps, on parle d’une série temporelle (ou chronologique).

• Une série statistique à deux variables peut être donnée sous la forme d’un tableau.

Exemple

Le tableau suivant donne une série statistique à deux variables exprimant le temps d’étude en minutes et le résultat sur 20 obtenu à une interrogation par 7 élèves d’une même classe.

x 5306045120075 y 410131619815

ÉditionsVANIN

Définition

Nuage de points

Un nuage de points est une représentation graphique utilisée en statistique pour visualiser la relation entre deux variables.

Remarque

Un nuage de points n’est pas forcément la représentation graphique d’une fonction, car il est possible que plusieurs points aient la même abscisse.

Définition

Ajustement

En statistique à deux variables, l’ajustement désigne le processus qui consiste à trouver une fonction ou un modèle mathématique qui décrit au mieux la relation entre ces deux variables.

Vocabulaire

• Lorsque la fonction qui ajuste le mieux un nuage de points est une fonction du premier degré, on parle d’ajustement linéaire ou de régression linéaire

• Lorsque la fonction qui ajuste le mieux un nuage de points est une fonction polynomiale de degré strictement supérieur à 1, on parle d’ajustement polynomial.

• Lorsque la fonction qui ajuste le mieux un nuage de points est une fonction exponentielle, on parle d’ajustement exponentiel.

linéaire Ajustement polynomial (de degré 2)Ajustement exponentiel

Remarque

Dans ce chapitre, nous allons essentiellement étudier les ajustements linéaires.

Vocabulaire

L’ajustement en statistique a deux objectifs principaux : interpoler et extrapoler.

• L’interpolation consiste à utiliser un ajustement statistique pour prédire des valeurs à l’intérieur de l’intervalle des données observées.

• L’extrapolation permet d’utiliser un ajustement statistique pour prédire des valeurs en dehors de l’intervalle des données observées.

STATISTIQUE À DEUX VARIABLES

Exemple

Une étude statistique a examiné la relation entre le nombre de douches prises par jour dans une maison et la consommation journalière moyenne d’eau (en litres). Les résultats obtenus sont les suivants :

Nombre de douches 3467

Consommation moyenne d’eau (l) 120160240280

En ajustant ces données avec une droite, on obtient une équation d’ajustement y = 40x où y représente la consommation d’eau en litres et x le nombre de douches prises.

• Si on veut estimer la consommation moyenne d’eau pour 5 douches, on utilise l’interpolation : y = 40 · 5 = 200 litres.

• Si on veut estimer la consommation moyenne d’eau pour 10 douches, on utilise l’extrapolation : y = 40 · 10 = 400 litres.

Remarque

Lorsqu’on utilise l’extrapolation, il faut faire preuve d’esprit critique, car cette méthode consiste à faire des prévisions en dehors de l’intervalle des données observées, et les résultats peuvent donc devenir moins fiables au fur et à mesure que l’on s’éloigne des valeurs connues.

Exemple

L’espérance de vie des femmes belges entre 1900 et 1920 ne permettrait pas de prédire correctement l’espérance de vie des femmes belges en 2030. Les avancées médicales et autres progrès réalisés depuis rendent ces données insuffisantes pour obtenir une estimation fiable.

EXERCICES

1. Voici six représentations graphiques de séries statistiques à deux variables. Pour lesquelles un ajustement linéaire est-il approprié ?

STATISTIQUE À DEUX VARIABLES

2. Lors d’un match de football, un joueur dégage le ballon d’un long coup de pied. Eva a pris quelques photos en rafale de ce dégagement et a relevé à plusieurs moments la hauteur de la balle (en mètres) en fonction du temps écoulé (en secondes) après le coup de pied. Elle a ensuite entré ces données dans GeoGebra pour créer un nuage de points qu’elle a ajusté à l’aide d’une fonction du second degré.

Eva souhaite maintenant connaître précisément le temps qu’il a fallu au ballon pour retomber sur le sol. Aide-la à répondre à cette question.

0,511,522,533,54

2. Ajustement linéaire par la méthode de Mayer

DÉCOUVERTE

Activité Déterminer une équation de la droite de Mayer

Le tableau ci-dessous donne le nombre d’utilisateurs mensuels, en milliards, pour Facebook et TikTok au 1er janvier de chaque année1. Année20172018201920202021202220232024

1. On voudrait répondre à la question suivante : À combien peux-tu estimer le nombre d’utilisateurs de TikTok lorsque Facebook atteindra 3,5 milliards d’utilisateurs mensuels ?

Pour cela, on a représenté le nuage de points donnant le nombre d’utilisateurs mensuels de Facebook (en milliards) par rapport au nombre d’utilisateurs mensuels de TikTok (également en milliards).

Nombred’utilisateursTikTok(milliards)

1,6

Nombred’utilisateursFacebook(milliards)

Nombred’utilisateursTikTok(milliards) 1,922,12,22,32,42,52,62,72,82,93

(a) Dans le repère, trace en rouge la droite qui semble le mieux s’ajuster à ce nuage de points. (b) As-tu obtenu la même droite que les autres élèves de ta classe ?

πG

Cette méthode ne permet pas d’être précis et montre la nécessité de déterminer une méthode moins arbitraire pour trouver la droite d’ajustement linéaire.

1. Source : https://fr.statista.com/.

STATISTIQUE À DEUX VARIABLES

Pour y parvenir, on va rechercher les coordonnées de deux points qui représentent au mieux le nuage de points précédent et on va ensuite déterminer une équation de la droite passant par ces deux points. Pour cela, suis les étapes suivantes :

(c) Sépare cette série statistique en deux sous-groupes A et B de même taille en respectant l’ordre croissant des abscisses.

(d) Calcule la moyenne des abscisses et des ordonnées pour chaque sous-groupe afin de déterminer les coordonnées des points moyens PA et PB respectivement des sous-groupes A et B :

(e) Place les points PA et PB dans le repère à la page précédente et représente en vert la droite passant par ces deux points.

(f) Détermine une équation cartésienne de la droite d passant par les points PA et PB

πG

Tu viens de donner une équation de la droite de Mayer de cette série statistique.

2. Utilise l’équation de la droite donnée au point précédent pour répondre à notre question initiale : « À combien peux-tu estimer le nombre d’utilisateurs de TikTok lorsque Facebook atteindra 3,5 milliards d’utilisateurs mensuels ? ». Arrondis ta réponse au million près.

3. Calcule le point moyen P de cette série statistique et vérifie s’il appartient à la droite de Mayer.

THÉORIE

Définition

Point moyen

Le point moyen d’une série statistique à deux variables, noté Px y (; ), est le point dont l’abscisse est la moyenne des abscisses des points de la série et dont l’ordonnée est la moyenne des ordonnées des points de la série :

où N est l’effectif total et (x1; y1), (x2; y2), …, (xN; yN) sont les points de la série statistique.

Exemple

Le point moyen de la série statistique à deux variables (14; 8), (16; 11), (23; 14) et (27; 17) a pour coordonnées 14162327

25

Ajustement linéaire par la méthode de Mayer

Pour ajuster linéairement une série statistique à deux variables par la méthode de Mayer, il faut :

1. ordonner la série statistique par ordre croissant de la variable x ;

2. séparer la série statistique ordonnée en deux sous-groupes A et B de même effectif (ou à une unité près si le nombre de données est impair) ;

3. calculer les points moyens PA et PB respectivement des sous-groupes A et B ;

4. trouver l’équation de la droite passant par les points PA et PB

Exemple

Le tableau suivant donne la série statistique à deux variables exprimant le prix médian (en euros) des appartements en Belgique au fil du temps2

Année 2010201220142016201820202022

Prix médian (€) 150 000160 000165 000170 000182 000204 000230 000

1. Classons par ordre croissant la série statistique de la variable x :

C’est déjà le cas pour cette série statistique.

2. Séparons la série statistique en deux sous-groupes de même effectif :

• Sous-groupe A : (2 010; 150 000), (2 012; 160 000), (2 014; 165 000), (2 016; 170 000)

• Sous-groupe B : (2 018; 182 000), (2 020; 204 000), (2 022; 230 000)

3. Calculons les points moyens PA et PB respectivement des sous-groupes A et B :

• PA 2 010 2

161250) (; 2 013

;;

4. Déterminons une équation de la droite passant par les points PA et PB : Soit d ≡ y = mx + p la droite passant par les points PA et PB

On a que m yy xx BA BA === 616000 3 161250 2 020 2 013 132250 21

Dès lors, dy xp = =+ 132250 21 avec p à déterminer.

On a que (; ) 2 013161250161250 132250 21 2 013 87611000 7 =+ =- dp p

Donc dy x = =87611 000 132250 21 7 est la droite de Mayer de cette série statistique.

Propriété

Le point moyen d’une série statistique appartient à la droite de Mayer qui ajuste cette série.

2. Source : https://statbel.fgov.be/fr/themes/construction-logement/prix-de-limmobilier#figures.

EXERCICES

1. « Les Aventuriers du Rail » est un jeu de société où les joueurs construisent des routes entre des villes en y plaçant des wagons.

Margot et François, qui ont l’habitude de s’affronter à ce jeu, ont relevé les scores du gagnant et du perdant lors de leurs 8 dernières parties. Voici les résultats obtenus :

Score du gagnant 143142164124159121138111

Score du perdant 138116137681099110297

(a) Dans un repère, représente le nuage de points associé à cette série statistique.

(b) Détermine une équation de la droite de régression de cette série statistique en utilisant la méthode de Mayer.

(c) Représente la droite de Mayer dans le repère du point (a).

(d) Si le gagnant réalise un score de 170 points, estime le score du perdant.

(e) Si le perdant a un score de 120 points, estime le score du gagnant.

(f) Calcule les coordonnées du point moyen de cette série statistique et vérifie qu’il appartient bien à la droite de Mayer.

(g) Peut-on en conclure qu’on ne peut pas gagner au jeu « Les Aventuriers du Rail » si on ne dépasse pas les 100 points ? Justifie.

2. Le tableau suivant donne la série statistique à deux variables exprimant le nombre d’hommes et de femmes, en milliers d’habitants, dans plusieurs grandes villes belges en octobre 20243

(a) Complète les cases manquantes du tableau sachant que le point moyen P de cette série statistique a pour coordonnées P 3 061 30 3 091 30 ; .

3. Source : https://statbel.fgov.be/fr/commune/mons#dashboard2.

(b) Dans un repère, représente le nuage de points associé à cette série statistique.

(c) Détermine une équation de la droite de régression de cette série statistique en utilisant la méthode de Mayer.

(d) Représente la droite de Mayer dans le repère du point (b).

(e) Si une grande ville belge compte 150 000 hommes, estime le nombre de femmes.

(f) Si une grande ville belge compte 280 000 femmes, estime le nombre d’hommes.

(g) Les estimations données aux points (e) et (f) sont-elles fiables ? Justifie.

(h) Cette étude permettrait-elle d’estimer le nombre d’hommes à Rome en octobre 2024 sachant qu’on y compte 2 295 944 femmes ? Justifie.

ÉditionsVANIN

3. Ajustement linéaire par la méthode des moindres carrés

DÉCOUVERTE

La méthode des moindres carrés est une technique qui permet de trouver la « meilleure » droite qui ajuste un nuage de points.

L’objectif de cette méthode est de minimiser la somme des carrés des différences entre les valeurs réelles que l’on observe et les valeurs que l’on pourrait prédire avec cette droite. On nomme ces différences les erreurs.

Appliquons cette méthode au nuage de points représentés ci-dessous.

1. En scannant le code QR ci-contre, essaie de trouver la droite de régression par la méthode des moindres carrés en bougeant les points A et B afin d’avoir la somme des carrés des différences la plus petite possible. Affiche ensuite la solution.

2. Grâce à l’animation précédente, trace dans le repère la droite de régression par la méthode des moindres carrés, ainsi que les erreurs pour chaque point du nuage.

THÉORIE

Définition

Droite de régression par la méthode des moindres carrés

La droite de régression par la méthode des moindres carrés est une droite qui ajuste au mieux une série statistique à deux variables en minimisant la somme des carrés des différences entre les valeurs observées et les valeurs prédites par la droite.

GeoGebra

Illustration et explication de la méthode des moindres carrés

Dans un repère du plan, on représente un nuage de points et la droite de régression par la méthode des moindres carrés, notée d ≡ y = ax + b.

Pour chaque point (xi; yi) où i ∈ {1; 2; 3; …; N} du nuage, on associe une erreur ei où i ∈ {1; 2; 3; …; N} définie par la différence entre la valeur observée yi et la valeur prédite par la droite de régression axi + b. Autrement dit, l’erreur est donnée par ei = yi – (axi + b). Cette erreur se lit verticalement sur le graphique.

La méthode des moindres carrés consiste à minimiser la somme des carrés de ces erreurs pour obtenir la meilleure approximation possible de la droite par rapport aux points du nuage. En d’autres termes, on cherche à rendre la quantité suivante minimale : ()

ei

x2; y2) (x3; y3) (x4; y4)

x1; y1)

Propriété

Équation de la droite de régression par la méthode des moindres carrés

Soit une série statistique à deux variables d’effectif total N dont au moins deux points n’ont pas la même abscisse et dont le point moyen est Px y () ;

La droite y = ax + b est la droite de régression obtenue par la méthode des moindres carrés si

ÉditionsVANIN

Propriété

Le point moyen d’une série statistique appartient à la droite de régression obtenue par la méthode des moindres carrés qui ajuste cette série.

Démonstration

Cette propriété découle directement de la propriété précédente car : by ax ya xb xy d =- =+ () ; où d ≡ y = ax + b.

Méthodo

Déterminer manuellement la pente a de la droite de régression par la méthode des moindres carrés

Afin de faciliter les calculs pour déterminer la pente a de la droite de régression par la méthode des moindres carrés, on utilise « le tableau des sommes » qui permet de réaliser plus facilement les sommes présentes dans la formule de a.

Ce tableau se présente comme suit :

1. Dans la première colonne, on inscrit les valeurs de la variable x. On fait ensuite la somme des valeurs de cette colonne pour la diviser par N afin de calculer x .

2. Dans la deuxième colonne, on inscrit les valeurs de la variable y . On fait ensuite la somme des valeurs de cette colonne pour la diviser par N afin de calculer y .

3. Dans la troisième colonne, on soustrait à chaque valeur de la variable x la moyenne x 4. Dans la quatrième colonne, on soustrait à chaque valeur de la variable y la moyenne y .

5. Dans la cinquième colonne, on multiplie, ligne par ligne, les valeurs des deux colonnes précédentes et on fait la somme des valeurs de cette colonne.

6. Dans la sixième colonne, on élève au carré les valeurs de la troisième colonne et on fait la somme des valeurs de cette colonne.

Grâce aux sommes obtenues dans les deux dernières colonnes, on peut calculer la pente a de la droite de régression selon la formule :

STATISTIQUE À DEUX VARIABLES

Exemple

Reprenons le tableau qui donne une série statistique à deux variables exprimant le prix médian des appartements en Belgique au fil du temps.

Année 2010201220142016201820202022

Prix médian (€) 150 000160 000165 000170 000182 000204 000230 000

Réalisons le tableau des sommes de cette série :

2010150 000–6–30 142,85714180 857,1428436

2012160 000–4–20 142,8571480 571,4285616 2014165 000–2–15 142,8571430 285,714284

2016170 0000–10 142,857140 0

2018182 00021 857,142863 714,285724

2020204 000423 857,1428695 428,5714416 2022230 000649 857,14286299 142,8571636

Donc dy x ≡ =43125 7 85679000 7 est la droite de régression par la méthode des moindres carrés de cette série statistique.

Méthodo

Déterminer les coefficients a et b de la droite de régression par la méthode des moindres carrés à l’aide de la calculatrice

• Casio Fx-92B Spéciale Collège (ancien modèle)

1. Appuyer sur la touche « Menu ».

2. Sélectionner le mode « Statistiques ».

3. Appuyer sur la touche « 2 » pour choisir « y=ax+b ».

ÉditionsVANIN

4. Insérer les données dans le tableau.

5. Appuyer sur la touche « OPTN ».

6. Appuyer sur la touche « 4 » pour sélectionner « Calc régression ».

• Casio Fx-92B Secondaire (nouveau modèle)

1. Appuyer sur la touche « Home ».

2. Sélectionner le mode « Stats ».

3. Sélectionner « 2 variables ».

4. Insérer les données dans le tableau.

5. Appuyer sur la touche « OK ».

6. Sélectionner « Régression ».

Vidéos

• Texas Instruments TI-30XB

1. Appuyer sur la touche « data » pour entrer dans le mode de saisie de données.

2. Insérer les données dans les colonnes L1 (pour x) et L2 (pour y).

3. Appuyer sur la touche « 2nd », puis sur la touche « stat » (touche data).

4. Sélectionner « LinReg(ax+b) » dans le menu des régressions.

5. Valider avec « enter ».

Méthodo

Déterminer une équation de la droite de régression par la méthode des moindres carrés à l’aide d’un tableur (type Excel)

Pour créer un nuage de points et représenter graphiquement et donner l’équation de la droite de régression par la méthode des moindres carrés pour une série statistique à deux variables en utilisant le tableur Excel :

1. Dans un document vierge, entrer les données de la série statistique à deux variables étudiée.

2. Sélectionner toutes les données, aller dans l’onglet « Insertion », sélectionner « Nuage de points » et choisir le premier graphique proposé.

ÉditionsVANIN

3. Avec le clic droit de la souris, appuyer sur un des points du nuage pour faire apparaître le menu déroulant et y sélectionner « Ajouter une courbe de tendance… ».

4. Dans les options du « Format de courbe de tendance », où plusieurs types de courbes sont proposées, cocher « Linéaire » et, dans les options, cocher « Afficher l’équation sur le graphique ».

ÉditionsVANIN

Remarque

Dans le cas de séries temporelles (ou chronologiques), la droite de régression s’appelle droite de tendance. C’est pour cette raison qu’on retrouve ce dernier terme dans les tableurs.

EXERCICES

1. Le tableau suivant donne la série statistique à deux variables exprimant la température moyenne annuelle, exprimée en °C, relevée à Uccle pour plusieurs années allant de 2002 à 20234.

Année (x) 20022005200820112014201720202023

Température ( y) 11,21110,911,611,911,312,212,1

(a) À l’aide du tableau des sommes, détermine une équation de la droite de régression qui ajuste cette série statistique en utilisant la méthode des moindres carrés.

(b) Estime la température moyenne annuelle à Uccle en 2030.

(c) Est-ce pertinent d’utiliser ce modèle mathématique pour estimer la température moyenne annuelle à Uccle en 1900 ? Justifie.

(d) Montre que le point moyen de cette série statistique appartient bien à la droite de régression par la méthode des moindres carrés.

2. Le tableau suivant donne la série statistique à deux variables exprimant les points obtenus à l’interrogation (sur 20) et les points obtenus à l’examen (sur 20) sur le chapitre « UAA 1 Statistique descriptive » d’une classe de 4e année.

Points interrogation (x) 17131213151676131881015191617

Points examen ( y) 199131714167101320111012171614

(a) Dans un repère, représente le nuage de points associé à cette série statistique.

(b) À l’aide de ta calculatrice (ou d’un tableur), donne une équation de la droite de régression qui ajuste cette série statistique en utilisant la méthode des moindres carrés.

(c) Représente la droite des moindres carrés dans le repère du point (a).

(d) Calcule les coordonnées du point moyen de cette série statistique et montre graphiquement que le point moyen appartient bien à la droite de régression par la méthode des moindres carrés.

(e) Si un élève obtient la note de 14/20 à l’interrogation, quelle note peut-il espérer à l’examen selon ce modèle statistique ?

(f) Si un élève souhaite avoir la note de 18/20 à l’examen, quelle note devrait-il faire à l’interrogation selon ce modèle statistique ?

(g) Est-il possible qu’un élève ayant le même professeur dans une autre classe ait fait 18 à l’interrogation et 10 à l’examen ?

https://www.meteo.be.

3. Le tableau suivant donne une série statistique à deux variables exprimant le salaire médian (en €/heure) et le salaire le plus bas (en €/heure) pour l’année 2018 dans plusieurs pays de l’Union européenne 5

Pays

(a) À l’aide de ta calculatrice (ou d’un tableur), donne une équation de la droite de régression qui ajuste cette série statistique en utilisant la méthode des moindres carrés.

(b) Sachant que le salaire médian en Grèce était de 4,3 €/heure en 2018, estime le montant du salaire le plus bas en Grèce.

5. Source : https://ec.europa.eu/eurostat/statistics-explained/images/8/87/Median_gross_hourly_earnings_and_low-wage_ earners%2C_2018.png.

4. Covariance et coefficient de corrélation linéaire

THÉORIE

Une fois la droite de régression linéaire déterminée, il faut savoir dans quelle mesure cette droite est « fiable ». En effet, si le nuage de points est très dispersé, la droite de régression ne constitue pas un bon modèle de la situation. L’utilisation de cette droite afin d’extrapoler ou d’interpoler une valeur qui n’est pas dans le tableau n’est alors pas le plus pertinent. Avant d’accepter une droite de régression comme modèle, on calcule ce qu’on appelle un coefficient de corrélation qui nous permet de juger de la pertinence de l’estimation.

Définition

Coefficient de corrélation linéaire

Le coefficient de corrélation linéaire, noté r, est un indicateur statistique qui mesure l’intensité et la direction de la relation linéaire entre deux variables numériques. Le coefficient de corrélation est calculé par la formule suivante :

Remarque

On peut également définir le coefficient de détermination, noté r2, qui vaut le carré de r. Ce coefficient ne permet que la mesure de l’intensité entre deux variables numériques. Ce coefficient s’applique aussi aux ajustements non linéaires.

Déterminer le coefficient de corrélation linéaire à l’aide du tableau des sommes

Au tableau des sommes créé pour déterminer une équation de la droite de régression par la méthode des moindres carrés, on ajoute une septième colonne dans laquelle on élève au carré les valeurs de la quatrième colonne, et on calcule ensuite la somme des valeurs de cette colonne.

Grâce aux sommes obtenues dans les cinquième, sixième et septième colonnes, on peut calculer le coefficient de corrélation linéaire r selon la formule :

Exemple

Reprenons le tableau qui donne une série statistique à deux variables exprimant le prix médian des appartements en Belgique au fil du temps.

Année 2010201220142016201820202022

STATISTIQUE À DEUX VARIABLES

Reprenons le tableau des sommes réalisé précédemment et ajoutons-y la septième colonne () yy i2 :

2010150 000–6–30 142,85714180 857,1428436 908 591 836,7

2012160 000–4–20 142,8571480 571,4285616 405 734 693,9

2014165 000–2–15 142,8571430 285,714284 229 306 122,4

2016170 0000–10 142,857140 0 102 877 551

2018182 00021 857,142863 714,285724 3 448 979,592

2020204 000423 857,1428695 428,5714416 569 163 265,3

2022230 000649 857,14286299 142,8571636 2 485 734 694

Somme14 1121 261 000 690 000 112 4 704 857 142,86

Moyenne x = 2016 y = 180142857 ,

On peut ainsi calculer r =0,95 690000 112 4 70485714286 , .

Méthodo

Déterminer le coefficient de corrélation linéaire à l’aide de la calculatrice

Pour déterminer le coefficient de corrélation à l’aide de la calculatrice, il faut effectuer exactement les mêmes étapes que pour déterminer les coefficients a et b de la droite de régression. En effet, la valeur de r est affichée sur le même écran que les valeurs de a et b

Méthodo

Déterminer le coefficient de corrélation linéaire à l’aide d’un tableur (type Excel)

Pour calculer le coefficient de corrélation, il faut entrer la formule suivante dans Excel : =COEFFICIENT.CORRELATION(matrice1;matrice 2) où matrice 1 est la sélection des données pour la variable x et matrice 2 est la sélection des données pour la variable y.

ÉditionsVANIN

DÉCOUVERTE

Activité 1 Propriétés du coefficient de corrélation

Voici plusieurs études statistiques :

[A] La taille d’un nouveau-né (en centimètres) en fonction de sa masse (en kilogrammes) durant les neuf premiers mois de sa vie. x 2,83,74,75,466,57,17,27,57,7 y 49,552,556,558,560,56364,5656768

[B] La proportion de la population belge, exprimée en pourcentage, qui consacre au moins 2 heures et demie par semaine à une activité physique modérée, répartie entre les hommes (variable x) et les femmes (variable y)6

Âge en années15-2425-3435-4445-5455-6465-7475+ x 54,841,73834,532,23318,6 y 37,426,827,924,428,4247,4

[C] Des points d’un cercle centré en (0; 0) et de rayon 5.

[D] Les valeurs expérimentales de l’énergie cinétique d’une balle de football en mousse de 40 grammes lors d’une chute libre sans vitesse initiale en fonction de son énergie potentielle. Les énergies étant exprimées en millijoules. x 78,577,775,371,466,359,250,640,829,6 y 00,83,26,6122027,637,849,6

[E] Le prix de l’Eurostar, en euros, pour relier Bruxelles à Paris en 1re classe (variable y) en fonction du prix du même trajet en 2e classe un jour de semaine en s’y prenant deux mois à l’avance (variable x).

Heure de départ 06:3307:4308:1309:1610:4311:1314:4316:1317:4319:13 x 244937951098249293970 y 609960991249976686868

1. Calcule le coefficient de corrélation pour chaque étude. Arrondis les valeurs à 10–3 près.

6. Source : https://www.belgiqueenbonnesante.be/fr/etat-de-sante/determinants-de-sante/activite-physique#references.

2. Associe chaque étude à son nuage de points.

3. Quelles sont les séries statistiques pour lesquelles un ajustement linéaire est justifié ? Quel lien y a-t-il avec le coefficient de corrélation ?

G

Plus la valeur absolue de r est proche de 1, plus les points du nuage sont alignés avec la droite de régression. On parle alors de corrélation forte lorsque |r| ≈ 1.

4. Quel lien peux-tu faire entre le signe de r et la croissance de la droite de régression ?

Le signe de r indique le sens de la variation entre les deux variables étudiées. πG

STATISTIQUE À DEUX VARIABLES

Activité 2 Corrélation ou causalité ?

Le tableau suivant donne une série statistique à deux variables exprimant le nombre de fois que le prénom « Pauline » a été donné à un nouveau-né en Belgique de 2011 à 2020, et le nombre de brasseries actives en Belgique sur la même période7.

Nombre de brasseries (y) 123150160168199224261304340379

Nous avons réalisé un ajustement linéaire par la méthode des moindres carrés de cette série statistique et avons calculé le coefficient de corrélation linéaire :

Nombredebrasseries

NombredePauline

(a) Ce modèle mathématique est-il fiable ? Justifie ta réponse.

(b) Que penses-tu de la phrase suivante : « Si le prénom Pauline revenait à la mode, cela causerait la fermeture de plusieurs brasseries » ?

πG

Il ne faut pas confondre corrélation et causalité qui sont deux concepts différents.

ÉditionsVANIN

(c) Peux-tu trouver une justification qui explique que la corrélation soit forte pour cette série statistique ?

7. Sources :

https://fr.statista.com/statistiques/830448/nombre-brasseries-actives-belgique/. https://statbel.fgov.be/fr/themes/population/noms-et-prenoms/prenoms-filles-et-garcons#figures.

THÉORIE

Propriété

Interprétation du coefficient de corrélation linéaire

Valeur de r

r = 1

0,7 ≤ r < 1

0,5 ≤ r < 0,7

0,3 ≤ r < 0,5

–0,3 < r < 0,3

–0,5 < r ≤ –0,3

–0,7 < r ≤ –0,5

–1 < r ≤ –0,7

r = –1

Interprétation

Corrélation linéaire parfaite et positive

Corrélation linéaire forte et positive

Corrélation linéaire moyenne et positive

Corrélation linéaire faible et positive

Corrélation linéaire nulle

Corrélation linéaire faible et négative

Corrélation linéaire moyenne et négative

Corrélation linéaire forte et négative

Corrélation linéaire parfaite et négative

Corrélation linéaire forte et positive

Remarque

Corrélation linéaire moyenne et positive

Corrélation linéaire forte et négative

Lorsque –0,3 < r < 0,3, cela signifie qu’il n’y a pas de corrélation linéaire entre les deux variables. Cela n’exclut pas qu’il y ait un autre type de corrélation entre les deux variables.

Propriété

Signe de r et monotonie

• Lorsque r est positif, cela signifie qu’il y a une relation croissante entre les deux variables.

Autrement dit, lorsque la valeur de la première variable augmente, la valeur de la seconde variable a tendance à augmenter également.

Dès lors, si r > 0, alors la droite de régression linéaire est croissante.

• Lorsque r est négatif, cela signifie qu’il y a une relation décroissante entre les deux variables.

Autrement dit, lorsque la valeur de la première variable augmente, la valeur de la seconde variable a tendance à diminuer.

Dès lors, si r < 0, alors la droite de régression linéaire est décroissante.

Pour démontrer cette propriété, nous devons faire appel à une notion statistique. En effet, comme le dénominateur de r est toujours positif, le signe de r dépend exclusivement de son numérateur qui n’est rien d’autre que la covariance.

Définition

Covariance

La covariance de deux variables statistiques x et y, notée Covx yx xy y ii i N (; )( )( ) =-= 1 , est définie par :

Covx yx xy y ii i N (; )( )( ) =-= 1

où N est l’effectif total, x est la moyenne de la variable x et y est la moyenne de la variable y.

La covariance étant la somme des produits de () xx i - et de () yy i - où i ∈ {1; 2; 3; …; N}, intéressonsnous au signe de chacun d’entre eux selon leur position sur le graphique. Nous savons que :

• tout point du nuage situé à gauche de la droite d’équation xx = a une abscisse inférieure à x , donc () xx i - est négative ;

• tout point du nuage situé à droite de la droite d’équation xx = a une abscisse supérieure à x , donc () xx i - est positive ;

• tout point du nuage situé sous la droite d’équation yy = a une ordonnée inférieure à y , donc () yy i - est négative ;

• tout point du nuage situé au-dessus de la droite d’équation yy = a une ordonnée supérieure à y , donc () yy i - est positive.

Ces informations sont synthétisées sur le graphique suivant et nous permettent d’en déduire le signe de () () xxiiyy .

Nous en déduisons le signe de la covariance, et donc de r, suivant l’allure du nuage de points, de la façon suivante :

Nuage de points tel que le coefficient de corrélation r est positif.

Remarque

Nuage de points tel que le coefficient de corrélation r est négatif.

Attention à ne pas confondre « corrélation » et « causalité » !

Nous avons vu que lorsque deux événements sont corrélés, cela ne signifie pas nécessairement que l’un est la cause de l’autre. Il est important de porter un regard critique sur les conclusions hâtives que l’on peut tirer. Une erreur fréquente consiste à supposer qu’une corrélation forte ou parfaite implique une relation de causalité entre les deux phénomènes mesurés.

ÉditionsVANIN

En réalité, il existe au moins trois types de situations possibles lorsque deux événements sont corrélés :

1. L’un peut être la cause de l’autre.

Exemple : la tension électrique est la cause de l’intensité du courant observée.

2. Un troisième facteur, possiblement inconnu, peut être la cause commune des deux événements.

Exemple : manger du chocolat et l’apparition de boutons d’acné sont corrélés, mais le stress pourrait être une cause commune.

3. Une coïncidence.

Exemple : le site internet https://www.tylervigen.com/spurious-correlations trouve et publie plusieurs corrélations saugrenues, comme celle entre la consommation de mozzarella par personne et le nombre de personnes promues docteurs en ingénieur civil.

EXERCICES

1. Associe chaque série statistique représentée par son nuage de points à son coefficient de corrélation linéaire.

2. Voici le nombre de filles (variable x) nées en Belgique en fonction du nombre de garçons (variable y) nés de 2015 et 20238. Les valeurs sont exprimées en milliers. Année201520162017201820192020202120222023 x 62,362,160,960,159,658,260,358,156,2 y 59,459,158,257,657,555,557,655,554

(a) À l’aide du tableau des sommes, calcule le coefficient de corrélation linéaire.

(b) Interprète le résultat obtenu à la question précédente.

(c) Cette interprétation signifie-t-elle que la variation du nombre de garçons nés en Belgique influence directement le nombre de filles nées en Belgique au cours de la même période ?

(d) Donne une explication plausible de l’augmentation du nombre de naissances en 2021.

3. Les résultats suivants donnent le classement des 8 meilleurs athlètes au plongeon haut vol 10 m –hommes aux Jeux olympiques de Paris en 2024. La variable x donne leurs points lors de la demifinale et la variable y ceux lors de la finale9. x 504477400,9469,25432,45411,5468,4405,05 y 547,5507,65497,35481478,4446,2445,6429,9

(a) À l’aide de la calculatrice (ou d’un tableur), calcule le coefficient de corrélation linéaire.

(b) Est-ce que les résultats lors de la demi-finale permettent de prédire les résultats de la finale avec une grande précision ? Justifie.

8. Source : https://statbel.fgov.be/fr/themes/population/mouvement-de-la-population/naissances#figures.

9. Source : https://olympics.com/fr/paris-2024.

Synthèse

Nuage de points et différents types d’ajustement

• Une série statistique à deux variables est représentée graphiquement dans le plan par un nuage de points

• En statistique à deux variables, l’ajustement désigne le processus qui consiste à trouver une fonction ou un modèle mathématique qui décrit au mieux la relation entre ces deux variables.

Ajustement linéaire Ajustement polynomial (de degré 2)Ajustement exponentiel

Le point moyen d’une série statistique à deux variables, noté Px y (; ), est le point dont l’abscisse est la moyenne des abscisses des points de la série et dont l’ordonnée est la moyenne des ordonnées des points de la série :

où N est l’effectif total et (x1; y1), (x2; y2), …, (xN ; yN) sont les points de la série statistique.

Ajustement linéaire par la méthode de Mayer

Pour ajuster linéairement une série statistique à deux variables par la méthode de Mayer, il faut :

1. ordonner la série statistique par ordre croissant de la variable x ;

2. séparer la série statistique ordonnée en deux sousgroupes A et B de même effectif (ou à une unité près si le nombre de données est impair) ;

3. calculer les points moyens PA et PB respectivement des sous-groupes A et B ;

4. trouver l’équation de la droite passant par les points PA et PB.

Ajustement linéaire par la méthode des moindres carrés

• La droite de régression par la méthode des moindres carrés est une droite qui ajuste au mieux une série statistique à 2 variables en minimisant la somme des carrés des différences entre les valeurs observées et les valeurs prédites par la droite.

• Soit une série statistique à deux variables d’effectif total N et dont le point moyen est Px y (; )

La droite y = ax + b est la droite de régression obtenue par la méthode des moindres carrés si

Coefficient de corrélation linéaire et covariance

• Le coefficient de corrélation linéaire, noté r, est un indicateur statistique qui mesure l’intensité et la direction de la relation linéaire entre deux variables numériques. Il est calculé par la formule suivante :

• Interprétation du coefficient de corrélation linéaire :

Valeur de r

Interprétation

r = 1 Corrélation linéaire parfaite et positive

0,7 ≤ r < 1Corrélation linéaire forte et positive

0,5 ≤ r < 0,7Corrélation linéaire moyenne et positive

0,3 ≤ r < 0,5Corrélation linéaire faible et positive

–0,3 < r < 0,3Corrélation linéaire nulle

–0,5 < r ≤ –0,3Corrélation linéaire faible et négative

–0,7 < r ≤ –0,5Corrélation linéaire moyenne et négative

–1 < r ≤ –0,7Corrélation linéaire forte et négative

r = –1Corrélation linéaire parfaite et négative

• Si r > 0, alors la droite de régression linéaire est croissante. Si r < 0, alors la droite de régression linéaire est décroissante.

• La covariance permet de déterminer le signe de r

La covariance de deux variables statistiques x et y, notée Cov ( x ; y ), est définie par : Covx yx xy y ii i N (; )( )( ) =-1

où N est l’effectif total, x est la moyenne de la variable x et y est la moyenne de la variable y

EXERCICES RÉCAPITULATIFS

1. Voici plusieurs nuages de points. Pour chaque sous-question, indique le numéro du graphique correspondant et justifie.

(a) La série statistique à deux variables dont le coefficient de corrélation linéaire est le plus proche de –1 est représentée sur le graphique n° …

(b) La série statistique pour laquelle un ajustement non linéaire est justifié est représentée sur le graphique n° …

(c) Après ajustement (linéaire ou non) de chacune de ces séries statistiques, l’ajustement qui donne les moins bonnes estimations du comportement de la série est celui de la série représentée sur le graphique n° …

2. Associe chaque nuage de points à l’équation de la droite de régression qui l’ajuste et à son coefficient de corrélation linéaire r

I. y = –0,5635x + 2,342 A. r = –0,73

II. y = 0,2371x – 0,885 B. r = –0,48

III. y = –0,7952x + 0,8852 C. r = 1

IV. y = 0,9909x – 0,7631 D. r = 0,66

3. L’étude suivante donne l’espérance de vie des femmes à la naissance (variable x) par rapport à celle des hommes (variable y) en Belgique de 2016 à 202310.

Année20162017201820192020202120222023 x 83,783,783,784838483,884,3 y 78,87979,279,678,579,279,580,2

(a) Est-il cohérent d’ajuster ce nuage de points à l’aide d’une droite ? Justifie.

(b) Détermine une équation de la droite de régression par la méthode des moindres carrés de cette série statistique.

(c) Estime l’espérance de vie des femmes à la naissance en 2010 sachant que celle des hommes était de 77,4 ans.

(d) Peut-on parler d’un lien de causalité entre les variables x et y ? Aide-toi des données de 2020 pour justifier.

4. Le tableau suivant donne le nombre de visiteurs annuels, en millions, du parc Disneyland Paris et de la tour Eiffel de 2017 à 2023.

Année 2017201820192020202120222023

Visiteurs de Disneyland Paris (en millions) (variable

6,236,076,141,162,065,856,32

(a) Représente le nuage de points associé à cette série statistique.

(b) Détermine un ajustement linéaire de cette série statistique par la méthode de Mayer.

(c) Représente la droite de Mayer dans le repère dessiné au point (a).

(d) Détermine un ajustement linéaire de cette série statistique par la méthode des moindres carrés. Arrondis les coefficients à 10–4 près.

(e) L’ajustement obtenu au point précédent est-il fiable ? Justifie.

(f) À l’aide des deux ajustements précédents, estime le nombre de visiteurs de la tour Eiffel si on prévoit 12,5 millions de visiteurs à Disneyland Paris en 2025.

(g) À la suite de cette série statistique, des journalistes ont conclu que les personnes qui visitaient la tour Eiffel se rendaient tous à Disneyland Paris. Que penses-tu de cette conclusion ?

(h) Serait-il pertinent d’effectuer cette étude statistique sans tenir compte des chiffres pour les années 2020 et 2021 ? Justifie. 10. Source : https://statbel.fgov.be/fr/themes/population/mortalite-et-esperance-de-vie/tables-de-mortalite-et-esperance-de-vie.

5. Le tableau suivant donne la proportion de Belges pratiquant une activité physique au moins une fois par semaine par rapport à la proportion de Belges mangeant au moins un fruit par jour en fonction de leur tranche d’âge.

Tranche d’âge% de Belges mangeant au moins un fruit par jour (x)

16 – 17 ans

18 – 24 ans

25 – 49 ans

50 – 64 ans

65 – 74 ans

% de Belges pratiquant une activité physique au moins une fois par semaine (y)

(a) Représente le nuage de points associé à cette série statistique.

(b) Est-il cohérent d’ajuster ce nuage de points à l’aide d’une droite ? Justifie.

(c) Détermine un ajustement linéaire de cette série statistique par la méthode des moindres carrés. Arrondis les coefficients à 10–4 près.

(d) Représente la droite de régression par la méthode des moindres carrés dans le repère dessiné au point (a).

(e) Sans la calculer, donne le signe de la covariance de cette série statistique.

(f) Détermine un ajustement linéaire de cette série statistique par la méthode de Mayer.

(g) Serait-il pertinent d’extrapoler ce modèle statistique pour parler des habitudes alimentaires et physiques d’un enfant de 2 ans ?

(h) Pourrait-on conclure cette série statistique par la phrase suivante : « Pour être un grand sportif, ne consomme pas trop de fruits » ? Justifie.

DÉFI

6. Te rappelles-tu au début de ce chapitre ?

Fulvia s’est lancé le défi de participer aux 20 km de Bruxelles. Pour s’y préparer, elle s’entraîne une fois par semaine à la salle de sport et une fois par semaine en allant courir dans sa ville.

Elle a relevé les distances qu’elle a parcourues en ville ainsi que le temps qu’il lui a fallu pour les réaliser :

Distance (km) 45,67,18,710,211,813,314,916,418

Temps (min) 2741495659687893101112

Elle aimerait estimer le temps qu’elle mettra pour courir les 20 km de Bruxelles. Aide-la à répondre à cette question en justifiant qu’il s’agit bien d’une bonne estimation.

Connecte-toi sur   et entraîne-toi avec des exercices complémentaires.

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.