Issuu

LIVRE-CAHIER

RACINE

MATH

4 périodes / semaine

VAN

, la plate-forme d’apprentissage en ligne pour les élèves et les enseignants

La plate-forme te donne, par exemple*, accès à :

–des exercices en ligne pour t’entraîner, –un aperçu de tes progrès et de tes résultats, –du matériel de cours, –des vidéos et des audios, –et bien plus encore...

*En fonction de la méthode

Crée-toi un compte sur www.ididdit.be/fr et accède à ton contenu à l’aide du code d’activation ci-dessous : CODE ÉLÈVE

Cette licence est valable pendant 1 an à partir de la date d’activation.

Comment activer ton code sur ?

Scanne le code QR ci-contre ou copie l’url suivante dans ton navigateur : www.vanin.be/ididdit-aide.

RACINE

MATH 5 4 périodes/semaine – Livre-cahier

Composition de Racine Math 5 4 périodes/semaine

Pour l’élève –1 livre-cahier

–des exercices numériques via

Pour l’enseignant(e) –un guide de l’enseignant(e) – un accès professeur via au manuel numérique, aux compléments et aux exercices numériques

Auteures : Justine Bellistrì et Pauline Pirenne

Couverture : Nord Compo

Mise en page : Nord Compo

Les photocopieuses sont d’un usage très répandu et beaucoup y recourent de façon constante et machinale. Mais la production de livres ne se réalise pas aussi facilement qu’une simple photocopie. Elle demande bien plus d’énergie, de temps et d’argent. La rémunération des auteurs, et de toutes les personnes impliquées dans le processus de création et de distribution des livres, provient exclusivement de la vente de ces ouvrages.

En Belgique, la loi sur le droit d’auteur protège l’activité de ces différentes personnes.

Lorsqu’il copie des livres, en entier ou en partie, en dehors des exceptions définies par la loi, l’usager prive ces différentes personnes d’une part de la rémunération qui leur est due.

C’est pourquoi les auteurs et les éditeurs demandent qu’aucun texte protégé ne soit copié sans une autorisation écrite préalable, en dehors des exceptions définies par la loi.

L’éditeur s’est efforcé d’identifier tous les détenteurs de droits. Si, malgré cela, quelqu’un estime entrer en ligne de compte en tant qu’ayant droit, il est invité à s’adresser à l’éditeur.

ÉditionsVANIN

En dehors des exceptions définies par la loi, cet ouvrage ne peut être reproduit, enregistré dans un fichier informatisé ou rendu public, même partiellement, par quelque moyen que ce soit, sans l’autorisation écrite de l’éditeur.

1re édition : 2025

ISBN 978-94-651-4022-3

D/2025/0078/158

Art. 609013/01

Mot des auteures

Chers professeur(e)s, élèves, lecteurs et lectrices, Il nous tenait à cœur de concevoir une méthode qui accompagne l’apprentissage avec une structure claire et progressive, fidèle à la logique d’un cours : des découvertes pour éveiller la curiosité, une théorie rigoureuse pour poser les bases, puis des exercices pour s’entraîner et approfondir les notions.

Nous souhaitons exprimer notre profonde gratitude à Horacio Tellez Pérez, dont la relecture attentive a été d’une aide précieuse tout au long de l’élaboration de cet ouvrage.

Nous espérons que cette méthode vous guidera efficacement dans votre enseignement ou votre apprentissage et vous donnera autant de plaisir à l’utiliser que nous en avons eu à la rédiger.

Bonne lecture et bon travail !

ÉditionsVANIN

Justine et Pauline

Introduction

Bienvenue dans Racine Math 5

Pour utiliser au mieux le potentiel de ce livre-cahier, voici quelques informations sur sa structure et sur les compléments numériques qui l’accompagnent.

Ce livre-cahier rassemble les cinq UAA (Unités d’Acquis d’Apprentissage) du programme de mathématiques 4 périodes/semaine de 5e année.

Prérequis

Certaines UAA sont introduites par une partie « Prérequis » afin de rappeler les notions nécessaires à la découverte de la matière.

Introduction historique

Afin de donner du sens à l’apprentissage, chaque UAA commence par une mise en contexte historique de la matière et par des exemples de son application dans le quotidien. Toujours dans l’idée d’ancrer les concepts mathématiques dans la réalité, un défi t’est proposé à la fin de cette introduction. Tu seras en mesure de le résoudre au terme du chapitre grâce aux connaissances que tu auras acquises.

Découverte

La matière de chaque UAA est divisée en plusieurs parties cohérentes et structurées afin de garantir un apprentissage progressif et clair. Tu es ainsi invité(e) à découvrir la nouvelle matière de chaque partie via des activités, à la fin desquelles la rubrique πG conclut ce qui a été découvert.

Théorie

La partie « Théorie » reprend les notions essentielles à la compréhension de la matière. Celles-ci sont classées dans différentes rubriques :

Définition

Exercices

Les exercices permettent d’appliquer la théorie vue.

Des exercices dits de « dépassement » sont parfois proposés et sont reconnaissable à ce logo :

Le logo présent devant certains exercices t’indique que l’exercice doit être réalisé sur une feuille à part, en-dehors de ton livre-cahier.

Pour chaque chapitre, tu trouveras également une série d’exercices complémentaires sur la plateforme iDiddit afin de t’exercer.

Synthèse et Exercices récapitulatifs

Chaque chapitre se conclut avec une synthèse claire et précise. Celle-ci est suivie d’exercices récapitulatifs qui te permettent de retravailler de façon transversale toutes les notions vues.

GeoGebra

Ajustement linéaire Ajustement polynomial (de degré

exponentiel Point moyen Le point moyen d’une série statistique à deux variables, noté Px(; est le point dont l’abscisse est la moyenne des abscisses des points de la série et dont l’ordonnée est la moyenne des ordonnées des points de la série : xx N yy yy N y N NN +++ + +++ + 31 23 où N est l’effectif total et ), y ), …, sont les points de la série statistique. Ajustement linéaire par la méthode de Mayer Pour ajuster linéairement une série statistique à deux variables par la méthode de Mayer, il faut : ordonner la série statistique par ordre croissant de la variable x 2. séparer la série statistique ordonnée en deux sousgroupes A et de même effectif (ou à une unité près si le nombre de données est impair) 3. calculer les points moyens et P respectivement des sous-groupes A et 4. trouver l’équation de la droite passant par les points P et 123456 2 3 5 y 312

ASYMPTOTES ET LIMITES 3 UAA EXERCICES RÉCAPITULATIFS 1. Considérons les fonctions g définies par fx x ()=+ 1 1

La visualisation de certaines notions et concepts mathématiques est rendue possible grâce à l’utilisation de l’application GeoGebra. Soit via des manipulations, soit via des vidéos, tu es invité(e) à découvrir une notion, comprendre la construction d’un schéma ou faire un exercice. Les GeoGebra sont proposés via des codes QR, mais sont également disponibles sur la plateforme numérique

Toutes les vidéos et les animations GeoGebra sont accessibles en un clic via ton smartphone ou ta tablette

1. Télécharge l’application Sésame des Éditions Van In

2. Scanne le

1 UAA ÉditionsVANIN

STATISTIQUE À DEUX VARIABLES

Objectifs

Connaître

• Expliquer le vocabulaire statistique.

• Expliquer l’intérêt d’un ajustement.

• Expliquer par un exemple la différence entre causalité et corrélation.

• Associer nuages de points et coefficients de corrélation.

• Expliquer le principe de la méthode des moindres carrés.

Appliquer

• Déterminer l’équation d’une droite de Mayer.

• Calculer un coefficient de corrélation.

• Déterminer l’équation d’une droite de régression par la méthode des moindres carrés.

• Utiliser une calculatrice graphique ou un tableur pour déterminer un ajustement linéaire et un coefficient de corrélation.

• Calculer une valeur théorique correspondant à un ajustement linéaire.

Transférer

• Critiquer et commenter des informations présentées ou calculées.

Les bases de la statistique à deux variables sont posées par Mayer qui développe, en 1750, une méthode qui permet de modéliser des données astronomiques à deux variables à l’aide d’une droite : la droite de Mayer.

En 1805, Legendre formalise une méthode pour ajuster une droite à des données : c’est la méthode des moindres carrés. Elle s’est avérée essentielle dans le développement de l’analyse des relations entre deux variables. En 1809, Gauss appliquera d’ailleurs cette méthode à des données astronomiques.

Mais cela ne s’arrête pas au seul domaine de l’astronomie. Galton, au cours de ses recherches sur l’hérédité, étudie notamment le lien entre la taille des parents et celle de leurs enfants. C’est ainsi qu’en 1886, il introduit le concept de corrélation qui va permettre de quantifier la qualité d’un ajustement. Dix ans plus tard, Pearson formalise la notion de coefficient de corrélation linéaire, ainsi que la covariance que tu étudieras dans ce chapitre.

Introduction historique ÉditionsVANIN

L’étude de la relation entre deux variables connaît une nouvelle avancée grâce à l’apparition des ordinateurs, en 1960, qui sont capables de stocker une plus grande quantité de données.

Tu l’as constaté à la lecture de cette introduction, la statistique à deux variables est exploitée dans de nombreux domaines très divers. En voici quelques exemples :

• en astronomie : pour estimer la distance des étoiles ou galaxies d’après leur luminosité ;

• en médecine : pour étudier la relation entre le tabagisme lors d’une grossesse et la santé du nourrisson ;

• en marketing : pour analyser la relation entre le budget alloué à la publicité et la vente du produit promu ;

• en politique : pour comprendre la relation entre le taux de participation aux élections et les résultats d’un candidat ;

• en psychologie : pour observer les effets du télétravail sur la productivité du personnel.

Fulvia s’est lancé le défi de participer aux 20 km de Bruxelles. Pour s’y préparer, elle s’entraîne une fois par semaine à la salle de sport et une fois par semaine en allant courir dans sa ville.

Elle a relevé les distances qu’elle a parcourues en ville, ainsi que le temps qu’il lui a fallu pour les réaliser.

Distance (km) 45,67,18,710,211,813,314,916,418

Temps (min) 2338455358677793101112

Elle aimerait estimer le temps qu’elle mettra pour courir les 20 km de Bruxelles. À la fin de ce chapitre, tu seras capable de l’aider à répondre à sa question.

(b) A(–2; –6) et B(6; –3)

3. Soit la droite dy x = =+ 14 15 2 5 .

(a) Détermine la valeur du réel a afin que A(10; a) appartienne à d.

(b) Détermine la valeur du réel b afin que Bb; 8 5 appartienne à d

THÉORIE

Définition

ÉditionsVANIN

Équation cartésienne explicite d’une droite

Toute droite non parallèle à l’axe Oy a une équation cartésienne de la forme y = mx + p où m, p ∈ , appelée équation cartésienne explicite de la droite.

Vocabulaire

Si y = mx + p où m, p ∈  est l’équation cartésienne explicite d’une droite,

• m est appelé la pente de la droite ;

• p est appelé l’ordonnée à l’origine de la droite.

)

Propriété

Calcul de la pente à partir des coordonnées de deux points de la droite

Soient les points A(xA; yA) et B(xB; yB) où xA ≠ xB

La pente de la droite non verticale AB est :

m yy xx BA BA =.

Méthodo

Déterminer l’équation cartésienne explicite d’une droite d passant par deux points A(xA; yA) et B(xB; yB)

Pour déterminer l’équation cartésienne explicite d’une droite d ≡ y = mx + p où m, p ∈  passant par deux points A(xA; yA) et B(xB; yB) où xxAB ≠ , il faut :

1. calculer la pente m de la droite à l’aide de la formule :

m yy xx BA BA = ;

2. calculer l’ordonnée à l’origine p de la droite en remplaçant x et y par les coordonnées de A (ou de B) dans l’équation de d : A(xA; yA) ∈ d ⇔ yA = m · xA + p ⇔ p = yA – m · xA ;

3. écrire l’équation de d en remplaçant m et p par les valeurs calculées aux points 1 et 2.

Propriété

(Dé)croissance d’une droite

Soit une droite d d’équation y = mx + p où m, p ∈ .

• Si m > 0, alors la droite d est strictement croissante.

• Si m = 0, alors la droite d est constante.

• Si m < 0, alors la droite d est strictement décroissante.

Temps de freinage (s)

Vitesse (km/h)

(b) la distance de freinage (en m) en fonction de la vitesse (en km/h) de la 102030405060708090100110120voiture.

Vitesse (km/h)

(c) la consommation de carburant (en l/100 km) en fonction de la vitesse (en km/h) de la voiture. 102030405060708090100110120

Consommation de carburant (l/100km)

Consommation de carburant (l/100km) 7 0 πG

Vitesse (km/h)

(km/h)

Vitesse (km/h)

Tu viens de découvrir qu’on représente une série statistique à deux variables à l’aide d’un nuage de points.

2. Si l’on cherche la fonction qui ajuste le mieux chacun des nuages de points représentés ci-dessus, lequel serait le mieux ajusté par une fonction du premier degré ? πG

Lorsqu’un nuage de points peut être ajusté par une fonction du premier degré, on parle alors d’ajustement linéaire ou de régression linéaire.

THÉORIE

Vocabulaire et notations

Soient deux variables statistiques numériques x et y mesurées sur une même population de N individus.

x1 et y1 correspondent aux données mesurées pour le premier individu, x2 et y2 correspondent aux données mesurées pour le deuxième individu, …, xN et yN correspondent aux données mesurées pour le nième individu.

Les couples (x1; y1), (x2; y2), …, (xN ; yN) forment une série statistique à deux variables.

Exemple (162; 56), (173; 64), (164; 58), (183; 79), (175; 91) est une série statistique à deux variables donnant la taille en cm et la masse en kg d’un groupe de 5 personnes.

Remarques

• Lorsque la variable x fait référence au temps, on parle d’une série temporelle (ou chronologique).

• Une série statistique à deux variables peut être donnée sous la forme d’un tableau.

Exemple

Le tableau suivant donne une série statistique à deux variables exprimant le temps d’étude en minutes et le résultat sur 20 obtenu à une interrogation par 7 élèves d’une même classe. x 5306045120075 y 410131619815

Définition

Nuage de points

Un nuage de points est une représentation graphique utilisée en statistique pour visualiser la relation entre deux variables.

Remarque

Un nuage de points n’est pas forcément la représentation graphique d’une fonction, car il est possible que plusieurs points aient la même abscisse.

Définition

Ajustement

En statistique à deux variables, l’ajustement désigne le processus qui consiste à trouver une fonction ou un modèle mathématique qui décrit au mieux la relation entre ces deux variables.

Remarque

Lorsqu’on utilise l’extrapolation, il faut faire preuve d’esprit critique, car cette méthode consiste à faire des prévisions en dehors de l’intervalle des données observées, et les résultats peuvent donc devenir moins fiables au fur et à mesure que l’on s’éloigne des valeurs connues.

Exemple

L’espérance de vie des femmes belges entre 1900 et 1920 ne permettrait pas de prédire correctement l’espérance de vie des femmes belges en 2030. Les avancées médicales et autres progrès réalisés depuis rendent ces données insuffisantes pour obtenir une estimation fiable.

EXERCICES

1. Voici six représentations graphiques de séries statistiques à deux variables. Pour lesquelles un ajustement linéaire est-il approprié ?

STATISTIQUE À DEUX VARIABLES

2. Lors d’un match de football, un joueur dégage le ballon d’un long coup de pied. Eva a pris quelques photos en rafale de ce dégagement et a relevé à plusieurs moments la hauteur de la balle (en mètres) en fonction du temps écoulé (en secondes) après le coup de pied. Elle a ensuite entré ces données dans GeoGebra pour créer un nuage de points qu’elle a ajusté à l’aide d’une fonction du second degré.

Eva souhaite maintenant connaître précisément le temps qu’il a fallu au ballon pour retomber sur le sol. Aide-la à répondre à cette question.

0,511,522,533,54

πG

Cette méthode ne permet pas d’être précis et montre la nécessité de déterminer une méthode moins arbitraire pour trouver la droite d’ajustement linéaire.

Pour y parvenir, on va rechercher les coordonnées de deux points qui représentent au mieux le nuage de points précédent et on va ensuite déterminer une équation de la droite passant par ces deux points. Pour cela, suis les étapes suivantes :

• Sous-groupe A :

• Sous-groupe B :

(d) Calcule la moyenne des abscisses et des ordonnées pour chaque sous-groupe afin de déterminer les coordonnées des points moyens PA et PB respectivement des sous-groupes A et B :

• x A =

• y A =

• Px y AA A () ; (, ;, ) =2 22 0 25525

• x B =

• y B =

• Px y BB B () ; =

(e) Place les points PA et PB dans le repère à la page précédente et représente en vert la droite passant par ces deux points.

(f) Détermine une équation cartésienne de la droite d passant par les points PA et PB

ÉditionsVANIN

Tu viens de donner une équation de la droite de Mayer de cette série statistique.

2. Utilise l’équation de la droite donnée au point précédent pour répondre à notre question initiale : « À combien peux-tu estimer le nombre d’utilisateurs de TikTok lorsque Facebook atteindra 3,5 milliards d’utilisateurs mensuels ? ». Arrondis ta réponse au million près.

3. Calcule le point moyen P de cette série statistique et vérifie s’il appartient à la droite de Mayer.

THÉORIE

Définition

Point moyen

Le point moyen d’une série statistique à deux variables, noté Px y (; ), est le point dont l’abscisse est la moyenne des abscisses des points de la série et dont l’ordonnée est la moyenne des ordonnées des points de la série :

ÉditionsVANIN

où N est l’effectif total et (x1; y1), (x2; y2), …, (xN; yN) sont les points de la série statistique.

Exemple

Le point moyen de la série statistique à deux variables (14; 8), (16; 11), (23; 14) et (27; 17) a pour coordonnées 14162327 4 8111417 4 20 25 2 ++ ++ ++

Ajustement linéaire par la méthode de Mayer

Pour ajuster linéairement une série statistique à deux variables par la méthode de Mayer, il faut :

1. ordonner la série statistique par ordre croissant de la variable x ;

2. séparer la série statistique ordonnée en deux sous-groupes A et B de même effectif (ou à une unité près si le nombre de données est impair) ;

3. calculer les points moyens PA et PB respectivement des sous-groupes A et B ;

4. trouver l’équation de la droite passant par les points PA et PB

Exemple

Le tableau suivant donne la série statistique à deux variables exprimant le prix médian (en euros) des appartements en Belgique au fil du temps2.

Année 2010201220142016201820202022

Prix médian (€) 150 000160 000165 000170 000182 000204 000230 000

1. Classons par ordre croissant la série statistique de la variable x :

C’est déjà le cas pour cette série statistique.

2. Séparons la série statistique en deux sous-groupes de même effectif :

• Sous-groupe A : (2 010; 150 000), (2 012; 160 000), (2 014; 165 000), (2 016; 170 000)

• Sous-groupe B : (2 018; 182 000), (2 020; 204 000), (2 022; 230 000)

3. Calculons les points moyens PA et PB respectivement des sous-groupes A et B :

• PA 2 010 2 012

4. Déterminons une équation de la droite passant par les points PA et PB : Soit d ≡ y = mx + p la droite passant par les points PA et PB

On a que m yy xx BA BA === 616000 3 161250 2 020 2 013 132 250 21

Dès lors, dy xp = =+ 132250 21 avec p à déterminer.

161250) (; 2 013

On a que (; ) 2 013161250161250 132250 21 2 013 87611000 7 =+ =- dp p

Donc dy x = =87611 000 132250 21 7 est la droite de Mayer de cette série statistique.

Propriété

Le point moyen d’une série statistique appartient à la droite de Mayer qui ajuste cette série.

2. Source : https://statbel.fgov.be/fr/themes/construction-logement/prix-de-limmobilier#figures.

(d) Si le gagnant réalise un score de 170 points, estime le score du perdant.

(e) Si le perdant a un score de 120 points, estime le score du gagnant.

ÉditionsVANIN

(f) Calcule les coordonnées du point moyen de cette série statistique et vérifie qu’il appartient bien à la droite de Mayer.

(g) Peut-on en conclure qu’on ne peut pas gagner au jeu « Les Aventuriers du Rail » si on ne dépasse pas les 100 points ? Justifie.

2. Le tableau suivant donne la série statistique à deux variables exprimant le nombre d’hommes et de femmes, en milliers d’habitants, dans plusieurs grandes villes belges en octobre 20243.

Ville Nombre d’hommes (x) Nombre de femmes (y)

ÉditionsVANIN

(a) Complète les cases manquantes du tableau sachant que le point moyen P de cette série statistique a pour coordonnées P 3 061 30 3 091 30 ;

3. Source : https://statbel.fgov.be/fr/commune/mons#dashboard2.

(b) Dans le repère suivant, représente le nuage de points associé à cette série statistique.

3. Ajustement linéaire par la méthode des moindres carrés

DÉCOUVERTE

La méthode des moindres carrés est une technique qui permet de trouver la « meilleure » droite qui ajuste un nuage de points.

L’objectif de cette méthode est de minimiser la somme des carrés des différences entre les valeurs réelles que l’on observe et les valeurs que l’on pourrait prédire avec cette droite. On nomme ces différences les erreurs.

Appliquons cette méthode au nuage de points représentés ci-dessous.

1. En scannant le code QR ci-contre, essaie de trouver la droite de régression par la méthode des moindres carrés en bougeant les points A et B afin d’avoir la somme des carrés des différences la plus petite possible. Affiche ensuite la solution.

2. Grâce à l’animation précédente, trace dans le repère ci-dessus la droite de régression par la méthode des moindres carrés, ainsi que les erreurs pour chaque point du nuage.

THÉORIE

Définition

Droite de régression par la méthode des moindres carrés

La droite de régression par la méthode des moindres carrés est une droite qui ajuste au mieux une série statistique à deux variables en minimisant la somme des carrés des différences entre les valeurs observées et les valeurs prédites par la droite.

GeoGebra

Illustration et explication de la méthode des moindres carrés

Dans un repère du plan, on représente un nuage de points et la droite de régression par la méthode des moindres carrés, notée d ≡ y = ax + b.

Pour chaque point (xi; yi) où i ∈ {1; 2; 3; …; N} du nuage, on associe une erreur ei où i ∈ {1; 2; 3; …; N} définie par la différence entre la valeur observée yi et la valeur prédite par la droite de régression axi + b. Autrement dit, l’erreur est donnée par ei = yi – (axi + b). Cette erreur se lit verticalement sur le graphique.

La méthode des moindres carrés consiste à minimiser la somme des carrés de ces erreurs pour obtenir la meilleure approximation possible de la droite par rapport aux points du nuage. En d’autres termes, on cherche à rendre la quantité suivante minimale : ()

x1; y1) (x2; y2) (x3; y3) (x4; y4)

Propriété

Équation de la droite de régression par la méthode des moindres carrés

Soit une série statistique à deux variables d’effectif total N dont au moins deux points n’ont pas la même abscisse et dont le point moyen est Px y () ;

La droite y = ax + b est la droite de régression obtenue par la méthode des moindres carrés si

ÉditionsVANIN

Propriété

Le point moyen d’une série statistique appartient à la droite de régression obtenue par la méthode des moindres carrés qui ajuste cette série.

STATISTIQUE À DEUX VARIABLES

Exemple

Reprenons le tableau qui donne une série statistique à deux variables exprimant le prix médian des appartements en Belgique au fil du temps.

Année 2010201220142016201820202022

Prix médian (€) 150 000160 000165 000170 000182 000204 000230 000

Réalisons le tableau des sommes de cette série :

2010150 000–6–30 142,85714180 857,1428436

2012160 000–4–20 142,8571480 571,4285616 2014165 000–2–15 142,8571430 285,714284

2016170 0000–10 142,857140 0

2018182 00021 857,142863 714,285724

2020204 000423 857,1428695 428,5714416 2022230 000649 857,14286299 142,8571636

Donc dy x ≡ =43125 7 85679000 7 est la droite de régression par la méthode des moindres carrés de cette série statistique.

Méthodo

Déterminer les coefficients a et b de la droite de régression par la méthode des moindres carrés à l’aide de la calculatrice

• Casio Fx-92B Spéciale Collège (ancien modèle)

1. Appuyer sur la touche « Menu ».

2. Sélectionner le mode « Statistiques ».

3. Appuyer sur la touche « 2 » pour choisir « y=ax+b ».

ÉditionsVANIN

4. Insérer les données dans le tableau.

5. Appuyer sur la touche « OPTN ».

6. Appuyer sur la touche « 4 » pour sélectionner « Calc régression ».

• Casio Fx-92B Secondaire (nouveau modèle)

1. Appuyer sur la touche « Home ».

2. Sélectionner le mode « Stats ».

3. Sélectionner « 2 variables ».

4. Insérer les données dans le tableau.

5. Appuyer sur la touche « OK ».

6. Sélectionner « Régression ».

Vidéos

3. Avec le clic droit de la souris, appuyer sur un des points du nuage pour faire apparaître le menu déroulant et y sélectionner « Ajouter une courbe de tendance… ».

4. Dans les options du « Format de courbe de tendance », où plusieurs types de courbes sont proposées, cocher « Linéaire » et, dans les options, cocher « Afficher l’équation sur le graphique ».

ÉditionsVANIN

Remarque

Dans le cas de séries temporelles (ou chronologiques), la droite de régression s’appelle droite de tendance. C’est pour cette raison qu’on retrouve ce dernier terme dans les tableurs.

EXERCICES

1. Le tableau suivant donne la série statistique à deux variables exprimant la température moyenne annuelle, exprimée en °C, relevée à Uccle pour plusieurs années allant de 2002 à 20234.

Année (x) 20022005200820112014201720202023

Température ( y) 11,21110,911,611,911,312,212,1

(a) À l’aide du tableau des sommes, détermine une équation de la droite de régression qui ajuste cette série statistique en utilisant la méthode des moindres carrés.

(b) Estime la température moyenne annuelle à Uccle en 2030.

4. Source : https://www.meteo.be.

(b) À l’aide de ta calculatrice (ou d’un tableur), donne une équation de la droite de régression qui ajuste cette série statistique en utilisant la méthode des moindres carrés.

(d) Calcule les coordonnées du point moyen de cette série statistique et montre graphiquement que le point moyen appartient bien à la droite de régression par la méthode des moindres carrés.

(e) Si un élève obtient la note de 14/20 à l’interrogation, quelle note peut-il espérer à l’examen selon ce modèle statistique ?

(f) Si un élève souhaite avoir la note de 18/20 à l’examen, quelle note devrait-il faire à l’interrogation selon ce modèle statistique ?

(g) Est-il possible qu’un élève ayant le même professeur dans une autre classe ait fait 18 à l’interrogation et 10 à l’examen ?

3. Le tableau suivant donne une série statistique à deux variables exprimant le salaire médian (en €/heure) et le salaire le plus bas (en €/heure) pour l’année 2018 dans plusieurs pays de l’Union européenne 5

Pays

(a) À l’aide de ta calculatrice (ou d’un tableur), donne une équation de la droite de régression qui ajuste cette série statistique en utilisant la méthode des moindres carrés.

(b) Sachant que le salaire médian en Grèce était de 4,3 €/heure en 2018, estime le montant du salaire le plus bas en Grèce.

5. Source : https://ec.europa.eu/eurostat/statistics-explained/images/8/87/Median_gross_hourly_earnings_and_low-wage_ earners%2C_2018.png.

4. Covariance et coefficient de corrélation linéaire

THÉORIE

Une fois la droite de régression linéaire déterminée, il faut savoir dans quelle mesure cette droite est « fiable ». En effet, si le nuage de points est très dispersé, la droite de régression ne constitue pas un bon modèle de la situation. L’utilisation de cette droite afin d’extrapoler ou d’interpoler une valeur qui n’est pas dans le tableau n’est alors pas le plus pertinent. Avant d’accepter une droite de régression comme modèle, on calcule ce qu’on appelle un coefficient de corrélation qui nous permet de juger de la pertinence de l’estimation.

Définition

Coefficient de corrélation linéaire

Le coefficient de corrélation linéaire, noté r, est un indicateur statistique qui mesure l’intensité et la direction de la relation linéaire entre deux variables numériques. Le coefficient de corrélation est calculé par la formule suivante :

Remarque

On peut également définir le coefficient de détermination, noté r2, qui vaut le carré de r. Ce coefficient ne permet que la mesure de l’intensité entre deux variables numériques. Ce coefficient s’applique aussi aux ajustements non linéaires.

Déterminer le coefficient de corrélation linéaire à l’aide du tableau des sommes

Au tableau des sommes créé pour déterminer une équation de la droite de régression par la méthode des moindres carrés, on ajoute une septième colonne dans laquelle on élève au carré les valeurs de la quatrième colonne, et on calcule ensuite la somme des valeurs de cette colonne.

Grâce aux sommes obtenues dans les cinquième, sixième et septième colonnes, on peut calculer le coefficient de corrélation linéaire r selon la formule :

Exemple

Reprenons le tableau qui donne une série statistique à deux variables exprimant le prix médian des appartements en Belgique au fil du temps.

Année 2010201220142016201820202022

STATISTIQUE À DEUX VARIABLES

Reprenons le tableau des sommes réalisé précédemment et ajoutons-y la septième colonne () yy i2 :

2010150 000–6–30 142,85714180 857,1428436 908 591 836,7

2012160 000–4–20 142,8571480 571,4285616 405 734 693,9

2014165 000–2–15 142,8571430 285,714284 229 306 122,4

2016170 0000–10 142,857140 0 102 877 551

2018182 00021 857,142863 714,285724 3 448 979,592

2020204 000423 857,1428695 428,5714416 569 163 265,3

2022230 000649 857,14286299 142,8571636 2 485 734 694

Somme14 1121 261 000 690 000 112 4 704 857 142,86

Moyenne x = 2016 y = 180142857 ,

On peut ainsi calculer r =0,95 690000 112 4 70485714286 , .

Méthodo

Déterminer le coefficient de corrélation linéaire à l’aide de la calculatrice

Pour déterminer le coefficient de corrélation à l’aide de la calculatrice, il faut effectuer exactement les mêmes étapes que pour déterminer les coefficients a et b de la droite de régression. En effet, la valeur de r est affichée sur le même écran que les valeurs de a et b.

Méthodo

Déterminer le coefficient de corrélation linéaire à l’aide d’un tableur (type Excel)

Pour calculer le coefficient de corrélation, il faut entrer la formule suivante dans Excel : =COEFFICIENT.CORRELATION(matrice1;matrice 2) où matrice 1 est la sélection des données pour la variable x et matrice 2 est la sélection des données pour la variable y.

ÉditionsVANIN

2. Associe chaque étude à son nuage de points.

L’étude … ABCDE est représentée sur le graphique n° …

3. Quelles sont les séries statistiques pour lesquelles un ajustement linéaire est justifié ? Quel lien y a-t-il avec le coefficient de corrélation ?

Plus la valeur absolue de r est proche de 1, plus les points du nuage sont alignés avec la droite de régression. On parle alors de corrélation forte lorsque |r| ≈ 1.

4. Quel lien peux-tu faire entre le signe de r et la croissance de la droite de régression ?

Le signe de r indique le sens de la variation entre les deux variables étudiées.

Activité 2 Corrélation ou causalité ?

Le tableau suivant donne une série statistique à deux variables exprimant le nombre de fois que le prénom « Pauline » a été donné à un nouveau-né en Belgique de 2011 à 2020, et le nombre de brasseries actives en Belgique sur la même période7

Nombre de brasseries (y) 123150160168199224261304340379

Nous avons réalisé un ajustement linéaire par la méthode des moindres carrés de cette série statistique et avons calculé le coefficient de corrélation linéaire :

Nombredebrasseries

NombredePauline

(a) Ce modèle mathématique est-il fiable ? Justifie ta réponse.

(b) Que penses-tu de la phrase suivante : « Si le prénom Pauline revenait à la mode, cela causerait la fermeture de plusieurs brasseries » ?

πG

ÉditionsVANIN

Il ne faut pas confondre corrélation et causalité qui sont deux concepts différents.

7. Sources : https://fr.statista.com/statistiques/830448/nombre-brasseries-actives-belgique/. https://statbel.fgov.be/fr/themes/population/noms-et-prenoms/prenoms-filles-et-garcons#figures.

Remarque

Lorsque –0,3 < r < 0,3, cela signifie qu’il n’y a pas de corrélation linéaire entre les deux variables. Cela n’exclut pas qu’il y ait un autre type de corrélation entre les deux variables.

Propriété

Signe de r et monotonie

• Lorsque r est positif, cela signifie qu’il y a une relation croissante entre les deux variables.

Autrement dit, lorsque la valeur de la première variable augmente, la valeur de la seconde variable a tendance à augmenter également.

Dès lors, si r > 0, alors la droite de régression linéaire est croissante.

• Lorsque r est négatif, cela signifie qu’il y a une relation décroissante entre les deux variables.

Autrement dit, lorsque la valeur de la première variable augmente, la valeur de la seconde variable a tendance à diminuer.

Dès lors, si r < 0, alors la droite de régression linéaire est décroissante.

Pour démontrer cette propriété, nous devons faire appel à une notion statistique. En effet, comme le dénominateur de r est toujours positif, le signe de r dépend exclusivement de son numérateur qui n’est rien d’autre que la covariance.

Définition

Covariance

La covariance de deux variables statistiques x et y, notée Covx yx xy y ii i N (; )( )( ) =-=1 , est définie par : Covx yx xy y ii i N (; )( )( ) =-=1

où N est l’effectif total, x est la moyenne de la variable x et y est la moyenne de la variable y.

La covariance étant la somme des produits de () xx i - et de () yy i - où i ∈ {1; 2; 3; …; N}, intéressonsnous au signe de chacun d’entre eux selon leur position sur le graphique.

Nous savons que :

• tout point du nuage situé à gauche de la droite d’équation xx = a une abscisse inférieure à x , donc () xx i - est négative ;

• tout point du nuage situé à droite de la droite d’équation xx = a une abscisse supérieure à x , donc () xx i - est positive ;

• tout point du nuage situé sous la droite d’équation yy = a une ordonnée inférieure à y , donc () yy i - est négative ;

• tout point du nuage situé au-dessus de la droite d’équation yy = a une ordonnée supérieure à y , donc () yy i - est positive.

EXERCICES

1. Associe chaque série statistique représentée par son nuage de points à son coefficient de corrélation linéaire.

ÉditionsVANIN

(c) Cette interprétation signifie-t-elle que la variation du nombre de garçons nés en Belgique influence directement le nombre de filles nées en Belgique au cours de la même période ?

(d) Donne une explication plausible de l’augmentation du nombre de naissances en 2021.

3. Les résultats suivants donnent le classement des 8 meilleurs athlètes au plongeon haut vol 10 m –hommes aux Jeux olympiques de Paris en 2024. La variable x donne leurs points lors de la demifinale et la variable y ceux lors de la finale9

x 504477400,9469,25432,45411,5468,4405,05 y 547,5507,65497,35481478,4446,2445,6429,9

(a) À l’aide de la calculatrice (ou d’un tableur), calcule le coefficient de corrélation linéaire.

ÉditionsVANIN

(b) Est-ce que les résultats lors de la demi-finale permettent de prédire les résultats de la finale avec une grande précision ? Justifie.

9. Source : https://olympics.com/fr/paris-2024.

Ajustement linéaire par la méthode des moindres carrés

• La droite de régression par la méthode des moindres carrés est une droite qui ajuste au mieux une série statistique à 2 variables en minimisant la somme des carrés des différences entre les valeurs observées et les valeurs prédites par la droite.

• Soit une série statistique à deux variables d’effectif total N et dont le point moyen est Px y (; )

La droite y = ax + b est la droite de régression obtenue par la méthode des moindres carrés si

by ax =-

Coefficient de corrélation linéaire et covariance

• Le coefficient de corrélation linéaire, noté r, est un indicateur statistique qui mesure l’intensité et la direction de la relation linéaire entre deux variables numériques. Il est calculé par la formule suivante :

• Interprétation du coefficient de corrélation linéaire :

Valeur de r

Interprétation

r = 1 Corrélation linéaire parfaite et positive

0,7 ≤ r < 1Corrélation linéaire forte et positive

0,5 ≤ r < 0,7Corrélation linéaire moyenne et positive

0,3 ≤ r < 0,5Corrélation linéaire faible et positive

–0,3 < r < 0,3Corrélation linéaire nulle

–0,5 < r ≤ –0,3Corrélation linéaire faible et négative

–0,7 < r ≤ –0,5Corrélation linéaire moyenne et négative

–1 < r ≤ –0,7Corrélation linéaire forte et négative

r = –1Corrélation linéaire parfaite et négative

• Si r > 0, alors la droite de régression linéaire est croissante. Si r < 0, alors la droite de régression linéaire est décroissante.

• La covariance permet de déterminer le signe de r

La covariance de deux variables statistiques x et y, notée Cov ( x ; y ), est définie par :

Covx yx xy y ii i N (; )( )( ) =-=1

où N est l’effectif total, x est la moyenne de la variable x et y est la moyenne de la variable y

EXERCICES RÉCAPITULATIFS

1. Voici plusieurs nuages de points. Pour chaque sous-question, indique le numéro du graphique correspondant et justifie.

(a) La série statistique à deux variables dont le coefficient de corrélation linéaire est le plus proche de –1 est représentée sur le graphique n° …

(b) La série statistique pour laquelle un ajustement non linéaire est justifié est représentée sur le graphique n° …

(c) Après ajustement (linéaire ou non) de chacune de ces séries statistiques, l’ajustement qui donne les moins bonnes estimations du comportement de la série est celui de la série représentée sur le graphique n° …

2. Associe chaque nuage de points à l’équation de la droite de régression qui l’ajuste et à son coefficient de corrélation linéaire r

I. y = –0,5635x + 2,342 A. r = –0,73

II. y = 0,2371x – 0,885 B. r = –0,48

III. y = –0,7952x + 0,8852 C. r = 1

IV. y = 0,9909x – 0,7631 D. r = 0,66

3. L’étude suivante donne l’espérance de vie des femmes à la naissance (variable x) par rapport à celle des hommes (variable y) en Belgique de 2016 à 202310.

Année20162017201820192020202120222023 x 83,783,783,784838483,884,3 y 78,87979,279,678,579,279,580,2

(a) Est-il cohérent d’ajuster ce nuage de points à l’aide d’une droite ? Justifie.

(b) Détermine une équation de la droite de régression par la méthode des moindres carrés de cette série statistique.

(d) Peut-on parler d’un lien de causalité entre les variables x et y ? Aide-toi des données de 2020 pour justifier.

4. Le tableau suivant donne le nombre de visiteurs annuels, en millions, du parc Disneyland Paris et de la tour Eiffel de 2017 à 2023.

Année 2017201820192020202120222023

Visiteurs de Disneyland Paris (en millions) (variable

Visiteurs de la tour Eiffel (en millions) (variable y) 6,236,076,141,162,065,856,32

(a) Représente le nuage de points associé à cette série statistique.

(b) Détermine un ajustement linéaire de cette série statistique par la méthode de Mayer.

(d) Détermine un ajustement linéaire de cette série statistique par la méthode des moindres carrés. Arrondis les coefficients à 10–4 près.

(e) L’ajustement obtenu au point précédent est-il fiable ? Justifie.

(f) À l’aide des deux ajustements précédents, estime le nombre de visiteurs de la tour Eiffel si on prévoit 12,5 millions de visiteurs à Disneyland Paris en 2025.

(g) À la suite de cette série statistique, des journalistes ont conclu que les personnes qui visitaient la tour Eiffel se rendaient tous à Disneyland Paris. Que penses-tu de cette conclusion ?

(h) Serait-il pertinent d’effectuer cette étude statistique sans tenir compte des chiffres pour les années 2020 et 2021 ? Justifie. 10. Source : https://statbel.fgov.be/fr/themes/population/mortalite-et-esperance-de-vie/tables-de-mortalite-et-esperance-de-vie.

5. Le tableau suivant donne la proportion de Belges pratiquant une activité physique au moins une fois par semaine par rapport à la proportion de Belges mangeant au moins un fruit par jour en fonction de leur tranche d’âge.

Tranche d’âge% de Belges mangeant au moins un fruit par jour (x)

16 – 17 ans

18 – 24 ans

25 – 49 ans

50 – 64 ans

65 – 74 ans

% de Belges pratiquant une activité physique au moins une fois par semaine (y)

(a) Représente le nuage de points associé à cette série statistique.

(b) Est-il cohérent d’ajuster ce nuage de points à l’aide d’une droite ? Justifie.

(c) Détermine un ajustement linéaire de cette série statistique par la méthode des moindres carrés. Arrondis les coefficients à 10–4 près.

(d) Représente la droite de régression par la méthode des moindres carrés dans le repère dessiné au point (a).

(e) Sans la calculer, donne le signe de la covariance de cette série statistique.

(f) Détermine un ajustement linéaire de cette série statistique par la méthode de Mayer.

(g) Serait-il pertinent d’extrapoler ce modèle statistique pour parler des habitudes alimentaires et physiques d’un enfant de 2 ans ?

(h) Pourrait-on conclure cette série statistique par la phrase suivante : « Pour être un grand sportif, ne consomme pas trop de fruits » ? Justifie.

DÉFI

6. Te rappelles-tu au début de ce chapitre ?

Elle a relevé les distances qu’elle a parcourues en ville ainsi que le temps qu’il lui a fallu pour les réaliser :

Distance (km) 45,67,18,710,211,813,314,916,418

Temps (min) 2741495659687893101112

Elle aimerait estimer le temps qu’elle mettra pour courir les 20 km de Bruxelles. Aide-la à répondre à cette question en justifiant qu’il s’agit bien d’une bonne estimation.

Connecte-toi sur et entraîne-toi avec des exercices complémentaires