Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

<p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>STATISTIQUE POUR LA PRISE</p><p>DE DÉCISIONS</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Index</p><p>Introduction</p><p>1. Critère statistique pour la prise de décisions</p><p>1.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5</p><p>1.2. Population et échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6</p><p>1.2.1. Taille de l’échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7</p><p>1.2.2. Techniques d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7</p><p>1.3. Étapes d'un processus de prise de décisions . . . . . . . . . . . . . . . . . . . . . . . . . 8</p><p>1.3.1. Définition du problème et des objectifs . . . . . . . . . . . . . . . . . . . . . . . 9</p><p>1.3.2. Planification de l'investigation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9</p><p>1.3.3. Collecte de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10</p><p>1.3.4. Analyse des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10</p><p>1.3.5. Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10</p><p>1.3.6. Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10</p><p>1.4. Variables et données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10</p><p>1.4.1. Types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11</p><p>2. Variables qualitatives</p><p>2.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15</p><p>2.2. Distribution de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15</p><p>2.3. Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17</p><p>2.3.1. Diagramme en barres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17</p><p>2.3.2. Diagramme circulaire ou de secteurs . . . . . . . . . . . . . . . . . . . . . . . . . 18</p><p>2.3.3. Graphique en barres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19</p><p>2.4. Tableaux de contingence à double entrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20</p><p>i</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>3. Variables quantitatives</p><p>3.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25</p><p>3.2. Variables discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25</p><p>3.3. Variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27</p><p>3.3.1. Le diagramme à points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27</p><p>3.3.2. Le tableau de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28</p><p>3.3.3. Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30</p><p>3.3.4. Polygone de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31</p><p>3.4. Observations au fil du temps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33</p><p>4. Statistique descriptive</p><p>4.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37</p><p>4.2. Moyenne, variance et mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37</p><p>4.2.1. Moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37</p><p>4.2.2. Variance et écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39</p><p>4.2.3. Autre formule pour le calcul de l'écart type . . . . . . . . . . . . . . . . . . . . 42</p><p>4.2.4. Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43</p><p>4.3. Mesures fondées sur l'ordonnancement des données . . . . . . . . . . . . . . . . . . 44</p><p>4.3.1. La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45</p><p>4.3.1.1. Comparaison entre la moyenne et la médiane . . . . . . . . . . 46</p><p>4.3.2. Les quantiles et les extrêmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47</p><p>5. Modelage statistique des variables</p><p>5.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53</p><p>5.2. La distribution normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54</p><p>5.2.1. La fonction de densité ou loi normale . . . . . . . . . . . . . . . . . . . . . . . . 55</p><p>5.2.2. La fonction de distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56</p><p>5.2.3. Répartition normale spécifiée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57</p><p>5.2.4. Vérification de la normalité : test de Kolgomorov . . . . . . . . . . . . . . . 60</p><p>5.3. La distribution t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62</p><p>5.4. La distribution chi-carré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65</p><p>5.4.1. Test de qualité ou d'ajustement des variables aléatoires</p><p>discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66</p><p>ii</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>5.4.2. Test d'homogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68</p><p>5.4.3. Test d'indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70</p><p>5.5. Distribution de moyennes par échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71</p><p>5.6. Distribution de proportions par échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . 72</p><p>5.7. Fonction de probabilité binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73</p><p>5.7.1. Approximation normale pour distribution binomiale . . . . . . . . . . . . . . 75</p><p>6. Statistique inférentielle</p><p>6.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79</p><p>6.2. La valorisation ou l'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79</p><p>6.2.1. Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79</p><p>6.2.2. Qualités d'un bon estimateur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80</p><p>6.2.3. Caractère aléatoire de l'échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . 80</p><p>6.2.4. Estimation de la taille de l'échantillon . . . . . . . . . . . . . . . . . . . . . . . . . 81</p><p>6.2.5. Types d'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82</p><p>6.2.5.1. Estimations ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 82</p><p>6.2.5.2. Estimation par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . 83</p><p>6.3. Contraste ou test d'hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86</p><p>6.3.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86</p><p>6.3.2. Étapes à suivre pour le contraste d'hypothèse . . . . . . . . . . . . . . . . . 87</p><p>6.3.3. Erreurs dans le contraste d'hypothèses . . . . . . . . . . . . . . . . . . . . . . . 87</p><p>6.3.4. Contraste d'hypothèses pour la moyenne . . . . . . . . . . . . . . . . . . . . . 88</p><p>6.3.4.1. Contraste bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88</p><p>6.3.4.2. Contraste unilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91</p><p>6.3.5. Contraste d'hypothèse pour proportions . . . . . . . . . . .</p><p>la quantité de valeurs dont la magnitude est inférieure à 4 est la</p><p>même que la quantité de valeurs dont la magnitude est supérieure à 4.</p><p>Toutefois, tous les ensembles de données n'ont pas une valeur centrale aussi nette que le</p><p>présente l'exemple précédent4. Dans ce cas, il convient de donner une définition plus approfondie</p><p>de la médiane.</p><p>La médiane d'un ensemble de valeurs se définit comme la valeur qui occupe la position ,</p><p>considérant les données classées dans l'ordre décroissant. Si la valeur est fractionnaire, l'on</p><p>prend comme médiane la moyenne des deux valeurs dont la position est plus proche de . La</p><p>médiane est représentée par Md.</p><p>4. N'importe quelle valeur comprise entre 6 et 7 de l'ensemble de données {3, 5, 6, 7, 10, 11} pourrait être utilisée</p><p>comme médiane.</p><p>45</p><p>Statistique descriptive</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>En voici quelques exemples :</p><p>a) Ensemble des notes de la classe C : {0; 6; 7; 7; 7; 7, 5; 7,5}</p><p> Position = 4 Md = 7</p><p>b)</p><p>c)</p><p>4.3.1.1. Comparaison entre la moyenne et la médiane</p><p>La figure 4.3 illustre les valeurs de la moyenne et de la médiane d'un diagramme à points. Il</p><p>convient de noter que l'anomalie 62 « profite » plus de la moyenne que de la médiane.</p><p>Figure 4.3. Illustration de la position de la moyenne et de la médiane dans un diagramme à points.</p><p>La médiane fournit une meilleure mesure de la localisation que la moyenne</p><p>lorsque certaines observations sont extrêmement petites, c'est-à-dire, quand les</p><p>données sont faussées à droite ou à gauche.</p><p>La figure 4.4 illustre la position de la moyenne et de la médiane dans les distributions avec</p><p>différentes formes : symétrique et asymétrique. Dans le premier cas, la moyenne et la médiane</p><p>sont à la même position5 .Tel que le présente le deuxième cas, si la valeur de la médiane est plus</p><p>grande que celle de la moyenne, les données sont placées à droite (nous avons un grand nombre</p><p>d'individus à la droite de la courbe), dans le cas contraire, les données sont placées à gauche.</p><p>5. Il convient de préciser que pour les valeurs qui sont supposées avoir des distributions raisonnablement symétriques,</p><p>la moyenne et la médiane peuvent ne pas être égales, étant donné que, d'une manière générale, nous considérons</p><p>uniquement certaines valeurs (échantillons) de ces variables. Pour des variables aux distributions raisonnablement</p><p>symétriques, la moyenne est la mesure de position centrale la plus adéquate, par l'utilisation du maximum</p><p>d'informations contenues dans les données. La moyenne est calculée via une utilisation adéquate de la magnitude</p><p>des valeurs, alors que la médiane utilise uniquement l'ordre des valeurs.</p><p>46</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 4.4. Positions de la moyenne et de la médiane en fonction de la forme (symétrique et</p><p>asymétrique) de la distribution.</p><p>En général, pour un ensemble de valeurs donné, la moyenne est la mesure de tendance centrale</p><p>la plus adéquate quand on suppose que ces valeurs ont une répartition raisonnablement</p><p>symétrique, alors que la médiane apparaît comme option pour représenter la position centrale</p><p>dans les répartitions très symétriques. Parfois, on calcule les deux mesures pour évaluer la</p><p>position centrale dans deux perspectives différentes, pour également avoir une première</p><p>évaluation sur l'asymétrie de la répartition.</p><p>4.3.2. LES QUANTILES ET LES EXTRÊMES</p><p>Dans la pratique, le chercheur veut connaître les aspects relatifs à l'ensemble des valeurs, en</p><p>dehors des statistiques de tendance centrale. Dans ce sens, il est possible d'obtenir certaines</p><p>informations pertinentes à travers un ensemble de mesures dénommées quantiles : médiane,</p><p>déciles, centiles ou percentiles.</p><p>Les quantiles nous indiquent les valeurs des variables qui occupent des positions précises dans</p><p>l'ensemble ordonné.</p><p>• La médiane, Md, tel que nous l'avons vu précédemment, correspond à la valeur de la</p><p>variable qui divise la distribution en deux parties égales. Par conséquent, elle est un</p><p>quantile d'ordre 2.</p><p>• Les quartiles sont les valeurs de la variable qui divisent la répartition en quatre parties</p><p>égales.</p><p> Le premier quartile ou quartile inférieur, QI, est la valeur qui délimite 25 % des valeurs</p><p>faibles.</p><p> Le deuxième quartile ou quartile moyen, Q2 o Md, renvoie à la médiane elle-même.</p><p> Le troisième quartile ou quartile supérieur, QI, est la valeur qui sépare 25 % des valeurs</p><p>élevées.</p><p>47</p><p>Statistique descriptive</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 4.5. Les quartiles divisent la distribution en quatre parties égales.</p><p> Les déciles sont les valeurs de la variable qui divisent la distribution en dix parties</p><p>égales. Les déciles sont des quantiles d'ordre 10. Il existe neuf déciles : D1, D2,..., D9.</p><p> Les centiles ou percentiles sont les valeurs de la variable qui divisent la distribution en</p><p>cent parties égales. Les centiles sont des quantiles d'ordre 100. Il existe 99 centiles : C1,</p><p>C2,..., C99.</p><p>On appelle extrême inférieure, E1, la plus petite valeur de l'ensemble des valeurs. L'extrême</p><p>supérieure, ES, est la valeur la plus élevée. Par exemple, pour un ensemble de valeurs donné {5, 3,</p><p>6, 11, 7}, nous avons E1 = 3 et ES = 11.</p><p>Pour un ensemble donné de valeurs ordonnées, il est possible d'obtenir de façon approximative le</p><p>quartile inférieur, Q1, comme la médiane des valeurs dont la position est faible ou égale à la</p><p>position de la médiane de la distribution. Par analogie, l'on peut obtenir le quartile supérieur, QS,</p><p>comme la médiane des valeurs dont la position est supérieure ou égale à la position de la</p><p>médiane de la répartition6 .</p><p>Certains exemples sur cet exposé seront proposés par la suite.</p><p>a) Données : 2, 0, 5, 7, 9, 1, 3, 4, 6, 8. Ordonnant :</p><p>6. Pour un ensemble de valeurs donné, il n'est pas possible de parvenir à les diviser en quatre parties égales. La</p><p>procédure exposée offre une solution approximative, très satisfaisante lorsque les quantités de valeurs sont grandes</p><p>et contiennent peu de répétitions.</p><p>48</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>b) Données :</p><p>Dans l'exemple (b), où la médiane coïncide avec une valeur de l'ensemble des données, on prend</p><p>par convention cette valeur, aussi bien pour l'obtention de QI que pour l'obtention de QS.</p><p>49</p><p>Statistique descriptive</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>50</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Résumé</p><p>51</p><p>Statistique descriptive</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>52</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>5</p><p>Modelage statistique des variables</p><p>5.1. INTRODUCTION</p><p>Concernant l'analyse des données obtenues par une variable quantitative continue, nous verrons</p><p>deux classes de tests statistiques : paramétriques et non paramétriques.</p><p>Les tests paramétriques exigent une série de conditions concernant les données auxquelles ils</p><p>s'appliquent.</p><p>• Que les valeurs de la variable dépendante suivent une distribution de probabilité</p><p>déterminée, au moins sur la population à laquelle appartient l'échantillon d'étude.</p><p>• Que les variances des groupes comparés dans une variable dépendante soient</p><p>approximativement égales (élasticité ou homogénéité des variances).</p><p>Les tests paramétriques les plus connus et utilisés sont : le test t de Student, le F de Snedecor et</p><p>le coefficient de corrélation de Pearson. Ces tests sont fondés sur la distribution de probabilité</p><p>normale, et l'estimation des paramètres du modèle, on suppose que les données constituent un</p><p>échantillon de cette répartition, car le choix de l'estimateur et le calcul de la précision de</p><p>l'estimation, éléments basiques pour construire des intervalles de confiance et mettre en</p><p>contraste des hypothèses, dépendent du modèle de probabilité employé.</p><p>Si les conditions précédemment exposées s'avèrent non valides, ou qu'il n'est pas facile de les</p><p>vérifier car il s'agit de petits échantillons, on dispose de deux mécanismes possibles. Le premier</p><p>consiste à transformer les données pour qu'elles suivent une distribution normale, le second à</p><p>recourir à des tests statistiques de libre répartition,</p><p>à savoir, ceux qui ne sont pas fondés sur une</p><p>quelconque supposition en référence à la distribution de probabilité à partir de laquelle les</p><p>données ont été obtenues (tests non paramétriques).</p><p>Les tests non paramétriques les plus connus et utilisés sont le chi-carré de Pearson, l'échantillon</p><p>de la probabilité exacte de Fisher et le coefficient de rangs de Spearman, entre autres.</p><p>Dans le présent document, nous mettrons un accent spécial sur les familles de distributions</p><p>paramétriques, largement utilisées pour résumer une grande quantité de données, obtenir des</p><p>prédictions et déterminer la qualité de l'ajustement, entre autres. De cette manière, la statistique</p><p>pour affaires nous fournira des techniques nécessaires pour faire une inférence inductive sur la</p><p>population à partir d'un échantillon et mesurer le degré d'incertitude d'une telle inférence (tableau</p><p>5.1).</p><p>53</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Tableau 5.1: Principales techniques employées dans la statistique d'affaires pour réaliser des</p><p>inférences sur la population à partir de l'échantillon.</p><p>5.2. LA DISTRIBUTION NORMALE</p><p>Au XIXe siècle, Adolphe Quételet a relevé le fait que dans des échantillons suffisamment grands,</p><p>les représentations graphiques des différentes variables étaient très similaires.</p><p>Dans ses recherches, il a démontré que plusieurs variables associées aux phénomènes naturels</p><p>et aléatoires suivaient le modèle de la normale, c'est-à-dire qu'elles étaient réparties</p><p>uniformément autour d'une valeur centrale, moyenne ou norme. Par exemple :</p><p>• Caractères morphologiques aléatoires d'individus (personnes, animaux, plantes,...) d'une</p><p>espèce d'occurrence naturelle : tailles, poids, envergures, diamètres, périmètres, entre</p><p>autres ;</p><p>• Caractères physiologiques : effets d'une même dose de médicament ou un même forfait</p><p>d'abonnement ;</p><p>• Caractères sociologiques : consommation d'un certain produit par un même groupe</p><p>d'individus, notations d'un examen ;</p><p>• Caractères psychologiques : quotient intellectuel, niveau d'adaptation à un milieu, entre</p><p>autres ;</p><p>• Erreurs commises dans la mesure de certaines magnitudes ;</p><p>• Valeurs statistiques de l'échantillon comme la moyenne ;</p><p>• Autres répartitions comme la binomiale ou celle de Poisson sont des approximations</p><p>normales ; et,</p><p>• En général, toute caractéristique qui s'obtient par la somme de plusieurs facteurs.</p><p>Variables</p><p>quantitatives</p><p>Caractéristiques</p><p>Variables mesurables (taille, poids,...).</p><p>Peuvent avoir des valeurs entières ou des nombres décimaux.</p><p>Traitements</p><p>statistiques</p><p>Test t de Student.</p><p>Analyse de la variance (ANOVA).</p><p>Corrélation/Régression.</p><p>Variables</p><p>qualitatives</p><p>Caractéristiques</p><p>Variables de qualité regroupées en catégories.</p><p>Englobent des données de nombre d'individus qui présentent</p><p>cette qualité (fréquence d'apparition) et, pour autant, des</p><p>nombres entiers.</p><p>Traitements</p><p>statistiques</p><p>Contraste d'homogénéité.</p><p>Contraste d'indépendance.</p><p>54</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Dans ce sens, le Théorème Central-Limite stipule que si nous avons un groupe d'un grand nombre</p><p>de variables indépendantes (>30) et qu'elles toutes suivent le même modèle de distribution (quel</p><p>qu'il soit), la somme des variables est distribuée selon une répartition normale1 . Ledit théorème</p><p>s'applique tant pour la somme de variables discrètes que pour les variables continues.</p><p>La distribution normale décrit la manière avec laquelle certains estimateurs de</p><p>caractéristiques de la population varient d'un échantillon à l'autre.</p><p>Il s'avère donc difficile d'expliquer pour quelle raison se produit ce phénomène, mais il est certain</p><p>que la courbe de distribution normale (également appelée courbe de Gauss) joue un rôle</p><p>fondamental dans l'analyse statistique, étant donné qu'en plus d'expliquer la distribution des</p><p>variables précédemment notées, elle permet également d'établir une approximation vers d'autres</p><p>répartitions beaucoup moins maniables.</p><p>5.2.1. LA FONCTION DE DENSITÉ OU LOI NORMALE</p><p>La loi normale est un modèle de distribution qui répond à la formule :</p><p>où :</p><p> = moyenne de la population.</p><p> = écart type de la population.</p><p>2 = variance de la population.</p><p>Sa représentation graphique est illustrée sur la figure 5.1.</p><p>1. Par exemple, si nous lançons une pièce d'argent en l'air 50 fois, la somme de ces 50 variables (chacune</p><p>indépendante entre elle), est répartie selon une distribution normale.</p><p>55</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 5.1. Représentation graphique de la loi normale.</p><p>La fonction normale reste définie par deux paramètres, sa moyenne et son écart type. Elle est</p><p>représentée par la notation N (, ), où pour chaque valeur de  et  nous aurons une fonction de</p><p>densité différente, et par conséquent, une famille de distributions normales.</p><p>Selon les résultats présentés sur la figure 5.1 les conclusions suivantes sont perceptibles :</p><p>• La courbe a un seul pic, elle est donc uni modale.</p><p>• La moyenne d'une population répartie normalement se trouve au centre de sa courbe</p><p>normale (symétrie).</p><p>• À cause de la symétrie de la distribution de probabilité normale, la médiane et le mode de</p><p>répartition se trouvent également au centre, en outre, sur la courbe normale, la moyenne, la</p><p>médiane et le mode ont la même valeur.</p><p>• Les deux queues (extrêmes) d'une distribution de probabilité normale s'étendent de manière</p><p>indéfinie et ne touchent jamais l'axe horizontal.</p><p>• La zone totale sous la courbe normale sera de 1 (norme spécifiée), par conséquent, il est</p><p>possible de considérer que les zones en dessous de la courbe sont des probabilités.</p><p>• 68 % de toutes les valeurs en dessous de la courbe se retrouvent dans un écart type par</p><p>rapport à la moyenne (entre  - 2 et  + 2), tandis que 95 % se trouvent dans deux écarts</p><p>type (entre  - 2 et  +2).</p><p>5.2.2. LA FONCTION DE DISTRIBUTION</p><p>La fonction de distribution F(x) représente la zone en dessous la courbe de la fonction de densité :</p><p>56</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>La représentation graphique est illustrée sur la figure 5.2.</p><p>Figure 5.2. Fonction de distribution F(x).</p><p>Lorsque la moyenne et la variance d'une loi normale sont connues, les conditions sont favorables</p><p>pour trouver des probabilités. En effet, la zone en dessous de la courbe fournit la probabilité</p><p>d'occurrence d'un évènement, tel qu'illustré sur la figure 5.3.</p><p>F(x) = P(X  x)</p><p>Figure 5.3. La zone en dessous de la courbe fournit la probabilité de retrouver une valeur de la</p><p>distribution normale comprise entre a et b.</p><p>5.2.3. RÉPARTITION NORMALE SPÉCIFIÉE</p><p>Lorsque la moyenne de la répartition est de 0 et la variance de 1, la répartition est appelée</p><p>« norme spécifiée », et son avantage réside dans le fait qu'il existe des tableaux d'enregistrement</p><p>de la probabilité (zone) pour chaque point de la courbe de cette distribution.</p><p>Une autre caractéristique importante de la loi normale unitaire ou spécifiée est que toute la zone</p><p>comprise entre elle et l'axe horizontal est égale à l'unité.</p><p>De cette manière, toute distribution normale peut être transformée en distribution spécifiée au</p><p>travers d'un changement de variable :</p><p>57</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>où :</p><p>zi = variable spécifiée de x.</p><p>xi = variable aléatoire.</p><p> = moyenne de la population.</p><p> = écart type de la population.</p><p>Son utilité sera démontrée au moment de faire des comparaisons. Dans ce cas, la fonction de</p><p>densité unitaire serait :</p><p>Sa représentation graphique est illustrée sur la figure 5.4.</p><p>F(Z) = P(Zz)</p><p>Figure 5.4. Représentation de la loi normale unitaire.</p><p>Utilisant la fonction de densité unitaire, il serait convenable de faire le calcul des zones comprises</p><p>entre la courbe et l'axe horizontal. Toutefois, tel que présenté, l'utilisation de la formule requerrait</p><p>des connaissances de calcul intégral.</p><p>58</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Pour cette raison, il ne faudrait pas commettre d'erreur, certains tableaux</p><p>qui génèrent</p><p>directement ces valeurs sont souvent utilisés.</p><p>Attention à la consultation des tableaux. Tous ne sont pas présentés sous le</p><p>même format, il y en a qui génèrent la zone entre z = 0 et une valeur de zi, tandis</p><p>que d'autres génèrent directement la zone de l'extrémité qui laisse cette valeur zi.</p><p>Dans les tableaux de la distribution normale que nous pouvons trouver dans l'appendice, le</p><p>symbole z est identifié en localisant le chiffre des unités et le premier nombre décimal dans la</p><p>colonne de gauche, et le chiffre des centièmes dans la ligne supérieure. Le tableau génèrera la</p><p>valeur de la zone comprise entre z = 0 et la valeur de zi (qu'elle soit positive ou négative).</p><p>Néanmoins, nous sommes souvent intéressés par la zone de l'une des extrémités, qui est</p><p>habituellement représentée par /2 (figure 5.5), pour que :</p><p>/2 = 0,5 - (valeur de la zone comprise entre z = 0 et zi). Cette valeur reçoit également le nom de</p><p>p-valeur.</p><p>Figure 5.5. Représentation de la loi normale unitaire de la zone des extrémités représentées par /2.</p><p>CONSIDÉRONS UN EXEMPLE</p><p>Le poids de pièces de plomb d'une automobile est normalement distribué. Si nous savons</p><p>que le poids moyen est de 3,25 kg et l'écart type de 0,82 kg, quelle est la probabilité pour</p><p>que le poids des pièces soit supérieur à 4 kg ?</p><p>59</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Il convient en premier de spécifier la variable aléatoire X, poids des pièces de plomb :</p><p>Cherchant dans le tableau pour une valeur de z = 0,91 la valeur résultant de la zone</p><p>comprise entre 0 et ladite valeur est de 0,3186. Toutefois, la p-valeur nous intéresse, tel que</p><p>la figure 5.6 l'indique.</p><p>Figure 5.6. Spécification de la variable aléatoire X.</p><p>Par conséquent, la probabilité que le poids de la pièce soit supérieur à 4 kg sera de :</p><p>/2 = p(X>4) = p(z>0,146) = 0,5-0,3186 = 0,18 (p-valeur)</p><p>5.2.4. VÉRIFICATION DE LA NORMALITÉ : TEST DE KOLGOMOROV</p><p>Parfois, il peut s'avérer utile de vérifier si une distribution donnée suit le modèle de la loi normale.</p><p>Le test de Kolgomorov calcule les différences relatives accumulées (Hi) dans chacun des</p><p>intervalles et celles qui correspondraient dans le cas où il faut suivre fidèlement la loi normale.</p><p>Une fois calculée, on choisit la plus grande différence et on la compare avec celle que génère le</p><p>tableau 5.2.</p><p>60</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Tableau 5.2: Tableau de référence pour le test de Kolgomorov2.</p><p>Si la différence est supérieure à celle que propose le tableau, nous supposons que la distribution</p><p>ne suit pas le modèle de la loi normale. Dans le cas contraire, rien ne s'oppose au rejet de cette</p><p>supposition.</p><p>Il convient également de mentionner que, comme résultat de ce test, il est impossible d'affirmer</p><p>qu'une distribution est normale, à moins que la différence trouvée soit assez légère.</p><p>TEST DE KOLGOMOROV</p><p>1. On calcule les colonnes :</p><p>lsi : limite supérieure de chaque intervalle.</p><p>zi : notation z correspondant à lsi.</p><p>Ari : zone comprise entre lsi et l'extrême inférieur de la courbe (fréquence cumulée</p><p>relative selon le tableau de la loi normale unitaire).</p><p>Ni : fréquence cumulée réelle.</p><p>Hi : fréquence relative cumulée réelle.</p><p>2. Le tableau présente un risque de 5% d'affirmer que la distribution n'est pas normale.</p><p>Taille de</p><p>l'échantillon</p><p>Valeur</p><p>Taille de</p><p>l'échantillon</p><p>Valeur</p><p>1 0,75 14 0,349</p><p>2 0,842 13 0,361</p><p>3 0,708 14 0,349</p><p>4 0,624 15 0,338</p><p>5 0,565 16 0,328</p><p>6 0,521 17 0,318</p><p>7 0,486 18z 0,309</p><p>8 0,457 19 0,301</p><p>9 0,432 20 0,294</p><p>10 0,410 25 0,27</p><p>11 0,391 30 0,24</p><p>12 0,375 35 0,23</p><p>13 0,361 Plus de 35 1,36/n0,5</p><p>61</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>/Ari-Hi/ : valeur absolue des différences entre les fréquences relatives cumulées selon</p><p>le tableau de la loi normale et les fréquences relatives cumulées réelles de la</p><p>distribution.</p><p>2. L'on cherche la différence majeure dans la dernière colonne.</p><p>3. L'on fait une comparaison avec les tableaux :</p><p>Dif. max. < tableau : rien n'empêche d'accepter la normalité de la répartition.</p><p>Dif. max. > tableau : la distribution ne suit pas une loi normale (risque de 5 %).</p><p>Si ce test prouve que les données ne sont pas normales, il existe plusieurs solutions possibles :</p><p>• Si la distribution est plus marquée que la normale (majeure partie des valeurs cumulées</p><p>autour de la moyenne et les bouts plus longs aux deux extrêmes), il faut chercher la</p><p>présence d'hétérogénéité dans les données et les éventuelles valeurs atypiques ou</p><p>anomalies. La solution peut requérir des tests non paramétriques.</p><p>• Si la distribution est uni modale ou asymétrique, la solution la plus simple et effective</p><p>renvoie souvent à une transformation (logarithme népérien, racine carrée, entre autres)</p><p>pour convertir les données en données normales3 .</p><p>• Si la distribution n'est pas uni modale, il faudra détecter la présence d'hétérogénéité, déjà</p><p>que dans ces cas, l'utilisation des transformations n'est pas adéquate et les méthodes non</p><p>paramétriques peuvent également ne pas l'être.</p><p>5.3. LA DISTRIBUTION T DE STUDENT</p><p>Nous avons vu jusqu'à présent qu'une répartition d'échantillon peut être normale, parce que la</p><p>population ou l'échantillon est suffisamment important pour avoir recours au Théorème central-</p><p>limite (n>30).</p><p>Toutefois, si l'échantillon n'est pas important (n<30) ou si la variance de la population n'est pas</p><p>connue, pour comparer la moyenne d'un échantillon avec la moyenne hypothétique d'une</p><p>population, nous avons besoin de la distribution t de student. Logiquement, pour des échantillons</p><p>plus importants, nous pouvons avoir recours à l'approximation normale (tableau 5.3).</p><p>3. Pour plus d'informations, consulter le lien suivant : http://www.seh-lelha.org/noparame.htm.</p><p>62</p><p>http://www.seh-lelha.org/noparame.htm</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Tableau 5.3: Tableau résumé de l'application de la valeur z et de t en fonction de la taille de</p><p>l'échantillon et de la connaissance de la variance de la population4.</p><p>* On applique le Théorème central-limite.</p><p>** z est utilisé comme approximation de t.</p><p>+ Le théorème central-limite est appliqué et z est utilisé comme approximation de t.</p><p>Imaginons que nous avons tous les échantillons possibles de taille n inférieure à 30 d'une</p><p>population donnée distribuée selon la loi normale. Avec les valeurs calculées de la moyenne X et</p><p>l'écart type s, le schéma du test consiste à calculer une donnée statistique :</p><p>4. Source : http://es.slideshare.net/maguieb/estadstica-inferencial-16313544.</p><p>Population</p><p>Taille de</p><p>l’échantillon</p><p>s Connue s Inconnue</p><p>Avec distribution</p><p>normale</p><p>Grand (n  30)</p><p>Petit (n < 30)</p><p>Sans distribution</p><p>normale</p><p>Grand (n  30)</p><p>Petit (n < 30)</p><p>On réalise en général des tests non</p><p>paramétriques dirigés vers la médiane.</p><p>63</p><p>http://es.slideshare.net/maguieb/estadstica-inferencial-16313544</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>où :</p><p>laissant la distribution t sous la forme :</p><p>Par analogie à la distribution normale, le test t de Student a une forme évasée et elle est</p><p>parfaitement symétrique par rapport à t = 0, mais avec une grande dispersion, laquelle augmente</p><p>au fur et à mesure que diminue la taille de l'échantillon (figure 5.7).</p><p>Figure 5.7. Comparaison entre deux distributions : le test t de Student et la distribution normale5.</p><p>Tel que le présente la figure, il existe plusieurs distributions t, chacune d'elles liée à ce que nous</p><p>avons appelé degrés de liberté (), qui sont définis comme étant le nombre d'observations moins</p><p>un, c'est-à-dire,  = n - 1.</p><p>La forme de la distribution t de Student dépendra de la taille de l'échantillon.</p><p>La figure relève également les valeurs critiques de z et t pour un coefficient de confiance de 1-</p><p> = 0,99, ou ce qui est semblable, avec une zone d'extrémité, ou p-valeur de /2= 0,005.</p><p>5. Source : http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm</p><p>64</p><p>http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Si nous regardons à nouveau le tableau de la répartition normale, la valeur critique de z positif est</p><p>de 2,58 ou, la valeur que laisse une zone de d'extrémité de 0,5 % à droite de la distribution. Par</p><p>analogie, le côté gauche de la répartition est négatif avec une valeur de z négatif -2,58.</p><p>En référence à la valeur critique de t avec  = 3 degrés de liberté, nous retenons des tableaux6</p><p>(t0,005) est égal à 5,84 sur le côté droit et -5,84 sur le côté gauche.Par conséquente, il existe une</p><p>probabilité de 0,99 que la variable t se retrouve dans l'intervalle [-5,84, 5,84].</p><p>Si nous choisissons la valeur critique de t avec  = 29 degrés de libertés de, nous avons 0,5 %de</p><p>la zone en dessous de la courbe situé à la droite de 2,76 ou à la gauche de -2,76. Autrement dit, il</p><p>existe une probabilité de 0,99 que la variable t se retrouve dans l'intervalle [-2,76 ; 2,76].</p><p>La valeur critique de t diminue au fur et à mesure qu'augmente les degrés de</p><p>liberté. Si la taille de l'échantillon augmente de manière infinie, la valeur de t serait</p><p>de 2,58 : une valeur égale à la valeur de z pour la courbe normale.</p><p>5.4. LA DISTRIBUTION CHI-CARRÉ</p><p>De même que pour comparer la moyenne de l'échantillon de la population, dans les petits</p><p>échantillonnages, l'on utilise une distribution t de Student et une statistique t, maintenant, nous</p><p>allons comparer la variance d'un échantillon avec la variance hypothétique d'une population grâce</p><p>à la distribution chi-carré (2).</p><p>La distribution chi-carré a une forme qui dépend du nombre de degrés de liberté, comme c'est le</p><p>cas pour ce qui est du test t de Student. La figure 5.8 illustre plusieurs de ces courbes.</p><p>Figure 5.8. Distribution chi-carré pour  = 2, 5 et 10.</p><p>6. Les tableaux de la distribution normale et ceux du test t de Student sont disponibles dans l'appendice.</p><p>65</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Pour obtenir une valeur critique à partir d'un tableau7 de a</p><p>2, il faudra choisir un niveau de</p><p>signification et déterminer les degrés de liberté pour le problème analysé.</p><p>Tel que nous le verrons dans les exemples, la formule générale pour déterminer les degrés de</p><p>liberté8 dans un tableau de contingence9 est la suivante :</p><p> = (r1)  (c1)</p><p>où :</p><p> = degrés de liberté.</p><p> = lignes du tableau de contingence.</p><p>c = colonnes du tableau de contingence.</p><p>Outre l'estimation de variances, les autres applications de la distribution chi-carré sont entre</p><p>autres :</p><p>• Pour une variable :</p><p> Test de qualité ou d'ajustement des variables aléatoires discrètes.</p><p>• Pour deux variables :</p><p> Test d'homogénéité.</p><p> Test d'indépendance.</p><p>5.4.1. TEST DE QUALITÉ OU D'AJUSTEMENT DES VARIABLES ALÉATOIRES</p><p>DISCRÈTES</p><p>La distribution 2 mesure le niveau de différence des fréquences obtenues ou réelles de celles</p><p>escomptées ou prévues, à savoir, si la différence est significative ou pas.</p><p>Les observations sont obtenues à travers un échantillonnage aléatoire sur une population divisée</p><p>en catégories.</p><p>La statistique de l'échantillon sera :</p><p>7. Les tableaux de probabilité de c2 sont disponibles dans l'appendice.</p><p>8. Lorsque les degrés de liberté sont égaux à 1, il faut appliquer la formule modifiée pour la correction de Yates.</p><p>9. Un tableau de contingence est une distribution (une matrice) en lignes et colonnes dans laquelle les individus d'une</p><p>population sont classés en fonction de certaines variables.</p><p>66</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>où :</p><p>O = fréquence obtenue.</p><p>E = fréquence escomptée.</p><p>Pour une variable, les degrés de liberté sont le résultat de la soustraction entre le reste du nombre</p><p>des catégories moins un.</p><p>Dans ce contraste, l'hypothèse nulle n'est pas admise (les valeurs obtenues sont conformes à</p><p>celles escomptées) quand la statistique est plus grande qu'une valeur critique donnée.</p><p>Le test d'ajustement cherche le contraste de la distribution théorique d'une</p><p>variable.</p><p>Il convient de se souvenir que la valeur statistique d'un test 2 pourrait avoisiner un chi-carré si la</p><p>taille de l'échantillon n est grande (n>30), et que toutes les fréquences escomptées sont</p><p>supérieures ou égales à 5 (parfois, il faudra regrouper plusieurs catégories pour remplir cette</p><p>condition).</p><p>EXEMPLE</p><p>Un croisement d'une même espèce végétale, donne naissance à trois descendants de</p><p>caractéristiques A, B, et C, dans une proportion 1:2:1. Dans un échantillon de 104 espèces,</p><p>l'on a obtenu 28 de A, 49 de B et 27 de C. Ces données sont-elles ajustées à la proportion</p><p>escomptée ?</p><p>Il faudrait en premier lieu calculer la fréquence escomptée :</p><p>A : 104/4 = 26</p><p>B : 104/2 = 52</p><p>C : 104/4 = 26</p><p>Nous construisons par la suite le tableau de contingence :</p><p>Catégorie</p><p>Fréquence</p><p>escomptée (E)</p><p>Fréquence</p><p>obtenue (O)</p><p>(O-e)2/e</p><p>A 26 28 0,1538</p><p>B 52 49 0,1731</p><p>C 26 27 0,0385</p><p>67</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Par conséquent :</p><p>2 = 0,365 avec 2 degrés de liberté.</p><p>Si nous utilisons les tableaux de probabilités de 2, nous déterminerons la valeur critique au</p><p>niveau de signification désiré. Dans ce cas, pour  = 2 degrés de liberté et un niveau de</p><p>signification, nous obtenons : 2 = 5,991.</p><p>Étant donné que 0,365 < 5,991 l'hypothèse émise est confirmée et l'on conclut que les</p><p>données correspondent à une proportion de 1:2:1.</p><p>5.4.2. TEST D'HOMOGÉNÉITÉ</p><p>Il est question ici de déterminer si les données correspondantes à deux variables aléatoires ou</p><p>plus proviennent d'une même population.</p><p>Les observations sont obtenues à travers un échantillonnage aléatoire sur une population divisée</p><p>en catégories.</p><p>L'on emploiera la donnée statistique suivante :</p><p>où :</p><p>O = fréquence obtenue.</p><p>E = fréquence escomptée sous homogénéité.</p><p>r = nombre de lignes de la matrice de contingence.</p><p>c = nombre de colonnes de la matrice de contingence.</p><p>Dans ce contraste, l'hypothèse nulle n'est pas admise (les valeurs obtenues sont conformes à</p><p>celles escomptées) quand la statistique est plus grande qu'une valeur critique donnée. Il convient</p><p>de se souvenir que la donnée statistique du test 2 pourrait avoisiner un chi-carré si la taille de</p><p>l'échantillon n est grande (n>30) et que toutes les fréquences escomptées sont supérieures ou</p><p>égales à 5 (parfois, il faudra regrouper plusieurs catégories pour remplir cette condition).</p><p>68</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>EXEMPLE</p><p>Nous voulons vérifier la fiabilité d'une valve pneumatique par rapport à son fournisseur.</p><p>Dans ce cas, nous prenons un échantillon de 100 valves de chacun des trois fournisseurs et</p><p>vérifions le nombre d'éléments défectueux pour chacun.</p><p>Nous voulons réaliser une étude d'homogénéité pour parvenir à la conclusion selon laquelle</p><p>les fournisseurs présentent des degrés de fiabilité différents par rapport à la même valve.</p><p>Les résultats sont présentés dans le tableau suivant :</p><p>Dans le tableau de contingence suivant nous présentons (entre parenthèses) les fréquences</p><p>escomptées sous homogénéité. Dans l'analyse d'une relation entre 2 variables, il devient</p><p>plus convenable d'émettre l'hypothèse selon laquelle les deux sont indépendantes. Pour</p><p>trouver les valeurs escomptées, l'on utilise la théorie des probabilités qui stipule que : si</p><p>deux évènements sont indépendants, la probabilité que les deux se produisent</p><p>simultanément est le produit de leurs probabilités individuelles de se produire.</p><p>La probabilité qu'une valve soit défectueuse et, également le fournisseur 1 sera de :</p><p>(49/300)*(100/300) = 0,0544</p><p>Multipliant par le nombre de valves, nous obtenons la fréquence escomptée pour ce cas :</p><p>0,054  300 = 16,33</p><p>Par analogie, on ferait pareil pour les autres.</p><p>Substituant, la donnée statistique du contraste, nous aurons :</p><p>Valves défectueuses Valves en bon état Total</p><p>Distributeur 1 16 94 100</p><p>Distributeur 2 24 76 100</p><p>Distributeur 3 9 81 100</p><p>Total 49 251 300</p><p>Valves défectueuses Valves en bon état Total</p><p>Distributeur 1 16 (16,33) 94 (83,66) 100</p><p>Distributeur 2 24 (16,33) 76 (83,66) 100</p><p>Distributeur 3 9 (16,33) 81 (83,66) 100</p><p>Total 49 251 300</p><p>69</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Avec la valeur de la statistique par tableaux : 2 0,05 (2) = 5,99  = (3-1)  (2-1) = 2 g.l.</p><p>Étant donné que 8,96 > 5,99, nous concluons qu'il n'y a pas d'homogénéité et pour autant,</p><p>il existe des différences entre les trois fournisseurs.</p><p>5.4.3. TEST D'INDÉPENDANCE</p><p>Dans ce cas, il s'agit de vérifier si deux variables ont une certaine relation ou si elles sont</p><p>complètement indépendantes. Autrement dit, nous voulons analyser la relation existant entre deux</p><p>variables d'une même population.</p><p>EXEMPLE</p><p>Nous avons un échantillon de 100 légumes traités avec des pesticides, avec un autre</p><p>échantillon de 200 légumes sans traitement provenant de la même serre. Après un certain</p><p>temps, l'on examine les échantillons à la recherche d'une quelconque maladie.</p><p>Les résultats sont les suivants :</p><p>Nous voulons émettre l'hypothèse qu'il existe une relation entre le traitement avec des</p><p>pesticides et l'incidence de la maladie.</p><p>En supposant que les deux variables soient indépendantes, comme ce fut le cas pour</p><p>l'exemple du test d'homogénéité, nous prendrons une proportion escomptée de (entre</p><p>parenthèses) :</p><p>Traitement Sains Malades Total</p><p>Traité 88 12 100</p><p>Non traité 143 57 200</p><p>Total 231 69 300</p><p>Traitement Sains Malades Total</p><p>Traité 88 (77) 12 (23) 100</p><p>Non traité 143 (154) 57 (46) 200</p><p>Total 231 69 300</p><p>70</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Dans le tableau de contingence 2x2 nous observons comme caractéristique spéciale que la</p><p>différence entre le résultat obtenu et le résultat escompté est identique excepté le signe.</p><p>Les degrés de liberté sont :</p><p> = (2-1)  (2-1) = 1 g.</p><p>Par conséquent, l'on doit appliquer la correction de Yates :</p><p>Avec la valeur de la statistique par tableaux :</p><p>20,05(1) = 3,841</p><p> = (2-1)  (2-1) = 1 g.l</p><p>Étant donné que 10,43 > 3,841 au niveau de la signification de 0,05 l'hypothèse</p><p>d'indépendance est rejetée et celle selon laquelle il existe une relation entre le pesticide et</p><p>l'incidence de la maladie est confirmée.</p><p>5.5. DISTRIBUTION DE MOYENNES PAR ÉCHANTILLON</p><p>À partir d'une population, nous pouvons extraire différents échantillons de taille n avec leurs</p><p>moyennes respectives. Si chacune de ces moyennes est considérée comme une variable aléatoire,</p><p>nous pouvons en étudier la distribution que nous allons appeler distribution de moyennes par</p><p>échantillon.</p><p>• Si nous avons une population normale N (, ) et que l'on extrait des échantillons de taille n,</p><p>la répartition de moyennes suit également une distribution normale :</p><p>• Si la population ne suit pas une distribution normale, et que n>30, nous appliquons le</p><p>théorème central-limite, par lequel nous supposons que dans ces conditions la distribution</p><p>de moyennes par échantillon se rapproche également de la norme.</p><p>71</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>EXEMPLE</p><p>Les notes d'un examen sont réparties selon une loi normale de moyenne 5,8 et d'écart type</p><p>2,4. Estimer la probabilité pour que la moyenne d'un échantillon de 16 étudiants prélevé au</p><p>hasard soit comprise entre 5 et 7.</p><p>La population est réparties selon N (5,8 ; 2,4). Si n = 16, la distribution de l'échantillon est</p><p>répartie selon N (5,8 ; 0,6). Il nous revient de trouver la zone comprise entre 5 et 7 de cette</p><p>distribution, mais comme nous connaissons uniquement les distributions N (0,1), il faut</p><p>effectuer un changement de variable :</p><p>Par conséquent, et se référant aux tableaux de distribution normale :</p><p>P(5  x  7) = P(-1,33  z  2) = 0,8854</p><p>5.6. DISTRIBUTION DE PROPORTIONS PAR ÉCHANTILLON</p><p>Il est commun de vouloir estimer une proportion ou pourcentage. Dans ce cas, la variable aléatoire</p><p>prend uniquement deux valeurs différentes (succès ou échec), c'est-à- dire qu'elle suit une</p><p>distribution binomiale B (n, p), laquelle se rapproche de la norme N(np,(npq)0,5) lorsque la</p><p>population est grande.</p><p>Pour des échantillons de taille n>30, la distribution de proportions par échantillon suit une</p><p>répartition normale :</p><p>où :</p><p>p = proportion d'une des valeurs que présente la variable statistique sur la population.</p><p>q = 1 - p.</p><p>72</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>EXEMPLE</p><p>Une machine fabrique des pièces de précision et dans sa production habituelle elle compte</p><p>3 % de pièces défectueuses. Elle empaquette les pièces dans des caisses de 200. Quelle</p><p>est la probabilité de trouver entre 5 et 7 pièces défectueuses dans une caisse ?</p><p>Ayant n> 30, la distribution de l'échantillon suit une loi normale N (0,03 ; 0,01).</p><p>Sachant que p' = 5/200 = 0,025 et que p" = 7/200 = 0,035</p><p>En effectuant le changement de variable :</p><p>Par conséquent, et en nous référant aux tableaux de distribution normale, nous avons :</p><p>P(5  x  7) = P(-0,5  x  0,5) = 0,383</p><p>5.7. FONCTION DE PROBABILITÉ BINOMIALE</p><p>L'une des situations les plus importantes pour le professionnel est lorsqu'il est face à deux</p><p>résultats aléatoires possibles quand il faut prendre une décision dans des moments de doute. En</p><p>effet, nous supposons qu'une expérience aléatoire a les caractéristiques suivantes :</p><p>• Dans chaque échantillon de l'expérience, seuls deux résultats mutuellement excluant sont</p><p>possibles : la réussite A (succès) et son contraire A (échec).</p><p>• Le résultat obtenu dans chaque test est indépendant des résultats obtenus précédemment.</p><p>• La probabilité de la réussite A est constante, et est représentée par p, et ne change pas</p><p>d'une preuve à l'autre. La probabilité que A soit 1- p et soit représentée par q.</p><p>• L'expérience comprend un nombre de tests.</p><p>Nous dirons de toute expérience qui présente ces caractéristiques qu'elle suit le modèle de la</p><p>distribution binomiale. La variable X qui exprime le nombre de réussites obtenues dans chaque</p><p>test de l'expérience, sera dénommée variable aléatoire binomiale.</p><p>73</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>La variable binomiale est une variable aléatoire discrète, elle peut uniquement prendre les valeurs</p><p>0, 1, 2, 3, 4,..., n supposant que l'on a effectué n tests10 . Il convient également de considérer</p><p>toutes les manières possibles d'obtenir k-réussites et (n-k) échecs, nous devons calculer ces</p><p>résultats par des combinaisons (nombre combinatoire n sur k).</p><p>La distribution binomiale est représentée par B (n,p), n et p étant les paramètres de ladite</p><p>distribution.</p><p>La probabilité d'obtenir k-réussites viendra donnée par la fonction de probabilité de la variable</p><p>aléatoire binomiale :</p><p>où :</p><p>k = nombres de réussite 0  k  n</p><p>n = nombres de tests.</p><p>p = probabilité de réussite 0  p  1</p><p>q = 1-p, et est la probabilité d'échec.</p><p>Il existe des tableaux qui génèrent le calcul des probabilités pour certaines valeurs de n et p.</p><p>EXEMPLE</p><p>Une entreprise reçoit un mandat important de pièces qui vont faire objet d'une révision de</p><p>10 exemplaires pour connaître la qualité. Le fabricant établit qu'un maximum de 5 % des</p><p>pièces pourrait être défectueux. Quelle est la probabilité que l'échantillon comporte une</p><p>pièce défectueuse ?</p><p>Nous aurons :</p><p>Autrement dit, la probabilité que l'échantillon comporte une pièce défectueuse est de 32 %.</p><p>10. Si n=1 la fonction de probabilité de la distribution binomiale est dénommée fonction de distribution de Bernoulli.</p><p>74</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>5.7.1. APPROXIMATION NORMALE POUR DISTRIBUTION BINOMIALE</p><p>Étant donné que les tableaux binomiaux sont limités, il peut arriver que “n” ait une valeur</p><p>supérieure à celles fournies par les tableaux. Dans ce cas, il est nécessaire d'utiliser la distribution</p><p>normale standard pour le calcul des probabilités binomiales.</p><p>Il convient de savoir que les paramètres de la distribution binomiale sont les suivants :</p><p> = n  p</p><p>2 = n  p  q</p><p> = (n  p  q)0,5</p><p>L'approximation normale pour la distribution binomiale est généralement utilisée</p><p>dans les processus de contrôle de la qualité, de recensement, de fiabilité, entre</p><p>autres.</p><p>Dans l'exemple suivant il sera question de comparer le résultat pour appliquer</p><p>la loi de la</p><p>distribution binomiale avec celui obtenu par la loi normale, pour voir le degré d'approximation</p><p>entre les deux.</p><p>Un échantillon de 20 articles est prélevé de manière aléatoire d'un processus de fabrication avec</p><p>une probabilité de trouver des articles défectueux p=0,40. Quelle est la probabilité d'obtenir</p><p>exactement 5 articles défectueux ?</p><p> Si nous appliquons la loi de la distribution binomiale, nous aurons :</p><p>Autrement dit, la probabilité d'obtenir exactement 5 articles défectueux est de 7,5 %.</p><p> Si nous appliquons la loi normale, nous aurons :</p><p> = n  p = 20  0,4 = 8</p><p>2 = n p  q = 20  0,4  0,6 = 4,8 ; soit  = 2,19</p><p>Il convient de prendre en compte que la probabilité binomiale est discrète, tandis que la normale</p><p>est continue, et il faudrait introduire une correction de continuité dans le calcul de 0,5 ajouté ou</p><p>extrait de la variable x :</p><p>75</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Par spécification :</p><p>En consultant les tableaux de la loi normale, nous savons qu'entre 0 et z1 la zone est de 0,4452</p><p>tandis que z2 laisse une zone de 0,3729 à sa gauche. La probabilité qui nous intéresse sera la</p><p>différence entre ces deux zones :</p><p>P (5 de 20) = 0,4452 - 0,3729 = 7,2 %.</p><p>76</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Résumé</p><p>77</p><p>Modelage statistique des variables</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>78</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>6</p><p>Statistique inférentielle</p><p>6.1. INTRODUCTION</p><p>La statistique inférentielle ou déductive réalise des inférences ou tire des conclusions sur les</p><p>populations au travers des échantillons qui ont été extraits de ces dernières, tandis que la</p><p>statistique descriptive décrit les caractéristiques d'une série de données correspondant à une</p><p>population ou échantillon.</p><p>Les tests de signification statistique nous permettront de connaître, par exemple, si les différences</p><p>trouvées entre deux échantillons sont réelles, autrement, si elles sont également présentes chez</p><p>la population ou pourraient être le résultat de l'échantillon aléatoire. Tout cela naturellement selon</p><p>une incertitude hypothétique.</p><p>La base de l'inférence statistique est le raisonnement inductif, autrement, la connaissance du tout</p><p>à partir d'une partie et se fonde principalement sur le contraste d'hypothèses sur une population</p><p>donnée.</p><p>Les inférences statistiques sont de deux classes :</p><p>• La valorisation ou l'estimation. On détermine une valeur inconnue pour une caractéristique</p><p>de la population, avec une marge d'erreur en fonction de l'échantillonnage. Dans ce cas, le</p><p>calcul de l'erreur standard donnera une idée de l'exactitude de l'estimation.</p><p>• Le contraste ou test d'hypothèse. On définit une hypothèse comme un système de valeurs</p><p>possibles pour la population et une option, pour des valeurs différentes.</p><p>6.2. LA VALORISATION OU L'ESTIMATION</p><p>6.2.1. DÉFINITION</p><p>Elle est définie comme un estimateur d'une statistique d'un échantillon utilisé pour obtenir une</p><p>information sur un paramètre de la population. Par exemple, la moyenne d'un échantillon X de la</p><p>moyenne de la population .</p><p>Le résultat d'un estimateur peut s'exprimer en référence à un point ou une échelle de valeurs</p><p>(intervalle de confiance). Dans le premier cas, il faudra toujours calculer la marge d'erreurs liée à</p><p>l'estimation de ce point.</p><p>79</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>6.2.2. QUALITÉS D'UN BON ESTIMATEUR</p><p>Les qualités que doit avoir un bon estimateur sont les suivantes :</p><p>• Impartialité. Elle se réfère au fait que la donnée statistique de l'échantillon doit être un</p><p>estimateur non falsifié du même paramètre lié à la population. Une estimation est dite</p><p>impartiale lorsque conformément à un paramètre, la valeur escomptée de l'estimateur peut</p><p>être égale au paramètre qui a été estimé.</p><p>• Efficience. L'estimation la plus efficiente est celle-là qui comporte une erreur ou un écart</p><p>type plus petit parmi tous les estimateurs impartiaux. Par exemple, supposons que devant</p><p>un échantillon nous devrions décider si nous devons utiliser, ou pas, la moyenne de</p><p>l'échantillon pour estimer la moyenne de la population. Si nous calculons l'erreur standard</p><p>de la moyenne, nous remarquons que c'est égal à 1,05 ; si nous calculons l'erreur standard</p><p>de la médiane, nous notons que c'est égal à 1,6. Dans ce cas, nous dirions que la moyenne</p><p>de l'échantillon est un estimateur plus efficient de la moyenne de la population que la</p><p>médiane, déjà que son erreur standard est minime (avec peu de variation).</p><p>• Cohérence. Un estimateur est dit cohérent si, au moment d'augmenter la taille de</p><p>l'échantillon il se produit une estimation avec une erreur standard plus petite. Un estimateur</p><p>cohérent se rend plus fiable si nous avons des échantillons de très grandes tailles.</p><p>• Suffisance. Un estimateur suffisant « extrait » une quantité d'informations de l'échantillon</p><p>que n'apporte aucune autre donnée statistique sur le paramètre de la population en cours</p><p>d'estimation.</p><p>6.2.3. CARACTÈRE ALÉATOIRE DE L'ÉCHANTILLON</p><p>La condition pour qu'un échantillon soit aléatoire est fondamentale pour s'assurer qu'il est</p><p>effectivement une représentation de la population. Pour cela, l'on réalise ce qu'on appelle « Test</p><p>de séquences »1 (Wald-Wolfowitz). Ledit test est conçu pour démontrer le caractère aléatoire de</p><p>l'échantillon avec une confiance de 100 (1-) %.</p><p>Par exemple, imaginons une chaîne de production de fiches blanches (B) et vertes (V). L'on</p><p>considère la séquence de production suivante : BBBVVBVBVBBB. Le nombre de séquences sera</p><p>R=7, n1= 8 (nombre de fiches blanches) et n2= 4 (nombre de fiches vertes).</p><p>La procédure est la suivante :</p><p>1. Calculer la moyenne de l'échantillon.</p><p>2. En passant par la séquence de l'échantillon, substituer une observation avec + ó,</p><p>dépendant si elle est au-dessus ou en dessous de la moyenne. Il faut éliminer tout</p><p>comportement cyclique observé.</p><p>3. Calculer R, n1, et n2.</p><p>4. Calculer la moyenne et la variance escomptée de R, selon :</p><p>1. Une séquence est une sous-séquence maximale d'éléments similaires.</p><p>80</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>5. Calculer :</p><p>6. Conclusions.</p><p>Dans les cas suivants, l'échantillon ne sera pas aléatoire :</p><p>Si z > Z, le comportement est cyclique et saisonnier.</p><p>Si z < -Z, il existe une pendante ou une tendance qui indique que l'échantillon n'est pas</p><p>aléatoire.</p><p>Si z < -Z/2 ó z > Z/2 le caractère aléatoire n'est pas admis.</p><p>6.2.4. ESTIMATION DE LA TAILLE DE L'ÉCHANTILLON</p><p>La détermination de la taille de l'échantillon est une question primordiale, puisqu'un bon choix</p><p>permettra d'économiser les ressources dans le cas où nous prenons des échantillons plus grands</p><p>que le nécessaire, ou bien si nous évitons de tirer des conclusions peu fiables à cause de leur</p><p>précarité.</p><p>Aussi, grand est l'échantillon, plus grand sera le degré de confiance lié. Toutefois, les échantillons</p><p>les plus grands requièrent également un grand effort en temps et en ressources.</p><p>L'objectif est de trouver l'échantillon le plus petit qui génère la confiance désirable.</p><p>Ainsi, la taille de l'échantillon dépend du niveau de confiance désiré pour les résultats et de</p><p>l'amplitude de l'intervalle de confiance, notamment, de l'erreur maximale admissible, tel que nous</p><p>le verrons par la suite.</p><p>Une fois que le maximum d'erreur admissible E a été fixé, ainsi que le niveau de confiance (1-), il</p><p>est possible de calculer la taille minimale de l'échantillon qui sera utilisé :</p><p>81</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Si nous estimons les proportions suivantes :</p><p>EXEMPLE</p><p>L'écart type de la taille des habitants d'un pays est de 8 cm. Calculer la taille minimale que</p><p>doit avoir un échantillon d'habitants de ce pays pour que l'erreur commise pendant</p><p>l'estimation de la taille moyenne soit inférieure à 1 cm avec un niveau de confiance de</p><p>90 %.</p><p>Pour 1- = 0,90, nous savons que /2 = 0,05</p><p>Après avoir consulté les tableaux de distribution normale, on découvre que : z/2 = 1,645 et</p><p>si E=1, Par substitution</p><p>:</p><p>6.2.5. TYPES D'ESTIMATION</p><p>Dans les estimations relatives à une population, il est possible de faire des estimations</p><p>ponctuelles et des estimations par intervalle.</p><p>6.2.5.1. Estimations ponctuelles</p><p>Il s'agit d'un nombre utilisé pour estimer un paramètre inconnu de la population. Par exemple, un</p><p>enquêteur ferait une estimation ponctuelle s'il affirmait : « cette femme pourrait avoir environs</p><p>trente ans » ou « environ soixante personnes vivent dans ces immeubles ».</p><p>L'inconvénient de ce type d'estimations réside dans le fait qu'elles fournissent peu d'information,</p><p>par exemple, si la femme à laquelle se réfère l'enquêteur a en réalité trente ans, nous pourrions</p><p>accepter les trente comme une bonne estimation, mais si elle en a quarante, nous pourrions</p><p>82</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>rejeter l'estimation peu fiable. En somme, une estimation ponctuelle est beaucoup plus utile si elle</p><p>est accompagnée d'une estimation de l'erreur intégrée.</p><p>6.2.5.2. Estimation par intervalle</p><p>Si l'enquêteur fait référence à la femme en disant qu'elle « devrait avoir entre 30 et 35 ans », son</p><p>estimation est plus fiable que l'estimation ponctuelle et il est très probable que l'âge exact soit</p><p>dans cet intervalle, même s'il peut toujours se tromper.</p><p>Dans l'estimation par intervalle l'on calcule deux valeurs entre lesquelles se trouvera le paramètre,</p><p>avec un niveau de confiance fixé à l'avance. De cette manière, l'on obtient un intervalle de</p><p>confiance.</p><p>Le niveau de confiance et la « probabilité » que l'intervalle calculé contienne la valeur exacte du</p><p>paramètre. Il est indiqué par (1-) et s'exprime normalement en pourcentage (1-)  100 %.</p><p>Si le processus est répété avec plusieurs échantillons, nous pourrions affirmer</p><p>que (1-) % des intervalles représentés contiendrait la valeur exacte du</p><p>paramètre, et le maximum de  % non.</p><p>6.2.5.2.1. Estimation par intervalles de confiance pour la moyenne</p><p>Par exemple, imaginons que nous ne connaissons pas la moyenne de population d'une variable</p><p>que nous voulons étudier Il s'agit de prélever un échantillon et d'obtenir un intervalle (L1, L2) de</p><p>manière àavoir une probabilité (1-) % dont l'intervalle contiendrait la moyenne de la population.</p><p>Le niveau de confiance de l'intervalle est fixé à l'avance Il s'agit de travailler avec 95 %, ou 90 % y</p><p>compris 99 % ou son équivalent, avec des probabilités 0,0 ; 0,1 ou 0,01. Si l'une des hypothèses</p><p>suivantes est vérifiée :</p><p>• La taille de l'échantillon est supérieure à 30 et la variable suit un modèle normal.</p><p>• La taille de l'échantillon est plus grande que 100.</p><p>L'intervalle de confiance pour la moyenne de la population est donné :</p><p>où :</p><p>z = valeur qui dans la distribution N(0.1) laisse à sa droite une zone /2.</p><p>83</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>X = moyenne de l'échantillon.</p><p>s = écart type.</p><p>n = taille de l'échantillon.</p><p>6.2.5.2.2. Estimation par intervalles de confiance pour la proportion de la</p><p>population</p><p>Supposons maintenant que nous voulions trouver un intervalle (L1, L2), de manière à avoir une</p><p>probabilité élevée (1-) % dont un nombre d'éléments p inconnu de la population et appartenant à</p><p>une catégorie C se retrouvent dans leditintervalle.</p><p>Dans ce cas, si l'une des hypothèses suivantes est vérifiée :</p><p>Nous obtenons les intervalles suivants selon la taille de l'échantillon :</p><p>où :</p><p>z = valeur qui dans la distribution N(0,1) laisse à sa droite une zone /2.</p><p>n = taille de l'échantillon.</p><p>84</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>EXEMPLE</p><p>L'entreprise de parfums Colonias S.A. désire réaliser une étude de marché sur l'un de ses</p><p>produits pour femmes. Pour cela, elle donne le marché à une entreprise d'étude qui prélève</p><p>un échantillonnage de 200 femmes dans une communauté dense. Ladite entreprise</p><p>constate qu'une proportion de l'échantillon représentant 0,40 préfère le parfum fabriqué</p><p>par Colonias S.A sur toutes les autres marques de parfums. Quelles conclusions pouvons-</p><p>nous tirer pour toute la communauté si nous voulons un intervalle de confiance de 95 %.</p><p>Il convient en premier lieu de vérifier si l'une des hypothèses suivantes est vérifiée :</p><p>Pour trouver la valeur de z, nous devons trouver la valeur de la distribution N(0.1) qui laisse</p><p>à sa droite une zone de /2. Nous savons que l'intervalle de confiance est de 95 %, par</p><p>conséquent, la valeur de la zone des deux extrémités sera de  = 0,05, ce qui implique que</p><p>/2 = 0,025.</p><p>Étant donné que les tableaux avec lesquels nous travaillons nous génèrent la valeur de la</p><p>zone entre 0 et zi, nous posons :</p><p>0,5 - 0,025 = 0,475</p><p>Il s'agit là de la valeur de la zone comprise entre 0 et zi. Pour trouver zi nous cherchons dans</p><p>les tableaux ladite valeur, et nous trouvons une zi = 1,96.</p><p>Comme l'échantillon est plus grand que 100, nous avons :</p><p>Par conséquent, avec une confiance de 95 %, il est possible de dire que la proportion de</p><p>toutes les femmes de la communauté qui utilise les parfums de Colonias S.A. est de 36 %</p><p>ou 46 %.</p><p>85</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>6.3. CONTRASTE OU TEST D'HYPOTHÈSE</p><p>6.3.1. INTRODUCTION</p><p>En statistiques, une affirmation relative à une caractéristique de la population s'appelle</p><p>hypothèse.</p><p>Lorsque nous faisons le contraste d'une hypothèse, nous comparons les prévisions avec la réalité</p><p>obtenue. Si dans une marge d'erreur admissible, il existe une coïncidence, l'on acceptera</p><p>l'hypothèse et, dans le cas contraire, elle sera rejetée.</p><p>Par exemple, tel que mentionné précédemment, la moyenne d'un échantillon diffèrerait de la</p><p>valeur de la moyenne de la population. Si la valeur obtenue de l'échantillon se rapproche de la</p><p>valeur du paramètre de la population et diffère uniquement à un point auquel il fallait s'attendre</p><p>pendant l'échantillonnage aléatoire, la valeur hypothétique n'est pas rejetée. Si au contraire, la</p><p>donnée statistique de l'échantillon diffère d'un chiffre qu'il n'est pas possible d'attribuer au</p><p>hasard, l'hypothèse est rejetée car n'étant pas vraisemblable.</p><p>L'hypothèse émise est désignée par Ho et est appelée hypothèse nulle, puisqu'une partie implique</p><p>que les différences entre les valeurs exactes du paramètre et la valeur escomptée sont dues au</p><p>hasard, ainsi, il n'y a pas de différence. Il s'agirait du cas, par exemple, de décider si une procédure</p><p>est meilleure qu'une autre. Dans cette situation, l'on formulerait l'hypothèse nulle selon laquelle il</p><p>n'y a pas de différence entre elles (notamment, une différence relevée devrait simplement être</p><p>due au fait des changements de l'échantillonnage de la même population).</p><p>L'hypothèse nulle est celle qui nous dit qu'il n'y a pas de différences significatives</p><p>entre les groupes.</p><p>L'hypothèse contraire est désignée par H1 et appelée hypothèse optionnelle.</p><p>On peut réaliser le contraste d'hypothèses de façon unilatérale (en termes de grand ou petit) ou</p><p>bien de façon bilatérale (en termes de égal et distinct). Dans le premier cas, nous considérerions</p><p>une seule extrémité, tandis que le contraste bilatéral comprendrait les deux :</p><p>• Si l'hypothèse optionnelle se présente sous la forme « plus grand que », z est la valeur qui</p><p>laisse une p-valeur  à l'extrémité droite de la distribution.</p><p>• Si l'hypothèse optionnelle se présente sous la forme « plus grand que », z est la valeur qui</p><p>laisse une p-valeur  à l'extrémité gauche de la distribution.</p><p>• Si l'hypothèse optionnelle se présente sous la forme « n'est pas égal à », nous avons donc</p><p>deux valeurs de z, une positive et une autre négative. Le z positif est la valeur qui laisse une</p><p>p- valeur de /2 à la droite de la distribution, alors que le z négatif laisse une p- valeur de /</p><p>2 à la gauche de la distribution.</p><p>86</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>L'objectif est de tirer des conclusions sur la valeur d'un paramètre inconnu de la</p><p>population, à partir d'un échantillon aléatoire et significatif, qui permet d'accepter</p><p>ou pas une hypothèse précédemment émise.</p><p>6.3.2. ÉTAPES À SUIVRE POUR LE CONTRASTE D'HYPOTHÈSE</p><p>Les étapes à</p><p>suivre pour le contraste d'hypothèse sont les suivantes :</p><p>1. Énoncer l'hypothèse. Ici, on formule l'hypothèse nulle et l'hypothèse optionnelle.</p><p>2. Choisir un niveau de signification  et construire la zone d'acceptation.</p><p>Le niveau de signification est la statistique spécifiée pour rejeter l'hypothèse nulle.</p><p>Les niveaux de signification fréquemment utilisés sont ceux de 5 % et de 1 %. Par exemple,</p><p>un niveau de signification de 5 % signifie qu'il existe une probabilité de 0.05 de rejeter</p><p>l'hypothèse nulle, même si elle est plausible.</p><p>La zone d'acceptation est l'intervalle hors duquel nous trouvons uniquement 100 % des</p><p>cas les plus rares.</p><p>3. Sélectionner la donnée statistique de l'échantillon. Il pourrait s'agir d'une statistique de</p><p>l'échantillon ou une version standard. Par exemple, la valeur de la moyenne de l'échantillon</p><p>peut être convertie en une valeur z si la distribution de l'échantillonnage de la moyenne est</p><p>normale.</p><p>4. Établir la valeur ou les valeurs critiques de la statistique de l'échantillon. Si l'échantillon est</p><p>unilatéral, nous aurons une valeur critique, alors que s'il est bilatéral, le nombre des</p><p>valeurs critiques sera de deux.</p><p>5. Déterminer la valeur de la statistique de l'échantillon. L'on collecte un échantillon aléatoire</p><p>et on détermine la valeur de la moyenne de l'échantillon z standard, par exemple.</p><p>6. Prise de décision. Si la valeur calculée dans l'échantillon tombe dans la zone de décision,</p><p>l'hypothèse est confirmée, dans le cas contraire, elle est rejetée.</p><p>6.3.3. ERREURS DANS LE CONTRASTE D'HYPOTHÈSES</p><p>Le contraste d'hypothèses ne confirme pas forcément l'hypothèse, mais il est un critère pour</p><p>décider si celle-ci doit être confirmée ou rejetée, ou si les différences entre les échantillons</p><p>obtenus et les résultats escomptés sont significatives.</p><p>Il en résulte que si nous rejetons une hypothèse quand elle devrait être confirmée, nous</p><p>commettons une erreur de type I, tandis que si nous acceptons quand elle devrait en réalité être</p><p>rejetée, nous commettons une erreur de type II (tableau 6.1).</p><p>87</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>La probabilité de commettre une erreur de type I renvoie au niveau de signification , alors quela</p><p>probabilité de commettre une erreur de type II dépendra de la valeur exacte de  et de la taille de</p><p>l'échantillon.</p><p>Tableau 6.1: Erreurs dans le contraste d'hypothèses.</p><p>6.3.4. CONTRASTE D'HYPOTHÈSES POUR LA MOYENNE</p><p>La distribution normale de probabilité peut être utilisée pour prouver une valeur hypothétique de la</p><p>moyenne de la population si l'une des conditions ci-dessous est remplie :</p><p>n >30 et la variable suit un modèle normal.</p><p>n >100.</p><p>6.3.4.1. Contraste bilatéral</p><p>H0 :  = 0</p><p>H1 :   0</p><p>où o est une valeur connue.</p><p>6.3.4.1.1. Cas 1 : l'écart type  de la population est connu</p><p>Si nous supposons que la répartition de l'échantillonnage de la moyenne suit la loi normale, la</p><p>valeur de z serait :</p><p>En fonction du niveau de signification établi, l'on pourrait trouver la valeur critique de z. En effet, si</p><p>l'on choisit un niveau de signification de 5 %, on aura à chaque extrémité une zone ou une p-valeur</p><p>de 0,025, étant donné que ces extrémités sont considérées comme contraste bilatéral. Par</p><p>conséquent, la zone entre la moyenne hypothétique et la valeur critique serait de 0,5 - 0,025 =</p><p>0,475.</p><p>H0 Exacte H0 Fausse</p><p>Maintenir H0 Décision correcte</p><p>Décision incorrecte</p><p>Erreur de type II</p><p>Rejeter H0</p><p>Décision incorrecte</p><p>Erreur de type I</p><p>Décision correcte</p><p>88</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>L'observation des tableaux nous permettra de noter que les valeurs critiques qui divisent les zones</p><p>de rejet et de non rejet sont +1,96 et -1,96.</p><p>Figure 6.1. Valeurs critiques et zones de rejet et de non rejet de l'hypothèse nulle.</p><p>Par conséquent, la règle pour la décision serait :</p><p>si Z> 1,96 : l'hypothèse nulle serait rejetée ; ou</p><p>si Z< 1,96 : l'hypothèse nulle serait confirmée.</p><p>EXEMPLE</p><p>Dans une entreprise de fabrication de filets, l'écart type d'un modèle donné est de 2,4. Pour</p><p>un échantillon de 36 filets de ce modèle, nous obtenons un diamètre moyen de 5,6 mm.</p><p>Est-il possible de confirmer l'hypothèse selon laquelle le diamètre moyen des filets est de 6</p><p>avec un niveau de signification de 0,05 ?</p><p>Si n>30, nous pouvons utiliser la distribution normale pour vérifier la valeur hypothétique.</p><p>Il s'agit d'un contraste bilatéral, étant donné que nous nous intéressons à un éventuel écart</p><p>dans une direction par rapport à la valeur hypothétique de la moyenne.</p><p>H0 :  = 6</p><p>H1 :   6</p><p>Si Ho est plausible, les moyennes des échantillons sont réparties selon N(6 ; 0,4). Pour</p><p> = 0,05 nous avons /2 = 0,025 et par tableaux Z/2 = 1,96.</p><p>89</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Par substitution, nous avons :</p><p>Étant donné que :</p><p>/Z/<1,96 dans chacune des extrémités, l'hypothèse nulle n'est pas rejetée et l'on</p><p>admet que le diamètre moyen des filets est de 6 mm avec une probabilité d'erreur de</p><p>5 %.</p><p>Une autre manière de le faire serait d'élaborer un intervalle de confiance (zone</p><p>d'acceptation) pour la moyenne de la population sur la base des résultats des échantillons,</p><p>via lequel l'on observerait si la valeur de la moyenne de la population est incluse dans</p><p>l'intervalle de confiance. Si une telle valeur est comprise dans l'intervalle, l'hypothèse nulle</p><p>ne peut être rejetée (figure 6.2).</p><p>Figure 6.2. Représentation de la zone d'acceptation de H0 pour un contraste d'hypothèse bilatéral.</p><p>Ledit intervalle sera donné par l'équation :</p><p>Par substitution, nous aurons l'intervalle de confiance :</p><p>[6 - 1,96  0,4 ; 6 + 1,96  0,4] = [5,22 ; 6,78]</p><p>Étant donné que 5.6 se trouve dans l'intervalle, il est également possible d'accepter</p><p>l'hypothèse nulle selon laquelle le diamètre des filets soit de 6 avec une probabilité d'erreur</p><p>de 5 %.</p><p>90</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>6.3.4.1.2. Cas 2 : l'écart type  de la population est inconnu</p><p>À partir de l'échantillon il est possible de calculer une valeur expérimentale Vexp :</p><p>Et la valeur théorique (V ó z), qui est une valeur qui dans la distribution N(0,1) laisse à sa droite</p><p>une zone /2 pour un niveau de signification .</p><p>La règle de décision, une fois que le niveau de signification  est fixé, est la suivante :</p><p>• Si Vexp> V  l'hypothèse optionnelle est confirmée.</p><p>• Si Vexp  V  l'hypothèse nulle est acceptée.</p><p>6.3.4.2. Contraste unilatéral</p><p>H0 :  = 0</p><p>H1 :   0</p><p>Où 0 est une valeur connue.</p><p>6.3.4.2.1. Cas 1 : l'écart type  de la population est connu</p><p>Dans ce cas, en appliquant la méthode d'intervalles de confiance pour le contraste d'hypothèse</p><p>relatif à la moyenne, H0 serait confirmée si :</p><p>Et serait rejetée si :</p><p>La figure 6.3 est une représentation de la zone d'acceptation H0 pour un contraste d'hypothèse</p><p>unilatéral.</p><p>91</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 6.3. Représentation de la zone d'acceptation de H0 pour un contraste d'hypothèse unilatéral.</p><p>EXEMPLE</p><p>Une entreprise fabrique des barres en aluminium de 170 cm maximum, avec un écart type</p><p>de 8 cm. Dans un échantillon de 100 barres, on observe une longueur de 172 cm. Pourrait-</p><p>on accepter l'hypothèse avec un niveau de signification de 5 % ?</p><p>H0 :   170</p><p>H1 :  > 170</p><p>Les moyennes des échantillons sont répartis selon N(170 ; 0,8). Pour  = 0,05 les tableaux</p><p>génèrent une valeur de z = 1,645.</p><p>La zone d'acceptation sera :</p><p>qui veut que :</p><p>172 [- ; 171,32]</p><p>L'hypothèse nulle selon laquelle les barres en aluminium mesurent plus de 170 cm est</p><p>rejetée.</p><p>6.3.4.2.2. Cas 2 : l'écart type  de la population est inconnu</p><p>Dans la majorité des cas l'écart type  de la population est inconnu. Dans ce cas, la distribution t-</p><p>de Student est la référence adéquate pour déterminer la valeur statistique de l'échantillon type</p><p>quand la distribution de l'échantillonnage de la moyenne a une distribution normale, avec </p><p>comme inconnue.</p><p>La procédure à suivre est identique à celle suivie pour la distribution normale, en remplaçant</p><p>z par</p><p>t comme valeur statistique de l'échantillon.</p><p>92</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>où :</p><p>EXEMPLE</p><p>Une entreprise productrice de lampes veut démontrer que la durée de vie des ampoules de</p><p>la marque de fabrique est de 4 200 heures, face à la possibilité que pose sa compétence</p><p>qui démontre une courte durée. Pour ce faire, on a prélevé un échantillon aléatoire de 10</p><p>lampes dont le cycle de vie moyen était de 4 000 heures avec un écart type s = 200 heures.</p><p>On suppose que, d'une manière générale, le cycle de vie des ampoules suit une distribution</p><p>normale. Le niveau de signification est de 5 %.</p><p>Étant donné que l'échantillon est petit n<30 et que nous ne connaissons pas la variance de</p><p>la population, nous voulons appliquer la distribution t de Student.</p><p>H0 :  = 4 200</p><p>H1 :  < 4 200</p><p>Consultant les tableaux de la t de Student, nous savons que pour  = 0,05 et n-1 Degrés de</p><p>liberté, une valeur de t critique de -1,833.</p><p>Étant donné que -3.16 se trouve dans la zone de rejet de l'extrémité gauche (à la droite de la</p><p>valeur critique), l'hypothèse nulle est rejetée et l'on admet que le cycle de vie moyen réel des</p><p>lampes est inférieur à 4 200 h.</p><p>93</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>6.3.5. CONTRASTE D'HYPOTHÈSE POUR PROPORTIONS</p><p>Le contraste d'hypothèse peut être utilisé pour vérifier une hypothèse en relation avec les données</p><p>qualitatives, pour arriver aux conclusions concernant la proportion des valeurs qui ont une</p><p>caractéristique particulière.</p><p>6.3.5.1. Contraste bilatéral</p><p>H0 : p0 = p</p><p>H1 : p  p0</p><p>L'on cherche une valeur de ztelle que :</p><p>P(-z/2  z  z/2) = 1 - </p><p>La zone d'acceptation est illustrée sur la figure 6.4 et sera l'intervalle :</p><p>Figure 6.4. Représentation de la zone d'acceptation de H0 pour un contraste d'hypothèse bilatéral.</p><p>L'hypothèse nulle H0 sera confirmée si :</p><p>Et sera rejetée si :</p><p>94</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>EXEMPLE</p><p>On veut déterminer si la proportion de personnes prenant un médicament contre le mal de</p><p>tête fonctionnant est de 90 %, tel que l'affirme la publicité. Nous avons un échantillon</p><p>aléatoire de 100 individus, dont 88 ont été soulagés après avoir pris le médicament. Il serait</p><p>conseillé dans ce cas de prendre des niveaux de signification bas, de 5 % par exemple.</p><p>H0 : p = 0,9</p><p>H1 : p  0,9</p><p>avec un niveau de signification donné  = 0,05.</p><p>Pour  = 0,05 nous savons que /2 = 0,025 et par conséquent, z/2= 1,96</p><p>Étant donné que q = 1 - p = 0,1</p><p>Par substitution :</p><p>Étant donné que 0.88 est compris dans l'intervalle, l'hypothèse nulle ne serait pas rejetée.</p><p>6.3.5.2. Contraste unilatéral</p><p>H0 : p  p0</p><p>H1 : p < p0</p><p>L'on cherche une valeur de z telle que :</p><p>P(z  z) = 1 - </p><p>La zone d'acceptation est illustrée sur la figure 6.5 et sera l'intervalle :</p><p>95</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 6.5. Représentation de la zone d'acceptation de Ho pour un contraste d'hypothèse unilatéral.</p><p>L'hypothèse nulle H0 sera confirmée si :</p><p>Et sera rejetée si :</p><p>EXEMPLE</p><p>Une machine fabrique des pièces de précision garantissant que la proportion de pièces</p><p>correctes est d'au moins 97 %. Un client reçoit un lot de 200 pièces et 8 sont défectueuses ;</p><p>avec un niveau de confiance de 95 %. Renverra-t-il le lot pour conditions de qualité non</p><p>respectées ?</p><p>H0 : p  0,97</p><p>H1 : p < 0,97</p><p>La distribution de l'échantillon, si H0 est plausible, est N(0,97 ; 0,01).</p><p>Pour  = 0,05 nous savons que z = 1,645</p><p>Par substitution :</p><p>96</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>La proportion de pièces correctes dans l'échantillon est de p' = 192/200 = 0,96. Tel que</p><p>l'indique l'équation suivante :</p><p>0,96 [0,95 ; +]</p><p>L'hypothèse nulle est confirmée, et par conséquent, le lot devra être rendu.</p><p>97</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>98</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Résumé</p><p>99</p><p>Statistique inférentielle</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>100</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>7</p><p>Égalité statistique entre au moins</p><p>deux populations</p><p>7.1. INTRODUCTION</p><p>Nous savons que deux variables aléatoires X et Y sont équivalentes si et seulement si elles ont la</p><p>même fonction de distribution :</p><p>Fx (z) = Fy (z)</p><p>Selon les utilisations, il existe différentes épreuves à réaliser pour prouver l'égalité statistique de</p><p>populations. Les principales dont nous traiterons ici sont les suivantes :</p><p>• Égalité de deux populations normales. En appliquant le test z (t de Student) et le test de</p><p>Fisher pour vérifier l'égalité de moyennes et de variance, respectivement.</p><p>• Analyse de la variance. Bien qu'elle puisse s'utiliser avec deux populations, l'ANOVA est</p><p>conçue pour le test d'égalité des moyennes d'au moins trois populations.</p><p>• Égalité de proportions dans plusieurs populations. Ici, les applications du khi-carré ont des</p><p>applications intéressantes.</p><p>7.2. COMPARAISON DE DEUX MOYENNES DE LA</p><p>POPULATION</p><p>Il s'agit de comparer la moyenne de deux populations différentes en évoquant l'hypothèse nulle</p><p>selon laquelle il n'existe pas de différences significatives entre elles.</p><p>Les tests relatifs à la différence entre les moyennes peuvent être bilatéraux ou unilatéraux.</p><p>7.2.1. DIFFÉRENCE ENTRE LES MOYENNES À L'AIDE DE LA LOI DE DISTRIBUTION</p><p>NORMALE</p><p>Le procédé qui est suivi est semblable à celui observé lors de l'hypothèse relative à la valeur d'une</p><p>moyenne de population. La seule différence réside dans le fait que l'écart type de la différence des</p><p>moyennes constitue la statistique utilisée pour déterminer la valeur z (ou t) associée au résultat de</p><p>l'échantillon.</p><p>101</p><p>Égalité statistique entre au moins deux populations</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Si l'on connaît la variance 1 et 2 des deux populations, la formule générale pour déterminer la</p><p>valeur de z et ainsi prouver l'hypothèse nulle est la suivante :</p><p>Si l'on ne connaît pas la variance 1 et 2 des populations, on utilise la formule suivante :</p><p>En revanche, si nous voulons prouver l'hypothèse nulle, le plus habituel est de supposer que les</p><p>deux échantillons ont été obtenus à partir de population dont la moyenne était la même. On</p><p>aboutit donc à :</p><p>(1 - 2) = 0</p><p>En simplifiant :</p><p>où :</p><p>Supposons désormais que non seulement les moyennes des échantillons ont été obtenues à</p><p>partir de populations de moyennes égales, mais qu'en fait elles ont été également obtenues à</p><p>partir de la même population. Alors 1 = 2 = .</p><p>De cette façon, la valeur estimée combinée de la variance de la population 2 est :</p><p>102</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Et l'écart type estimé de la différence de moyennes fondée sur l'hypothèse que les variances des</p><p>populations sont égales est :</p><p>EXEMPLE</p><p>Un échantillon de 30 employés d'une entreprise perçoit en moyenne un salaire de 280</p><p>euros hebdomadaires avec un écart type de l'échantillon de 14 euros. Dans l'entreprise de</p><p>la concurrence, un échantillon aléatoire de 40 employés a donné comme résultat un salaire</p><p>moyen de 270 euros avec un écart type de 10 euros. On ne suppose pas que les déviations</p><p>standard des deux populations de salaires soient égales.</p><p>On désire observer si avec un niveau de signification de 5 % il existe ou non une différence</p><p>entre les salaires moyens hebdomadaires des deux entreprises.</p><p>Nous évoquons l'hypothèse nulle selon laquelle il n'existe pas de différences de salaire :</p><p>H0 : (1 - M2) = 0</p><p>H1 : (1 - M2)  0</p><p>En appliquant la formule :</p><p>Indirectement, nous savons que :</p><p>/Za=0,05 / = 1,96</p><p>La valeur z calculée de 3,33 se trouve dans la zone de rejet du modèle de test d'hypothèse.</p><p>Par conséquent, l'hypothèse nulle est rejetée et l'hypothèse alternative selon laquelle le</p><p>salaire hebdomadaire des deux entreprises est différent, est acceptée.</p><p>103</p><p>Égalité statistique entre au moins deux populations</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 7.1. Zone d'acceptation et de rejet de l'hypothèse nulle.</p><p>7.2.2. DIFFÉRENCE ENTRE LES MOYENNES À L'AIDE DE LA LOI DE T</p><p>DE</p><p>STUDENT</p><p>Les hypothèses qui doivent être satisfaites pour pouvoir appliquer la loi t de student dans le but de</p><p>comparer les moyennes des deux groupes sont les suivantes :</p><p>• La variable étudiée doit suivre une loi de distribution normale.</p><p>• La dispersion dans les deux groupes à comparer doit être homogène (hypothèse</p><p>d'homoscédasticité ou égalité de variances).</p><p>Il n'est pas obligatoire que les tailles des groupes soient égales et il n'est pas non plus nécessaire</p><p>de connaître la dispersion des deux groupes.</p><p>EXEMPLE</p><p>Dans un échantillon aléatoire de 10 ampoules, le cycle de vie moyen est de 4 000 heures</p><p>avec un écart type de 200 heures. Pour une autre marque d'ampoules dont la vie utile suit</p><p>aussi a priori une loi de distribution normale, un échantillon aléatoire de 8 ampoules a une</p><p>durée moyenne de 4 300 heures et un écart type de 250. On teste l'hypothèse selon</p><p>laquelle il n'existe aucune différence entre le cycle moyen de vie utile des deux marques</p><p>d'ampoules avec un seuil de signification de 1 %. On suppose que l 'hypothèse</p><p>d'homoscédasticité est remplie.</p><p>Nous posons l'hypothèse nulle selon laquelle il n'existe pas de différence dans le cycle</p><p>moyen de vie utile :</p><p>H0 : (1 - 2) = 0</p><p>104</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>H1 : (1 - 2)  0</p><p>En appliquant les formules :</p><p>Étant donné que nous savons que la valeur de t critique avec  = n1 + n2 - 2 = 16 g.l, que</p><p> = 0,01 équivaut à 2,921 dans sa valeur absolue, et que la valeur -2,833, se trouve donc</p><p>dans la zone d'acceptation de l'hypothèse nulle, on conclut que l'hypothèse nulle ne peut</p><p>pas être rejetée au seuil de signification de 1 %</p><p>Souvent, l'application du test t de Student se réalise sans porter une grande attention,</p><p>autrement dit, sans vérifier les conditions d'application. Dans ce contexte, avant de réaliser</p><p>le test, il faut toujours vérifier au préalable la normalité (test de Kolmogorov-Smirnov) et</p><p>l'homogénéité des variances (test de F-Snedecor, Levene, etc.).</p><p>Dans le cas où la condition de normalité n'est pas respectée, on tente une transformation</p><p>qui « normalise » les données, celle du logarithme népérien étant la plus commune. Dans la</p><p>pratique, la transformation qui « normalise » les données aboutit également à l'égalité des</p><p>variances. Toutefois, dès que l'on transforme les données et que l'on aboutit à l'égalité des</p><p>variances, il faut modifier le test t de Student, de Satterthwaite, valide pour le cas de non-</p><p>homogénéité des variances.</p><p>7.3. COMPARAISON DE DEUX VARIANCES DE</p><p>POPULATION</p><p>Souvent, il existe un intérêt à savoir si la variance de deux populations diffère. Dans ces cas, il faut</p><p>effectuer un test statistique d'égalité des variances. L'hypothèse à formuler est la suivante :</p><p>H0 : 2</p><p>1 = 2</p><p>2</p><p>Dans ces cas, on utilisera le test F de Snedecor. Pour ce faire, on construit le test statistique de</p><p>contraste expérimental F donné par :</p><p>105</p><p>Égalité statistique entre au moins deux populations</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>où :</p><p>Fobs = F de Snedecor.</p><p>s2</p><p>1 = variance de l'échantillon du groupe 1.</p><p>s2</p><p>2 = variance de l'échantillon du groupe 2.</p><p>Dans le cas où Fobs< Fthéorique, on accepterait H0 : 2</p><p>1 = 2</p><p>2</p><p>Où :</p><p>• Fthéorique = est la F de Snedecor obtenue grâce aux tableaux (voir appendice) pour une</p><p>valeur donnée de  avec :</p><p> degrés de liberté du numérateur, m : taille de l'échantillon du groupe avec la plus grande</p><p>variance de l'échantillon moins un.</p><p> degrés de liberté du numérateur, n : taille de l'échantillon du groupe avec la moins</p><p>grande variance de l'échantillon moins un.</p><p>Il existe une infinité de variables F, toutes positives et identifiées par deux paramètres m et n</p><p>appelés degrés de liberté. Ces paramètres sont toujours des entiers positifs.</p><p>Tel que l'on peut l'observer sur la figure 7.2, la courbe de densité est asymétrique positive.</p><p>Figure 7.2. Critère pour le rejet de l'hypothèse nulle sur l'homoscédasticité.</p><p>106</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>EXEMPLE</p><p>Le gérant d'une entreprise qui se consacre à la commercialisation de viande de bœuf</p><p>souhaite savoir si comme le prétend la presse, un certain additif produit l'engraissement</p><p>prématuré des bovins, Pour cela, il compare les poids des deux groupes au bout d'un</p><p>certain lapse de temps déterminé. Dans le premier groupe, il a inclus l'additif dans</p><p>l'alimentation, tandis qu'il l'a omis dans le deuxième.</p><p>Les résultats sont les suivants :</p><p>Il s'agit d'un problème de comparaison de deux moyennes via le test de t student.</p><p>Cependant, il nous intéresse ici de vérifier l'égalité des variances pour pouvoir ainsi</p><p>appliquer le test, en assumant la normalité des groupes.</p><p>Si l'on effectue les calculs pertinents, il résulte que :</p><p>X1 = 37,8 X2 = 39,5</p><p>S2</p><p>1 = 3,36 S2</p><p>2 = 13,65</p><p>Appliquant la statistique, il résulte que :</p><p>Étant donné que Fobs = 4,06 > F9; 9; 0,05 = 3,178 on rejetterait l'hypothèse nulle selon</p><p>laquelle les variances de population sont significativement égales.</p><p>Certaines transformations utilisées pour parvenir à la normalité (logarithme, arc-sinus,</p><p>racine carrée, etc.) parviennent également à obtenir l'homogénéité dans les variances. Voilà</p><p>pourquoi nous recommandons, dans le cas où les données primaires ne respectent aucune</p><p>hypothèse, d'uti l iser la transformation et de tenter d'assurer en premier l ieu</p><p>d'homoscédasticité. De fait, la raison principale pour transformer les données est</p><p>d'améliorer l'homogénéité des variances et non de résoudre le problème de normalité car ce</p><p>dernier n'est pas vraiment un problème avec l'ANOVA.</p><p>Avec additif</p><p>(kg)</p><p>39 36 35 37 40 39 40 38 35 39</p><p>Sans additif</p><p>(kg)</p><p>43 45 42 35 37 38 33 38 41 43</p><p>107</p><p>Égalité statistique entre au moins deux populations</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>7.4. CONDITIONS NÉCESSAIRES À LA PRISE DE</p><p>DÉCISIONS STATISTIQUES</p><p>Nous vous rappelons ici que dans la quasi-totalité des tests statistiques de prise de décisions, les</p><p>prémices suivantes doivent être prises en compte :</p><p>1. Toute anomalie peut avoir un impact significatif et influer sur les résultats de l'évaluation et</p><p>sur les méthodes des tests statistiques.</p><p>2. La population doit être homogène, c'est-à-dire uni modale.</p><p>3. L'échantillon doit être aléatoire.</p><p>4. En plus d'être homogène, chaque population doit se repartir selon une valeur normale.</p><p>5. Homogénéité des variances (homoscédasticité).</p><p>Nous verrons ensuite que ces prémices incluent les hypothèses que doivent remplir les</p><p>populations pour réaliser et interpréter une analyse de la variance ANOVA.</p><p>7.5. COMPARAISON DE PLUS DE DEUX MOYENNES DE</p><p>POPULATION (ANOVA)</p><p>Bien que l'analyse de la variance (ANOVA) puisse aussi s'utiliser pour analyser les différences entre</p><p>les moyennes de deux populations, elle est une méthode plus générale qui permet les</p><p>comparaisons entre les moyennes de plus de deux groupes.</p><p>L'analyse de la variance ou ANOVA nous permettra de tester la différence entre au moins deux</p><p>moyennes1 , en examinant le quotient de variabilité entre deux conditions et de la variabilité à</p><p>l'intérieur de chaque condition.</p><p>Il est important de signaler que l'ANOVA sera valable si et seulement si :</p><p>• La variable réponse suit une distribution normale.</p><p>• L'hypothèse d'homoscédasticité ou égalité des variances est respectée.</p><p>• L'hypothèse de l'indépendance des groupes à comparer par rapport à la variable réponse</p><p>analysée est respectée.</p><p>Les hypothèses à comparer considèrent k situations expérimentales analysées sur une variable de</p><p>réponse Y.</p><p>H0 : 1 = 2 = 3 = L = k</p><p>H1 : au moins deux différentes</p><p>1. Dans l'ANOVA, on compare des moyennes, pas des variances.</p><p>108</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Où :</p><p>i = représentent les valeurs (i=1, 2,...k) moyennes de la variable de réponse Y, dans les k</p><p>situations expérimentales.</p><p>Au moment de formuler le critère de rejet de l'hypothèse nulle, on recourt à deux estimateurs</p><p>indépendants de la variance, connus comme carrés moyens des traitements (MSA ou MSB) et</p><p>carrés moyens de l'erreur (MSE), et qui sont comparés en termes de probabilités à l'aide</p><p>. . . . . . . . . . . 94</p><p>6.3.5.1. Contraste bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94</p><p>6.3.5.2. Contraste unilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95</p><p>7. Égalité statistique entre au moins deux population</p><p>7.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101</p><p>7.2. Comparaison de deux moyennes de la population . . . . . . . . . . . . . . . . . . . . . 101</p><p>7.2.1. Différence entre les moyennes à l'aide de la loi de distribution</p><p>normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101</p><p>7.2.2. Différence entre les moyennes à l'aide de la loi de t de Student . . . . 104</p><p>iii</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>7.3. Comparaison de deux variances de population . . . . . . . . . . . . . . . . . . . . . . . 105</p><p>7.4. Conditions nécessaires à la prise de décisions statistiques . . . . . . . . . . . . . . 108</p><p>7.5. Comparaison de plus de deux moyennes de population (ANOVA) . . . . . . . . 108</p><p>7.6. Comparaison de plus de deux variances de population . . . . . . . . . . . . . . . . 111</p><p>7.6.1. Test F du quotient maximal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112</p><p>8. Corrélation et régression</p><p>8.1. Variables corrélatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117</p><p>8.2. Diagrammes de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118</p><p>8.3. Le coefficient de corrélation linéaire de Pearson . . . . . . . . . . . . . . . . . . . . . . 121</p><p>8.3.1. Calcul de r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125</p><p>8.4. Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126</p><p>8.4.1. Modèle de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127</p><p>Bibliographie</p><p>iv</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Introduction</p><p>L'interprétation des décisions de direction dans des moments de doute et, celle des diverses</p><p>sciences en général, dépend en grande partie des méthodes statistiques. Il est donc nécessaire</p><p>pour les directeurs de se familiariser avec les raisonnements statistiques en les considérant</p><p>comme un outil de marketing de plus, de différenciation par rapport à la compétence.</p><p>La statistique s'utilise pour améliorer et optimiser les processus de production et ainsi économiser</p><p>du temps et de l'argent.</p><p>La statistique permet de corroborer les hypothèses avec un support mathématique aux</p><p>observations faites. Il s'agit d'une science de probabilités qui n'admet pas d'affirmations</p><p>catégoriques ou de négations fermes, celles-ci doivent en effet toujours avoir un niveau de</p><p>signification ou une marge d'erreur.</p><p>Le présent document répond au besoin de justifier les décisions de direction sur la base</p><p>d'informations fournies par des données qui, sont fréquemment rares Il s'agit en fait d'un</p><p>condensé de techniques pour la collecte et la présentation d'information, intervalles de confiance</p><p>et tests d'hypothèses.</p><p>Les étapes à suivre pour réaliser une expérience sont les suivantes :</p><p>• Exposé de l'hypothèse à vérifier.</p><p>• Définition des variables à étudier.</p><p>• Collecte et saisie des données (types d'échantillonnage).</p><p>• Choix de la méthode statistique la plus appropriée pour démontrer l'hypothèse de travail de</p><p>la meilleure manière possible.</p><p>Les objectifs et les contenus de chaque chapitre du présent manuel sont ici présentés :</p><p>1</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Chapitre Objectif particulier Résumé du chapitre Apport et résultat obtenu</p><p>Chapitre 1</p><p>Fournir aux</p><p>directeurs une série</p><p>de critères</p><p>statistiques pour la</p><p>prise de décisions</p><p>dans l'entreprise.</p><p>Introduction à la prise</p><p>de décisions.</p><p>Connaissance de la statistique</p><p>comme un outil différenciateur pour</p><p>se rapprocher des solutions aux</p><p>problèmes de l'entreprise.</p><p>Étapes de la prise de</p><p>décisions.</p><p>Représentation des étapes à suivre</p><p>pour la prise de décision face à un</p><p>problème précis.</p><p>Population et</p><p>échantillon.</p><p>Distinction entre population et</p><p>échantillon aléatoire.</p><p>Données et variables.</p><p>Connaissance des types de</p><p>variables existantes et les données</p><p>et catégories résultantes.</p><p>Chapitre 2</p><p>Analyser les formes</p><p>de représentation</p><p>des variables</p><p>qualitatives.</p><p>Distributions de</p><p>fréquences des</p><p>données classifiées.</p><p>Organisation des données</p><p>conformément aux normes de</p><p>comportement des différents</p><p>résultats obtenus.</p><p>Représentations</p><p>graphiques des</p><p>variables qualitatives.</p><p>Analyse graphique alternative des</p><p>normes de comportement des</p><p>données.</p><p>Chapitre 3</p><p>Analyser les formes</p><p>de représentation</p><p>des variables</p><p>quantitatives.</p><p>Variables discrètes et</p><p>variables continues.</p><p>Organisation des données</p><p>conformément aux normes de</p><p>comportement des différents</p><p>résultats obtenus.</p><p>Représentations</p><p>graphiques des</p><p>variables</p><p>quantitatives.</p><p>Autre analyse graphique des</p><p>normes de comportement des</p><p>données.</p><p>Chapitre 4</p><p>Décrire les</p><p>caractéristiques</p><p>d'une série de</p><p>données</p><p>correspondantes à</p><p>une population ou un</p><p>échantillon.</p><p>Statistiques de</p><p>tendance centrale et</p><p>de dispersion.</p><p>Réalisation de descriptions</p><p>concises d'un grand ensemble de</p><p>données difficiles à traiter à cause</p><p>de leur volume.</p><p>Chapitre 5</p><p>Acquérir les</p><p>connaissances</p><p>nécessaires au</p><p>calcul de probabilités</p><p>pour une utilisation</p><p>ultérieure dans les</p><p>moments de doute.</p><p>Distributions de</p><p>variable continue</p><p>(normale, test t de</p><p>Student, chi-carré).</p><p>Connaissance des fonctions de</p><p>distributions normale et le test t de</p><p>Student et leur rôle capital dans le</p><p>modelage statistique.</p><p>Distributions de</p><p>variable discrète</p><p>(binomiale).</p><p>Connaissance de la fonction de</p><p>probabilité binomiale dans la prise</p><p>de décisions dans les moments de</p><p>doute qui impliquent uniquement</p><p>deux résultats possibles.</p><p>2</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Chapitre 6</p><p>Utiliser les</p><p>connaissances</p><p>fondamentales</p><p>théoriques sur</p><p>l'estimation et les</p><p>contrastes</p><p>d'hypothèses, pour</p><p>la résolution pratique</p><p>de problèmes dans</p><p>l'entreprise.</p><p>Estimation des</p><p>paramètres.</p><p>Détermination d'estimations</p><p>ponctuelles et d'intervalles de</p><p>confiance pour les moyennes et les</p><p>proportions.</p><p>Contrastes</p><p>d'hypothèses.</p><p>Réalisation d'inférences sur la</p><p>population à partir d'un test</p><p>aléatoire par l'établissement de</p><p>l'hypothèse nulle.</p><p>Chapitre 7</p><p>Élaborer les</p><p>raisonnements</p><p>logiques pour le</p><p>choix du modèle le</p><p>plus adéquat à</p><p>l'heure de comparer</p><p>deux populations ou</p><p>plus.</p><p>Comparaison de deux</p><p>moyennes de</p><p>populations ou plus.</p><p>Analyse de l'existence ou de la</p><p>non-existence de différences</p><p>significatives entre diverses</p><p>populations par l'exposé de</p><p>l'hypothèse nulle.</p><p>Comparaison de deux</p><p>variances de</p><p>populations ou plus.</p><p>Analyse de l’homoscédasticité des</p><p>différentes populations comme</p><p>condition indispensable pour</p><p>l'application des statistiques.</p><p>Chapitre 8</p><p>Analyser la relation</p><p>entre deux variables</p><p>quantitatives ou</p><p>plus.</p><p>Corrélation.</p><p>Détermination du coefficient de</p><p>corrélation linéaire de Pearson de</p><p>deux variables quantitatives.</p><p>Régression linéaire</p><p>simple.</p><p>Établissement d'un modèle de</p><p>régression et estimation des</p><p>paramètres correspondants.</p><p>Chapitre Objectif particulier Résumé du chapitre Apport et résultat obtenu</p><p>3</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>4</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>1</p><p>Critère statistique pour la prise de</p><p>décisions</p><p>1.1. INTRODUCTION</p><p>Dans tout processus de prise de décisions, il est nécessaire d'obtenir les informations</p><p>susceptibles de confirmer nos investigations. Pour garantir la fiabilité des résultats, la collecte et</p><p>l'analyse de données doivent remplir certains critères, et être réalisées de manière objective.</p><p>Les outils statistiques permettent de collecter, d'analyser et d'interpréter de manière intelligente</p><p>les données pertinentes du processus de prise de</p><p>de la</p><p>distribution F de Snedecor.</p><p>Le MSA donne une idée de la variance entre les groupes tandis que le MSE est</p><p>un indicatif de la variance à l'intérieur des groupes.</p><p>Les MSA et MSE estiment la variance de population dans l'hypothèse selon laquelle les k</p><p>échantillons proviennent de la même population.</p><p>La distribution d'échantillonnage du quotient des deux estimations indépendantes de la variance</p><p>d'une population normale est une distribution F de Snedecor dont les degrés de liberté</p><p>correspondent au numérateur et au dénominateur, respectivement ; on peut donc comparer ladite</p><p>hypothèse en utilisant cette distribution.</p><p>Si en fonction de ce contraste, on rejette l'hypothèse selon laquelle MSE et MSA estiment la même</p><p>variance, on peut rejeter l'hypothèse selon laquelle les k moyennes proviennent d'une même</p><p>population.</p><p>Les résultats d'une ANOVA sont généralement représenter dans le tableau 7.1.</p><p>Tableau 7.1: Tableau ANOVA.</p><p>Il est fondamental de préciser que pour le contraste d'hypothèses basé sur la F de Snedecor, ou</p><p>égalité des moyennes, il faut que tous les échantillons proviennent d'une population ayant la</p><p>même variance 2, dont MSE et MSA sont des estimateurs. Par conséquent, il s'avère nécessaire</p><p>de le vérifier avant de réaliser le contraste.</p><p>Sources de variation g.l</p><p>Somme des</p><p>carrés SS</p><p>Moyenne</p><p>quadratique MS</p><p>F</p><p>Entre groupes</p><p>Traitement</p><p>k-1 SSA SSA/(k-1) MSA/MSE</p><p>À l’intérieur de groupes</p><p>Erreur</p><p>k·(n-1) SSE SSE/k(n-1)</p><p>Total kn-1 SST</p><p>109</p><p>Égalité statistique entre au moins deux populations</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>En principe, l'analyse de la variance ne peut pas être réalisée si les échantillons</p><p>ne sont pas homoscédastiques. En revanche, il existe des solutions de secours</p><p>dans ces cas.</p><p>EXEMPLE</p><p>Dans une expérience déterminée, on est parvenu aux conclusions du tableau suivant :</p><p>Il s'agirait de vérifier s'il existe des différences significatives entre les populations. Par</p><p>conséquent, nous définirions l'hypothèse nulle comme toujours, c'est-à-dire en partant du</p><p>principe qu'il n'existe pas de différences entre les populations :</p><p>H0 : 1 = 2 = 3</p><p>H1 : au moins deux des moyennes diffèrent</p><p>Pour remplir le tableau ANOVA, nous devons calculer la Somme des carrés entre les groupes</p><p>SSA et à l'intérieur des groupes SSE.</p><p>Calcul de SSA</p><p>On calcule la SSA en faisant en sorte que toutes les valeurs acquièrent la valeur qu'elles</p><p>auraient si on soustrayait à leurs moyennes respectives (en valeur absolue) la magnitude de</p><p>la moyenne principale.</p><p>Échantillon Somme Moyenne</p><p>Population 1 2 3 1 3 1 10 2</p><p>Population 2 3 4 3 5 0 15 3</p><p>Population 3 5 5 5 3 2 20 4</p><p>Moyenne principale 3</p><p>Échantillon Somme</p><p>Population 1 1 1 1 1 1 5</p><p>Population 2 0 0 0 0 0 0</p><p>Population 3 1 1 1 1 1 5</p><p>Total SSA 10</p><p>110</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Calcul de SSE</p><p>On la calcule en soustrayant à chacune des valeurs sa moyenne respective du groupe et en</p><p>l'élevant au carré.</p><p>Tableau ANOVA</p><p>Considérant une valeur de signification de  = 0,05, avec 2 g.l. au numérateur et 12 g.l. au</p><p>dénominateur, la valeur critique obtenue2 est F0,05 ; 2</p><p>Dès lors que 2,30 < 3,89, il n'existe pas de preuves suffisantes pour rejeter l'hypothèse</p><p>nulle, en acceptant qu'il n'existe pas de différence entre les moyennes des populations.</p><p>7.6. COMPARAISON DE PLUS DE DEUX VARIANCES DE</p><p>POPULATION</p><p>Comme nous l'avons vu, pour vérifier l'homoscédasticité (égalité des variances) de deux</p><p>populations, on peut utiliser la F de Snedecor ; en revanche, si nous parlons de plus de deux</p><p>populations, la F de Snedecor (loi de Fisher) est inutile et il faut recourir à d'autres méthodes telles</p><p>que le test de Bartlett, Cochran et le test F du quotient maximal.</p><p>Échantillon Somme</p><p>Population 1 0 1 1 1 1 4</p><p>Population 2 0 1 0 4 9 14</p><p>Population 3 1 1 1 1 4 8</p><p>Total SSE 26</p><p>Sources de variation g.l Somme des carrés SS Moyenne quadratique MS F</p><p>Entre groupes</p><p>Traitement</p><p>2 10 5 2,30</p><p>À l’intérieur des groupes</p><p>Erreur</p><p>12 26 2,17</p><p>Total 14 36</p><p>2. Les tableaux de la loi de Fisher peuvent être consultés dans l'appendice.</p><p>111</p><p>Égalité statistique entre au moins deux populations</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>7.6.1. TEST F DU QUOTIENT MAXIMAL</p><p>Ce test statistique qui n'a rien à voir avec la loi de Fisher, est utilisé pour soumettre à épreuve</p><p>l'hypothèse suivant :</p><p>2 2 2</p><p>H0 : 1 = 2 = 3</p><p>Le procédé est le suivant :</p><p>a) Trouver la variance la plus grande et la plus petite de tous les groupes à comparer.</p><p>b) Calculer la raison de ces variances (Fmax. observée).</p><p>c) Choisir une erreur () acceptable à commettre, normalement 0,05.</p><p>d) Le test suppose que tous les groupes à comparer sont de la même taille. Si les groupes</p><p>sont différents, il faut utiliser le groupe ayant la taille d'échantillon la plus petite (n) pour</p><p>calculer les degrés de liberté.</p><p>e) Regarder dans le tableau de distribution accumulée de Fmax. théorique les valeurs de</p><p>probabilité avec a groupes et n-1 degrés de liberté. Ces valeurs ont été calculées selon</p><p>l'hypothèse que les variances sont homogènes.</p><p>f) Si Fmax. observée > Fmax. théorique avec  = 0,05, alors on rejette l'hypothèse nulle de</p><p>l'homogénéité des variances, c'est-à-dire qu'il existe une hétérogénéité des variances.</p><p>EXEMPLE</p><p>On suspecte qu'il a été versé dans une exploitation porcine une quantité indéterminée de</p><p>purin dans un lac. Le gérant de l'exploitation assure qu'il n'y a eu aucune filtration. Pour</p><p>tenter de vérifier ladite suspicion, l'administration réalise des mesures des niveaux de</p><p>nitrates en différents points du lac, et obtient les valeurs suivantes :</p><p>Ensuite, on prend des échantillons de nitrates en différents points des trois autres lacs non</p><p>contaminés, on obtient alors les résultats suivants :</p><p>Les valeurs obtenues dans le lac où le déversement s'est peut-être produit paraissent plus</p><p>élevées que celles obtenues dans les trois autres lacs. Cette différence est-elle considérée</p><p>comme suffisamment importante pour conclure que le niveau des nitrates du lac 1 est</p><p>différent de celui des autres et donc qu'il est contaminé ?</p><p>Lac 1 7,1 8,5 6,2 7,3 7,9</p><p>Lac 2 7,2 6,5 5,9 7,8 ---</p><p>Lac 3 5,6 7,1 6,3 6,7 6,5</p><p>Lac 4 7,2 6,6 6,3 7.+,4 ---</p><p>112</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Voici un problème digne d'ANOVA. En revanche, ce qui nous intéresse ici est de vérifier</p><p>l'homogénéité des variances via le test Fmax.</p><p>On déduit du tableau que la variance la plus grande est de 0,6, tandis que la plus petite est</p><p>de 0,1969. Par conséquent :</p><p>Étant donné que pour 3 degrés de liberté avec  = 0,05, la valeur Fmax. critique = 6,6 > 3,047</p><p>on accepterait l'hypothèse nulle d'homogénéité des variances.</p><p>Groupes SXi SX2i Xi ni S2i</p><p>Lac 1 37 276,8 7,4 5 0,6</p><p>Lac 2 27,4 189,74 6,85 4 0,5125</p><p>Lac 3 32,2 208,6 6,44 5 0,2464</p><p>Lac 4 27,5 189,85 6,875 4 0,1969</p><p>Totaux 124,1 864,99 Xt=6,894 18 S2t=0,522</p><p>113</p><p>Égalité statistique entre au moins deux populations</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>114</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Résumé</p><p>115</p><p>Égalité statistique entre au moins deux populations</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>116</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>8</p><p>Corrélation et régression</p><p>8.1. VARIABLES CORRÉLATIVES</p><p>Nous posons que deux variables, X et Y, sont positivement corrélées lorsqu'elles suivent une</p><p>même tendance, c'est-à-dire quand à de petits éléments de X correspondent des petits éléments</p><p>de Y, tandis qu'a de grands éléments de X tendent à correspondre de grands éléments de Y.</p><p>À l'inverse, on dit qu'elles sont corrélées de manière négative quand la tendance est l'inverse,</p><p>c'est-à-dire quand à de petits éléments de X tendent à correspondre de grandes valeurs de Y,</p><p>tandis qu'à de grands éléments de X correspondent de petites valeurs de Y.</p><p>Par exemple, les variables poids-taille, sont généralement corrélées de manière positive, car la</p><p>majorité des individus de grande taille ont généralement un poids élevé, tandis que la plupart des</p><p>personnes de taille plus petite ont un poids moindre. Par ailleurs,</p><p>dans certains pays, les variables</p><p>revenu familial et nombre de personnes composant la famille sont souvent corrélées de manière</p><p>négative, car les familles aux bas revenus tendent à avoir un plus grand nombre d'enfants que</p><p>ceux au revenu élevé.</p><p>Tout au long de ce chapitre, on illustrera l'étude de la corrélation entre deux variables en utilisant</p><p>les données du tableau 8.1, relatives à certains indicateurs sociaux d'un échantillon de villes du</p><p>Brésil1 .</p><p>1. On utilise un échantillon assez petit pour illustrer les techniques. On pourrait procéder à une étude plus détaillée en</p><p>prenant toute la population de chacun des villes, car ces données sont disponibles dans le recensement</p><p>démographique de 2000 inclus dans l'atlas de développement humain</p><p>(http://www.pnud.org.br/atlas).</p><p>117</p><p>http://www.pnud.org.br/atlas</p><p>Corrélation et régression</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Tableau 8.1: Quelques données fondées sur le recensement démographique de 2000, sur un</p><p>échantillon aléatoire de villes brésiliennes2.</p><p>8.2. DIAGRAMMES DE DISPERSION</p><p>Una manière de visualiser le type de corrélation entre deux variables est d'utiliser le diagramme de</p><p>dispersion, dans lequel les valeurs des variables sont représentées par des points dans un</p><p>système cartésien.</p><p>La représentation se réalise sous la forme de paires ordonnées (x,y) où “x” est la valeur d'une</p><p>variable et “y” correspond à la valeur de l'autre variable.</p><p>La figure 8.1 illustre la construction d'un diagramme de dispersion.</p><p>2. Source : Atlas de développement humain (http://www.pnud.org.br/atlas).</p><p>Ville</p><p>Dista.</p><p>capital</p><p>a) Distance jusqu'à la capitale de l'Unité de Fédération respective.</p><p>Espérance</p><p>de vie à la</p><p>naissance</p><p>Mortalité</p><p>infantileb</p><p>b) Nombre de décès moyens par mille naissances jusqu'aux 12 mois.</p><p>Taux</p><p>d’alphabétisationc</p><p>c) Taux d'alphabétisation (pourcentage de population adulte alphabétisée).</p><p>Revenu par</p><p>habitant ($)</p><p>Araruna (PR)</p><p>Nova Redenção (BA)</p><p>Monção (MA)</p><p>Porto Rico do Maranhão (MA)</p><p>Campo Erê (SC)</p><p>Lagoa do Piauí (PI)</p><p>São José das Palmeiras (PR)</p><p>Paraíba do Sul (RJ)</p><p>Malhada dos Bois (SE)</p><p>Jandaíra (BA)</p><p>Vespasiano (MG)</p><p>Ipaba (MG)</p><p>365</p><p>278</p><p>150</p><p>78</p><p>468</p><p>40</p><p>486</p><p>83</p><p>65</p><p>175</p><p>14</p><p>167</p><p>67,99</p><p>61,19</p><p>59,58</p><p>58,96</p><p>68,10</p><p>63,65</p><p>71,01</p><p>71,36</p><p>64,46</p><p>62,45</p><p>68,68</p><p>67,42</p><p>23,19</p><p>56,56</p><p>63,32</p><p>66,05</p><p>31,71</p><p>47,08</p><p>16,62</p><p>15,69</p><p>44,18</p><p>51,57</p><p>32,81</p><p>37,04</p><p>86,23</p><p>63,00</p><p>63,64</p><p>79,33</p><p>83,38</p><p>65,81</p><p>77,54</p><p>89,28</p><p>69,95</p><p>59,72</p><p>90,43</p><p>81,82</p><p>188,29</p><p>74,79</p><p>66,96</p><p>65,34</p><p>173,38</p><p>60,00</p><p>150,67</p><p>264,55</p><p>80,69</p><p>58,68</p><p>196,51</p><p>125,75</p><p>118</p><p>http://www.pnud.org.br/atlas</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 8.1. Construction d'un diagramme de dispersion. Représentation des trois premières</p><p>observations de X (distance jusqu'à la capitale) et de Y (espérance de vie à la naissance) se référant</p><p>aux données du tableau 8.1.</p><p>La figure 8.2 montre quatre diagrammes de dispersion associant certaines variables du tableau</p><p>8.1 avec d'autres. Le lecteur doit remarquer que chaque paire observée se rapporte à un même</p><p>élément (ville).</p><p>Figure 8.2. Diagrammes de dispersion construits à partir des données du tableau 8.1.</p><p>119</p><p>Corrélation et régression</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Le diagramme (b) de la figure 8.2 montre une situation de corrélation positive, car les points se</p><p>situent autour d'une ligne imaginaire ascendante. En général, de petites valeurs d'une variable le</p><p>sont aussi pour une autre, et le même phénomène se produit pour les grandes valeurs.</p><p>Les diagrammes (a) et (c) affichent des corrélations négatives car dans les deux cas, les points se</p><p>situent autour d'une ligne imaginaire descendante. Généralement, les petites valeurs d'une</p><p>variable correspondent aux grandes de l'autre. Dans le diagramme (c), les points apparaissent</p><p>plus proches d'une ligne descendante que sur le diagramme (a), ce qui caractérise une corrélation</p><p>plus forte.</p><p>Sur le diagramme (d), on ne voit apparaître aucune corrélation, car les petites (ou grandes) valeurs</p><p>d'une variable sont associés tant à des petites qu'à des grandes valeurs d'une autre. Dans ce cas,</p><p>les points ne se positionnent autour d'aucune ligne ascendante ou descendante.</p><p>La figure 8.3 affiche un ensemble de points qui ressemble davantage à une parabole qu'à une</p><p>ligne droite, illustrant un cas de corrélation non linéaire. L'interprétation des corrélations non</p><p>linéaires est plus difficile et ce document ne prétend pas effectuer cette interprétation.</p><p>Figure 8.3. Diagramme de dispersion d'un exemple hypothétique de corrélation non linéaire.</p><p>Il est important de souligner que le concept de corrélation se rapporte à une association</p><p>numérique entre deux variables, sans impliquer, nécessairement, une relation de cause à effet. Si</p><p>l'on prend par exemple les variables population en Argentine et vente de bière au Brésil lors de ces</p><p>deux dernières années, on observe qu'elles sont corrélées de manière positive, car elles ont toutes</p><p>deux augmenté au fil du temps. En réalité, en termes pratiques, cette corrélation est fausse car</p><p>elle n'apporte aucune information pertinente.</p><p>L'analyse destinée à vérifier les corrélations se réalise habituellement en termes exploratoires</p><p>comme élément auxiliaire à l'intérieur d'un problème d'étude ; c'est-à-dire l'étude de la corrélation</p><p>numérique entre les observations de deux variables est généralement un pas intermédiaire de</p><p>l'analyse d'un problème.</p><p>120</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>8.3. LE COEFFICIENT DE CORRÉLATION LINÉAIRE DE</p><p>PEARSON</p><p>Le coefficient de corrélation linéaire de Pearson est approprié pour découvrir la corrélation linéaire</p><p>de deux variables quantitatives.</p><p>La valeur du coefficient de corrélation doit être indépendante de l'unité de mesure des données.</p><p>Par exemple, le coefficient de corrélation entre les variables poids et taille doit avoir la même</p><p>valeur indépendamment de si le poids est mesuré en grammes ou en kilogrammes et si la taille</p><p>est mesurée en mètres ou en centimètres.</p><p>Afin d'éviter l'influence des unités de mesure, il faut procéder à un changement de variable</p><p>(typifier) tel que :</p><p>Où :</p><p>x’ = valeur centrée réduite que prend une valeur de la variable X.</p><p>y’ = valeur centrée réduite que prend une valeur de la variable Y.</p><p>X = moyenne des données de la variable X.</p><p>Y = moyenne des données de la variable Y.</p><p>Sx = écart type des données de la variable X.</p><p>Sy = écart type des données de la variable Y.</p><p>Le coefficient de corrélation linéaire de Pearson, r, se définit par l'expression suivante, en termes</p><p>de valeurs centrées réduites :</p><p>où :</p><p>r = coefficient de corrélation linéaire de Pearson.</p><p>n = taille de l'échantillon, en d'autres termes, nombre de paires (x,y).</p><p> (x' y') est la somme des produits x'  y' des paires de valeurs centrées réduites.</p><p>121</p><p>Corrélation et régression</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>EXEMPLE DE CORRÉLATION POSITIVE</p><p>Le tableau 8.2 fournit un ensemble de données hypothétiques et centrées réduites.</p><p>Tableau 8.2: Ensemble de valeurs hypothétiques et centrées réduites.</p><p>La figure 8.4 illustre la disposition des valeurs originales et centrées réduites sur des axes</p><p>cartésiens.</p><p>Figure 8.4. Diagrammes de dispersion des valeurs originales et centrées réduites.</p><p>Quand on travaille avec des données corrélées de manière positive, comme c'est le cas pour</p><p>l'exemple, les paires (x', y') tendent à avoir le même signe (+ ou -), surtout pour les points se</p><p>situant loin de l'origine. Dans ce sens, comme le montre le tableau 8.2, les produits x'·y' sont</p><p>de signe positif.</p><p>Par conséquent, le coefficient de corrélation r sera positif :</p><p>Valeurs originales Valeurs centrées réduites Produits</p><p>x y x’ y’ x’y’</p><p>2</p><p>3</p><p>4</p><p>5</p><p>5</p><p>6</p><p>7</p><p>8</p><p>4</p><p>7</p><p>9</p><p>10</p><p>11</p><p>11</p><p>13</p><p>15</p><p>-1,50</p><p>-1,00</p><p>-0,50</p><p>0,00</p><p>0,00</p><p>0,50</p><p>1,00</p><p>1,50</p><p>-.175</p><p>-0,88</p><p>-0,29</p><p>0,00</p><p>0,29</p><p>0,29</p><p>0,88</p><p>1,46</p><p>2,63</p><p>0,88</p><p>0,15</p><p>0,00</p><p>0,00</p><p>0,15</p><p>0,88</p><p>2,19</p><p>40 80 0,00 0,00 6,87 Somme</p><p>5,00 10,00 0,00 0,00 Moyenne</p><p>2,00 3,42 1,00 1,00 Écart type</p><p>122</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>EXEMPLE DE CORRÉLATION NÉGATIVE</p><p>Le tableau 8.3 fournit un ensemble de données hypothétiques et centrées</p><p>réduites.</p><p>Tableau 8.3: Ensemble de valeurs hypothétiques et centrées réduites.</p><p>La figure 8.5 illustre la disposition des valeurs originales et centrées réduites sur des axes</p><p>cartésiens.</p><p>Figure 8.5. Diagrammes de dispersion des valeurs originales et centrées réduites.</p><p>Valeurs originales Valeurs centrées réduites Produits</p><p>x y x’ y’ x’y’</p><p>2</p><p>3</p><p>4</p><p>5</p><p>5</p><p>6</p><p>7</p><p>8</p><p>16</p><p>13</p><p>11</p><p>10</p><p>9</p><p>9</p><p>7</p><p>5</p><p>-1,50</p><p>-1,00</p><p>-0,50</p><p>0,00</p><p>0,00</p><p>0,50</p><p>1,00</p><p>1,50</p><p>1,75</p><p>0,88</p><p>0,29</p><p>0,00</p><p>-0,29</p><p>-0,29</p><p>-0,88</p><p>-1,46</p><p>-2,63</p><p>-0,88</p><p>-0,15</p><p>0,00</p><p>0,00</p><p>-0,15</p><p>-0,88</p><p>-2,19</p><p>40 80 0,00 0,00 -6,87 Somme</p><p>5,00 10,00 0,00 0,00 Moyenne</p><p>2,00 3,42 1,00 100 Écart type</p><p>123</p><p>Corrélation et régression</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Dans cet exemple, le coefficient r est négatif parce que les paires de valeurs (x', y') ont</p><p>généralement des signes différents, surtout pour les points qui sont éloignés de l'origine. La</p><p>conséquence est que les produits x'  y' ont un signe négatif, et donc r aussi.</p><p>On observe sur la figure 8.5 une plus grande concentration de points dans les cadres II et IV</p><p>(où x et y ont des signes opposés), avec pour conséquence une valeur négative de r.</p><p>En définitive, on déduit des deux exemples que si les points se concentrent dans les cadres I et III</p><p>(figure 8.6), la corrélation est positive, tandis que s'ils le font dans les cadres II et IV, elle est</p><p>négative. Si les points se distribuaient de manière plus ou moins égale dans tous les cadres, les</p><p>données ne seraient pas corrélées et la somme des produits positifs et négatifs serait proche de</p><p>zéro.</p><p>Figure 8.6. Cadres dans lesquels se divisent les axes cartésiens.</p><p>Pour tout ensemble de données, la valeur du coefficient de corrélation de Pearson r, se trouvera</p><p>dans l'intervalle de -1 à 1. Plus la corrélation des données observées est forte, plus la valeur du</p><p>coefficient sera proche de 1 (ou de -1).</p><p>La valeur de r = 1 devrait être atteinte lorsque les points sont parfaitement placés sur une ligne</p><p>droite ascendante (corrélation positive parfaite, tandis que la valeur de r=-1 serait atteinte dans le</p><p>cas où les points seraient parfaitement placés sur une ligne droite descendante (corrélation</p><p>négative parfaite). S'il n'existe pas de corrélation, la valeur r tendrait à une valeur proche de zéro.</p><p>124</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 8.7. Niveau de corrélation en fonction de la valeur de r.</p><p>8.3.1. CALCUL DE R</p><p>Le calcul du coefficient de corrélation r présenté précédemment a pour inconvénient qu'il intègre</p><p>certaines erreurs dues à l'arrondissement, car normalement les valeurs de la moyenne et de</p><p>ll'écart type ne sont pas des nombres entiers. Dans ce contexte, nous suggérons l'utilisation de la</p><p>formule suivante fondée sur les observations originales :</p><p>Pour illustrer cette expression, nous allons reproduire l'exemple de corrélation linéaire positive vue</p><p>précédemment :</p><p>Comme cela était prévisible, la valeur est la même car les formules sont mathématiquement</p><p>équivalentes.</p><p>125</p><p>Corrélation et régression</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>8.4. RÉGRESSION LINÉAIRE SIMPLE</p><p>Le terme régression apparaît à la fin du XIXe siècle grâce aux travaux de Galton. Lesdits travaux</p><p>tentaient d'expliquer certaines caractéristiques d'un individu à partir des caractéristiques de ses</p><p>proches. Par exemple, Galton affirmait que les enfants de parents ayant une caractéristique</p><p>déterminée la possédaient également, bien qu'avec en moyenne moins d'intensité que ces</p><p>derniers.</p><p>Les études de Galton se fondaient sur des observations empiriques. Dans l'un de ces travaux, il</p><p>associa des centaines de tailles d'individus aux tailles respectives de leurs parents (tableau 8.4).</p><p>Tableau 8.4: Relation entre les tailles de certains individus (Y) et les tailles moyennes de leurs parents</p><p>(X), mesurées en centimètres. Source : Stigler (1986, p. 286)3.</p><p>Sur la figure 8.8, on représente un diagramme de dispersion avec les observations du tableau 8.4</p><p>indiquant une corrélation positive, comme on pouvait s'y attendre.</p><p>Figure 8.8. Diagramme de dispersion des données.</p><p>3. Stigler, S. M. The history of statistics: the mesurement of uncertainty before 1900. USA, Harward, 1986.</p><p>X Y X Y X Y X Y</p><p>164</p><p>166</p><p>169</p><p>171</p><p>173</p><p>176</p><p>166</p><p>171</p><p>171</p><p>171</p><p>171</p><p>173</p><p>164</p><p>166</p><p>169</p><p>171</p><p>173</p><p>176</p><p>168</p><p>173</p><p>173</p><p>173</p><p>176</p><p>176</p><p>166</p><p>169</p><p>171</p><p>171</p><p>173</p><p>178</p><p>166</p><p>166</p><p>166</p><p>176</p><p>178</p><p>176</p><p>166</p><p>169</p><p>171</p><p>173</p><p>176</p><p>176</p><p>168</p><p>168</p><p>168</p><p>168</p><p>171</p><p>178</p><p>126</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Si nous tracions une ligne droite ascendante passant par le nuage de points, nous observerions</p><p>une tendance à ce que les enfants de parents de grande taille aient des tailles inférieures à la</p><p>moyenne de leurs parents, tandis que les enfants de parents de petite taille ont des tailles</p><p>supérieures à la moyenne des tailles de leurs deux parents.</p><p>Cet exemple se distingue des exemples antérieurs car il suppose une relation de causalité entre Y</p><p>et Y, décrite dans les termes d'une relation mathématique. Il s'agit de la différence basique entre</p><p>une étude de corrélation et une analyse de régression. L'application d'une analyse de régression</p><p>se réalise sur un référentiel théorique justifiant une relation mathématique de causalité.</p><p>8.4.1. MODÈLE DE RÉGRESSION</p><p>Le modèle statistique-mathématique de régression, dans sa formulation la plus simple, associe</p><p>une variable Y, dite dépendante, à une autre variable X, dite indépendante (tableau 8.5).</p><p>Tableau 8.5: Diverses applications du modèle de régression linéaire simple.</p><p>Conformément à l'étude des corrélations, l'analyse de régression fait aussi partie d'un ensemble</p><p>d'observations appariées (x,y), relatives aux variables X et Y. Nous dirons qu'une valeur y dépend</p><p>dans une certaine mesure de la valeur correspondante de x. Par exemple, la taille d'un individu (y)</p><p>dépend en partie de la taille moyenne de ses parents (x).</p><p>Nous simplifierons cette dépendance par une relation linéaire entre X et Y, tel que :</p><p>y =  + , X</p><p>Si nous établissons des valeurs pour a et b, l'équation y = a + bx correspond à l'équation d'une</p><p>droite. Par exemple, si a = 1 et b = 2, l'équation y = 1 + 2x représente une droite sur des axes</p><p>cartésiens (figure 8.9).</p><p>Variable indépendante, X ? Variable dépendante, Y</p><p>Revenu  Consommation ($)</p><p>Dépense ou contrôle de qualité ($)  Nombre de produits défectueux</p><p>Mémoire RAM de l’ordinateur (gb)  Temps de réponse du système (secondes)</p><p>Zone construite (m2)  Prix ($)</p><p>127</p><p>Corrélation et régression</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 8.9. Représentation graphique de l'équation y = 1 + 2x.</p><p>Cependant, si nous observons un ensemble de valeurs (x,y), nous vérifierons qu'en général les</p><p>points ne se situent pas exactement sur une droite, mais qu'ils fluctuent autour d'une droite</p><p>imaginaire. Dans ces conditions, le modèle le plus adéquat serait le suivant :</p><p>y =  + x + </p><p>Où :</p><p> + x = représente la partie structurelle.</p><p> = représente l'effet aléatoire, c'est-à-dire l'effet de l'infinité de facteurs qui affectent une</p><p>observation de manière aléatoire. Par exemple, la taille d'un individu (y) ne dépend pas</p><p>seulement de la taille moyenne de ses parents (x), mais aussi de son alimentation, du</p><p>génotype de ses ancêtres et d'une infinité d'autres facteurs représentés dans le modèle</p><p>par cette lettre.</p><p>8.4.1.1. Estimation des paramètres  et </p><p>L'idée fondamentale de la construction de la partie structurelle du modèle, supposément linéaire,</p><p>est de trouver une droite qui passe le plus près possible des points observés.</p><p>Cette droite est représentée de la manière suivante :</p><p>et on l'appellera droite de régression ou équation de régression (figure 8.10).</p><p>128</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 8.10. Représentation de l'équation de régression de l'exemple.</p><p>Les valeurs de a et de b sont déterminées à travers ladite méthode des moindres carrés4 :</p><p>Où :</p><p>n = nombre de paires (x,y) observées (taille de l'échantillon).</p><p> (X  Y) = somme des produits x  y.</p><p>X = somme des valeurs observées de la variable X.</p><p>Y = somme des valeurs observées de la variable Y.</p><p>X2 =</p><p>somme des carrés des valeurs de X.</p><p>En suivant le même exemple, voici ci-dessous l'équation de régression selon les observations de</p><p>taille moyenne des parents (X) et la taille des enfants (Y), extraites du tableau 8.4.</p><p>Le tableau 8.6 affiche les calculs des sommes.</p><p>4. L'obtention de l'équation de régression par la méthode des moindres carrés consiste à faire en sorte que la somme</p><p>quadratique des effets aléatoires, E</p><p>2, soit la plus petite possible. La solution de ce problème mathématique</p><p>génère les expressions de a et b citées.</p><p>129</p><p>Corrélation et régression</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Tableau 8.6: Partie des observations du tableau 8.4 et calculs intermédiaires pour l'obtention de la</p><p>droite de régression.</p><p>Ainsi, on obtient la droite de régression :</p><p>Afin de tracer la droite de régression dans le plan formé par les axes X et Y, il suffit de donner</p><p>quelques valeurs respectées (figure 8.11).</p><p>Données Calculs intermédiaires</p><p>X Y X2 X.Y</p><p>164 166 26,896 27,224</p><p>166 166 27,556 27,556</p><p>169 171 28,561 28,899</p><p>169 166 28,561 28,054</p><p>171 171 29,241 29,241</p><p>173 171 29,929 29,583</p><p>173 178 29,929 30,794</p><p>176 173 30,976 30,448</p><p>178 178 31,684 31,684</p><p>X = 1,539 Y = 1,540 X2 = 263,333 (X.Y) = 263,483</p><p>130</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 8.11. Diagramme de dispersion des données et droite de régression ajustée.</p><p>En référence aux neuf individus observés, on peut prévoir la taille d'un enfant ( ), à partir de la</p><p>taille moyenne de ses parents, x, grâce à l'équation : = 22 + (0,872) x. Par exemple, pour une</p><p>taille moyenne des parents de x = 175 cm, la taille estimée de l'enfant sera :</p><p>= 22 + (0,872) . (175) = 174 cm.</p><p>Le coefficient b, qui est dans notre cas de 0,872, estime la variation attendue de Y à partir de la</p><p>variation d'une unité de X. Ce coefficient indique une corrélation positive entre les variables X et Y,</p><p>pour les neuf individus de l'étude.</p><p>131</p><p>Corrélation et régression</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>132</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Résumé</p><p>133</p><p>Corrélation et régression</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>134</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Bibliographie</p><p>[1] Barbetta, P. A. (2005). Estadística Aplicada a las Ciencias Sociales. 5e éd. UFSC.</p><p>Florianópolis, Brésil.</p><p>[2] Bartolomé, A. (1989). Estadística, 2ª Curso de Formación Profesional, 4. Edebé.</p><p>Barcelone.</p><p>[3] Bussab, W. O. et Morettin, P. A. (2002). Estadística básica. 5e éd. Colección Métodos</p><p>Cuantitativos. Saraiva. São Paulo, Brésil.</p><p>[4] Levine, D. M., Berenson, M. L. et Stephan, D. (2000). Estadística: teoría y aplicaciones</p><p>usando Excel. LTC. Rio de Janeiro, Brésil.</p><p>[5] Mendenhall, N. (1985). Probabilidades y estadística, 1 y 2. Campos. Rio de Janeiro,</p><p>Brésil.</p><p>[6] Selltiz, Wrightsman, Cook. (1987). Métodos de investigación en las relaciones sociales.</p><p>4e éd. EPU. São Paulo, Brésil.</p><p>[7] Stevenson, W. J. (1981). Estadística aplicada a la administración. Harbra. São Paulo,</p><p>Brésil.</p><p>[8] Stigler, S. M. (1986). The history of statistics: the measurement of uncertainty before</p><p>1900. Harvard University Press. Cambridge, MA.</p><p>[9] Triola, M. F. (1999). Introducción a la estadística. LTC. Rio de Janeiro, Brésil.</p><p>Pages web consultées</p><p>[10] Arsham, Hossein. Razonamiento estadístico para la toma de decisiones gerenciales [en</p><p>ligne]. 2004. Lien Web :</p><p>http://home.ubalt.edu/ntsbarsh/business-stat/opre504s.htm</p><p>[11] Descartes 2D. Estadística [en ligne]. Idée de María José García Cebrian, adaptée par</p><p>María Vicenta Cabalgante Perera. [Madrid] : Ministère de l'Éducation et de la Science,</p><p>2003. Lien Web : http://recursostic.educacion.es/descartes/web/materiales_didactic</p><p>os/iniciacion_estadististica_fjgarcia/FGG990_UD.htm</p><p>[12] López, Jesús. Aula virtual de Bioestadística [en ligne]. [Madrid] : Universidad</p><p>Complutense de Madrid, Faculté de Biologie, Département de Mathématiques</p><p>appliquées. Biomathématique, novembre 2004. Lien Web :</p><p>http://e-stadistica.bio.ucm.es/</p><p>[13] Martínez, Omar. Análisis de la varianza [en ligne]. Ilustrados.com. Lien Web :</p><p>http://www.ilustrados.com/publicaciones/EpyAlEyluZqETutecT.php</p><p>[14] Material docente de la unidad de bioestadística clínica [en ligne]. [Madrid] : Hôpital</p><p>Ramón y Cajal, 1996. Lien Web : http://www.hrc.es/bioest/M_docente.html</p><p>135</p><p>http://home.ubalt.edu/ntsbarsh/business-stat/opre504s.htm</p><p>http://recursostic.educacion.es/descartes/web/materiales_didacticos/iniciacion_estadististica_fjgarcia/FGG990_UD.htm</p><p>http://recursostic.educacion.es/descartes/web/materiales_didacticos/iniciacion_estadististica_fjgarcia/FGG990_UD.htm</p><p>http://e-stadistica.bio.ucm.es/</p><p>http://www.ilustrados.com/publicaciones/EpyAlEyluZqETutecT.php</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>[15] Miranda, Ileana. La estadística del agropecuario. 10 preguntas 10 respuestas. [en</p><p>ligne]. Monografías.com. Lien Web : http://www.monografias.com/ trabajos19/estadis</p><p>tica-agropecuario/estadistica-agropecuario.shtml</p><p>[16] Monge, Juan Francisco. Estadística no paramétrica: prueba Chi-cuadrado [en línea].</p><p>Dans : Proyecto e-math. Estadística Básica. UOC, 15 juillet 2003. Lien Web :</p><p>http://www.uoc.edu/in3/e-math/</p><p>[17] Velasco, Roberto J. Estadística inferencial [en ligne]. Ensayo para la licenciatura en</p><p>psicología. Mexique. Lien Web : https://www.itescam.edu.mx/portal/asignatura.php?</p><p>clave_asig=SCC-0424&carrera=ISC0405001&id_d=9</p><p>136</p><p>https://www.itescam.edu.mx/portal/asignatura.php?clave_asig=SCC-0424&carrera=ISC0405001&id_d=9</p><p>https://www.itescam.edu.mx/portal/asignatura.php?clave_asig=SCC-0424&carrera=ISC0405001&id_d=9</p><p>http://www.monografias.com/ trabajos19/estadistica-agropecuario/estadistica-agropecuario.shtml</p><p>http://www.monografias.com/ trabajos19/estadistica-agropecuario/estadistica-agropecuario.shtml</p><p>http://www.uoc.edu/in3/e-math/</p><p>décisions. Par conséquent, pour une bonne</p><p>utilisation des résultats statistiques, il est essentiel que le directeur connaisse les principes de</p><p>base des techniques utilisées.</p><p>Les directeurs et les professionnels en général, veulent justifier leurs décisions en</p><p>se fondant sur les informations fournies par les données.</p><p>Les statistiques permettent de prendre des décisions dans les moments de doute, de prévoir avec</p><p>efficacité les normes de comportement des variables et, en définitive, de créer des modèles sur</p><p>lesquels fonder lesdites décisions.</p><p>Les modèles statistiques (à savoir l'analyse de régression) sont actuellement utilisés dans divers</p><p>domaines des affaires et de la science, ils permettent de prévoir ou d'identifier les facteurs les</p><p>plus influents, et d'en étudier l'impact sur les variables dépendantes pour une quelconque</p><p>modification de leurs valeurs actuelles.</p><p>Contrairement au modèle déterministe, dans les processus de prise de décisions dans les</p><p>moments de doute, les variables sont plus abondantes et plus difficiles à mesurer et contrôler,</p><p>raison pour laquelle les nouvelles technologies sont de nos jours indispensables pour trouver un</p><p>modèle qui réponde à nos besoins en tant que directeurs.</p><p>Par conséquent, l'utilité de la statistique dans les affaires peut se refléter dans plusieurs champs</p><p>et applications.</p><p>• Emploi des techniques d'échantillonnage aléatoire dans le domaine de l'audit.</p><p>5</p><p>Critère statistique pour la prise de décisions</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>• Assurance de la qualité des produits, grâce à l'utilisation de techniques statistiques de</p><p>contrôle de la qualité.</p><p>• Emploi de méthodes de régression et de corrélation pour comprendre les relations entre</p><p>variables et prévoir les comportements.</p><p>• Utilisation de tests de signification pour confirmer ou rejeter une hypothèse.</p><p>• Emploi de techniques statistiques pour la prévision, par exemple, dans le domaine des</p><p>ventes.</p><p>En somme, il s'agit d'utiliser la statistique comme un outil différenciateur conforme à la compétence</p><p>pour se rapprocher de la solution qui satisfasse les besoins de l'entreprise, et créer ainsi une</p><p>opportunité d'affaire qui nous permette de nous positionner sur le marché de manière stratégique.</p><p>La statistique pour la prise de décisions peut être divisée comme suit :</p><p> Statistique descriptive. Il s'agit de celle qui décrit les caractéristiques d'une série de</p><p>données appartenant à une population ou un échantillon (collecte, description, analyse et</p><p>interprétation des données).</p><p> Statistique inférentielle. Considérant l'ignorance de la population, dans la pratique, le</p><p>professionnel cherchera à faire des inférences pour la prise de décisions, notamment, des</p><p>prévisions concernant certaines caractéristiques de la population, en se fondant sur</p><p>l'information contenue dans un échantillon prélevé au hasard1 (ou aléatoire) de la</p><p>population entière.</p><p>La statistique inférentielle peut être utilisée pour expliquer un phénomène ou pour vérifier</p><p>la validité d'une proposition. Dans le premier cas, elle est appelée analyse exploratoire de</p><p>données et, dans le deuxième cas, analyse de confirmation de données.</p><p>La statistique descriptive est la base de la statistique inférentielle.</p><p>1.2. POPULATION ET ÉCHANTILLON</p><p>La population pourrait être définie comme l'ensemble de tous les individus (personnes, animaux,</p><p>plantes, objets) dont nous voulons étudier certaines données. Certains exemples de population</p><p>sont l'âge des habitants d'un pays ou d'une région, la durée de vie moyenne des ampoules, le</p><p>nombre d'élèves allant à l'école maternelle, etc.</p><p>À cause de l'impossibilité pratique d'étudier tous les individus qui composent une population (pour</p><p>une question de temps et d'argent), un échantillon aléatoire est utilisé dans la pratique, il n'est</p><p>rien d'autre qu'une représentation de la population, et qui nous permettra de faire des inférences</p><p>sur celle-ci.</p><p>1. Cette condition est fondamentale pour s'assurer qu'un échantillon est représentatif par rapport à la population.</p><p>6</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>À partir d'un échantillon d'une population prélevé au hasard, il est possible de tirer</p><p>des conclusions sur ses caractéristiques particulières. L'échantillon devrait être</p><p>représentatif de la population.</p><p>Généralement, l'on associe le mot « paramètre » aux mesures qui proviennent de la population et</p><p>« statistique » aux origines de l'échantillon. Nous nous référons ainsi à la moyenne de la population</p><p>comme le paramètre () et à l'écart type comme le paramètre (). Par analogie, la moyenne et</p><p>l'écart type de l'échantillon auraient pour représentations statistiques X et S, respectivement.</p><p>Les lettres grecques représentent les paramètres et les lettres latines symbolisent</p><p>les statistiques.</p><p>En somme, la moyenne (écart type) de l'échantillon est une estimation impartiale de la moyenne</p><p>(écart type) de la population. Par extension, la fonction de distribution empirique est une</p><p>estimation impartiale de la fonction de distribution de la population F(x).</p><p>1.2.1. TAILLE DE L’ÉCHANTILLON</p><p>La taille de l'échantillon (n) doit être définie à l'étape de planification de la prise de décision.</p><p>Normalement, comme approximation, il est possible d'utiliser l'expression :</p><p>n = N0,5 + 1</p><p>où :</p><p>n = taille de l'échantillon.</p><p>N = population entière de taille N.</p><p>La valeur de n résultant s'arrondit au nombre entier le plus proche. Naturellement, plus</p><p>l'échantillon sera grand, plus l'information qu'il fournira sera importante et, par conséquent,</p><p>l'estimation sera plus exacte.</p><p>Le choix de la taille de l'échantillon est une étape très importante que nous verrons en détail par la</p><p>suite.</p><p>1.2.2. TECHNIQUES D’ÉCHANTILLONNAGE</p><p>Un problème typique qui se pose à l'heure de prendre des décisions est celui des inférences à</p><p>réaliser sur une population donnée et le coût en temps et en argent qui pourrait dépasser toutes</p><p>les prévisions.</p><p>7</p><p>Critère statistique pour la prise de décisions</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Tel que nous l'avons précédemment mentionné, la procédure consistera à choisir un échantillon et</p><p>à adopter une solution de compromis, car les résultats obtenus seront uniquement une estimation</p><p>de la valeur réelle que nous voulons trouver. Nous aurons ainsi économisé une bonne quantité de</p><p>ressources.</p><p>Cependant, le doute subsisterait concernant le fait de savoir si notre estimation est la meilleure de</p><p>toutes celles possibles, et celle-ci est liée aux méthodes communes d'échantillonnage statistique</p><p>employées dans les affaires. Nous avons :</p><p>• Échantillonnage de groupes : il faut que la population soit homogène, même si elle peut être</p><p>regroupée dans différents lieux. Par exemple, une entreprise possédant des succursales</p><p>dans différents pays et qui doit collecter les données de chacune d'elles, peut réaliser un</p><p>échantillonnage aléatoire d'un petit groupe desdites succursales pour tirer des conclusions</p><p>sur tout l'ensemble.</p><p>• Échantillonnage stratifié : la population peut être divisée en sous-populations.</p><p>• Échantillonnage aléatoire : il s'agit sans doute de l'échantillonnage le plus utilisé dans la</p><p>prise de décisions de nos jours. Il est important que l'échantillonnage aléatoire soit réalisé à</p><p>l'aide d'un ordinateur.</p><p>• Échantillonnage de choix croisé : il étudie les observations d'une population donnée à un</p><p>moment ou un intervalle de temps précis.</p><p>1.3. ÉTAPES D'UN PROCESSUS DE PRISE DE DÉCISIONS</p><p>La figure 1.1 illustre les principales étapes d'un processus de prise de décisions statistiques.</p><p>Figure 1.1. Étapes usuelles d'un processus de prise de décisions statistiques.</p><p>8</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>1.3.1. DÉFINITION DU PROBLÈME ET DES OBJECTIFS</p><p>Il est très important de définir clairement le problème et de formuler les objectifs que l'on veut</p><p>atteindre, puisqu'ils permettront de développer les étapes ultérieures de la recherche.</p><p>Cette étape doit répondre aux questions clés telles que : Quel est l'objectif de l'étude ou des</p><p>questions auxquelles il faut répondre ? Quelle</p><p>est la population destinataire du processus de prise</p><p>de décisions ?</p><p>Par exemple, comme objectif général, il conviendrait à un directeur de connaître le profil des</p><p>employés d'une entreprise donnée, pour orienter la politique des ressources humaines. Dans ce</p><p>cas, nous devrions mieux spécifier ce que nous voulons savoir concernant la population</p><p>d'employés c'est-à-dire, les objectifs spécifiques :</p><p>• connaître la durée moyenne de service des employés de l'entreprise ;</p><p>• connaître le niveau d'études des employés ;</p><p>• vérifier l'intérêt des employés en particulier pour les programmes de formation ;</p><p>• évaluer le degré de satisfaction des employés conformément au travail qu'ils effectuent au</p><p>sein de l'entreprise ; et,</p><p>• vérifier s'il existe un lien entre le degré de satisfaction de l'employé et sa productivité.</p><p>L'élaboration des objectifs spécifiques doit se faire de manière à indiquer une première</p><p>approximation des caractéristiques que nous voulons observer ou mesurer. Ainsi, il conviendrait</p><p>d'observer chez chaque employé de l'entreprise les variables suivantes :</p><p>• durée de service ;</p><p>• niveau d'études ;</p><p>• intérêt pour les programmes de formation ; et,</p><p>• degré de satisfaction au travail et productivité.</p><p>1.3.2. PLANIFICATION DE L'INVESTIGATION</p><p>Les données doivent être collectées selon un plan qui garantisse la validité de l'information. Le</p><p>plan doit identifier les variables importantes liées au problème, et spécifier comment ces variables</p><p>seront mesurées (modèle statistique).</p><p>Avant le prélèvement de l'échantillon, il est important que la population dans son ensemble soit</p><p>définie de manière soignée.</p><p>Dans ce contexte, il sera question de répondre à des questions telles que : À quoi ressemble</p><p>l'échantillon à choisir ? Existe-t-il d'éventuelles sources qui rendraient l'échantillon non</p><p>représentatif ? Quelles prévisions sont nécessaires pour travailler en cas d'anomalies ?</p><p>9</p><p>Critère statistique pour la prise de décisions</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>1.3.3. COLLECTE DE DONNÉES</p><p>Ici, il faudra procéder à la collecte de données. Tel que nous le verrons par la suite, en statistique,</p><p>l'information peut être collectée en utilisant des données qualitatives ou quantitatives.</p><p>Dans ce contexte, il faudra réfléchir au degré de conformité de la méthode de mesure/</p><p>classification avec les objectifs, ou vérifier s'il existe d'éventuelles irrégularités dans les mesures</p><p>(et/ou estimation) ou encore si les observations sont fiables.</p><p>1.3.4. ANALYSE DES DONNÉES</p><p>Dans l'analyse exploratoire des données, des techniques graphiques et numériques sont utilisées,</p><p>et elles génèrent des normes de conduite ainsi que l'origine des données. Ces techniques feront</p><p>l'objet d'une étude dans les prochains chapitres.</p><p>Les résultats de l'analyse permettront de connaître la forme, la position, la variabilité et anomalies</p><p>détectées, et l'on établira des conjectures pour les relations entre variables. De cette manière, il</p><p>sera possible d'observer la façon dont une variable est liée à une autre, par exemple, à travers des</p><p>comparaisons simples de proportions via la régression linéaire.</p><p>1.3.5. RÉSULTATS</p><p>Les résultats doivent être présentés de manière claire et objective, ne pas abonder en mots</p><p>techniques, pour permettre aux responsables de la prise de décisions de les comprendre et de les</p><p>apprécier. Dans le cas contraire, tous les efforts auraient été vains.</p><p>1.3.6. CONCLUSIONS</p><p>Il sera question dans cette partie de faire des réflexions sur les résultats et d'en étudier la</p><p>pertinence conformément aux objectifs élaborés.</p><p>1.4. VARIABLES ET DONNÉES</p><p>Une variable se définit par les caractéristiques (ou mesures) qui peuvent être étudiées dans</p><p>chaque élément de la population, et qui peuvent avoir différentes valeurs chez les individus, dans</p><p>les mêmes conditions.</p><p>Les variables interviennent au moment de savoir ce que nous allons observer ou</p><p>mesurer chez les éléments d'une population.</p><p>10</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Par exemple, reprenant le cas des employés mentionné plus haut, certains exemples de variables</p><p>seraient la durée de service, la situation matrimoniale, la productivité, entre autres.</p><p>Dans ce contexte, nous pourrions penser à formuler des questions du type :</p><p>• Depuis quand travaille M. (ou Mme) un tel dans cette entreprise ?</p><p>• Quelle est votre situation matrimoniale ?</p><p>Toutefois, ces questions n'identifient pas de manière concrète les variables qui nous intéressent,</p><p>étant donné que les employés pourraient les interpréter de manière différente ; par exemple, pour</p><p>la première question, on pourrait avoir des réponses du genre : ça fait un peu plus de 12 ans, ça</p><p>fait longtemps, entre autres. Nous comprenons que les variables ne sont pas observées d'une</p><p>manière homogène.</p><p>Par conséquent, pour que les observations sur la durée de service soient homogènes, il convient</p><p>d'établir une unité de mesure, par exemple, des années complètes de travail dans une entreprise :</p><p>• Depuis quand travaille M. (ou Mme) un tel dans cette entreprise ?</p><p> ________________ années complètes.</p><p>En référence à la variable « situation matrimoniale », les éventuelles réponses sont des attributs.</p><p>Dans le but d'éviter une quelconque réponse anomale, il est possible d'établir auparavant les</p><p>possibilités de réponses. De cette manière, la question serait reformulée ainsi :</p><p>• Quelle est votre situation matrimoniale ?</p><p> ( ) célibataire</p><p> ( ) marié</p><p> ( ) veuf</p><p> ( ) séparé</p><p> ( ) divorcé</p><p>1.4.1. TYPES DE VARIABLES</p><p>Il existe deux types de variables : qualitatives et quantitatives.</p><p>Les variables qualitatives ou catégoriques ne peuvent pas être mesurées par des relations</p><p>arithmétiques et leurs résultats sont des attributs ou qualités. Par exemple, pour ce type de</p><p>variables nous aurions : la situation matrimoniale des employés, la couleur, le modèle et la</p><p>marque des voitures, entre autres.</p><p>Les variables quantitatives se présentent comme des numéros appartenant à une certaine</p><p>échelle, par exemple, la durée de service (en années complètes), le poids, les dimensions, la</p><p>vitesse maximale d'un véhicule, entre autres. Dans ce groupe, des indicateurs comme la moyenne</p><p>et l'écart type ont un sens. Les variables quantitatives peuvent également être divisées en</p><p>variables discrètes et continues.</p><p>11</p><p>Critère statistique pour la prise de décisions</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Les variables qualitatives reflètent une qualité de l'individu, alors que les variables</p><p>quantitatives correspondent aux caractéristiques que reflètent les quantités.</p><p>Les variables qualitatives peuvent également être exprimées par des nombres, même si elles ne</p><p>reflètent pas pour autant des quantités. En guise d'illustration, le numéro de téléphone, le numéro</p><p>de la rue où une personne vit ou son numéro de carte d'identité, sont des variables qualitatives</p><p>qui, par commodité, sont exprimées par des chiffres au lieu de noms pour définir les différentes</p><p>valeurs.</p><p>La figure 1.2 illustre la classification des variables et données en termes de niveau de mesure.</p><p>Figure 1.2. Classification des variables et données.</p><p>Même si une variable peut être bien mesurée de manière quantitative, il convient d'utiliser ce type</p><p>de mesure, parce que les variables quantitatives fournissent, en général, plus d'informations que</p><p>les variables qualitatives. Par exemple, dire qu'un employé a travaillé pendant 30 ans dans</p><p>l'entreprise fournit beaucoup plus d'information que de dire que cela fait longtemps qu'il travaille</p><p>dans l'entreprise.</p><p>12</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Résumé</p><p>13</p><p>Critère statistique pour la prise de décisions</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>14</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>2</p><p>Variables qualitatives</p><p>2.1. INTRODUCTION</p><p>Tel que nous l'avons mentionné dans le chapitre précédent, les résultats des variables qualitatives</p><p>(niveau d'études, sexe, situation matrimoniale...) sont structurés en catégories. Par exemple, la</p><p>variable couleur des cheveux peut avoir plusieurs catégories comme blond,</p><p>brun, grisonnant, entre</p><p>autres, ou en référence à la variable sexe (genre) dans un ensemble d'individus, nous serons en</p><p>train de classer chaque individu dans une catégorie masculine ou dans une catégorie féminine.</p><p>Les variables qualitatives peuvent regrouper deux catégories dites dichotomiques : sexe,</p><p>appartenance à une organisation (oui-non), parent (oui-non), etc.</p><p>Les variables qualitatives peuvent quant à elles regrouper plus de deux catégories : variables</p><p>polytomiques : couleur des cheveux, marque du véhicule, entre autres.</p><p>2.2. DISTRIBUTION DE FRÉQUENCES</p><p>L'une des premières étapes pour comprendre le comportement d'une variable est la construction</p><p>d'une distribution de fréquences.</p><p>La distribution de fréquences comprend l'organisation des données</p><p>conformément aux normes de conduite des différents résultats obtenus. Elle peut</p><p>être représentée sous forme de tableau ou de manière graphique.</p><p>Pour illustrer la construction d'une distribution de fréquences, considérons un échantillon de 40</p><p>familles vivant dans le quartier résidentiel de Monte Verde (Florianópolis). D'une manière</p><p>concrète, il sera question d'étudier comme variable le niveau d'études du père de la famille, en</p><p>fonction des codes ou catégories suivants :</p><p>1 = aucun.</p><p>2 = niveau basique.</p><p>3 = niveau moyen.</p><p>15</p><p>Variables qualitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Les résultats sont les suivants :</p><p>Pour construire une distribution de fréquences avec des données relatives à une variable</p><p>qualitative, il suffit de compter le nombre de résultats obtenus dans chaque catégorie (tableau</p><p>2.1).</p><p>Tableau 2.1: Distribution de fréquences du niveau d'études des pères d'un échantillon de 40 familles</p><p>du quartier résidentiel Monte Verde, Florianópolis - SC, 1988.</p><p>La première colonne du tableau 2.1 montre toutes les catégories de la variable précédemment</p><p>établie (niveau d'études). La deuxième colonne génère le calcul du nombre d'observations</p><p>identifiées dans chacune des catégories (fréquence absolue). Enfin, la troisième colonne présente</p><p>une moyenne relative de la fréquence de chaque catégorie. Les pourcentages sont obtenus par la</p><p>division de la fréquence absolue de chaque catégorie par le nombre total d'observations</p><p>(fréquence relative) et multipliée par 100.</p><p>Les pourcentages sont particulièrement importants pour comparer les</p><p>distributions de fréquences entre elles.</p><p>Le tableau 2.2 présente trois distributions de fréquences. La première correspond à celle de</p><p>l'exemple précédent et, les autres, à une étude semblable dans deux localités voisines.</p><p>Données</p><p>3 3 2 2 3 1 3 3 3 2 2 1 2 2 3 2 3 3 3 3</p><p>3 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3</p><p>Niveau d'études Fréquence absolue Pourcentage</p><p>Aucun 6 15</p><p>Niveau basique 11 27,5</p><p>Niveau moyen 23 57,5</p><p>Total 40 100</p><p>16</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Tableau 2.2: Distribution de fréquences conformément au niveau d'études des pères de familles sur un</p><p>échantillon de 120 familles de trois localités du quartier Saco Grande II, Florianópolis - SC, Brésil,</p><p>1988.</p><p>Nous pouvons observer sur le tableau 2.2 que les pères du quartier résidentiel Monte Verde</p><p>présentent les meilleurs résultats ; en outre, à Encosto do Morro nous avons les pires résultats</p><p>avec environ 50 % des pères sans niveau d'études.</p><p>Le lecteur doit relever que l'organisation et l'interprétation des données d'une distribution de</p><p>fréquences, n'inclut normalement pas l'information du nombre d'éléments qui appartiennent à</p><p>chaque catégorie, étant donné que ladite information n'est pas souvent pertinente pour</p><p>comprendre le comportement général d'une variable.</p><p>2.3. REPRÉSENTATION GRAPHIQUE</p><p>Les représentations graphiques offrent, en général, une meilleure visualisation des normes de</p><p>comportement des données par rapport aux tableaux : elles constituent donc une autre forme de</p><p>présentation des distributions de fréquences.</p><p>Il existe différentes manières de représenter les variables qualitatives polytomiques (diagramme à</p><p>points, diagramme en bâtons, diagramme en barres, diagramme circulaire ou de secteurs, entre</p><p>autres).</p><p>Nous présenterons ici les diagrammes à bandes et circulaires, qui sont les plus importants quand</p><p>il s'agit de présenter les distributions de fréquences des données catégorisées.</p><p>2.3.1. DIAGRAMME EN BARRES</p><p>La figure 2.1 illustre la distribution de fréquences du tableau 2.1 représenté par un graphique en</p><p>barres. Chaque catégorie est représentée par une barre proportionnelle à sa fréquence (nombre</p><p>de familles) disposée le long des abscisses, alors que sur l'axe vertical nous avons les valeurs de</p><p>la variable ou catégories.</p><p>Niveau d'études</p><p>Localité</p><p>Monte verde Pq. da figueira Encosto do morro</p><p>Aucun 6 (15)a</p><p>a) Les nombres entre parenthèses correspondent aux pourcentages liés au total des familles observées dans</p><p>chaque localité.</p><p>14 (32,6) 18 (48,7)</p><p>Niveau basique 11 (27,5) 14 (32,6) 13 (35,1)</p><p>Niveau moyen 23 (57,5) 15 (34,8) 6 (16,2)</p><p>Total 40 (100) 43 (100) 37 (100)</p><p>17</p><p>Variables qualitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 2.1. Distribution de fréquences du niveau d'études des pères de famille d'un échantillon de 40</p><p>familles du quartier résidentiel Monte Verde, Florianópolis - SC, 1988.</p><p>En outre, il est possible de représenter les catégories sur l'axe horizontal et la fréquence sur l'axe</p><p>vertical. Dans ce cas, le graphique s'appelle diagramme en bâtons.</p><p>2.3.2. DIAGRAMME CIRCULAIRE OU DE SECTEURS</p><p>Il est constitué d'un cercle divisé en secteurs, chacun représentant une valeur de la variable, et</p><p>dont la superficie est proportionnelle à la fréquence d'apparition de ladite valeur.</p><p>Pour calculer l'angle de chaque secteur, il suffit de poser une règle de trois entre l'angle (en</p><p>degrés) inconnu, la fréquence totale et la fréquence observée pour chaque catégorie, balayant un</p><p>angle de 360º, de cette façon :</p><p>où :</p><p>Appliquant la même procédure, nous avons :</p><p>Catégorie 1 (aucun) secteur de taille 1 = 54º</p><p>Catégorie 2 (niveau basique) secteur de taille 2 = 99º</p><p>Catégorie 3 (niveau moyen) secteur de taille 3 = 207º</p><p>Il est ainsi présenté le graphique en secteurs tel qu'illustré sur la figure 2.2.</p><p>18</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 2.2. Distribution de fréquences du niveau d'études des pères de famille d'un échantillon de 40</p><p>familles du quartier résidentiel Monte Verde, Florianópolis - SC, 1988.</p><p>2.3.3. GRAPHIQUE EN BARRES</p><p>Pour effectuer une analyse comparée de plusieurs distributions, nous pouvons construire</p><p>plusieurs graphiques de secteurs ou un graphique en barres, comme l'illustre la figure 2.3, qui</p><p>représente graphiquement les distributions de fréquences du tableau 2.2.</p><p>Figure 2.3. Distribution de fréquences conformément au niveau d'études des pères de familles d'un</p><p>échantillon de120 familles de trois localités du quartier de Saco Grande II, Florianópolis - SC, 1988.</p><p>19</p><p>Variables qualitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>2.4. TABLEAUX DE CONTINGENCE À DOUBLE ENTRÉE</p><p>Les sciences sociales et humaines ont un intérêt commun qui consiste à vérifier l'association de</p><p>deux variables devant un ensemble d'éléments donné. Par exemple, il peut être intéressant de</p><p>découvrir comment varie un pourcentage des utilisateurs abonnés à un programme d'alimentation</p><p>populaire avec le niveau de revenus de ces derniers.</p><p>Ce type d'analyse se présente généralement sous forme de tableaux de contingence ou à double</p><p>entrée, tel que nous le verrons par la suite.</p><p>Pour construire une distribution conjointe de fréquences, il convient d'observer simultanément les</p><p>deux variables impliquées dans l'étude.</p><p>La figure 2.4 présente la construction conjointe, prenant comme variables le niveau d'études du</p><p>père de la famille et l'utilisation des programmes de nutrition populaire.</p><p>Figure 2.4. Construction du tableau de distribution conjointe de fréquences.</p><p>Pour la construction du tableau de distribution conjointe de fréquences, chaque élément (famille)</p><p>doit appartenir à une seule cellule du tableau.</p><p>Codes du niveau d'études</p><p>1. Aucun</p><p>2. Niveau</p><p>basique</p><p>3. Niveau moyen</p><p>Codes d'utilisation du programme de nutrition populaire</p><p>0. Oui</p><p>1. Non</p><p>20</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>La classification de toutes les familles étudiées et le décompte des fréquences de chaque cellule</p><p>convergent vers l'obtention du tableau 2.3.</p><p>Tableau 2.3: Distribution conjointe de fréquences concernant le niveau d'études du père et l'utilisation</p><p>des programmes de nutrition populaire.</p><p>Nous pouvons observer dans le tableau 2.3 que les totaux par colonnes présentent la distribution</p><p>de fréquences de la variable niveau d'études du père, alors que les totaux par ligne constituent la</p><p>distribution de fréquences de la variable programmes de nutrition populaire.</p><p>Pour faciliter l'analyse d'un tableau de contingence, il est possible d'inclure les fréquences</p><p>relatives (pourcentages), qui peuvent être calculées en relation avec les totaux des lignes et des</p><p>colonnes, et conformément à l'objectif.</p><p>Le tableau 2.4 comprend les pourcentages liés aux totaux des colonnes. Ce tableau démontre les</p><p>profils d'utilisation des programmes d'alimentation populaire, tout en considérant les familles</p><p>séparées par niveau d'études du père (profils par colonnes).</p><p>Tableau 2.4: Répartition de l'utilisation des programmes de nutrition populaire, selon le niveau</p><p>d'études du père.</p><p>Nous pouvons observer que le niveau d'études le plus bas correspond à la grande majorité des</p><p>familles étudiées, et qui utilisent les programmes (81,6 %), alors que pour le niveau d'études le</p><p>plus élevé, moins de la moitié utilisent lesdits programmes (56,8 %).</p><p>Le tableau 2.5 illustre les pourcentages liés aux totaux des lignes. Ce tableau démontre les profils</p><p>du niveau d'études du père (profils par ligne), tout en considérant l'échantillon divisé en familles</p><p>qui utilisent les programmes et celles qui ne les utilisent pas. Nous laissons au lecteur le soin</p><p>d'interpréter le tableau.</p><p>Utilisation des</p><p>programmes</p><p>Niveau d'études du père</p><p>Total</p><p>Aucun Basique Moyen</p><p>Oui 31 22 25 78</p><p>Non 7 16 19 42</p><p>Total 38 38 44 120</p><p>Utilisation des</p><p>programmes</p><p>Niveau d'études du père</p><p>Total</p><p>Aucun Basique Moyen</p><p>Oui 31 (81,6)a</p><p>a) Les nombres entre parenthèses sont les pourcentages liés aux totaux des colonnes.</p><p>22 (57,9) 25 (56,8) 78 (65)</p><p>Non 7 (18,4) 16 (42,1) 19 (43,2) 42 (35)</p><p>Total 38 (100) 38 (100) 44 (100) 120 (100)</p><p>21</p><p>Variables qualitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Tableau 2.5: Distribution du niveau d'études des pères, selon l'utilisation des programmes de nutrition</p><p>populaire.</p><p>Utilisation des</p><p>programmes</p><p>Niveau d'études du père</p><p>Total</p><p>Aucun Basique Moyen</p><p>Oui 31 (39,7)a</p><p>a) Les nombres entre parenthèses sont les pourcentages liés aux totaux des colonnes.</p><p>22 (28,2) 25 (32,1) 78 (100)</p><p>Non 7 (16,7) 16 (38,1) 19 (45,2) 42 (100)</p><p>Total 38 (31,7) 38 (31,7) 44 (36,7) 120 (100)</p><p>22</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Résumé</p><p>23</p><p>Variables qualitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>24</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>3</p><p>Variables quantitatives</p><p>3.1. INTRODUCTION</p><p>Lorsqu'il s'agit d'étudier une variable éventuellement mesurable de façon numérique, on fait</p><p>beaucoup plus référence aux techniques d'analyse exploratoire des données. Le présent chapitre</p><p>aborde la construction de distributions de fréquences de variables quantitatives et ses</p><p>interprétations.</p><p>Une variable quantitative est qualifiée de discrète lorsque ses possibles valeurs peuvent être</p><p>répertoriées. Le nombre d'enfants d'un couple ou le nombre de chambres d'une maison, sont des</p><p>exemples de variables discrètes parce qu'elles peuvent comprendre des valeurs {0,1, 2,...} en</p><p>référence au premier cas, ou {1, 2, 3,...} pour ce qui est du deuxième cas. Les variables discrètes</p><p>résultent généralement d'une estimation.</p><p>Une variable quantitative est dite continue lorsqu'elle peut prendre n'importe quelle valeur dans</p><p>un intervalle. Par exemple, le poids d'un individu est une variable continue, car elle peut</p><p>représenter une valeur quelconque dans un intervalle, disons, de 0 à 300 kg. Les variables</p><p>continues sont généralement générées par un instrument de mesure.</p><p>3.2. VARIABLES DISCRÈTES</p><p>La construction des distributions de fréquences des données d'une variable discrète peut être</p><p>réalisée de la même manière que celle de fréquences classées, car les valeurs observées1 ne sont</p><p>pas toujours très différentes les unes des autres.</p><p>Comme exemple, nous allons considérer le nombre de résidents d'un domicile, sur un échantillon</p><p>de 40 résidences des Résidences Monte Verde.</p><p>1. Quand une variable discrète présente un grand nombre de différentes valeurs observées, il est possible d'utiliser des</p><p>artifices pour variables continues, tel que nous verrons dans les sections suivantes.</p><p>Données</p><p>4 4 4 5 4 1 2 3 6 4 6 4 4 6 3 5 3 4 4 4</p><p>5 5 5 4 8 4 5 3 4 5 5 2 5 2 6 8 3 5 5 3</p><p>25</p><p>Variables quantitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Le tableau 3.1 représente la distribution de fréquences des données, construite pour</p><p>comptabiliser le nombre de répétitions de chaque valeur.</p><p>Tableau 3.1: Répartition de fréquences du nombre de résidents pour un échantillon de 40 résidences</p><p>des Résidences Monte Verde, Florianópolis - SC, 1988.</p><p>Pour effectuer une représentation graphique de la distribution des fréquences d'une variable</p><p>quantitative, il faut construire une paire d'axes cartésiens. En abscisses (axe horizontal), nous</p><p>placerons une échelle pour représenter les valeurs d'étude et, en ordonnées (axe vertical), nous</p><p>représenterons la fréquence de chaque valeur.</p><p>La figure 3.1 illustre deux formes possibles de représentation graphique de la répartition de</p><p>fréquences présentée dans le tableau 3.1. La première forme consiste à réaliser des traits</p><p>verticaux sur les valeurs effectivement observées (figure 3.1 A). Sur la deuxième représentation, les</p><p>traits sont remplacés par des barres (figure 3.1 B). Les barres doivent toutes avoir la même largeur.</p><p>L'axe vertical (fréquences) doit partir de zéro, alors que l'axe horizontal (valeurs de la variable)</p><p>peut commencer par la valeur minimale des différentes valeurs.</p><p>Figure 3.1. Représentations graphiques de la distribution de fréquences du tableau 3.1.</p><p>Nombre de personnes Fréquence des résidences Pourcentage des résidences</p><p>1 1 2,5</p><p>2 3 7,5</p><p>3 6 15,0</p><p>4 13 32,5</p><p>5 11 27,5</p><p>6 4 10,0</p><p>7 0 0</p><p>8 2 5</p><p>26</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>3.3. VARIABLES CONTINUES</p><p>Dans ce cas, il convient de compter le nombre d'occurrences de chaque valeur, puisque les</p><p>valeurs se répètent difficilement, sinon nous n'aurions pas de conclusions appropriées.</p><p>3.3.1. LE DIAGRAMME À POINTS</p><p>Lorsque nous avons un ensemble de petites données, nous pouvons les analyser à travers un</p><p>diagramme à points, c'est-à-dire, en représentant chaque résultat (valeur) par un point sur une</p><p>droite de chiffres réels (figure 3.2).</p><p>Figure 3.2. Construction d'un diagramme à points.</p><p>Il est possible de placer deux distributions ou plus sur un même graphique, il suffit d'identifier les</p><p>points avec des symboles différents et de les placer à un autre niveau, tel que l'indique la figure</p><p>3.3.</p><p>Figure 3.3. Diagramme à points de l'Indice de Développement humain (IDH), appartenant à deux</p><p>échantillons aléatoires de quatorze municipalités de la région du sud et de la région du nord2.</p><p>Les municipalités de l'échantillon de la région du sud présentent, en général, quelques valeurs de</p><p>l'IDH plus grandes que celles des municipalités de la région du nord. Nous pouvons également</p><p>souligner que les deux échantillons de municipalités se différencient quant à la dispersion des</p><p>2. Données extraites de l'Atlas de développement humain (http://www.pnud.org.br/IDH/</p><p>Default.aspx?indiceAccordion=1&li=li_AtlasMunicipios). L'IDH, calculé pour chaque municipalité, a été élaboré sur la</p><p>base du recensement de la population de l'année 2000. Notez que les éléments des échantillons de cet exemple</p><p>sont les municipalités.</p><p>27</p><p>http://www.pnud.org.br/IDH/Default.aspx?indiceAccordion=1&li=li_AtlasMunicipios</p><p>http://www.pnud.org.br/IDH/Default.aspx?indiceAccordion=1&li=li_AtlasMunicipios</p><p>Variables quantitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>données. Dans ce sens, dans la région du sud les municipalités présentent des valeurs d'IDH</p><p>relativement proches (meilleure homogénéité), alors que dans l'échantillon de la région du nord,</p><p>les valeurs varient légèrement entre les municipalités (meilleure hétérogénéité).</p><p>3.3.2. LE TABLEAU DE FRÉQUENCES</p><p>Toutefois, nous avons très souvent l'habitude de travailler avec un ensemble constitué d'une</p><p>centaine ou d'un millier de données obtenues, rendant l'utilisation du diagramme à points un peu</p><p>limitée. Dans ce cas, nous pouvons construire des distributions de fréquences, en regroupant les</p><p>résultats dans des classes préétablies.</p><p>Les classes sont de petits intervalles mutuellement exclusifs qui, regroupés tous ensemble,</p><p>incluent toutes les données. Autrement dit, les classes doivent être construites de manière à ce</p><p>que toute valeur observée appartienne à une et une seule classe. Par simplicité, et pour faciliter</p><p>l'interprétation, on considérera toutes les classes ayant la même amplitude.</p><p>En guise d'illustration, nous utiliserons les taux d'alphabétisation d'un échantillon aléatoire de 40</p><p>municipalités du Brésil3 .</p><p>Nous pouvons relever que toutes les valeurs se retrouvent dans un intervalle de 40 à 100 (la</p><p>valeur minimale étant de 45,37 et la valeur maximale de 95,34). Il convient de définir un</p><p>ensemble de classes mutuellement exclusives, telles que, toutes regroupées, elles puissent</p><p>inclure toutes les valeurs. Une autre option serait de construire 6 (six) classes avec une amplitude</p><p>proche de 10, tel que suit :</p><p>de 40 à 49,99 ; de 50 à 59,99 ;..... ; de 90 à 99,99.</p><p>Pour simplifier la notation, ces classes seront ainsi représentées :</p><p>40  50 ; 50  60 ;...; 90  100</p><p>où le symbole “” représente l'intervalle entre deux variables, y compris la valeur du côté gauche</p><p>et excluant la valeur du côté droit.</p><p>Le tableau de fréquences est construit à travers la comptabilisation de la fréquence d'observation</p><p>de chaque classe, tel que présenté dans le cadre suivant.</p><p>3. Données du recensement de la population, 2000 (http://www.ibge.gov.br).</p><p>Données</p><p>57,25</p><p>72,81</p><p>54,70</p><p>59,07</p><p>76,85</p><p>66,01</p><p>67,95</p><p>68,04</p><p>92,90</p><p>90,52</p><p>69,91</p><p>73,22</p><p>89,07</p><p>87,94</p><p>95,03</p><p>95,34</p><p>75,49</p><p>58,88</p><p>77,62</p><p>88,40</p><p>84,33</p><p>86,34</p><p>57,14</p><p>83,52</p><p>65,28</p><p>45,37</p><p>91,22</p><p>64,19</p><p>94,59</p><p>81,15</p><p>64,65</p><p>64,17</p><p>71,20</p><p>94,83</p><p>85,70</p><p>95,34</p><p>82,30</p><p>81,42</p><p>81,34</p><p>84,66</p><p>28</p><p>http://www.ibge.gov.br</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Dans la représentation d'un tableau de fréquences, il est commun de placer les points moyens des</p><p>classes, c'est-à-dire, pour chaque classe, placer la moyenne de ses limites. Par exemple, pour la</p><p>classe 40  50 le point moyen est 45. Le point moyen représente la valeur typique de la classe.</p><p>Le tableau 3.2 est une représentation de la distribution de fréquences des données en question.</p><p>Tableau 3.2: Répartition des fréquences des taux d'alphabétisation d'un échantillon aléatoire de 40</p><p>municipalités brésiliennes.</p><p>Le nombre de classes utilisé dans le tableau de fréquences est choisi de manière arbitraire. Par</p><p>conséquent, quand l'ensemble des données est grand, un grand nombre de classes peut être</p><p>utilisé. Il convient de relever qu'un tableau avec peu de classes présente une distribution</p><p>relativement pauvre, puisqu'elle ne démontre pas certaines caractéristiques pertinentes. D'un</p><p>autre côté, si l'on utilisé plusieurs classes, le tableau peut acquérir de grandes dimensions et</p><p>masquer les aspects pertinents de la répartition de fréquences dans l'enchevêtrement de</p><p>données.</p><p>En général, le nombre adéquat de classes oscille entre cinq et vingt, dépendant de la quantité des</p><p>données et des objectifs. Il est suggéré d'employer classes, où n représente toutes les</p><p>valeurs4 .</p><p>Classes Comptabilisé Fréquence</p><p>40  50 | 1</p><p>50  60 ||||| 5</p><p>60  70 ||||| ||| 8</p><p>70  80 ||||| | 6</p><p>80  90 ||||| ||||| || 12</p><p>90  100 ||||| ||| 8</p><p>Classes de taux</p><p>d'alphabétisation</p><p>Point</p><p>moyen</p><p>Fréquence des</p><p>municipalités</p><p>Pourcentage des</p><p>municipalités</p><p>40  50 45 1 2,5</p><p>50  60 55 5 12,5</p><p>60  70 65 8 20,0</p><p>70  80 75 6 15,0</p><p>80  90 85 12 30,0</p><p>90  100 95 8 20,0</p><p>Total - 40 100,0</p><p>29</p><p>Variables quantitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Suivant notre exemple, n = 40, il en résulte une valeur de 6,32. Cela implique l'utilisation de six ou</p><p>sept classes. Il nous reste six classes. Étant donné que les données extrêmes sont 45,37</p><p>(minimale) et 95,34 (maximale), nous avons une amplitude totale de 95,34-45,37  50.</p><p>Pareillement, si les classes commencent par la valeur minimale, chaque classe doit avoirune</p><p>amplitude de : 50/6 = 8,33. Pour faciliter la lecture du tableau de fréquences, nous choisirons de</p><p>commencer par 40 et utiliser des intervalles de classe égales à 10.</p><p>La figure 3.4 illustre, de manière schématique, l'intervalle où se rencontrent les données.</p><p>Figure 3.4. Intervalle où se rencontrent les taux d'alphabétisation de l'échantillon aléatoire de 40</p><p>municipalités brésiliennes.</p><p>Une autre forme de présentation des distributions de fréquence des variables quantitatives est</p><p>celle des graphiques, tels que les histogrammes ou les polygones de fréquence, qui seront</p><p>présentés par la suite.</p><p>3.3.3. HISTOGRAMME</p><p>La figure 3.5 présente un histogramme construit à partir du tableau 3.2. Nous pouvons observer</p><p>que la hauteur de chaque rectangle est proportionnelle à la fréquence observée de la classe</p><p>correspondante5 .</p><p>4. Quand nous avons des valeurs discordantes dans un ensemble de données, il est recommandé d'augmenter le</p><p>nombre de classes.</p><p>5. Lorsque les classes n'ont pas la même amplitude, il devient nécessaire de faire certains ajustements. Voir, par</p><p>exemple, Bussab et Morettin (2002, p.27). L'histogramme peut également être construit avec les pourcentages sur</p><p>l'axe vertical pour base, ce qui ne change en rien sa forme.</p><p>30</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 3.5. Répartition des fréquences des taux d'alphabétisation d'un échantillon de 40 municipalités</p><p>brésiliennes.</p><p>Les histogrammes sont des représentations semblables aux diagrammes en bâtons, qui utilisent</p><p>toutefois des rectangles contigus au lieu des bâtons séparées.</p><p>Nous pouvons noter sur la figure un nombre raisonnable de municipalités dont les taux</p><p>d'alphabétisation se retrouvent au-dessus de 80, c'est-à-dire que dans une population adulte,</p><p>nous avons un pourcentage de personnes lettrées supérieur à 80 %. En outre, nous avons</p><p>également des municipalités avec des taux d'alphabétisation très faibles (entre 50 et 80). Une</p><p>analyse similaire par région démographique pourrait apporter un nouveau type d'information</p><p>pertinente.</p><p>Les histogrammes sont principalement utilisés pour déterminer l'uni modalité des données,</p><p>comme condition nécessaire pour l'homogénéité de la population, afin de réaliser une analyse</p><p>statistique significative.</p><p>3.3.4. POLYGONE DE FRÉQUENCES</p><p>Le polygone de fréquences est une autre forme de représentation graphique. Pour le construire,</p><p>on prend le point moyen (x) qui correspond à la fréquence (f) de chaque classe. On place les paires</p><p>(x, f) comme points dans une paire d'axes cartésiens.</p><p>La figure 3.6 présente un polygone de fréquences construit à partir du tableau 3.2. Le lecteur</p><p>pourra constater que l'information fournie par le polygone de fréquences est équivalente à celle</p><p>générée par l'histogramme.</p><p>31</p><p>Variables quantitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 3.6. Répartition des fréquences des taux d'alphabétisation d'un échantillon de 40 municipalités</p><p>brésiliennes.</p><p>La figure 3.7 présente deux polygones de fréquences dans un même graphique. L'utilisation des</p><p>pourcentages au lieu des fréquences absolues est adéquate parce qu'elle facilite les</p><p>comparaisons entre les deux distributions de revenu.</p><p>Figure 3.7. Distribution de fréquences des revenus familiaux de Monte Verde (échantillon de 40</p><p>familles) et de Encosta do Morro (échantillon</p><p>de 37 familles), Barrio Saco Grande II, Florianópolis -SC,</p><p>1988.</p><p>Le lecteur pourra relever qu'un graphique comme celui de la figure 3.7 permet d'explorer les</p><p>éventuelles relations entre une variable quantitative (revenu) et une variable qualitative (localité).</p><p>Lors de la comparaison des histogrammes ou de celle des polygones, il faudrait observer leurs</p><p>positions par rapport à l'axe horizontal, leur dispersion et leur asymétrie.</p><p>32</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Une distribution est dite symétrique quand un côté de la répartition est le reflet de</p><p>l'autre côté.</p><p>Dans les mesures physiques, il devient commun d'avoir des distributions raisonnablement</p><p>symétriques. Ce n'est pas le cas, par exemple, dans les distributions de revenu car, de manière</p><p>générale, il existe un plus grand nombre de personnes avec un faible revenu qu'avec un revenu</p><p>élevé (figure 3.8).</p><p>Figure 3.8. Différentes formes de distributions de fréquences.</p><p>3.4. OBSERVATIONS AU FIL DU TEMPS</p><p>Les données sont très souvent collectées à divers moments ou intervalles de temps, l'objectif</p><p>étant d'évaluer la variation temporelle de ces dernières. Le tracé, avec la variable d'intérêt placé</p><p>sur l'axe vertical et le temps sur l'axe horizontal, peut démontrer une tendance à la saisonnalité,</p><p>ou bien laisser apparaître une valeur pertinente.</p><p>Le graphique de la figure 3.9 illustre la variation moyenne du débit d'un cours d'eau au cours de</p><p>dix années consécutives.</p><p>33</p><p>Variables quantitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 3.9. Variation moyenne du débit d'un cours d'eau au fil du temps.</p><p>Sur le graphique de la figure 3.9 une valeur pertinente de l'année 1996 est mise en exergue,</p><p>présentée comme atypique, étant donné que la variation est sensiblement supérieure à celle des</p><p>autres années. Nous verrons dans les chapitres suivants ce qu'il faut faire lorsque nous avons des</p><p>données de ce genre, étant donné que nous devons les étudier avant de les écarter en raison</p><p>d'une éventuelle erreur dans la mesure.</p><p>34</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Résumé</p><p>35</p><p>Variables quantitatives</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>36</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>4</p><p>Statistique descriptive</p><p>4.1. INTRODUCTION</p><p>Dans les chapitres précédents nous avons appris à organiser les données dans les distributions</p><p>de fréquences, il était également possible de voir les modes de distribution des variables, en</p><p>termes d'éléments étudiés.</p><p>Dans le présent chapitre nous allons employer une autre stratégie qui peut être utilisée de</p><p>manière optionnelle pour compléter, décrire et explorer les données quantitatives.</p><p>En effet, quand la variable étudiée est quantitative, il est possible d'utiliser des statistiques que</p><p>fournissent des informations spécifiques sur l'ensemble de valeurs que peut avoir une certaine</p><p>variable.</p><p>De cette manière, nous avons les mesures de position, qui sont des paramètres qui indiquent où</p><p>se situe ou se positionne une série, vers et autour de quelle valeur se situent les données</p><p>collectées ; et les mesures de dispersion, qui indiquent comment se situent les valeurs, savoir si</p><p>elles se regroupent autour des mesures centrales ou si, au contraire, elles se retrouvent</p><p>dispersées, éloignées de leur centre.</p><p>Parmi les mesures de position, les plus importantes sont celles de tendance centrale, et parmi</p><p>celles-ci, la moyenne et le mode. Parmi les mesures de dispersion nous avons la variance et l'écart</p><p>type.</p><p>Par exemple, pour connaître le poids des nouveaux nés d'une communauté, on peut calculer la</p><p>moyenne ou la médiane des poids de ces enfants à la naissance et, pour avoir une idée de la</p><p>magnitude de la variation du poids des nouveaux nés, nous pouvons calculer l'écart type.</p><p>4.2. MOYENNE, VARIANCE ET MODE</p><p>4.2.1. MOYENNE ARITHMÉTIQUE</p><p>Le concept de moyenne arithmétique - ou simplement moyenne - est assez familier. Du point de</p><p>vue mathématique, il se défini comme la somme d'un ensemble de valeurs divisée par le nombre</p><p>de valeurs relevées.</p><p>37</p><p>Statistique descriptive</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Par exemple, considérant la note définitive de huit élèves (4, 5, 5, 6, 6, 7,7 et 8), la moyenne peut</p><p>être calculée de la manière suivante :</p><p>D'une manière générale, considérant un ensemble de n valeurs relevées d'une certaine variable X,</p><p>la moyenne peut être définie comme suit :</p><p>où :</p><p>X = somme des valeurs relevées de la variable X.</p><p>Le tableau 4.1 présente les notes définitives des élèves appartenant à trois salles de classe du</p><p>même établissement scolaire.</p><p>Tableau 4.1: Notes définitives des élèves par salle et leur moyenne.</p><p>La moyenne arithmétique est la moyenne de tendance centrale la plus commune</p><p>pour les variables quantitatives.</p><p>La figure 4.1 présente ces trois ensembles de valeurs représentées par un diagramme à points.</p><p>Classe Notes des élèves Moyenne par classe</p><p>A</p><p>B</p><p>C</p><p>4</p><p>1</p><p>0</p><p>5</p><p>2</p><p>6</p><p>5</p><p>4</p><p>7</p><p>6</p><p>6</p><p>7</p><p>6</p><p>6</p><p>7</p><p>7</p><p>9</p><p>7,5</p><p>7</p><p>10</p><p>7,5</p><p>8</p><p>10</p><p>6,00</p><p>6,00</p><p>6,00</p><p>38</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Figure 4.1. Représentation de la répartition des notes dans trois classes et présentation des</p><p>moyennes respectives.</p><p>Sur la figure 4.1 nous notons que sur chacun des diagrammes à points, la moyenne arithmétique</p><p>est présentée, d'une quelconque forme sur la position centrale des valeurs relevées. Plus</p><p>clairement, nous pouvons dire que la moyenne indique le centre d'un ensemble de valeurs.</p><p>Présentant une similitude avec le concept physique de point d'équilibre, la moyenne serait la</p><p>position qui équilibrerait les poids répartis dans le tableau.</p><p>Sur cette figure on peut également observer que les trois ensembles de valeurs, en plus d'être</p><p>répartis de manières différentes, ont la même moyenne arithmétique. Cela indique que cette</p><p>donnée statistique résume un ensemble de données autour d'une position centrale, mais</p><p>n'apporte aucune autre information sur les autres aspects de la distribution.</p><p>Si nous comparons les notes de la classe A avec celles de la classe B, nous constaterons que dans</p><p>la deuxième nous avons une forte dispersion des données, ce qui indique que la classe B est plus</p><p>hétérogène concernant les notes obtenues. D'un autre côté, dans l'ensemble des notes de la</p><p>classe C nous notons une note extrêmement basse, un point discordant ou anomalie, qui entraîne</p><p>une baisse sensible de la moyenne de ce groupe1 .</p><p>Dans le but de mieux expliquer l'ensemble des données, à part la moyenne arithmétique, il</p><p>faudrait inclure une mesure de dispersion des données, plus connue sous le nom de variance ou</p><p>écart type.</p><p>4.2.2. VARIANCE ET ÉCART TYPE</p><p>La variance, tout comme l'écart type sont des mesures qui fournissent une information</p><p>complémentaire à celle fournie par la moyenne arithmétique. D'une manière concrète, ils</p><p>expliquent la dispersion des données, à savoir, le niveau de dispersion d'un ensemble de valeurs</p><p>conformément à la moyenne . Nous mesurons ainsi la variabilité.</p><p>1. Dans ce cas, la moyenne n'est pas une estimation fiable de l'ensemble des données. Par la suite, nous verrons le</p><p>traitement le plus adéquat pour les variables qui contiennent des anomalies ou valeurs discordantes.</p><p>39</p><p>Statistique descriptive</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Une grande variabilité indique une faible qualité des données. Grande sera la</p><p>variance, faible sera la qualité des données.</p><p>Pour calculer la variance il est possible de considérer la somme des écarts de chaque valeur en</p><p>relation avec la moyenne arithmétique, l'élever au carré, et diviser la somme des carrés par (n-1).</p><p>Dans le cadre suivant nous décrivons les étapes à suivre pour calculer la variance.</p><p>Pour éviter le problème des écarts négatifs2 , ceux-ci seront élevés au carré (X - X)2. La variance</p><p>sera définie comme la moyenne arithmétique des écarts quadratiques3 . Par convenance, on</p><p>calculera cette mesure, en utilisant comme dénominateur (n-1) au lieu de n.</p><p>Finalement, la variance d'un ensemble de valeur se définit par l'expression :</p><p>où :</p><p>s2 = variance de l'échantillon.</p><p> (X - X)2 = somme</p><p>des écarts quadratiques.</p><p>n = nombre de valeurs de l'ensemble des données.</p><p>Par conséquent, la variance de l'ensemble des notes de la classe A est de :</p><p>Description Notation Résultats Numériques</p><p>Valeurs (notes des élèves) X 4 5 5 6 6 7 7 8</p><p>Moyenne X 6</p><p>Écarts en relation avec la moyenne X- X -2 -1 -1 0 0 1 1 2</p><p>Écarts quadratiques (X - X)2 4 1 1 0 0 1 1 4</p><p>2. Les écarts sont élevés au carré parce que, dans le cas contraire, l'on obtiendra toujours une valeur nulle sur les</p><p>résultats de la somme.</p><p>3. Plusieurs auteurs ont tendance à établir la différence dans la formule de la variance quand les données se réfèrent</p><p>à une population ou un échantillon. Dans cette perspective, quand les données représentent une population de N</p><p>éléments, le dénominateur est N. Si les données se réfèrent à un échantillon de n éléments, il est recommandé</p><p>d'utiliser comme dénominateur n-1. Nous utiliserons par simplicité ce second cas.</p><p>40</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Étant donné que la variance d'un ensemble de valeurs est calculée en fonction de ses écarts</p><p>quadratiques, les unités de mesure sont élevées au carré. Dans ce contexte, il devient plus</p><p>commode de travailler avec la racine carrée de la variance. Cette mesure est connue sous le nom</p><p>d'écart type, lequel s'exprime dans la même unité de mesure des données de l'analyse.</p><p>Par conséquent, l'écart type d'un ensemble de valeurs peut être calculé comme il suit :</p><p>Suivant l'exemple, l'écart type de l'ensemble des notes de la classe A serait :</p><p>Si nous comparons les écarts type des divers ensembles de données, nous pourrons évaluer leur</p><p>distribution de manière plus ou moins disperse. L'écart type est toujours positif, aussi grande soit</p><p>la dispersion des valeurs observées.</p><p>X et S2 sont les meilleurs estimateurs pour  et 2.</p><p>Le tableau 4.2 présente l'écart type des notes de chacune des trois classes.</p><p>Tableau 4.2: Moyenne et écart type respectif des notes définitives des élèves par classes.</p><p>L'analyse du tableau 4.2 révèle que les élèves des trois classes ont des moyennes autour de 6 (sur</p><p>10), mais si nous analysons les écarts type correspondants, nous constatons que les élèves de la</p><p>classe A ont des notes relativement égales les unes aux autres, alors que les notes des élèves de</p><p>la classe B se présentent sous une forme hétérogène. Nous arriverons aux mêmes conclusions si</p><p>nous observons le graphique de la figure 4.1.</p><p>Classe Nombre d'élèves Moyenne Écart type</p><p>A</p><p>B</p><p>C</p><p>8</p><p>8</p><p>7</p><p>6,00</p><p>6,00</p><p>6,00</p><p>1,31</p><p>3,51</p><p>2,69</p><p>41</p><p>Statistique descriptive</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>4.2.3. AUTRE FORMULE POUR LE CALCUL DE L'ÉCART TYPE</p><p>Pour ce qui est du calcul des écarts X - X , dans les cas où la moyenne est un nombre fractionnaire,</p><p>il est possible de commettre des erreurs de redondance qui pourraient compromettre le résultat</p><p>final. Pour éviter cet inconvénient, il est possible d'utiliser l'expression suivante de calcul de l'écart</p><p>type et qui est mathématiquement équivalente à celle précédemment exposée.</p><p>où :</p><p>X2 = somme quadratique des valeurs.</p><p>X2 = valeur de la moyenne élevée au carré.</p><p>n = nombre de valeurs de l'ensemble des données.</p><p>Nous allons illustrer l'utilisation de cette nouvelle formule en l'appliquant sur les notes obtenues</p><p>parles élèves de la classe A :</p><p>où :</p><p>Tel que nous aurions pu nous y attendre, nous arrivons au même résultat obtenu précédemment.</p><p>Un autre aspect relatif au calcul de l'écart type se réfère aux valeurs répétées. Par exemple, pour</p><p>calculer la somme totale des notes des élèves de la classe A, nous allons supposer l'expression</p><p>suivante :</p><p>qui est équivalente à :</p><p>(X) = 4 + 5 + 5 + 6 + 6+ 7 + 7 + 8,</p><p>4(1) + 5(2) + 6(2) + 7(2) + 8(1) = (Xƒ)</p><p>Valeurs (notes) X 4 5 5 6 6 7 7 8 (X = 6)</p><p>Valeurs au carré X2 16 25 25 36 36 49 49 64 (X2 = 300)</p><p>42</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>où nous considérons uniquement les différentes valeurs de X que nous résumons par leurs</p><p>fréquences respectives f d'occurrence de ces valeurs. Par analogie, nous pouvons calculer la</p><p>somme quadratique des valeurs de X par :</p><p>(X2ƒ) = 42 + 52(2) + 62(2) + 72(2) + 82</p><p>Avec cette nouvelle notation, la formule de calcul de l'écart type est :</p><p>Le tableau 4.3 présente la séquence de calcul pour obtenir l'écart type, utilisant les notes</p><p>définitives des élèves de la classe A.</p><p>Tableau 4.3: Calculs auxiliaires pour l'obtention de X et S.</p><p>où :</p><p>Dans les cas où nous avons plusieurs valeurs répétées, la procédure présentée facilite le calcul de</p><p>X et S, et réduit également la possibilité d'erreurs numériques.</p><p>4.2.4. MODE</p><p>Le mode (Mo) est la valeur qui arrive fréquemment dans un système d'observations. Il s'agit d'une</p><p>moyenne de tendance centrale à échelles nominales, qui est également évaluée pour des échelles</p><p>numériques.</p><p>Une distribution peut avoir plus d'un mode, dans ce cas on dit que les données sont bimodales, tri</p><p>modales, etc.</p><p>Note (X) Fréquence (f) X·f X2·f</p><p>4</p><p>5</p><p>6</p><p>7</p><p>8</p><p>1</p><p>2</p><p>2</p><p>2</p><p>1</p><p>4</p><p>10</p><p>12</p><p>14</p><p>8</p><p>16</p><p>50</p><p>72</p><p>98</p><p>64</p><p>Total 8 48 300</p><p>43</p><p>Statistique descriptive</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>Une population homogène est une population statistique qui a un mode unique. Pour déterminer</p><p>si une population donnée est homogène, il convient de construire l'histogramme d'un échantillon</p><p>prélevé au hasard dans la population. Dans le cas où nous avons plus d'un mode, nous avons un</p><p>mélange de populations différentes.</p><p>Pour un quelconque échantillon que nous voulons prélever, nous devons toujours</p><p>nous assurer que nous sommes en présence de populations homogènes.</p><p>Dans la quasi-totalité des analyses statistiques, on suppose que la population est homogène,</p><p>c'est-à-dire que sa densité (pour variables aléatoires continues) ou la fonction totale de la</p><p>probabilité (pour variables aléatoires discrètes) est unimodale.</p><p>4.3. MESURES FONDÉES SUR L'ORDONNANCEMENT DES</p><p>DONNÉES</p><p>La moyenne et l'écart type sont les statistiques les plus employées pour évaluer la position</p><p>centrale et la dispersion d'un ensemble de valeurs. Toutefois, ces mesures sont fortement</p><p>influencées par les anomalies. Par exemple, dans les notes de la classe C la valeur discordante 0</p><p>(zéro) « tire » la moyenne vers le bas, tel que l'illustre la figure 4.2.</p><p>Figure 4.2. L'influence d'une anomalie dans le calcul de la moyenne arithmétique.</p><p>Malgré le fait que la moyenne arithmétique est de 6 (six), le diagramme à points suggère que la</p><p>valeur 7 (sept) serait une meilleure estimation pour représenter les notes de la classe C, en plus</p><p>d'être la valeur la plus fréquente, elle laisse la moitié des notes au-dessus et l'autre moitié en</p><p>dessous.</p><p>44</p><p>©</p><p>T</p><p>O</p><p>U</p><p>S</p><p>D</p><p>R</p><p>O</p><p>IT</p><p>S</p><p>R</p><p>É</p><p>S</p><p>E</p><p>R</p><p>V</p><p>É</p><p>S</p><p>DÉTECTION D'ANOMALIES</p><p>Une variance potentiellement grande indique une éventuelle présence d'anomalies,</p><p>résultant d'erreurs administratives ou de la collecte de données même. Il faut faire preuve</p><p>de minutie et avant de considérer une anomalie comme telle, on doit découvrir pourquoi et</p><p>de quelle manière une telle observation a été faite.</p><p>S'il n'y a pas de doute, l'anomalie doit disparaître et le modèle être reformulé.</p><p>La procédure pour découvrir une anomalie est la suivante :</p><p>1. Calculer la moyenne X et l'écart type S de tout l'échantillon.</p><p>2. Fixer les limites : [ X  k  S, X + k  S ], où une valeur typique de k est de 2,5.</p><p>3. Éliminer toutes les valeurs qui se retrouvent hors limites.</p><p>4. Reprendre l'étape 1.</p><p>5. Dans la majorité des cas, il faudra répéter ce même algorithme jusqu'à ce que toutes</p><p>les anomalies soient éliminées.</p><p>Nous présentons ensuite une série de statistiques moins affectées par la présence d'anomalies et</p><p>qui, par conséquent, sont les plus recommandables pour analyser les variables qui contiennent ce</p><p>type de valeurs.</p><p>4.3.1. LA MÉDIANE</p><p>De même que la moyenne, la médiane est une mesure de tendance centrale caractérisée par la</p><p>division de la distribution en deux parties égales, laissant 50 % des valeurs faibles d'un côté et</p><p>50 % des valeurs élevées de l'autre côté. Par exemple, l'ensemble de valeurs {2, 3, 4, 5, 8} a pour</p><p>médiane la valeur 4 (quatre), et</p>