615 lines
25 KiB
TeX
615 lines
25 KiB
TeX
\documentclass[a4paper,french,12pt]{article}
|
|
|
|
\title{Probabilités et statistiques}
|
|
\author{}
|
|
\date{Dernière compilation~: \today{} à \currenttime}
|
|
|
|
\usepackage{styles}
|
|
\usepackage{xfrac}
|
|
\usepackage{tikz}
|
|
\usetikzlibrary{shapes}
|
|
|
|
\begin{document}
|
|
|
|
\maketitle
|
|
\tableofcontents
|
|
|
|
\clearpage
|
|
|
|
\section{Introduction}
|
|
|
|
\subsection{Démarche statistique}
|
|
|
|
\begin{center}
|
|
\begin{tikzpicture}
|
|
\node [rectangle,draw,thick] (pop) at (0,0) {population};
|
|
\node [rectangle,draw,thick] (var) at (0,-2) {variables};
|
|
\node [rectangle,draw,thick] (elmt) at (3,-2) {élément};
|
|
\node [rectangle,draw,thick] (ech) at (0,-4) {échantillon};
|
|
\node [rectangle,draw,thick] (serie) at (0,-6) {série statistique};
|
|
\node [rectangle,draw,thick] (desc) at (5,-6) {statistique descriptive};
|
|
\node [rectangle,draw,thick] (pop2) at (0,-8) {population};
|
|
\draw [-latex] (pop) -- (var);
|
|
\draw [-latex] (var) -- (elmt);
|
|
\draw [-latex] (var) -- (ech) node[midway]{sous-ensemble};
|
|
\draw [-latex] (ech) -- (serie);
|
|
\draw [-latex] (serie) -- (desc);
|
|
\draw [-latex] (serie) -- (pop2) node[midway]{induction};
|
|
\end{tikzpicture}
|
|
\end{center}
|
|
|
|
\subsection{Définitions}
|
|
|
|
\begin{itemize}
|
|
\item Déduction~:
|
|
Part de principes généraux pour déterminer des applications particulières.
|
|
\item Induction~:
|
|
Part d'applications particulières pour déterminer un principe général.
|
|
\item Population~:
|
|
Ensemble sur lequel porteront les conclusions de l'étude.
|
|
\item Échantillon~:
|
|
Sous-ensemble de la population, dans lequel seront collectées les données de l'étude.
|
|
\item Variable~: quantité mesurée lors de l'étude.
|
|
\end{itemize}
|
|
|
|
\subsection{Séries statistiques}
|
|
|
|
\begin{itemize}
|
|
\item Série statistique simple~:
|
|
Ensemble de données relatives à \emph{une} variable mesurée sur un échantillon.
|
|
\item Série statistique double~:
|
|
Ensemble de \emph{couples} de données relatives à \emph{deux} variables mesurées sur un échantillon.
|
|
\item Série statistique multiple~:
|
|
Ensemble de \emph{multiplets} de données relatives à \emph{plusieurs} variables mesurées sur un échantillon.
|
|
\end{itemize}
|
|
|
|
\section{Statistique descriptive d'une série statistique simple}
|
|
|
|
\subsection{Hiérarchisation}
|
|
|
|
\paragraph{Méthode de classement}
|
|
Il est plus commode de regrouper les données en \emph{classes} plus maniables.
|
|
La stratégie de classification dépend du \emph{type} de variable.
|
|
|
|
\paragraph{Variable quantitative}
|
|
Les valeurs possibles sont comparables, on peut les formuler de manière numérique.
|
|
Par exemple nombre d'enfants, volume\ldots
|
|
|
|
\paragraph{Variable qualitative}
|
|
Se réfère souvent à une caractéristique.
|
|
On peut la voir comme un booléen.
|
|
Par exemple carotte, navet\ldots
|
|
|
|
\paragraph{Variable discrète}
|
|
Les valeurs possibles sont discontinues, c'est-à-dire séparées.
|
|
Par exemple, nombre d'enfants, d'objets\ldots
|
|
|
|
\paragraph{Variable continue}
|
|
Les valeurs peuvent passer continûment.
|
|
Par exemple masse, volume, concentration\ldots
|
|
|
|
\subsubsection{Intervalles de classe}
|
|
|
|
On définit un critère.
|
|
|
|
\begin{itemize}
|
|
\item Pour une variable quantitative, un intervalle de classe est~: \\
|
|
$[\text{borne inférieure} \quad \text{borne supérieure}]$.
|
|
La valeur centrale est l'\emph{indice de classe}.
|
|
\item Pour une variable qualitative, un critère qualitatif est une classe.
|
|
\end{itemize}
|
|
|
|
Dans le cas des variables continues, le choix des intervalles de classe est délicat~:
|
|
|
|
\begin{itemize}
|
|
\item Trop petits~: le nombre de classes est trop grand pour être maniable.
|
|
\item Trop grands~: des détails sont dissimulés au sein d'une même classe.
|
|
\end{itemize}
|
|
|
|
Dans la plupart des cas, on choisit des intervalles de classe de longueurs aussi égales que possible et on évite les classes de fréquence nulle.
|
|
|
|
\subsubsection{Méthode de classement}
|
|
|
|
\begin{center}
|
|
\begin{tabular}{c|c|c|}
|
|
\cline{2-3}
|
|
Variable & \textbf{Quantitative} & \textbf{Qualitative} \\
|
|
\hline
|
|
\multicolumn{1}{|c|}{\textbf{Discrète}} & Valeurs ou Intervalle de classe & Qualité \\
|
|
\hline
|
|
\multicolumn{1}{|c|}{\textbf{Continue}} & Intervalle de classe & --- \\
|
|
\hline
|
|
\end{tabular}
|
|
\end{center}
|
|
|
|
\subsubsection{Quantifier le contenu des classes}
|
|
|
|
\paragraph{Effectif (fréquence absolue)}
|
|
$f$~: nombre d'éléments appartenant à la classe.
|
|
|
|
\paragraph{Fréquence relative}
|
|
$f_{rel}$~: effectif rapporté à l'effectif total de l'échantillon ($n$).
|
|
\begin{equation*}
|
|
f_{rel} = \frac{f}{n}
|
|
\end{equation*}
|
|
|
|
\paragraph{Pourcentage}
|
|
Fréquence relative exprimée en \%.
|
|
|
|
\subsubsection{Distribution statistique}
|
|
|
|
La distribution statistique est ainsi formée d'une série de couples (intervalle de classe, fréquence).
|
|
Quand on note une distribution, on range implicitement la série de couples par ordre croissant.
|
|
|
|
La classification doit être complète~: le nombre des éléments dispersés dans les classes doit être égal à l'effectif initial.
|
|
\begin{equation*}
|
|
\sum_{i=1}^{D} f_i = n
|
|
\end{equation*}
|
|
|
|
\subsubsection{Distribution cumulée}
|
|
|
|
Une distribution cumulée est dérivée d'une distribution.
|
|
Elle a les mêmes intervalles de classe.
|
|
Les fréquences cumulées sont la somme de la fréquence de la classe et de toutes les fréquences la précédant~:
|
|
\begin{equation*}
|
|
f_{cum,i} = \sum_{j=1}^{i} f_j
|
|
\end{equation*}
|
|
|
|
\subsection{Représentations graphiques}
|
|
|
|
\paragraph{Diagramme en bâtons}
|
|
Se fait préférentiellement pour des variables discrètes.
|
|
|
|
\begin{center}
|
|
\begin{tikzpicture}[scale=0.7, transform shape]
|
|
\draw (-2,0) -- (12,0);
|
|
\foreach \i in {-1,0,...,12}{\draw (\i,0) -- (\i,0.1);}
|
|
\foreach \i in {-2,0,...,12}{\node at (\i,-0.3) {\small \i};}
|
|
\draw (-2,0) -- (-2,10);
|
|
\foreach \i in {2,4,...,10}{\draw (-2,\i) -- (-1.9,\i);}
|
|
\foreach \i in {0,2,...,10}{\node at (-2.3,\i) {\small \i};}
|
|
\node at (5,-1) {Indices};
|
|
\node [rotate=90] at (-3,5) {Fréquences};
|
|
|
|
\draw [ultra thick] (1,0) -- (1,4);
|
|
\draw [ultra thick] (2,0) -- (2,8);
|
|
\draw [ultra thick] (3,0) -- (3,10);
|
|
\draw [ultra thick] (4,0) -- (4,8);
|
|
\draw [ultra thick] (5,0) -- (5,4);
|
|
\draw [ultra thick] (10,0) -- (10,4);
|
|
\end{tikzpicture}
|
|
\end{center}
|
|
|
|
\paragraph{Polygône de fréquence}
|
|
|
|
\begin{center}
|
|
\begin{tikzpicture}[scale=0.7, transform shape]
|
|
\draw (-2,0) -- (12,0);
|
|
\foreach \i in {-1,0,...,12}{\draw (\i,0) -- (\i,0.1);}
|
|
\foreach \i in {-2,0,...,12}{\node at (\i,-0.3) {\small \i};}
|
|
\draw (-2,0) -- (-2,10);
|
|
\foreach \i in {2,4,...,10}{\draw (-2,\i) -- (-1.9,\i);}
|
|
\foreach \i in {0,2,...,10}{\node at (-2.3,\i) {\small \i};}
|
|
\node at (5,-1) {Indices};
|
|
\node [rotate=90] at (-3,5) {Fréquences};
|
|
|
|
\node [circle,teal,ultra thick,draw] at (-1,0) {};
|
|
\node [circle,teal,ultra thick,draw] at (0,0) {};
|
|
\node [circle,teal,ultra thick,draw] at (1,4) {};
|
|
\node [circle,teal,ultra thick,draw] at (2,8) {};
|
|
\node [circle,teal,ultra thick,draw] at (3,8) {};
|
|
\node [circle,teal,ultra thick,draw] at (4,8) {};
|
|
\node [circle,teal,ultra thick,draw] at (5,4) {};
|
|
\node [circle,teal,ultra thick,draw] at (6,0) {};
|
|
\node [circle,teal,ultra thick,draw] at (7,0) {};
|
|
\node [circle,teal,ultra thick,draw] at (8,0) {};
|
|
\node [circle,teal,ultra thick,draw] at (9,0) {};
|
|
\node [circle,teal,ultra thick,draw] at (10,4) {};
|
|
\node [circle,teal,ultra thick,draw] at (11,0) {};
|
|
\node [circle,teal,ultra thick,draw] at (12,0) {};
|
|
|
|
\draw [very thick]
|
|
(-1,0) --
|
|
(0,0) --
|
|
(2,8) --
|
|
(4,8) --
|
|
(6,0) --
|
|
(9,0) --
|
|
(10,4) --
|
|
(10,4) --
|
|
(11,0) --
|
|
(12,0)
|
|
;
|
|
\end{tikzpicture}
|
|
\end{center}
|
|
|
|
\paragraph{Histogramme}
|
|
Se fait préférentiellement pour des variables continues.
|
|
|
|
\begin{center}
|
|
\begin{tikzpicture}[scale=0.7, transform shape]
|
|
\draw (1,0) -- (10,0);
|
|
\foreach \i in {2,3,...,10}{\draw (\i,0) -- (\i,0.1);}
|
|
\foreach \i in {1,2,...,10}{\node at (\i,-0.3) {\small \i};}
|
|
\draw (1,0) -- (1,6);
|
|
\foreach \i in {2,4,6}{\draw (1,\i) -- (1.1,\i);}
|
|
\foreach \i in {0,2,...,6}{\node at (0.7,\i) {\small \i};}
|
|
\node at (5.5,-1) {Valeurs};
|
|
\node [rotate=90] at (0,3) {Fréquences};
|
|
|
|
\draw [ultra thick]
|
|
(1,0) --
|
|
(1,2) --
|
|
(2,2) --
|
|
(2,0) --
|
|
(2,4) --
|
|
(3,4) --
|
|
(3,0) --
|
|
(3,6) --
|
|
(4,6) --
|
|
(4,0) --
|
|
(4,4) --
|
|
(5,4) --
|
|
(5,0) --
|
|
(5,2) --
|
|
(6,2) --
|
|
(6,0)
|
|
;
|
|
\draw [ultra thick] (9,0) -- (9,2) -- (10,2) -- (10,0);
|
|
\end{tikzpicture}
|
|
\end{center}
|
|
|
|
\subsection{Paramètres statistiques}
|
|
|
|
\paragraph{Variable qualitative}
|
|
On s'intéresse à la répartition des éléments dans les classes.
|
|
|
|
\paragraph{Variable quantitative}
|
|
On essaie de dériver des valeurs indépendantes de la classification.
|
|
|
|
\begin{multicols}{2}
|
|
|
|
\begin{tikzpicture}[scale=0.7, transform shape]
|
|
\draw [-latex] (0,0) -- (11,0) node [right] {x};
|
|
\draw [-latex] (0,0) -- (0,5) node [above] {f};
|
|
|
|
\draw (0,0) -- (0,1.5) -- (1,1.5) -- (1,0);
|
|
\draw (1,0) -- (1,2.5) -- (2,2.5) -- (2,0);
|
|
\draw (2,0) -- (2,3.5) -- (3,3.5) -- (3,0);
|
|
\draw (3,0) -- (3,5) -- (4,5) -- (4,0);
|
|
\draw (4,0) -- (4,4) -- (5,4) -- (5,0);
|
|
\draw (5,0) -- (5,3) -- (6,3) -- (6,0);
|
|
\draw (6,0) -- (6,2.5) -- (7,2.5) -- (7,0);
|
|
|
|
\node [blue] at (4.5,6.5) {Position};
|
|
\filldraw[blue,fill=blue]
|
|
(3.4,7) -- (3.6,7) --
|
|
(3.6,6) -- (3.7,6) --
|
|
(3.5,5.7) --
|
|
(3.3,6) -- (3.4,6) --
|
|
(3.4,7)
|
|
;
|
|
|
|
\node [violet] at (9.1,1.5) {Aplatissement};
|
|
\filldraw[violet,fill=violet]
|
|
(7.4,2) -- (7.3,2) --
|
|
(7.5,2.3) --
|
|
(7.7,2) -- (7.6,2) --
|
|
(7.6,1) -- (7.7,1) --
|
|
(7.5,0.7) --
|
|
(7.3,1) -- (7.4,1) --
|
|
(7.4,2)
|
|
;
|
|
|
|
\node [red] at (3.5,-1) {Dispersion};
|
|
\filldraw[red,fill=red]
|
|
(2.3,-0.6) -- (2.3,-0.7) --
|
|
(2,-0.5) -- (2.3,-0.3) --
|
|
(2.3,-0.4) -- (4.7,-0.4) --
|
|
(4.7,-0.3) -- (5,-0.5) --
|
|
(4.7,-0.7) -- (4.7,-0.6) --
|
|
(2.3,-0.6)
|
|
;
|
|
|
|
\node [olive] at (3.5,1) {Symétrie};
|
|
\filldraw[olive,fill=olive]
|
|
(2.3,1.6) -- (2.3,1.7) --
|
|
(2,1.5) -- (2.3,1.3) --
|
|
(2.3,1.4) -- (4.7,1.4) --
|
|
(4.7,1.3) -- (5,1.5) --
|
|
(4.7,1.7) -- (4.7,1.6) --
|
|
(2.3,1.6)
|
|
;
|
|
\end{tikzpicture}
|
|
|
|
\columnbreak
|
|
|
|
On regarde dans l'ordre~:
|
|
\begin{enumerate}
|
|
\item Position
|
|
\item Dispersion
|
|
\item Symétrie
|
|
\item Aplatissement
|
|
\end{enumerate}
|
|
|
|
\end{multicols}
|
|
|
|
\subsubsection{Paramètres de position}
|
|
|
|
\paragraph{Moyenne}
|
|
|
|
La moyenne \emph{arithmétique}~:
|
|
\begin{equation*}
|
|
\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i
|
|
\end{equation*}
|
|
|
|
La moyenne \emph{géométrique}~:
|
|
\begin{equation*}
|
|
(x_1 \times x_2 \times \ldots \times x_i \times \ldots \times x_n)^{\sfrac{1}{n}} = (\Pi_{i=1}^{n} x_i)^{\sfrac{1}{n}}
|
|
\end{equation*}
|
|
|
|
\paragraph{Médiane}
|
|
C'est la valeur de la variable qui sépare la série statistique en deux groupes d'égal effectif.
|
|
\begin{enumerate}
|
|
\item On classe les données par ordre croissant.
|
|
\item La médiane est la valeur qui se trouve au milieu des données triées.
|
|
\end{enumerate}
|
|
|
|
\paragraph{Mode}
|
|
C'est l'indice de la classe ayant la fréquence la plus élevée.
|
|
\begin{enumerate}
|
|
\item On trace l'histogramme.
|
|
\item On recherche le maximum.
|
|
\end{enumerate}
|
|
|
|
\begin{multicols}{2}
|
|
|
|
Distribution monomodale
|
|
|
|
\begin{tikzpicture}[scale=0.7, transform shape]
|
|
\draw [-latex] (0,0) -- (9,0) node [right] {x};
|
|
\draw [-latex] (0,0) -- (0,5) node [above] {f};
|
|
|
|
\draw (0,0) -- (0,1.5) -- (1,1.5) -- (1,0);
|
|
\draw (1,0) -- (1,2.5) -- (2,2.5) -- (2,0);
|
|
\draw (2,0) -- (2,3.5) -- (3,3.5) -- (3,0);
|
|
\draw (3,0) -- (3,5) -- (4,5) -- (4,0);
|
|
\draw (4,0) -- (4,4) -- (5,4) -- (5,0);
|
|
\draw (5,0) -- (5,3) -- (6,3) -- (6,0);
|
|
\draw (6,0) -- (6,2.5) -- (7,2.5) -- (7,0);
|
|
|
|
\filldraw[blue,fill=blue]
|
|
(3.4,7) -- (3.6,7) --
|
|
(3.6,6) -- (3.7,6) --
|
|
(3.5,5.7) --
|
|
(3.3,6) -- (3.4,6) --
|
|
(3.4,7)
|
|
;
|
|
\end{tikzpicture}
|
|
|
|
Distribution bimodale
|
|
|
|
\begin{tikzpicture}[scale=0.7, transform shape]
|
|
\draw [-latex] (0,0) -- (9,0) node [right] {x};
|
|
\draw [-latex] (0,0) -- (0,5) node [above] {f};
|
|
|
|
\draw (0,0) -- (0,1.5) -- (1,1.5) -- (1,0);
|
|
\draw (1,0) -- (1,5) -- (2,5) -- (2,0);
|
|
\draw (2,0) -- (2,3.5) -- (3,3.5) -- (3,0);
|
|
\draw (3,0) -- (3,3) -- (4,3) -- (4,0);
|
|
\draw (4,0) -- (4,4) -- (5,4) -- (5,0);
|
|
\draw (5,0) -- (5,3) -- (6,3) -- (6,0);
|
|
\draw (6,0) -- (6,2.5) -- (7,2.5) -- (7,0);
|
|
|
|
\filldraw[blue,fill=blue]
|
|
(1.4,7) -- (1.6,7) --
|
|
(1.6,6) -- (1.7,6) --
|
|
(1.5,5.7) --
|
|
(1.3,6) -- (1.4,6) --
|
|
(1.4,7)
|
|
;
|
|
\filldraw[blue,fill=blue]
|
|
(4.4,6) -- (4.6,6) --
|
|
(4.6,5) -- (4.7,5) --
|
|
(4.5,4.7) --
|
|
(4.3,5) -- (4.4,5) --
|
|
(4.4,6)
|
|
;
|
|
\end{tikzpicture}
|
|
|
|
\columnbreak
|
|
|
|
\end{multicols}
|
|
|
|
\subsubsection{Paramètres de dispersion}
|
|
|
|
\paragraph{Amplitude}
|
|
C'est l'étendue, c'est-à-dire l'écart entre la valeur maximale et la valeur minimale de la distribution.
|
|
|
|
\begin{center}
|
|
\begin{tikzpicture}[scale=0.7, transform shape]
|
|
\draw (1,0) -- (10,0);
|
|
\foreach \i in {2,3,...,10}{\draw (\i,0) -- (\i,0.1);}
|
|
\foreach \i in {1,2,...,10}{\node at (\i,-0.3) {\small \i};}
|
|
\draw (1,0) -- (1,6);
|
|
\foreach \i in {2,4,6}{\draw (1,\i) -- (1.1,\i);}
|
|
\foreach \i in {0,2,...,6}{\node at (0.7,\i) {\small \i};}
|
|
\node at (5.5,-1) {Valeurs};
|
|
\node [rotate=90] at (0,3) {Fréquences};
|
|
|
|
\draw [thick]
|
|
(1,0) --
|
|
(1,2) --
|
|
(2,2) --
|
|
(2,0) --
|
|
(2,4) --
|
|
(3,4) --
|
|
(3,0) --
|
|
(3,6) --
|
|
(4,6) --
|
|
(4,0) --
|
|
(4,4) --
|
|
(5,4) --
|
|
(5,0) --
|
|
(5,2) --
|
|
(6,2) --
|
|
(6,0)
|
|
;
|
|
\draw [thick] (9,0) -- (9,2) -- (10,2) -- (10,0);
|
|
\draw [latex-latex,red,very thick] (1,-1.5) -- (10,-1.5);
|
|
\node [red] at (5.5,-2) {Étendue};
|
|
\end{tikzpicture}
|
|
\end{center}
|
|
|
|
\paragraph{Quartiles}
|
|
|
|
Le \emph{quartile à 25\%} est la valeur de la variable qui délimite le premier quart des données de la série statistique classée par ordre croissant.
|
|
On l'appelle donc aussi le \emph{premier quartile}.
|
|
|
|
Le \emph{quartile à 75\%} est la valeur de la variable qui délimite les trois premiers quarts des données de la série statistique classée par ordre croissant.
|
|
On l'appelle donc aussi le \emph{troisième quartile}.
|
|
|
|
Boîte à moustaches, aussi appelée \emph{boxplot}~:
|
|
|
|
\begin{center}
|
|
\begin{tikzpicture}[scale=0.7, transform shape]
|
|
\draw (0,0.5) -- (9,0.5);
|
|
\draw (0,0.5) -- (0,8.3);
|
|
\node [rotate=90] at (-0.6,4) {Valeurs};
|
|
\foreach \i in {1,2,...,8}{
|
|
\draw (0,\i) -- (0.1,\i);
|
|
\node at (-0.2,\i) {\small \i};
|
|
}
|
|
|
|
\node at (1.7,4.5) {Étendue};
|
|
\draw [latex-latex] (3,1) -- (3,8);
|
|
|
|
\draw [thick] (4.7,8) -- (5.3,8);
|
|
\draw [blue,dashed] (5,4) -- (5,8);
|
|
\node [blue] at (7.6,4) {Quartile à 75\%};
|
|
\node [blue] at (7.6,2) {Quartile à 25\%};
|
|
\draw[blue]
|
|
(6,4) -- (5.5,3) -- (6,2) --
|
|
(4,2) -- (4.5,3) -- (4,4) -- (6,4)
|
|
;
|
|
\node [red] at (7,3) {Médiane};
|
|
\draw[red] (4.5,3) -- (5.5,3);
|
|
\draw [blue,dashed] (5,1) -- (5,2);
|
|
\draw [thick] (4.7,1) -- (5.3,1);
|
|
\end{tikzpicture}
|
|
\end{center}
|
|
|
|
\paragraph{Variance}
|
|
|
|
La variance \emph{d'une population} est la moyenne des carrés des écarts des valeurs à la moyenne de la population.
|
|
\begin{equation*}
|
|
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} {(x_i - \overline{x})}^2
|
|
\end{equation*}
|
|
|
|
La variance \emph{d'un échantillon} est la somme des carrés des écarts des valeurs à la moyenne de l'échantillon, ramenée au nombre de \emph{degrés de liberté} de l'échantillon ($n-1$ si $n$ est l'effectif de l'échantillon).
|
|
\begin{equation*}
|
|
s_x^2 = \frac{1}{\color{red}{n-1}} \sum_{i=1}^{n} {(x_i - \overline{x})}^2
|
|
\end{equation*}
|
|
|
|
\paragraph{Écart type}
|
|
C'est la racine carrée de la variance.
|
|
|
|
\begin{multicols}{2}
|
|
|
|
Pour une population~:
|
|
\begin{equation*}
|
|
\sigma = \sqrt{\sigma^2}
|
|
\end{equation*}
|
|
|
|
Pour un échantillon~:
|
|
\begin{equation*}
|
|
s_x = \sqrt{s_x^2}
|
|
\end{equation*}
|
|
|
|
\end{multicols}
|
|
|
|
\section{Statistique inférentielle}
|
|
|
|
La statistique inférentielle permet de formuler un jugement sur une population à partir des résultats observés sur un échantillon extrait au hasard.
|
|
|
|
\subsection{Les hypothèses de la statistique inférentielle}
|
|
|
|
\begin{itemize}
|
|
\item La population est considérée comme infinie.
|
|
\item Les variables statistiques qui la décrivent peuvent être considérées comme des variables aléatoires.
|
|
\end{itemize}
|
|
|
|
Il y a une différence fondamentale entre les probabilités et la statistique~:
|
|
|
|
\begin{itemize}
|
|
\item Les probabilités s'intéressent aux issus théoriques d'une expérience aléatoire.
|
|
On parle d'une connaissance \emph{à priori} puisque l'étude se fait sans données.
|
|
\item La statistique s'intéresse à l'étude des données empiriques en les recueillant et en les analysant pour les interpréter.
|
|
On parle d'une connaissance \emph{à posteriori}.
|
|
\end{itemize}
|
|
|
|
\subsection{Notions de probabilités}
|
|
|
|
Soient $X$ et $Y$ deux variables aléatoires réelles admettant une moyenne et une variance.
|
|
On note~:
|
|
|
|
\begin{itemize}
|
|
\item $E(X)$ l'espérence (la moyenne) de $X$
|
|
\item $E(Y)$ l'espérence (la moyenne) de $Y$
|
|
\item $V(X)$ la variance de $X$
|
|
\item $V(Y)$ la variance de $Y$
|
|
\end{itemize}
|
|
\begin{align*}
|
|
E(X+Y) &= E(X) + E(Y) \\
|
|
E(\lambda X) &= \lambda E(X) \\
|
|
V(\lambda X) &= \lambda^2 V(X)
|
|
\end{align*}
|
|
Si $X$ et $Y$ sont indépendants~:
|
|
\begin{equation*}
|
|
V(X+Y) = V(X) + V(Y)
|
|
\end{equation*}
|
|
|
|
\begin{equation*}
|
|
E(X) = \int f(x) \dif x
|
|
\end{equation*}
|
|
|
|
Or, pour faire le lien entre probabilités et statistiques, avec à gauche l'espérence (probabilités) et à droite la moyenne (statistiques)~:
|
|
|
|
\begin{equation*}
|
|
E(X) \approx \sum_{i=1}^n \frac{x_i}{n}
|
|
\end{equation*}
|
|
|
|
\subsection{Loi normale}
|
|
|
|
Une variable aléatoire suit une loi normale de moyenne $\mu$ et d'écart-type $\sigma$ lorsque sa densité de probabilité est la fonction définie sur $\mathbb{R}$ par~:
|
|
|
|
\begin{equation*}
|
|
f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}
|
|
\end{equation*}
|
|
|
|
\subsubsection{Loi normale centrée réduite}
|
|
|
|
Si une variable aléatoire $x$ suit une loi normale de moyenne $\mu$ et d'écart-type $\sigma$, alors la variable aléatoire $T = \frac{x - \mu}{\sigma}$ suit la loi normale $N(0,1)$ dont la densité de probabilité est donnée par la fonction~:
|
|
|
|
\begin{equation*}
|
|
f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}
|
|
\end{equation*}
|
|
|
|
\subsubsection{Quelques propriétés de la loi $N(0,1)$}
|
|
|
|
La fonction de répartition de la loi $N(0,1)$ est souvent notée~:
|
|
|
|
\begin{equation*}
|
|
\Pi(x) = P(X \leq x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-\frac{t^2}{2}} \dif t
|
|
\end{equation*}
|
|
|
|
\subsection{Théorême central limite}
|
|
|
|
Soit $X_1, X_2, \ldots, X_n$ une suite de $n$ valeurs aléatoires mutuellement indépendantes, de même loi de moyenne $\mu$ et d'écart type $\sigma$.
|
|
\begin{equation*}
|
|
\text{Pour } n \geq 30, \text{ la valeur aléatoire } \overline{X} = \frac{1}{n} \sum_{i=1}^n X_i
|
|
\end{equation*}
|
|
|
|
Cette moyenne suit, approximativement, la loi normale de moyenne $\mu$ et d'écart type $\frac{\sigma}{\sqrt{n}}$.
|
|
|
|
\end{document}
|