efrei/probabilites-statistiques/main.tex

615 lines
25 KiB
TeX

\documentclass[a4paper,french,12pt]{article}
\title{Probabilités et statistiques}
\author{}
\date{Dernière compilation~: \today{} à \currenttime}
\usepackage{styles}
\usepackage{xfrac}
\usepackage{tikz}
\usetikzlibrary{shapes}
\begin{document}
\maketitle
\tableofcontents
\clearpage
\section{Introduction}
\subsection{Démarche statistique}
\begin{center}
\begin{tikzpicture}
\node [rectangle,draw,thick] (pop) at (0,0) {population};
\node [rectangle,draw,thick] (var) at (0,-2) {variables};
\node [rectangle,draw,thick] (elmt) at (3,-2) {élément};
\node [rectangle,draw,thick] (ech) at (0,-4) {échantillon};
\node [rectangle,draw,thick] (serie) at (0,-6) {série statistique};
\node [rectangle,draw,thick] (desc) at (5,-6) {statistique descriptive};
\node [rectangle,draw,thick] (pop2) at (0,-8) {population};
\draw [-latex] (pop) -- (var);
\draw [-latex] (var) -- (elmt);
\draw [-latex] (var) -- (ech) node[midway]{sous-ensemble};
\draw [-latex] (ech) -- (serie);
\draw [-latex] (serie) -- (desc);
\draw [-latex] (serie) -- (pop2) node[midway]{induction};
\end{tikzpicture}
\end{center}
\subsection{Définitions}
\begin{itemize}
\item Déduction~:
Part de principes généraux pour déterminer des applications particulières.
\item Induction~:
Part d'applications particulières pour déterminer un principe général.
\item Population~:
Ensemble sur lequel porteront les conclusions de l'étude.
\item Échantillon~:
Sous-ensemble de la population, dans lequel seront collectées les données de l'étude.
\item Variable~: quantité mesurée lors de l'étude.
\end{itemize}
\subsection{Séries statistiques}
\begin{itemize}
\item Série statistique simple~:
Ensemble de données relatives à \emph{une} variable mesurée sur un échantillon.
\item Série statistique double~:
Ensemble de \emph{couples} de données relatives à \emph{deux} variables mesurées sur un échantillon.
\item Série statistique multiple~:
Ensemble de \emph{multiplets} de données relatives à \emph{plusieurs} variables mesurées sur un échantillon.
\end{itemize}
\section{Statistique descriptive d'une série statistique simple}
\subsection{Hiérarchisation}
\paragraph{Méthode de classement}
Il est plus commode de regrouper les données en \emph{classes} plus maniables.
La stratégie de classification dépend du \emph{type} de variable.
\paragraph{Variable quantitative}
Les valeurs possibles sont comparables, on peut les formuler de manière numérique.
Par exemple nombre d'enfants, volume\ldots
\paragraph{Variable qualitative}
Se réfère souvent à une caractéristique.
On peut la voir comme un booléen.
Par exemple carotte, navet\ldots
\paragraph{Variable discrète}
Les valeurs possibles sont discontinues, c'est-à-dire séparées.
Par exemple, nombre d'enfants, d'objets\ldots
\paragraph{Variable continue}
Les valeurs peuvent passer continûment.
Par exemple masse, volume, concentration\ldots
\subsubsection{Intervalles de classe}
On définit un critère.
\begin{itemize}
\item Pour une variable quantitative, un intervalle de classe est~: \\
$[\text{borne inférieure} \quad \text{borne supérieure}]$.
La valeur centrale est l'\emph{indice de classe}.
\item Pour une variable qualitative, un critère qualitatif est une classe.
\end{itemize}
Dans le cas des variables continues, le choix des intervalles de classe est délicat~:
\begin{itemize}
\item Trop petits~: le nombre de classes est trop grand pour être maniable.
\item Trop grands~: des détails sont dissimulés au sein d'une même classe.
\end{itemize}
Dans la plupart des cas, on choisit des intervalles de classe de longueurs aussi égales que possible et on évite les classes de fréquence nulle.
\subsubsection{Méthode de classement}
\begin{center}
\begin{tabular}{c|c|c|}
\cline{2-3}
Variable & \textbf{Quantitative} & \textbf{Qualitative} \\
\hline
\multicolumn{1}{|c|}{\textbf{Discrète}} & Valeurs ou Intervalle de classe & Qualité \\
\hline
\multicolumn{1}{|c|}{\textbf{Continue}} & Intervalle de classe & --- \\
\hline
\end{tabular}
\end{center}
\subsubsection{Quantifier le contenu des classes}
\paragraph{Effectif (fréquence absolue)}
$f$~: nombre d'éléments appartenant à la classe.
\paragraph{Fréquence relative}
$f_{rel}$~: effectif rapporté à l'effectif total de l'échantillon ($n$).
\begin{equation*}
f_{rel} = \frac{f}{n}
\end{equation*}
\paragraph{Pourcentage}
Fréquence relative exprimée en \%.
\subsubsection{Distribution statistique}
La distribution statistique est ainsi formée d'une série de couples (intervalle de classe, fréquence).
Quand on note une distribution, on range implicitement la série de couples par ordre croissant.
La classification doit être complète~: le nombre des éléments dispersés dans les classes doit être égal à l'effectif initial.
\begin{equation*}
\sum_{i=1}^{D} f_i = n
\end{equation*}
\subsubsection{Distribution cumulée}
Une distribution cumulée est dérivée d'une distribution.
Elle a les mêmes intervalles de classe.
Les fréquences cumulées sont la somme de la fréquence de la classe et de toutes les fréquences la précédant~:
\begin{equation*}
f_{cum,i} = \sum_{j=1}^{i} f_j
\end{equation*}
\subsection{Représentations graphiques}
\paragraph{Diagramme en bâtons}
Se fait préférentiellement pour des variables discrètes.
\begin{center}
\begin{tikzpicture}[scale=0.7, transform shape]
\draw (-2,0) -- (12,0);
\foreach \i in {-1,0,...,12}{\draw (\i,0) -- (\i,0.1);}
\foreach \i in {-2,0,...,12}{\node at (\i,-0.3) {\small \i};}
\draw (-2,0) -- (-2,10);
\foreach \i in {2,4,...,10}{\draw (-2,\i) -- (-1.9,\i);}
\foreach \i in {0,2,...,10}{\node at (-2.3,\i) {\small \i};}
\node at (5,-1) {Indices};
\node [rotate=90] at (-3,5) {Fréquences};
\draw [ultra thick] (1,0) -- (1,4);
\draw [ultra thick] (2,0) -- (2,8);
\draw [ultra thick] (3,0) -- (3,10);
\draw [ultra thick] (4,0) -- (4,8);
\draw [ultra thick] (5,0) -- (5,4);
\draw [ultra thick] (10,0) -- (10,4);
\end{tikzpicture}
\end{center}
\paragraph{Polygône de fréquence}
\begin{center}
\begin{tikzpicture}[scale=0.7, transform shape]
\draw (-2,0) -- (12,0);
\foreach \i in {-1,0,...,12}{\draw (\i,0) -- (\i,0.1);}
\foreach \i in {-2,0,...,12}{\node at (\i,-0.3) {\small \i};}
\draw (-2,0) -- (-2,10);
\foreach \i in {2,4,...,10}{\draw (-2,\i) -- (-1.9,\i);}
\foreach \i in {0,2,...,10}{\node at (-2.3,\i) {\small \i};}
\node at (5,-1) {Indices};
\node [rotate=90] at (-3,5) {Fréquences};
\node [circle,teal,ultra thick,draw] at (-1,0) {};
\node [circle,teal,ultra thick,draw] at (0,0) {};
\node [circle,teal,ultra thick,draw] at (1,4) {};
\node [circle,teal,ultra thick,draw] at (2,8) {};
\node [circle,teal,ultra thick,draw] at (3,8) {};
\node [circle,teal,ultra thick,draw] at (4,8) {};
\node [circle,teal,ultra thick,draw] at (5,4) {};
\node [circle,teal,ultra thick,draw] at (6,0) {};
\node [circle,teal,ultra thick,draw] at (7,0) {};
\node [circle,teal,ultra thick,draw] at (8,0) {};
\node [circle,teal,ultra thick,draw] at (9,0) {};
\node [circle,teal,ultra thick,draw] at (10,4) {};
\node [circle,teal,ultra thick,draw] at (11,0) {};
\node [circle,teal,ultra thick,draw] at (12,0) {};
\draw [very thick]
(-1,0) --
(0,0) --
(2,8) --
(4,8) --
(6,0) --
(9,0) --
(10,4) --
(10,4) --
(11,0) --
(12,0)
;
\end{tikzpicture}
\end{center}
\paragraph{Histogramme}
Se fait préférentiellement pour des variables continues.
\begin{center}
\begin{tikzpicture}[scale=0.7, transform shape]
\draw (1,0) -- (10,0);
\foreach \i in {2,3,...,10}{\draw (\i,0) -- (\i,0.1);}
\foreach \i in {1,2,...,10}{\node at (\i,-0.3) {\small \i};}
\draw (1,0) -- (1,6);
\foreach \i in {2,4,6}{\draw (1,\i) -- (1.1,\i);}
\foreach \i in {0,2,...,6}{\node at (0.7,\i) {\small \i};}
\node at (5.5,-1) {Valeurs};
\node [rotate=90] at (0,3) {Fréquences};
\draw [ultra thick]
(1,0) --
(1,2) --
(2,2) --
(2,0) --
(2,4) --
(3,4) --
(3,0) --
(3,6) --
(4,6) --
(4,0) --
(4,4) --
(5,4) --
(5,0) --
(5,2) --
(6,2) --
(6,0)
;
\draw [ultra thick] (9,0) -- (9,2) -- (10,2) -- (10,0);
\end{tikzpicture}
\end{center}
\subsection{Paramètres statistiques}
\paragraph{Variable qualitative}
On s'intéresse à la répartition des éléments dans les classes.
\paragraph{Variable quantitative}
On essaie de dériver des valeurs indépendantes de la classification.
\begin{multicols}{2}
\begin{tikzpicture}[scale=0.7, transform shape]
\draw [-latex] (0,0) -- (11,0) node [right] {x};
\draw [-latex] (0,0) -- (0,5) node [above] {f};
\draw (0,0) -- (0,1.5) -- (1,1.5) -- (1,0);
\draw (1,0) -- (1,2.5) -- (2,2.5) -- (2,0);
\draw (2,0) -- (2,3.5) -- (3,3.5) -- (3,0);
\draw (3,0) -- (3,5) -- (4,5) -- (4,0);
\draw (4,0) -- (4,4) -- (5,4) -- (5,0);
\draw (5,0) -- (5,3) -- (6,3) -- (6,0);
\draw (6,0) -- (6,2.5) -- (7,2.5) -- (7,0);
\node [blue] at (4.5,6.5) {Position};
\filldraw[blue,fill=blue]
(3.4,7) -- (3.6,7) --
(3.6,6) -- (3.7,6) --
(3.5,5.7) --
(3.3,6) -- (3.4,6) --
(3.4,7)
;
\node [violet] at (9.1,1.5) {Aplatissement};
\filldraw[violet,fill=violet]
(7.4,2) -- (7.3,2) --
(7.5,2.3) --
(7.7,2) -- (7.6,2) --
(7.6,1) -- (7.7,1) --
(7.5,0.7) --
(7.3,1) -- (7.4,1) --
(7.4,2)
;
\node [red] at (3.5,-1) {Dispersion};
\filldraw[red,fill=red]
(2.3,-0.6) -- (2.3,-0.7) --
(2,-0.5) -- (2.3,-0.3) --
(2.3,-0.4) -- (4.7,-0.4) --
(4.7,-0.3) -- (5,-0.5) --
(4.7,-0.7) -- (4.7,-0.6) --
(2.3,-0.6)
;
\node [olive] at (3.5,1) {Symétrie};
\filldraw[olive,fill=olive]
(2.3,1.6) -- (2.3,1.7) --
(2,1.5) -- (2.3,1.3) --
(2.3,1.4) -- (4.7,1.4) --
(4.7,1.3) -- (5,1.5) --
(4.7,1.7) -- (4.7,1.6) --
(2.3,1.6)
;
\end{tikzpicture}
\columnbreak
On regarde dans l'ordre~:
\begin{enumerate}
\item Position
\item Dispersion
\item Symétrie
\item Aplatissement
\end{enumerate}
\end{multicols}
\subsubsection{Paramètres de position}
\paragraph{Moyenne}
La moyenne \emph{arithmétique}~:
\begin{equation*}
\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i
\end{equation*}
La moyenne \emph{géométrique}~:
\begin{equation*}
(x_1 \times x_2 \times \ldots \times x_i \times \ldots \times x_n)^{\sfrac{1}{n}} = (\Pi_{i=1}^{n} x_i)^{\sfrac{1}{n}}
\end{equation*}
\paragraph{Médiane}
C'est la valeur de la variable qui sépare la série statistique en deux groupes d'égal effectif.
\begin{enumerate}
\item On classe les données par ordre croissant.
\item La médiane est la valeur qui se trouve au milieu des données triées.
\end{enumerate}
\paragraph{Mode}
C'est l'indice de la classe ayant la fréquence la plus élevée.
\begin{enumerate}
\item On trace l'histogramme.
\item On recherche le maximum.
\end{enumerate}
\begin{multicols}{2}
Distribution monomodale
\begin{tikzpicture}[scale=0.7, transform shape]
\draw [-latex] (0,0) -- (9,0) node [right] {x};
\draw [-latex] (0,0) -- (0,5) node [above] {f};
\draw (0,0) -- (0,1.5) -- (1,1.5) -- (1,0);
\draw (1,0) -- (1,2.5) -- (2,2.5) -- (2,0);
\draw (2,0) -- (2,3.5) -- (3,3.5) -- (3,0);
\draw (3,0) -- (3,5) -- (4,5) -- (4,0);
\draw (4,0) -- (4,4) -- (5,4) -- (5,0);
\draw (5,0) -- (5,3) -- (6,3) -- (6,0);
\draw (6,0) -- (6,2.5) -- (7,2.5) -- (7,0);
\filldraw[blue,fill=blue]
(3.4,7) -- (3.6,7) --
(3.6,6) -- (3.7,6) --
(3.5,5.7) --
(3.3,6) -- (3.4,6) --
(3.4,7)
;
\end{tikzpicture}
Distribution bimodale
\begin{tikzpicture}[scale=0.7, transform shape]
\draw [-latex] (0,0) -- (9,0) node [right] {x};
\draw [-latex] (0,0) -- (0,5) node [above] {f};
\draw (0,0) -- (0,1.5) -- (1,1.5) -- (1,0);
\draw (1,0) -- (1,5) -- (2,5) -- (2,0);
\draw (2,0) -- (2,3.5) -- (3,3.5) -- (3,0);
\draw (3,0) -- (3,3) -- (4,3) -- (4,0);
\draw (4,0) -- (4,4) -- (5,4) -- (5,0);
\draw (5,0) -- (5,3) -- (6,3) -- (6,0);
\draw (6,0) -- (6,2.5) -- (7,2.5) -- (7,0);
\filldraw[blue,fill=blue]
(1.4,7) -- (1.6,7) --
(1.6,6) -- (1.7,6) --
(1.5,5.7) --
(1.3,6) -- (1.4,6) --
(1.4,7)
;
\filldraw[blue,fill=blue]
(4.4,6) -- (4.6,6) --
(4.6,5) -- (4.7,5) --
(4.5,4.7) --
(4.3,5) -- (4.4,5) --
(4.4,6)
;
\end{tikzpicture}
\columnbreak
\end{multicols}
\subsubsection{Paramètres de dispersion}
\paragraph{Amplitude}
C'est l'étendue, c'est-à-dire l'écart entre la valeur maximale et la valeur minimale de la distribution.
\begin{center}
\begin{tikzpicture}[scale=0.7, transform shape]
\draw (1,0) -- (10,0);
\foreach \i in {2,3,...,10}{\draw (\i,0) -- (\i,0.1);}
\foreach \i in {1,2,...,10}{\node at (\i,-0.3) {\small \i};}
\draw (1,0) -- (1,6);
\foreach \i in {2,4,6}{\draw (1,\i) -- (1.1,\i);}
\foreach \i in {0,2,...,6}{\node at (0.7,\i) {\small \i};}
\node at (5.5,-1) {Valeurs};
\node [rotate=90] at (0,3) {Fréquences};
\draw [thick]
(1,0) --
(1,2) --
(2,2) --
(2,0) --
(2,4) --
(3,4) --
(3,0) --
(3,6) --
(4,6) --
(4,0) --
(4,4) --
(5,4) --
(5,0) --
(5,2) --
(6,2) --
(6,0)
;
\draw [thick] (9,0) -- (9,2) -- (10,2) -- (10,0);
\draw [latex-latex,red,very thick] (1,-1.5) -- (10,-1.5);
\node [red] at (5.5,-2) {Étendue};
\end{tikzpicture}
\end{center}
\paragraph{Quartiles}
Le \emph{quartile à 25\%} est la valeur de la variable qui délimite le premier quart des données de la série statistique classée par ordre croissant.
On l'appelle donc aussi le \emph{premier quartile}.
Le \emph{quartile à 75\%} est la valeur de la variable qui délimite les trois premiers quarts des données de la série statistique classée par ordre croissant.
On l'appelle donc aussi le \emph{troisième quartile}.
Boîte à moustaches, aussi appelée \emph{boxplot}~:
\begin{center}
\begin{tikzpicture}[scale=0.7, transform shape]
\draw (0,0.5) -- (9,0.5);
\draw (0,0.5) -- (0,8.3);
\node [rotate=90] at (-0.6,4) {Valeurs};
\foreach \i in {1,2,...,8}{
\draw (0,\i) -- (0.1,\i);
\node at (-0.2,\i) {\small \i};
}
\node at (1.7,4.5) {Étendue};
\draw [latex-latex] (3,1) -- (3,8);
\draw [thick] (4.7,8) -- (5.3,8);
\draw [blue,dashed] (5,4) -- (5,8);
\node [blue] at (7.6,4) {Quartile à 75\%};
\node [blue] at (7.6,2) {Quartile à 25\%};
\draw[blue]
(6,4) -- (5.5,3) -- (6,2) --
(4,2) -- (4.5,3) -- (4,4) -- (6,4)
;
\node [red] at (7,3) {Médiane};
\draw[red] (4.5,3) -- (5.5,3);
\draw [blue,dashed] (5,1) -- (5,2);
\draw [thick] (4.7,1) -- (5.3,1);
\end{tikzpicture}
\end{center}
\paragraph{Variance}
La variance \emph{d'une population} est la moyenne des carrés des écarts des valeurs à la moyenne de la population.
\begin{equation*}
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} {(x_i - \overline{x})}^2
\end{equation*}
La variance \emph{d'un échantillon} est la somme des carrés des écarts des valeurs à la moyenne de l'échantillon, ramenée au nombre de \emph{degrés de liberté} de l'échantillon ($n-1$ si $n$ est l'effectif de l'échantillon).
\begin{equation*}
s_x^2 = \frac{1}{\color{red}{n-1}} \sum_{i=1}^{n} {(x_i - \overline{x})}^2
\end{equation*}
\paragraph{Écart type}
C'est la racine carrée de la variance.
\begin{multicols}{2}
Pour une population~:
\begin{equation*}
\sigma = \sqrt{\sigma^2}
\end{equation*}
Pour un échantillon~:
\begin{equation*}
s_x = \sqrt{s_x^2}
\end{equation*}
\end{multicols}
\section{Statistique inférentielle}
La statistique inférentielle permet de formuler un jugement sur une population à partir des résultats observés sur un échantillon extrait au hasard.
\subsection{Les hypothèses de la statistique inférentielle}
\begin{itemize}
\item La population est considérée comme infinie.
\item Les variables statistiques qui la décrivent peuvent être considérées comme des variables aléatoires.
\end{itemize}
Il y a une différence fondamentale entre les probabilités et la statistique~:
\begin{itemize}
\item Les probabilités s'intéressent aux issus théoriques d'une expérience aléatoire.
On parle d'une connaissance \emph{à priori} puisque l'étude se fait sans données.
\item La statistique s'intéresse à l'étude des données empiriques en les recueillant et en les analysant pour les interpréter.
On parle d'une connaissance \emph{à posteriori}.
\end{itemize}
\subsection{Notions de probabilités}
Soient $X$ et $Y$ deux variables aléatoires réelles admettant une moyenne et une variance.
On note~:
\begin{itemize}
\item $E(X)$ l'espérence (la moyenne) de $X$
\item $E(Y)$ l'espérence (la moyenne) de $Y$
\item $V(X)$ la variance de $X$
\item $V(Y)$ la variance de $Y$
\end{itemize}
\begin{align*}
E(X+Y) &= E(X) + E(Y) \\
E(\lambda X) &= \lambda E(X) \\
V(\lambda X) &= \lambda^2 V(X)
\end{align*}
Si $X$ et $Y$ sont indépendants~:
\begin{equation*}
V(X+Y) = V(X) + V(Y)
\end{equation*}
\begin{equation*}
E(X) = \int f(x) \dif x
\end{equation*}
Or, pour faire le lien entre probabilités et statistiques, avec à gauche l'espérence (probabilités) et à droite la moyenne (statistiques)~:
\begin{equation*}
E(X) \approx \sum_{i=1}^n \frac{x_i}{n}
\end{equation*}
\subsection{Loi normale}
Une variable aléatoire suit une loi normale de moyenne $\mu$ et d'écart-type $\sigma$ lorsque sa densité de probabilité est la fonction définie sur $\mathbb{R}$ par~:
\begin{equation*}
f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}
\end{equation*}
\subsubsection{Loi normale centrée réduite}
Si une variable aléatoire $x$ suit une loi normale de moyenne $\mu$ et d'écart-type $\sigma$, alors la variable aléatoire $T = \frac{x - \mu}{\sigma}$ suit la loi normale $N(0,1)$ dont la densité de probabilité est donnée par la fonction~:
\begin{equation*}
f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}
\end{equation*}
\subsubsection{Quelques propriétés de la loi $N(0,1)$}
La fonction de répartition de la loi $N(0,1)$ est souvent notée~:
\begin{equation*}
\Pi(x) = P(X \leq x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-\frac{t^2}{2}} \dif t
\end{equation*}
\subsection{Théorême central limite}
Soit $X_1, X_2, \ldots, X_n$ une suite de $n$ valeurs aléatoires mutuellement indépendantes, de même loi de moyenne $\mu$ et d'écart type $\sigma$.
\begin{equation*}
\text{Pour } n \geq 30, \text{ la valeur aléatoire } \overline{X} = \frac{1}{n} \sum_{i=1}^n X_i
\end{equation*}
Cette moyenne suit, approximativement, la loi normale de moyenne $\mu$ et d'écart type $\frac{\sigma}{\sqrt{n}}$.
\end{document}