diff --git a/probabilites-statistiques/examen_tp/img/1.6.barplot.png b/probabilites-statistiques/examen_tp/img/1.6.barplot.png new file mode 100644 index 0000000..9e0e515 Binary files /dev/null and b/probabilites-statistiques/examen_tp/img/1.6.barplot.png differ diff --git a/probabilites-statistiques/examen_tp/img/1.6.pie.png b/probabilites-statistiques/examen_tp/img/1.6.pie.png new file mode 100644 index 0000000..52008da Binary files /dev/null and b/probabilites-statistiques/examen_tp/img/1.6.pie.png differ diff --git a/probabilites-statistiques/examen_tp/img/2.15.3species-all-variables.png b/probabilites-statistiques/examen_tp/img/2.15.3species-all-variables.png new file mode 100644 index 0000000..4bfb880 Binary files /dev/null and b/probabilites-statistiques/examen_tp/img/2.15.3species-all-variables.png differ diff --git a/probabilites-statistiques/examen_tp/iris.r b/probabilites-statistiques/examen_tp/iris.r index 040a557..7bcdd19 100644 --- a/probabilites-statistiques/examen_tp/iris.r +++ b/probabilites-statistiques/examen_tp/iris.r @@ -1,56 +1,54 @@ iris <- read.csv("iris.csv", sep=",", stringsAsFactors=TRUE) ## PARTIE 1 - -#names(iris) -#nrow(iris) -#head(iris, 15) -# -# -#class(iris$species) -#levels(iris$species) -# -#summary(iris$species) -#table(iris$species) -# -#pie(table(iris$species)) -#barplot(table(iris$species)) - -#print("petal length") -#summary(iris$petal.length) -#print("petal width") -#summary(iris$petal.width) -#print("sepal length") -#summary(iris$sepal.length) -#print("sepal width") -#summary(iris$sepal.width) - - -#par(mfrow=c(2,2)) -#hist(iris$petal.length,col=grey(0.6),main="Longueur des pétales") -#hist(iris$petal.width,col=grey(0.6),main="Largeur des pétales") -#hist(iris$sepal.length,col=grey(0.6),main="Longueur des sépales") -#hist(iris$sepal.width,col=grey(0.6),main="Largeur des sépales") +# 1. +names(iris) +# 2. +nrow(iris) +# 3. +nrow(iris) +head(iris, 15) +# 4. +class(iris$species) +levels(iris$species) +# 5. +summary(iris$species) +table(iris$species) +# 6. +pie(table(iris$species)) +barplot(table(iris$species)) +# 7. +summary(iris$petal.length) +# 8. +summary(iris$petal.width) +summary(iris$sepal.length) +summary(iris$sepal.width) +# 9. +par(mfrow=c(2,2)) +hist(iris$petal.length,col=grey(0.6),main="Longueur des pétales") +hist(iris$petal.width,col=grey(0.6),main="Largeur des pétales") +ist(iris$sepal.length,col=grey(0.6),main="Longueur des sépales") +hist(iris$sepal.width,col=grey(0.6),main="Largeur des sépales") ## PARTIE 2 -# 2.10 -#plot(iris$petal.length, iris$petal.width, -#xlab="Longueur du pétale", ylab="Largeur du pétale", -#main="Nuage de points", pch=20) -# 2.11 -#sunflowerplot(iris$petal.length, iris$petal.width, -#xlab="Longueur du pétale", ylab="Largeur du pétale", -#main="Nuage de points", pch=20) +# 10. +plot(iris$petal.length, iris$petal.width, +xlab="Longueur du pétale", ylab="Largeur du pétale", +main="Nuage de points", pch=20) +# 11. +sunflowerplot(iris$petal.length, iris$petal.width, +xlab="Longueur du pétale", ylab="Largeur du pétale", +main="Nuage de points", pch=20) -# 2.12 -#sunflowerplot(iris$petal.length, iris$sepal.length, -#xlab="Longueur du pétale", ylab="Longueur du sépale", -#main="Nuage de points", pch=20) -# 2.13 -#boxplot(iris$petal.length ~iris$species,col=grey(0.6)) -# 2.14 -#boxplot(iris$sepal.length ~iris$species,col=grey(0.6)) -# 2.15 +# 12. +sunflowerplot(iris$petal.length, iris$sepal.length, +xlab="Longueur du pétale", ylab="Longueur du sépale", +main="Nuage de points", pch=20) +# 13. +boxplot(iris$petal.length ~iris$species,col=grey(0.6)) +# 14. +boxplot(iris$sepal.length ~iris$species,col=grey(0.6)) +# 15. # Tracée des histogrammes des longueurs des pétales de l'ensemble des iris, des iris setosa, des iris versicolor et des iris virginica par(mfrow=c(2,2)) br0=seq(0,8,le=20) @@ -64,7 +62,6 @@ hist(iris$petal.length[iris$species=="Virginica"], main="Virginica", xlab="Longueur du pétale", br=br0) #Tracé des nuages des points de la largeur du pétale en fonction de la longueur des pétales de l'ensemble des iris, des iris setosa, des iris versicolor et des iris virginica - par(mfrow=c(2,2)) plot(iris$petal.length, iris$petal.width, xlab="Longueur du pétale", ylab="Largeur du pétale", diff --git a/probabilites-statistiques/examen_tp/main.tex b/probabilites-statistiques/examen_tp/main.tex index 8dcf163..c051d1c 100644 --- a/probabilites-statistiques/examen_tp/main.tex +++ b/probabilites-statistiques/examen_tp/main.tex @@ -17,7 +17,27 @@ \clearpage -\section*{Introduction} +\section{Introduction} + + Cette étude a pour but d'explorer la différence entre statistique descriptive univariée (ne prenant en compte qu'une variable à la fois) ou bivariée (recoupant deux variables en même temps). + Nous présenterons ainsi l'intérêt de procéder à une étude bivariée sur un jeu de données. + + Pour cela, nous sommes en possession de 150 observations de fleurs \texttt{iris} faites par Edgar Anderson. + Ces observations concernent quatre variables quantitatives correspondant aux mesures suivantes (en centimètres)~: + + \begin{itemize} + \item Longueur du pétale (\texttt{petal.length}) + \item Largeur du pétale (\texttt{petal.width}) + \item Longueur du sépale (\texttt{sepal.length}) + \item Largeur du sépale (\texttt{sepal.width}) + \end{itemize} + + \ldots{} et une variable qualitative correspondant à l'espèce de la fleur (\texttt{species})~: + \begin{itemize} + \item Setosa + \item Versicolor + \item Virginica + \end{itemize} \section{Statistique descriptive univariée} @@ -127,6 +147,9 @@ > barplot(table(iris$species)) \end{lstlisting} + \includegraphics[width=0.5\linewidth]{./img/1.6.pie.png} + \includegraphics[width=0.5\linewidth]{./img/1.6.barplot.png} + \item La troisième colonne du fichier \texttt{iris} contient la longueur du pétale. Il s'agit d'une variable quantitative. Pour résumer l'information contenue dans cette variable, nous utilisons la fonction \texttt{summary}. @@ -228,7 +251,9 @@ + main="Nuage de points", pch=20) \end{lstlisting} - \includegraphics[width=\linewidth]{./img/2.10.nuage.png} + \begin{center} + \includegraphics[width=0.8\linewidth]{./img/2.10.nuage.png} + \end{center} \begin{enumerate}\setcounter{enumi}{9} @@ -249,7 +274,9 @@ + main="Nuage de points", pch=20) \end{lstlisting} - \includegraphics[width=\linewidth]{./img/2.11.tournesol.png} + \begin{center} + \includegraphics[width=0.8\linewidth]{./img/2.11.tournesol.png} + \end{center} \begin{enumerate}\setcounter{enumi}{10} @@ -265,7 +292,9 @@ + main="Nuage de points", pch=20) \end{lstlisting} - \includegraphics[width=\linewidth]{./img/2.12.petal-vs-sepal-length.png} + \begin{center} + \includegraphics[width=0.8\linewidth]{./img/2.12.petal-vs-sepal-length.png} + \end{center} Pour une longueur de pétale comprise entre 1 et 2, il n'y a pas de corrélation avec la longueur du sépale. Les deux semblent complètement indépendants. @@ -284,7 +313,9 @@ > boxplot(iris$petal.length ~iris$species,col=grey(0.6)) \end{lstlisting} - \includegraphics[width=\linewidth]{./img/2.13.petal-length-vs-species.boxplot.png} + \begin{center} + \includegraphics[width=0.8\linewidth]{./img/2.13.petal-length-vs-species.boxplot.png} + \end{center} \begin{enumerate}\setcounter{enumi}{12} @@ -303,7 +334,9 @@ > boxplot(iris$sepal.length ~iris$species,col=grey(0.6)) \end{lstlisting} - \includegraphics[width=\linewidth]{./img/2.14.sepal-length-vs-species.boxplot.png} + \begin{center} + \includegraphics[width=0.8\linewidth]{./img/2.14.sepal-length-vs-species.boxplot.png} + \end{center} On retrouve pour la longeur du sépale la même distribution que pour la longueur du pétale. Les \texttt{Versicolor} et les \texttt{Virginica} sont plus proches que les \texttt{Setosa}. @@ -351,21 +384,36 @@ + main="iris virginica", pch=20) \end{lstlisting} - Et pour finir\ldots + Et pour finir\ldots{} Tapez la ligne de commande suivante~: - Représentation graphique de toutes les possibilités de variables par variables~: + Représentation graphique de toutes les possibilités de variables par variable~: \begin{lstlisting}[gobble=8] > pairs(iris[1:4], main = "Anderson's Iris Data -- 3 species", + pch = 21, bg = c("red", "green3", "blue")[unclass(iris$species)]) \end{lstlisting} + \begin{center} + \includegraphics[width=0.8\linewidth]{./img/2.15.3species-all-variables.png} + \end{center} + \begin{enumerate}\setcounter{enumi}{14} \item Qu'observez-vous~? - Ces graphiques montrent tous des caractéristiques bien distinctes pour chaque espèce. + Ces graphiques, en ajoutant la couleur pour délimiter les espèces, soulignent clairement le fait que chaque espèce présente des caractéristiques bien distinctes. + Les points sont regroupés par couleur, avec très peu voire pas du tout de mélange. \end{enumerate} +\section{Conclusion} + + Cette étude nous a permis de mettre en évidence l'intérêt de faire un croisement des variables. + + En croisant deux variables quantitatives (longueur et largeur de pétale par exemple), nous avons pu établir la présence ou l'absence de liens de correlation entre ces variables. + + En croisant une variable quantitative avec une variable qualitative (longueur du sépale en fonction de l'espèce par exemple), nous avons pu déterminer des caractéristiques propres à chaque espèce. + + La statistique bivariée permet donc d'extrapôler des comportements à partir des données, ce qui n'était pas possible en prenant les variables séparément (statistique descriptive univariée). + \end{document}