Skip to content
Snippets Groups Projects
Commit ef970661 authored by PUDLO Pierre's avatar PUDLO Pierre
Browse files

TP2

parent c9fdfcb1
No related branches found
No related tags found
No related merge requests found
---
title: "TP2 : manipulation de données"
subtitle: "M1 MAS -- Données : manipulation et visualisation"
author: Pierre Pudlo
institute: Aix-Marseille Université / Faculté des Sciences
engine: knitr
lang: fr
editor:
render-on-save: true
format:
pdf:
latex_engine: xelatex
toc: false
---
# Partie A : prise en main du logiciel/langage
Prener en main un IDE qui correspond au logiciel/langage de votre parcours. Dans les salles de TP, sont installés sur les machines :
- Python : Pycharm (et Spyder ?),
- R : RStudio,
- SAS : SAS ou SAS Studio.
Et vous disposer de VS Code en ligne sur le site de Microsoft ou EtuLab.
Dans ce logiciel/langage, créer la table de données ci-dessous, en faisant attention au format des colonnes.
| Nom | Prénom | Genre | Naissance | NumEtu | Parcours | Note |
|----|----|:----:|----|----|----|----:|
|Marmin | Arthur| H | | 01586478 | DS | 17 |
|Reboul | Laurence | F | | 27884401 | IMSA | 14,5 |
|Pudlo | Pierre | H | 20/09/1977 | 96364564 | MASSPOP | 20 |
Sur quel bouton pouvez-vous cliquer pour visualiser le contenu de cette table ?
Vérifier les commandes d'accès aux différents éléments de la table : ligne, colonne, cellule. [MASS POP :] Pourquoi ne peut-on pas faire ça sous SAS ? Quel est le type renvoyé par chacune des commandes que vous essayer ?
Comment pouvez-vous la modifier ?
Que se passe-t-il si vous copiez la table et si vous modifier l'un des numéros d'étudiant ? Les deux copies sont-elles modifiées ou uniquement l'une d'entre elle ?
# Partie B : retard des vols au départ des aéroports de New York City en 2013
L'objectif de cette partie est de reproduire la partie B du TP1 sur le logiciel/langage de votre parcours. À partir des 4 fichiers de données, il s'agit de calculer les statistiques suivantes :
- la distance moyenne parcourue, et l'écart-type (en km),
- la moyenne et l'écart-type des vitesses moyennes (en km/h),
- la proportion de données manquantes sur le retard à l'arrivée,
- la proportion de retards supérieurs à 10 minutes (inclus),
- le retard moyen en minutes, en cas de retard, ainsi que l'écart-type.
Vous devez ensuite produire deux tables de moyennes des retards en minutes en cas de retard effectif par :
- compagnie $\times$ mois,
- compagnie $\times$ aéroport de départ.
(OPTIONNEL : comment ferait-on pour ajouter des écart-types à ces tables ?)
Vous devez pour cela utiliser des étapes parmi :
- import de données et mise en forme,
- pivot (format long vers large ou large vers long),
- calcul de moyenne par groupe (*group by*),
- calcul de nouvelles variables,
- fusion / jointure avec clé.
Dans un premier temps, nous vous proposons de réfléchir à la séquence des étapes et leur enchaînement. Puis ensuite, à les implémenter sur le logiciel/langage de votre parcours.
# Partie C : étude des retards en fonction des conditions météorologiques au départ
On souhaite commencer à étudier le retard à l'arrivée en l'expliquant par les conditions météorologiques au départ. La source de ces données est un téléchargement ASOS depuis Iowa Environmental Mesonet, https://mesonet.agron.iastate.edu/request/download.phtml. Cette partie est de type projet exploratoire et vous laisse plus libre.
La table `weather` contient les variables ci-dessous :
- `origin`
Station météorologique. Nommée `origin` pour faciliter la fusion avec les données de vols.
- `year`, `month`, `day`, `hour`
Heure de l'enregistrement.
- `temp`, `dewp`
Température et point de rosée en °F.
- `humid`
Humidité relative.
- `wind_dir`, `wind_speed`, `wind_gust`
Direction du vent (en degrés), vitesse et rafales de vent (en mph).
- `precip`
Précipitations, en pouces.
- `pressure`
Pression au niveau de la mer en millibars.
- `visib`
Visibilité en miles.
- `time_hour`
Date et heure de l'enregistrement sous forme de date POSIXct.
Proposer différents pistes pour réaliser cette étude. On pourra également s'appuyer sur le retard au décollage, même si c'est le retard à l'arrivée qui nous intéresse.
On rappelle que $1$ mile vaut $1,60934$ km et que la température en degré Fahrenheit est liée à la température en degré Celcius par :
$$
t_F = \frac 95 t_C + 32.
$$
Déposer sur Ametice un notebook (source + PDF) ou un script et un mini-rapport (1 à 2 pages, PDF), décrivant vos premiers calculs sur ce problème, et vos conclusions sur ces calculs.
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment