|Pudlo | Pierre | H | 20/09/1977 | 96364564 | MASSPOP | 20 |
Sur quel bouton pouvez-vous cliquer pour visualiser le contenu de cette table ?
Vérifier les commandes d'accès aux différents éléments de la table : ligne, colonne, cellule. [MASS POP :] Pourquoi ne peut-on pas faire ça sous SAS ? Quel est le type renvoyé par chacune des commandes que vous essayer ?
Comment pouvez-vous la modifier ?
Que se passe-t-il si vous copiez la table et si vous modifier l'un des numéros d'étudiant ? Les deux copies sont-elles modifiées ou uniquement l'une d'entre elle ?
# Partie B : retard des vols au départ des aéroports de New York City en 2013
L'objectif de cette partie est de reproduire la partie B du TP1 sur le logiciel/langage de votre parcours. À partir des 4 fichiers de données, il s'agit de calculer les statistiques suivantes :
- la distance moyenne parcourue, et l'écart-type (en km),
- la moyenne et l'écart-type des vitesses moyennes (en km/h),
- la proportion de données manquantes sur le retard à l'arrivée,
- la proportion de retards supérieurs à 10 minutes (inclus),
- le retard moyen en minutes, en cas de retard, ainsi que l'écart-type.
Vous devez ensuite produire deux tables de moyennes des retards en minutes en cas de retard effectif par :
- compagnie $\times$ mois,
- compagnie $\times$ aéroport de départ.
(OPTIONNEL : comment ferait-on pour ajouter des écart-types à ces tables ?)
Vous devez pour cela utiliser des étapes parmi :
- import de données et mise en forme,
- pivot (format long vers large ou large vers long),
- calcul de moyenne par groupe (*group by*),
- calcul de nouvelles variables,
- fusion / jointure avec clé.
Dans un premier temps, nous vous proposons de réfléchir à la séquence des étapes et leur enchaînement. Puis ensuite, à les implémenter sur le logiciel/langage de votre parcours.
# Partie C : étude des retards en fonction des conditions météorologiques au départ
On souhaite commencer à étudier le retard à l'arrivée en l'expliquant par les conditions météorologiques au départ. La source de ces données est un téléchargement ASOS depuis Iowa Environmental Mesonet, https://mesonet.agron.iastate.edu/request/download.phtml. Cette partie est de type projet exploratoire et vous laisse plus libre.
La table `weather` contient les variables ci-dessous :
- `origin`
Station météorologique. Nommée `origin` pour faciliter la fusion avec les données de vols.
- `year`, `month`, `day`, `hour`
Heure de l'enregistrement.
- `temp`, `dewp`
Température et point de rosée en °F.
- `humid`
Humidité relative.
- `wind_dir`, `wind_speed`, `wind_gust`
Direction du vent (en degrés), vitesse et rafales de vent (en mph).
- `precip`
Précipitations, en pouces.
- `pressure`
Pression au niveau de la mer en millibars.
- `visib`
Visibilité en miles.
- `time_hour`
Date et heure de l'enregistrement sous forme de date POSIXct.
Proposer différents pistes pour réaliser cette étude. On pourra également s'appuyer sur le retard au décollage, même si c'est le retard à l'arrivée qui nous intéresse.
On rappelle que $1$ mile vaut $1,60934$ km et que la température en degré Fahrenheit est liée à la température en degré Celcius par :
$$
t_F = \frac 95 t_C + 32.
$$
Déposer sur Ametice un notebook (source + PDF) ou un script et un mini-rapport (1 à 2 pages, PDF), décrivant vos premiers calculs sur ce problème, et vos conclusions sur ces calculs.