Etude de la dynamique temporelle des stations de vélos en libre service

Julie SIAS, Clara ARNAUDEAU, Merveille AGBO

2020-05-24

Introduction

Nous sommes trois étudiantes de l’université de Bordeaux 1 en dernière année de licence mathématiques et informatiques appliquées aux sciences humaines et sociales parcours économie et gestion. Nous allons effectuer un travail d’études et de recherches, pour ce faire nous sommes accompagnées par les professeurs COUALLIER Vincent et DORDAN Olivier.

Un système de vélos en libre-service met à disposition du public des vélos, gratuitement ou non. Ce service de mobilité permet d’effectuer des déplacements de proximité principalement en milieu urbain. La plupart des dispositifs de vélos en libre-service permettent de retirer un vélo dans une station et de le déposer dans une autre. En 1965, les vélos blancs de Provo sont mis à disposition gratuitement à Amsterdam. Le premier système de ce type porté par une collectivité territoriale en France voit le jour à La Rochelle en 1976, avec l’installation le 14 août 1976 de 250 “vélos jaunes” répartis dans trois stations en centre-ville, presque 10 ans après les vélos blancs de Provo d’Amsterdam. En septembre 2018, 34 agglomérations francaises disposent de systèmes de vélos en libre-service avec stations. En 20 ans, plus de trente agglomérations ont ainsi mis en place un système de VLS sur leur territoire, représentant au total près de 50 000 vélos.

Ainsi, notre travail d’études et de recherches, porte sur la dynamique temporelle des vélos en libre service dans l’agglomération de Toulouse. Nous pensons que certains facteurs peuvent influencer le flux de vélos en libre-service. Nous allons étudier et tenter d’expliquer quels sont les facteurs qui impactent les flux de vélos en libre-service dans la ville de Toulouse. Pour cela, nos professeurs nous ont mis à disposition une base de données allant du 1er Avril 2016 au 05 Octobre 2016 composée de :

  • Un fichier qui contient chaque station avec la description suivante, la date et l’heure (moment), le nombre de vélos présents dans la station (bikes) et le nombre de places libres (space).

  • Un fichier “weather” contenant les variables suivantes, le moment (date et heure), la température, la description du temps qu’il fait.

  • Un fichier comprenant les coordonnées géographiques de chaque station.

Nous allons réorganiser ces données afin de pouvoir travailler dessus et ainsi répondre à notre problématique.

La statistique, nous permet de réaliser des études sur différents domaines. Nous pourrons alors analyser les causes et les conséquences. Le logiciel de statistique R nous permettra d’observer et de comprendre les relations entre les variables lors de notre étude.

I Statistiques descriptives

1. Analyse de la base de données initiale

Nous avons décidé d’analyser le contenu de l’ensemble de nos fichiers afin d’en avoir une vision un peu plus claire.

a. Stations

En ce qui concerne le fichier regroupant l’ensemble des stations, nous avons choisi d’étudier d’un peu plus près la station 140 du fichier. Elle se nomme Emile Male. Nous décidons d’observer les variables qui sont les mêmes pour chaque station. Ci-dessous le résumé statistique de la station :

##                  moment          bikes           spaces     
##  2016-04-27 11:15:20:    2   Min.   : 0.00   Min.   : 0.00  
##  2016-04-01 00:04:53:    1   1st Qu.: 9.00   1st Qu.: 7.00  
##  2016-04-01 00:14:56:    1   Median :15.00   Median :13.00  
##  2016-04-01 00:23:20:    1   Mean   :15.06   Mean   :13.14  
##  2016-04-01 00:25:05:    1   3rd Qu.:21.00   3rd Qu.:19.00  
##  2016-04-01 00:25:57:    1   Max.   :29.00   Max.   :29.00  
##  (Other)            :27104

Nous pouvons donc distinguer 3 variables : moment, bikes et space. Le moment nous décrit la date et l’heure de l’enregistrement. Bikes nous informe sur le nombre de vélos présents dans la station et spaces sur le nombre d’emplacements disponible. Nous observons aussi, le min, le max, la moyenne, la médiane et les quartiles des variables quantitatives que sont “bikes et”spaces". Nous pouvons noter que le nombre moyen de vélos présent à Emile Male est de 15.06 vélos.

 

Sur ce graphique, nous observons la dynamique temporelle de la station Emile Male d’Avril à Octobre 2016. A l’aide du curseur nous pouvons observer toute l’étendue de la série et remarquer qu’à certains moments, il n’y a pas de mouvements. Ceci nous montre qu’il y a des données manquantes pour cette station. C’est en effet le cas pour chaque station. Dans la suite, nous avons décidé de supprimer toutes les lignes contenant des données manquantes pour chaque station ceux qui équivaut à 20 825/1 030 125 lignes soit environ 2% de la base de données initiale.

Ensuite, toujours en déroulant le curseur sur le graphe, nous observons des mouvements assez périodiques, c’est à dire que le même mouvement se repète plusieurs fois. Nous remarquons qu’en général le mouvement dans la station est le même chaque jour. En effet, les enregistrements du nombre de vélos présent dans la station sont réalisés toutes les 5 minutes et chaque jour de la semaine. Nous pouvons donc dire que cette station est utilisée généralement de la même manière chaque jour. Cependant cela reste à être vérifié dans la suite et pour chaque station.

b. Coordonnées géographiques

Nous avons à notre disposition, un fichier comprenant les coordonnées géographiques de chaque station de vélos de l’agglomération de Toulouse dont nous vous montrons un petit aperçu.

##   altitude latitude longitude                    nom
## 1 145.2188 43.58135  1.425326   00189-muret-boutinon
## 2 149.0000 43.58283  1.448634   00157-urss-peyrouset
## 3 145.6114 43.59253  1.442900            00069-feuga
## 4 141.1084 43.61055  1.479500    00181-plana-garnier
## 5 150.4098 43.60735  1.444270         00014-perigord
## 6 168.1795 43.57907  1.483670 00200-place-de-lormeau

Nous avons ensuite réalisé à l’aide de ce fichier une cartographie.

 

Cette cartographie, nous permet de visualiser un peu mieux l’emplacement de chaque station dans l’agglomération de Toulouse. Nous imaginons que le mouvement des stations peut varier selon son emplacement. En effet, les vélos en libre service sont utilisés le plus souvent par des personnes voulant rejoindre leur travail en centre ville, leurs école ou université afin d’éviter le trafic routier. Nous en déduisons que les stations situées en extérieur se vident tôt le matin pour rejoindre des stations du centre ville et se remplissent à nouveau en fin d’après midi. Nous le vérifierons dans la partie analyse graphique.

 

2. Individus et variables

Nos individus sont les 277 stations de vélos en libre service de la ville de Toulouse qui nous ont été fourni dans notre base de données. Ces stations sont composées de flottes qui servent à stationner les vélos. Le nombre de flottes varie selon les stations, ce qui implique que la capacité d’accueil n’est pas la même pour toutes les stations. Par exemple, la station 1 “poid de lhuile” peut accueillir un maximum de 19 vélos, alors que la station 175 “metro-maunoury” peut en accueillir 30.

Nous cherchons à comprendre les facteurs qui peuvent impacter le flux des vélos en libre-service. Nous avons réorganisé notre base de données et donc retenu et définit les variables qui nous semblaient être les plus pertinentes quant à leurs impacts sur le flux des vélos. Nous avons réalisé un tableau de la semaine complète, un tableau pour les jours ouvrés et un tableau pour le week-end (samedi, dimanche) contenant les variables suivantes, que nous définissons ainsi :

  • Heures : Nous avons créé à partir de la base de données initiale une variable appelée “heures” afin de rassembler les enregistrements d’une même heure. Nous l’avons définie de la manière suivante. Nous avons créé 24 tranches horaires de 1 heure chacune, donc une mesure pour chaque heure de la journée. Cela correspond à 24 mesures défini de la manière suivante : 00h, 01h, 02h, 03h, 04h, 05h, 06h, 07h, 08h, 09h, 10h, 11h, 12h, 13h, 14h, 15h, 16h, 17h, 18h, 19h, 20h, 21h, 22h, 23h.

  • Pourcentage : La variable pourcentage nous informe sur le taux de vélos moyen présents dans une station. Après la création de la variable heure, nous avons fait ressortir de cette variable la moyenne du taux de vélos présent par heure. Nous avons choisi de travailler sur le taux de vélos car toutes les stations n’ont pas la même capacité d’accueil. Cela nous semblait être le plus juste.

  • Secteur : Cette variable à été construite à l’aide du plan de découpage des secteurs et quartiers de Toulouse. Nous avons associé à chaque station son secteur.

  • Quartier : La variable quartier à été construite de la même façon que “secteur”. A l’aide du plan de découpage des secteurs et quartiers de Toulouse. Nous avons associé à chaque station son quartier.

Ci-dessous un aperçu de nos tableaux avec les variables que nous venons de définir. Le tableau que nous avons pris pour exemple est le tableau qui englobe tous les jours de la semaine. Ces tableaux vont nous servir à faire une première analyse graphique.

## # A tibble: 6 x 139
## # Groups:   nom [1]
##   nom   heures pourcentage chiffre secteur quartier Lundi Dimanche vendredi
##   <chr> <chr>        <dbl>   <dbl>   <dbl>    <dbl> <dbl>    <dbl>    <dbl>
## 1 0000~ 0            11.8        1     1.1        1     3        3        3
## 2 0000~ 01            6.38       1     1.1        1     3        3        3
## 3 0000~ 02            4.29       1     1.1        1     3        3        3
## 4 0000~ 03            3.37       1     1.1        1     3        3        3
## 5 0000~ 04            2.65       1     1.1        1     3        3        3
## 6 0000~ 05            3.88       1     1.1        1     3        3        3
## # ... with 130 more variables: mardi <dbl>, mercredi <dbl>, jeudi <dbl>,
## #   samedi <dbl>, ...12 <dbl>, ...13 <dbl>, ...14 <dbl>, ...15 <dbl>,
## #   ...16 <dbl>, ...17 <dbl>, ...18 <dbl>, ...19 <dbl>, ...20 <dbl>,
## #   ...21 <dbl>, ...22 <dbl>, ...23 <dbl>, ...24 <dbl>, ...25 <dbl>,
## #   ...26 <dbl>, ...27 <dbl>, ...28 <dbl>, ...29 <dbl>, ...30 <dbl>,
## #   ...31 <dbl>, ...32 <dbl>, ...33 <dbl>, ...34 <dbl>, ...35 <dbl>,
## #   ...36 <dbl>, ...37 <dbl>, ...38 <dbl>, ...39 <dbl>, ...40 <dbl>,
## #   ...41 <dbl>, ...42 <dbl>, ...43 <dbl>, ...44 <dbl>, ...45 <dbl>,
## #   ...46 <dbl>, ...47 <dbl>, ...48 <dbl>, ...49 <dbl>, ...50 <dbl>,
## #   ...51 <dbl>, ...52 <dbl>, ...53 <dbl>, ...54 <dbl>, ...55 <dbl>,
## #   ...56 <dbl>, ...57 <dbl>, ...58 <dbl>, ...59 <dbl>, ...60 <dbl>,
## #   ...61 <dbl>, ...62 <dbl>, ...63 <dbl>, ...64 <dbl>, ...65 <dbl>,
## #   ...66 <dbl>, ...67 <dbl>, ...68 <dbl>, ...69 <dbl>, ...70 <dbl>,
## #   ...71 <dbl>, ...72 <dbl>, ...73 <dbl>, ...74 <dbl>, ...75 <dbl>,
## #   ...76 <dbl>, ...77 <dbl>, ...78 <dbl>, ...79 <dbl>, ...80 <dbl>,
## #   ...81 <dbl>, ...82 <dbl>, ...83 <dbl>, ...84 <dbl>, ...85 <dbl>,
## #   ...86 <dbl>, ...87 <dbl>, ...88 <dbl>, ...89 <dbl>, ...90 <dbl>,
## #   ...91 <dbl>, ...92 <dbl>, ...93 <dbl>, ...94 <dbl>, ...95 <dbl>,
## #   ...96 <dbl>, ...97 <dbl>, ...98 <dbl>, ...99 <dbl>, ...100 <dbl>,
## #   ...101 <dbl>, ...102 <dbl>, ...103 <dbl>, ...104 <dbl>, ...105 <dbl>,
## #   ...106 <dbl>, ...107 <dbl>, ...
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.709  29.754  45.972  44.749  58.948  92.162

Le résumé de la variable pourcentage nous informe sur le nombre moyen de vélos présent la semaine dans les différentes stations. Il y a en moyenne 44.8 % de vélos présent par station.

Nous avons étudié la nature de chacune de nos variables. Nous décrirons chaque variable de la manière suivante :

 

Variable Nom de la variable Nature de la variable
Heure heure Qualitative
Pourcentage de vélos pourcentage Quantitative
Secteur secteur Qualitative
Quartier quartier Qualitative

 

3. Analyses graphiques

Faire des statistiques descriptives permet d’avoir une approche plus globale ou générale des données. Nous en obtiendrons une vision plus claire. Notre objectif est de comprendre le comportement des stations. Nous avons réalisé des graphiques afin d’observer sur un petit nombre de stations leurs comportements. Cela nous permettra d’émettre certaines hypothèses.

Nous avons décidé d’analyser dans un premier temps 2 stations au cours de la semaine complète. Ces stations sont éloignées l’une de l’autre. Nous les avons choisi grâce à la cartographie afin d’étudier leurs comportements. Notre choix se porte sur la station 1 de notre base de données, Poid de Lhuile. Elle se trouve au centre de la cartographie à côté de la place du capitole et la station 259, Place Riche de notre base de données. Place Riche se trouve parmi les stations les plus au nord sur la cartographie.

Nous observons clairement le comportement complètement inverse de ces deux stations. En effet, le taux de remplissage de Poid de Lhuile augmente à compté de 4h et ce jusqu’à 11h à hauteur de 70 %. Elle entame ensuite une période constante avant de commencer à se vider à partir de 17h. Cependant le comportement de Place Riche est opposé à celui de Poid de Lhuile. Ces résultats nous poussent à dire que l’emplacement géographique est un facteur du flux de vélos.

Ensuite, ces deux graphiques, nous montrent l’évolution du taux moyen de vélos présents dans les 20 premières ainsi que les 20 dernières stations de notre base de données au cours de la semaine.

Sur le premier graphique, nous pouvons repérer une tendance assez similaire au cours de la semaine pour la plupart des stations. Nous observons une augmentation du taux moyen de remplissage des stations à partir de 8h avant d’entamer une diminution vers 18h. Nous voyons un comportement différent pour la courbe bleue qui est remplie en moyenne à 50% de sa capacité à 00h. Elle se vide ensuite au cours de la journée pour se remplir à nouveau à hauteur de 50% à partir de 18h.

Sur le second graphique, parcourant les 20 dernières stations de notre base de données au cours de la semaine, nous observons un comportement assez constant. C’est à dire qu’il n’y a pas de moment où le taux moyen de remplissage des stations change véritablement.

Au vu des graphiques, nous pensons que ces différences de comportements peuvent être dues à l’emplacement géographique des stations, aux quartiers ou secteurs dans lesquels elles se situent. Si nous revenons à la cartographie, nous observons que les 20 premières stations sont assez proches niveaux emplacement et plutôt en centre ville alors que les 20 dernières sont plutôt situées en exterieur et n’ont pas du tout le même comportement que celle en centre ville. Le numéro attribué à chaque station a l’air d’avoir été attribué en fonction de son emplacement. Nous pensons aussi que le comportement des stations varie selon les jours de la semaine (jours ouvrés ou week-end), c’est pour cela que nous avons réalisé un tableau pour les jours ouvrés et un pour le week-end. Cela va nous permettre d’analyser l’évolution de chaque station en semaine et le week end.

Afin de pouvoir analyser plus en profondeur nos données et avoir des réponses à notre question qui est de savoir quels sont les facteurs qui impacts les flux de vélos en libre service. Nous avons changé la forme de nos tableaux de données afin de pouvoir réaliser une analyse en composantes principales et une classification.

En effet l’analyse en composantes principales va nous permettre de transformer des variables liées entre elles (corélées) en nouvelles variables décorrélées les unes des autres. Ces nouvelles variables sont nommées composantes principales.

Ensuite, parmi les méthodes de statistiques exploratoires multidimensionnelles, dont l’objectif est d’extraire d’une masse de données des informations utiles, on distingue la méthode de classification automatique. Son objectif est de former des groupes d’individus ou de variables afin de structurer un ensemble de données.

Voici un aperçu de nos tableaux de données finaux (tableau sur la semaine complète ici). Ceux sur lesquels nous allons travailler dans la suite, avec en colonne les 24h de la journée et en ligne le nom des stations. Nous obtenons donc un tableau de dimension 277*25.

## # A tibble: 6 x 25
## # Groups:   nom [6]
##   nom      `0`  `01`  `02`  `03`  `04`  `05`  `06`  `07`  `08`  `09`  `10`  `11`
##   <chr>  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 00001~  11.8  6.38  4.29  3.37  2.65  3.88  5.23  7.58  15.4  37.6  56.1  69.2
## 2 00002~  32.5 25.7  20.8  17.5  13.3  10.5  12.2  17.8   29.5  50.4  66.2  75.2
## 3 00003~  18.2 12.2  10.6   6.80  4.74  5.14  7.11  7.25  14.9  40.4  62.4  70.4
## 4 00004~  37.9 26.5  20.0  17.0  15.3  14.4  13.8  15.4   20.9  34.4  51.4  63.8
## 5 00005~  35.4 42.1  45.7  48.1  46.9  47.8  48.8  51.2   43.5  35.3  30.8  29.8
## 6 00007~  46.3 36.7  31.1  27.7  25.0  25.3  24.2  24.0   31.7  50.8  63.8  70.7
## # ... with 12 more variables: `12` <dbl>, `13` <dbl>, `14` <dbl>, `15` <dbl>,
## #   `16` <dbl>, `17` <dbl>, `18` <dbl>, `19` <dbl>, `20` <dbl>, `21` <dbl>,
## #   `22` <dbl>, `23` <dbl>

Nous avons par la suite réalisé la description de l’une des variables qui sont ici les 24 mesures d’heures.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.05   33.57   44.69   43.81   54.11   77.83

Nous pouvons observer les différents indicateurs statistiques tels que le maximum, le minimum, la moyenne… Nous pouvons voir que par exemple le pourcentage de vélos moyens dans les stations à 12h est 43.8%.

 

II Analyse bivariée

Comme énoncé précédemment nous allons poursuivre notre analyse sur nos tableaux finaux que sont les jours ouvrés et le week-end.

Nous allons commencer par les jours ouvrés.

Pour la suite de notre étude nous avons décidé de centrer et réduire nos données comme il est usuel de faire pour une ACP et ainsi obtenir un écart type de 1. Ainsi, afin de voir les liaisons entre nos variables qui sont ici les modalités d’heures, nous allons dans un premier temps utiliser la matrice de corrélation. Pour une meilleure visualisation, les valeurs ont été arrondi à la première décimale.

On parle de corrélation lorsque le coefficient de corrélation est supérieur ou égal à 0,5 en valeur absolue (la liaison est forte lorsque le coefficient de corrélation est proche ou égal à 1). Ainsi, dans la représentation ci-dessus, les variables sont alignées en colonnes et sur la diagonale. Il y aura liaison lorsque les coefficients sont compris entre 0,6 et 1 comme le montre la matrice (liaison lorsque le coefficient est écrit en bleu foncé, pas de liaison lorsqu’il est en bleu ciel). De plus, une heure est fortement corrélée à l’heure précédante et l'heure suivante. Par conséquent, nous pouvons dire de manière générale qu’ il y a de fortes corrélations entre les heures de 0 à 8h, de 9h à 17h et de 18h à 23h. Par contre le premier groupe n’est pas corrélé au deuxième. A partir de cela nous pouvons estimer qu’il y a plus ou moins deux groupes et donc deux comportements différents.

Nous avons procédé de la même manière pour les week-ends.

Toutes les heures de 0 à 2h et de 19h à 23h sont fortement corrélées entre elles. On note des corrélations entre les heures de 4h à 10h et de 11 à 18h. Nous pouvons déjà identifier trois différents types de mouvements entre ces heures.

III Analyse multivariée

1. Analyse en composantes principales (ACP)

  • Choix des axes :
##           eigenvalue percentage of variance cumulative percentage of variance
## comp 1  1.399849e+01           5.832705e+01                          58.32705
## comp 2  6.902607e+00           2.876086e+01                          87.08791
## comp 3  2.323594e+00           9.681642e+00                          96.76955
## comp 4  3.161310e-01           1.317213e+00                          98.08676
## comp 5  1.692464e-01           7.051932e-01                          98.79196
## comp 6  1.018878e-01           4.245326e-01                          99.21649
## comp 7  6.218512e-02           2.591047e-01                          99.47559
## comp 8  2.992919e-02           1.247049e-01                          99.60030
## comp 9  2.601413e-02           1.083922e-01                          99.70869
## comp 10 2.110818e-02           8.795074e-02                          99.79664
## comp 11 1.139885e-02           4.749521e-02                          99.84414
## comp 12 1.055357e-02           4.397319e-02                          99.88811
## comp 13 7.269866e-03           3.029111e-02                          99.91840
## comp 14 4.726317e-03           1.969299e-02                          99.93809
## comp 15 3.452396e-03           1.438498e-02                          99.95248
## comp 16 3.033306e-03           1.263878e-02                          99.96512
## comp 17 2.551720e-03           1.063217e-02                          99.97575
## comp 18 1.614815e-03           6.728395e-03                          99.98248
## comp 19 1.482976e-03           6.179066e-03                          99.98866
## comp 20 1.045739e-03           4.357247e-03                          99.99302
## comp 21 6.932902e-04           2.888709e-03                          99.99590
## comp 22 5.472488e-04           2.280203e-03                          99.99818
## comp 23 2.580626e-04           1.075261e-03                          99.99926
## comp 24 1.777280e-04           7.405334e-04                         100.00000

Dans les statistiques ci-dessus nous pouvons repérer les valeurs propres associées à chaque vecteur directeur des axes de projection. Ici nous avons le choix entre 24 axes qui correspondent au nombre de variables. En se référant au critère de Kaiser, nos choix seront portés sur les axes ayant des valeurs propres supérieures à 1. Ainsi, nous pouvons retenir les dimensions 1, 2 et 3 ayant respectivement pour valeurs propres 13.998, 6.903, 2.324.

Nous pouvons confirmer nos choix en représentant ci-dessous l’éboulis des valeurs propres en %.

L’analyse de ce graphe nous permet de constater que la dimension 1 renferme à elle seule 58,33% de l’information totale. Quant aux dimensions 2 et 3, ces dernières renferment respectivement 28,76% et 9,68% de l’information totale. Par conséquent, les deux premiers axes formant le plan factoriel (1,2) renferment 87,09% de l’inertie du nuage pour les projections. Quant au deuxième plan factoriel (1,3), la dimension 3 ne renferme que 9% de l’information. Un pourcentage négligeable étant donné que le plan (1,2) représente déjà 87% devant celui du premier plan. Nous allons donc retenir le premier plan factoriel pour nos représentations dans le plan.

  • Représentation des individus dans le plan factoriel

Le graphe ci-dessus nous présente le nuage de points des stations sur le plan factoriel (1,2). Dans ce dernier, chaque station est colorée en fonction de son cos2 qui est un indicateur de la qualité de représentation. En effet, plus une station à un cos2 proche de 1 plus elle est bien représentée dans ce plan. Ainsi une station colorée entre la couleur verte et violette sera mal représentée dans le plan c’est le cas de la station numéro 41 par exemple. De même une station colorée entre la couleur bleu et la couleur rouge sera bien représenté c’est le cas de la station numéro 33. Afin de mieux comprendre le positionnement des stations, nous allons caractériser les trois différents axes de projection. Pour y arriver, nous allons commencer par représenter le cercle des corrélations des variables.

  • Représentation des variables dans le premier plan factoriel

Le graphe ci-dessus est le cercle des corrélations des variables (heures), toutes les variables étant de longueur 1, elles se projettent donc à l’intérieur du disque de rayon 1. De plus, les flèches de ces dernières sont colorées en fonction de leurs cos2 (indicateurs de la qualité leur représentation). Ainsi, une flèche colorée en violet sera mal représenté dans ce plan et une flèche colorée en rouge sera bien représenté dans ce plan. En pratique, plus le cos2 est proche de 1 plus la variable sera bien représentée. Parmi les variables bien représentées, on peut noter une liaison entre les variables (dû à leur direction commune et leur proximité) suivantes : 0h, 01h, 02h, 03h, 04h, 05h, 06h (1ere liaison) et 07h, puis 10h, 11h, 12h, 13h, 14h, 15h, et 16h (2eme liaison). Ensuite, parmi les variables moins représentées, on note aussi une liaison entre 19h, 20h, 21h, 22h (3eme liaison). Nous pouvons justifier ces liaisons par les moments de la journée. Ainsi, on peut expliquer la première liaison par le fait que les clients ne travaillent pas à ces heures (la nuit), la deuxième liaison par le fait que ces heures correspondent aux heures de travail où chacun mène ses activités (la journée de travail), et la 3ème liaison pourrait s’expliquer par le fait qu’à ces heures, les clients se retrouvent chez eux (la soirée). On peut conclure qu’en général, les utilisateurs qui vont au travail partent à 9h et reviennent vers 18h-19h, ceci pourrait potentiellement expliquer ce mouvement.

A présent, passons à la caractérisation des axes. Pour cela, nous allons nous baser sur le tableau des coordonnées des variables ci-dessous :

##        Dim.1       Dim.2        Dim.3       Dim.4        Dim.5
## 0  0.8648095 -0.47876062  0.024422825  0.03772146  0.093437931
## 1  0.8338141 -0.52037828  0.144021168 -0.01469311  0.082593538
## 2  0.8165642 -0.52776912  0.211669700 -0.05591778  0.067382131
## 3  0.8069390 -0.52625385  0.247821103 -0.07221925  0.057328629
## 4  0.8057767 -0.51946620  0.263345208 -0.07772998  0.050340975
## 5  0.8077377 -0.51371020  0.268067707 -0.08353162  0.033442407
## 6  0.8089235 -0.51330572  0.263986603 -0.07310948 -0.003370994
## 7  0.8262689 -0.43581046  0.311694498 -0.02453540 -0.098125149
## 8  0.8243188  0.02684086  0.494161849  0.12662151 -0.217998930
## 9  0.6235054  0.56646497  0.483676324  0.17618362 -0.101398203
## 10 0.5430867  0.74542245  0.354691232  0.10180401 -0.009692217
## 11 0.5254117  0.80758582  0.232705217  0.03450431  0.044169379
## 12 0.5911253  0.77442479  0.050727462 -0.05784505  0.107318425
## 13 0.6203071  0.75815801  0.009799930 -0.02377273  0.107190004
## 14 0.5757006  0.80261885  0.058610453  0.01203998  0.065520892
## 15 0.5858199  0.79524000  0.007694126 -0.03016981  0.054061799
## 16 0.6665661  0.71341314 -0.107840623 -0.12044779  0.004406102
## 17 0.7929605  0.44326410 -0.302331185 -0.24792514 -0.109851201
## 18 0.8591178  0.11869674 -0.426798488 -0.20598226 -0.115745131
## 19 0.8858744 -0.10261578 -0.425487138 -0.02694404 -0.092362969
## 20 0.8572444 -0.10832685 -0.478510186  0.12486782 -0.048771530
## 21 0.8331765 -0.08475039 -0.506385738  0.19197754  0.004307454
## 22 0.8586948 -0.15515616 -0.443448086  0.18848315  0.042431620
## 23 0.8877947 -0.32606307 -0.274678157  0.12839871  0.065496331

L’analyse de ce tableau nous révèle que :

  • Les variables fortement corrélées positivement avec l’axe 1 sont : 23h, 19h, 0h, 18h, 22h, 20h, 1h, 21h, 7h, 8h, 2h, 6h, 5h, 3h, et 4h. Caractérisé par ces heures, l’axe 1 est donc un axe d’absence d’activités.

  • Les variables assez corrélées positivement avec l’axe 2 sont : 11h, 14h, 15h, et 12h, 13h, 10h, et 16h. Par conséquent, l’axe 2 est un axe de présence d’activité car il est assez caractérisé par des heures où les clients sont occupés par leurs différents travaux.

  • Les variables peu corrélées négativement avec l’axe 3 sont 8h et 9h. On peut dire que l’axe 3 est un axe de mouvement des vélos dans les stations car il est caractérisé par des heures où les clients vont chercher les vélos dans les stations pour se déplacer et aller au travail ou faire leur activité professionnelle.

Nous pouvons conclure que dans l’ensemble des jours de travail, la présence de vélos dans une station dépend des heures d’absence d’activité, de présence d’activité et des heures de déplacements des clients.

Passons maintenant à l’analyse de la base des week-ends.

Le critère de Kaiser nous amène à choisir les deux premiers axes, l’axe 1 renfermant lui seul 83,21% de l’information totale et 11.53% pour le deuxième axe. Ceci donne un plan factoriel avec un total de pourcentage d’inertie s’élevant à 94,74% (largement suffisant pour nos représentations dans le plan).

On constate sur ce graphique que de manière générale les stations sont bien représentées. En effet, quelques stations présentes en vert en bleu sont considérées comme mal représentées et donc peu fiables pour l’analyse.

##        Dim.1       Dim.2        Dim.3        Dim.4        Dim.5
## 0  0.8829474 -0.16380928  0.390199588 -0.173844770  0.031962142
## 1  0.9223719  0.08724430  0.337403613 -0.149163979  0.053219377
## 2  0.9207899  0.28712656  0.221600650 -0.102228222  0.061207545
## 3  0.8966828  0.41223818  0.113993955 -0.022354680  0.049400701
## 4  0.8758559  0.47438773  0.042068071  0.040323276  0.033902427
## 5  0.8635073  0.49652772 -0.007568778  0.070074290  0.020516711
## 6  0.8614239  0.49867244 -0.029618116  0.077548674  0.012702335
## 7  0.8710293  0.48051300 -0.041837691  0.076843083  0.007230360
## 8  0.8858385  0.45034436 -0.065927235  0.067040302 -0.008384914
## 9  0.9129788  0.38162399 -0.113687158  0.035730182 -0.031741914
## 10 0.9527469  0.21829516 -0.177721509 -0.032709655 -0.073394540
## 11 0.9548571  0.01222007 -0.236150595 -0.117031458 -0.117842933
## 12 0.9418390 -0.11430803 -0.229398506 -0.159257334 -0.132589756
## 13 0.9554183 -0.17766706 -0.179244112 -0.108853233 -0.047337709
## 14 0.9458622 -0.23071305 -0.188428285 -0.036421420  0.055264741
## 15 0.9280943 -0.29055928 -0.183840907 -0.003670155  0.110414585
## 16 0.9093352 -0.35129930 -0.156791496  0.009899666  0.141366249
## 17 0.9015547 -0.38591303 -0.121086523  0.034177361  0.122547643
## 18 0.9064829 -0.39049084 -0.069421229  0.052752299  0.060546520
## 19 0.9344829 -0.31720759  0.029708534  0.091211273  0.004080664
## 20 0.9174634 -0.34803979  0.119589589  0.107512330 -0.047617651
## 21 0.8884260 -0.39680593  0.176763496  0.098460835 -0.088864149
## 22 0.9051555 -0.34077805  0.199212803  0.095124583 -0.099778373
## 23 0.9466013 -0.17521044  0.214072799  0.077502821 -0.098435535

Toutes les heures sont bien représentées dans le cercle des corrélations. Cela dit nous identifions deux types de mouvements regroupant les heures en deux différents groupes. Le premier groupe est constitué des heures de 3 à 9h. Elles sont représentées positivement sur l’axe 2 et le deuxième groupe est constitué des heures de 19h à 22h. Les utilisateurs de vélos se déplacent donc entre 10h et 18h et entre 23h et 2h du matin.

Par la suite au regard des coordonnées des variables sur le plan factoriel, l’axe 1 (axe principal) est caractérisé par toutes les heures suivantes : 13h, 11h, 10h, 19h, 15h, 1h, 2h, 23h, 14h, 12h, 20h, 9h, 16h, 18h, 22h et 17h. Plus une station se retrouve à droite sur le plan factoriel, plus son pourcentage de vélos sera élevé entre ses heures qui correspondent aux heures de divertissements dans un weekend (les apéros etc…). C’est un axe d’absence d’activité (pas de travail). De plus, l’axe 2 est moyennement caractérisé par 6h et 5h ce qui signifie que plus une station se retrouve en haut dans le plan factoriel, plus le pourcentage de vélos présents entre 5h et 6h sera moyennement élevé, il y a donc des mouvements dans les stations entre 5h et 6h. L’axe 2 est donc un axe de déplacement des utilisateurs pendant les weekend. Nous pourrions expliquer ces déplacements par le fait qu’à ces heures, après être sortis se divertir, les utilisateurs rentrent généralement chez eux.

Nous pouvons retenir que le flux de vélos libre-service à Toulouse dépend d’abord des jours. Pour les jours ouvrés (du lundi au vendredi), ce flux (mouvements) dépend des heures de travail des utilisateurs et des heures d’après divertissements pendant les week-ends.

2. Classification

L’objectif d’une classification est d’attribuer à chaque individu (station) un groupe dont les individus la composant ont un comportement similaire. Ces groupes vont notamment nous aider à observer par exemple si la position géographique des stations est en lien avec leurs comportements en reportant les groupes sur la cartographie. Pour réaliser, cette classification nous allons utiliser le tableau de données final. Cependant, nous séparerons ce tableau en une table Week-ends contenant les données de tous les samedis et dimanches et une table Jours ouvrés. L’objectif de cette séparation est d’observer un comportement différent en fonction du jour de la semaine. Pour ce faire, nous allons utiliser la méthode de classification Hiérarchique sur Composantes Principales (HCPC). Cette classification utilise la méthode d’agrégation de Ward pour construire le dendrogramme. Cette méthode cherche à minimiser l’inertie intra-classe et à maximiser l’inertie inter-classe afin d’obtenir les classes les plus homogènes possibles. La notion de ressemblance entre observations est évaluée par une distance entre individus. La matrice de départ (matrice de distance entre individus) est considérée comme la matrice d'hétérogénéité de tous les groupements initiaux possibles. L’approche HCPC nous permet de combiner les trois méthodes standards utilisées dans les analyses de données multivariées :

  • La méthode des composantes principales (ACP) faite dans la partie 2.
  • La classification ascendante hiérarchique (CAH).
  • Le partitionnement en k-moyennes.

HCPC réalise à la fois le calcul de la matrice des distances, du dendrogramme et le partitionnement de la population en classes.

a. Analyse des jours ouvrés

Nous avons commencé notre analyse sur les jours ouvrés (Lundi, Mardi, Mercredi, Jeudi, Vendredi).

Ce graphique est un dendrogramme qui correspond ici à une classification hiérarchique en 3 groupes.

A l’aide de la partie 2 sur l’ACP nous pouvons faire ressortir que la dimension 1 correspond aux heures avec peu d’activités (18h-7h) c’est-à-dire plutôt les clusters 1 et 3. La dimension 2 correspond aux heures dites d’activités de 8h à 17h c’est-à-dire plutôt au cluster 2. Afin de vérifier notre première hypothèse nous allons voir quelles sont les variables quantitatives décrivant le mieux chaque cluster (groupes).

Pour cela nous allons tout d’abord voir quelles sont les heures qui décrivent le mieux chaque clusters. Ici, on se rend compte que toutes les heures (variables) sont associées au cluster numéro 1. De plus, on constate que les variables qui influent le plus sont les horaires de 0h à 7h. Par exemple, la valeur moyenne de la variable 3 est de -0,84, ce qui est inférieur à la moyenne globale -1.11e16 dans tous les cluster. Par conséquent le cluster 1 se caractérise par de faibles taux pour toutes les variables par rapport à tous les autres clusters. Le cluster 1 comporte donc les stations avec de faibles mouvements mais particulièrement pendant les heures creuses (19h à 7h).

Nous remarquons que toutes les heures (variables) sont associées au cluster numéro 2. De plus, nous constatons que les variables qui influent le plus sont les horaires de 9h à 17h. Par exemple, la valeur moyenne de la variable 14 est de 0,88, ce qui est supérieur à la moyenne globale 1.54e-16 dans tous les clusters; ceci est aussi le cas pour les heures de 9h à 17h. Pour les heures restantes les valeurs moyennes des variables sont inférieures à la moyenne globale dans tous les clusters. On peut conclure que le cluster 2 se caractérise par des taux élevés sur les heures de 9h à 17h et un taux faible pour les heures restantes par rapport à tous les autres clusters. Le cluster 2 comporte donc les stations avec un fort mouvement durant les heures dites actives c’est-à-dire de 9 à 17h et un mouvement faible durant les heures creuses.

Nous observons que toutes les heures (variables) sont associées au cluster numéro 3. De plus, nous constatons que les variables qui influent le plus sont les horaires de 20h à 7h . Par exemple, la valeur moyenne de la variable 1 est de 0,84, ce qui est supérieur à la moyenne globale -1.08e-17 dans tous les clusters. Nous pouvons conclure que le cluster 3 se caractérise par des taux élevés de toutes les variables par rapport à tous les autres clusters. Les stations présentent dans le cluster 3 sont des stations présentant un mouvement plus élevé que la moyenne pour toutes les heures mais particulièrement durant les heures creuses.

Afin de compléter notre analyse nous allons voir quels sont les axes principaux associés aux clusters.

## $`1`
##           v.test Mean in category  Overall mean sd in category Overall sd
## Dim.2  -3.569649       -0.9349959 -1.899428e-16       1.472154   2.627281
## Dim.1 -12.616877       -4.7061971  2.276558e-16       1.927382   3.741456
##            p.value
## Dim.2 3.574598e-04
## Dim.1 1.704470e-36
## 
## $`2`
##          v.test Mean in category  Overall mean sd in category Overall sd
## Dim.2 11.183810        3.2597059 -1.899428e-16       1.808528   2.627281
## Dim.1 -2.218857       -0.9209839  2.276558e-16       1.785075   3.741456
##            p.value
## Dim.2 4.894279e-29
## Dim.1 2.649645e-02
## 
## $`3`
##          v.test Mean in category  Overall mean sd in category Overall sd
## Dim.1 13.026138        2.9020040  2.276558e-16       1.946607   3.741456
## Dim.2 -6.217428       -0.9726555 -1.899428e-16       2.202320   2.627281
##            p.value
## Dim.1 8.689572e-39
## Dim.2 5.053702e-10

Les résultats ci-dessus indiquent que les stations dans les groupes (cluster) 1, 2 et 3 ont des coordonnées élevées sur les axes 1 et 2. Les individus du groupe 1 et 2 ont des coordonnées élevées sur le deuxième axe plus particulièrement. Les individus appartenant au troisième groupe ont des coordonnées élevées sur l’axe 1. On peut donc conclure que les 2 axes participent activement à la création des clusters. Pour terminer nous allons voir les 5 premières stations les plus représentatives de chaque groupe.

## Cluster: 1
##       271        42        64        40        33 
## 0.5751859 0.7777779 0.7949947 0.9640670 1.1000489 
## ------------------------------------------------------------ 
## Cluster: 2
##        67       218       175        66        12 
## 0.6567225 0.8330145 1.7324146 1.8244519 1.8393134 
## ------------------------------------------------------------ 
## Cluster: 3
##       162       265       177       184       170 
## 0.4034108 0.7267425 0.7955243 0.8237918 1.0270319

Pour chaque groupe, les 5 meilleurs individus les plus proches du centre du cluster sont affichés. Ces individus sont appelés paragones. La distance entre chaque individu et le centre du groupe est fournie. Par exemple, les individus représentatifs pour le groupe 1 sont les stations 271, 42, 64, 40 et 33. Pour conclure le chiffre de la station n’est pas en lien avec son cluster (groupe).

Afin de finaliser notre étude sur les jours ouvrés nous avons attribué à chaque station une couleur correspondante à son groupe pour visualiser sur la cartographie et constater si la position géographique est un facteur du flux de vélo à Toulouse.

Vert : cluster 1, faible flux tout le temps mais particulièrement aux heures creuses. Orange : cluster 2, flux élevé heures actives et flux faible pendant les heures creuses. Rouge : cluster 3, flux élevé sur toutes les heures mais particulièrement en heures creuses.

Lorsque l'on compare ce résultat avec la cartographie on constate que le cluster 2 est composé majoritairement de stations situées dans l’hyper centre de Toulouse d’où une activité élevée durant les heures actives. Les stations du cluster 3 sont les plus utilisées et elles se situent en périphérie. Contrairement à la périphérie tout à droite qui correspond au cluster 1 qui sont des stations peu utilisées. Par conséquent les stations en périphérie gauche sont fortement utilisées sans doute pour aller en centre-ville pour se rendre au travail ou pour revenir du travail. Cependant la forte activité en heures creuses est sans doute liée au fait que les employés doivent réalimenter les stations qui ont peu de vélos. Et enfin les stations au centre-ville sont fortement utilisées durant les heures actives ce qui doit correspondre à de petits trajets en hyper centre.

b. Analyse du Week-ends

Après avoir étudié les jours ouvrés nous allons étudier les week-ends pour voir si on observe les mêmes mouvements que pour les jours ouvrés.

On constate tout d’abord que le dendrogramme diffère de celui des jours ouvrés pour autant la séparation s’effectue elle aussi en 3 clusters (groupes).

D’après l’ACP précédente sur le week-end on constate que le cluster 1 correspond majoritairement à des stations avec du mouvement. A l’opposé de celui-ci on trouve le cluster 3 qui lui correspond à des stations avec peu de mouvement. Ces deux stations sont assez symétriques sur le plan par rapport à l’axe 2 mais aussi l’axe 1. On voit en effet qu’environ la moitié des stations de chaque groupe est au-dessus et l’autre moitié en dessous de l’axe 2. Cela signifie que la moitié ont du mouvement entre 5h et 6h du matin et l’autre moitié non. Pour ce qui est du cluster 2 il est plutôt étendu au niveau de l’axe 2. Certaines stations de ce groupe ont beaucoup de mouvement entre 5h et 6h et d’autre pas du tout. Nous allons donc approfondir notre étude en analysant plus précisément comment sont fabriqués ces clusters. Pour cela nous allons commencer par voir quelles sont les variables quantitatives qui décrivent le plus les clusters.

Ici, on se rend compte que toutes les heures (variables) sont associées au cluster numéro 1. Pour autant on constate que les premières variables sont les horaires de 0h à 12h qui sont significativement le plus associé au cluster 1. Par exemple, la valeur moyenne de la variable 6 est de -1,08, ce qui est inférieur à la moyenne globale 1.1 e-16 dans tous les cluster. Par conséquent, on peut conclure que le cluster 1 se caractérise par de faibles taux de toutes les variables par rapport à tous les autres clusters mais plus précisément sur les heures matinales.

Pour le cluster 2 on se rend compte que seulement les heures de 2h à 12h sont prisent en compte. Les heures matinales caractérisent donc le cluster 2. Par exemple, la valeur moyenne de la variable 12 est de -0,16 , ce qui est inférieur à la moyenne globale 3.3e-17 dans tous les cluster. Par conséquent, on peut conclure que le cluster 2 se caractérise par de faibles taux des heures matinales par rapport à tous les autres cluster.

On constate que toutes les heures (variables) sont associées au cluster numéro 3. De même que pour le cluster 1 on remarque que les premières variables sont les horaires de 0h à 12h qui sont les plus significatives. Par exemple, la valeur moyenne de la variable 10 est de 1,06, ce qui est supérieur à la moyenne globale 5.49 e-17 dans tous les clusters. Par conséquent, on peut conclure que le cluster 3 se caractérise par de forts taux de toutes les variables par rapport à tous les autres cluster mais plus précisément sur les heures matinales.

Afin de compléter notre analyse nous allons voir quels sont les axes principaux associés aux clusters.

## $`1`
##          v.test Mean in category  Overall mean sd in category Overall sd
## Dim.1 -13.06017        -5.984015 -1.400805e-16        1.61047   4.468831
##            p.value
## Dim.1 5.560272e-39
## 
## $`2`
##          v.test Mean in category Overall mean sd in category Overall sd
## Dim.2 -3.479266        -0.456337 5.487237e-17       2.268788   1.663542
##            p.value
## Dim.2 0.0005027899
## 
## $`3`
##          v.test Mean in category  Overall mean sd in category Overall sd
## Dim.1 13.647656        4.7348241 -1.400805e-16       1.360368   4.468831
## Dim.2  1.982802        0.2560737  5.487237e-17       1.111024   1.663542
##            p.value
## Dim.1 2.084770e-42
## Dim.2 4.738952e-02

Les résultats ci-dessus indiquent que les stations dans le groupes 1 ont des coordonnées élevées sur l’axe 1. Les individus du groupe 2 ont des coordonnées élevées sur le deuxième axe. Les individus appartenant au troisième groupe ont des coordonnées élevées sur les axes 1, 2.

Pour terminer nous allons voir les 5 premières stations les plus représentatives de chaque groupe.

## Cluster: 1
##        258         60        209         63         89 
## 0.02664343 0.18153199 0.29667445 0.40545930 0.43443204 
## ------------------------------------------------------------ 
## Cluster: 2
##       262        53        98       253       233 
## 0.0980169 0.1499573 0.3431536 0.3882457 0.4712832 
## ------------------------------------------------------------ 
## Cluster: 3
##       267       162       149       200       184 
## 0.1339130 0.1582244 0.2969869 0.3497943 0.3735843

Pour chaque groupe, les 5 meilleurs individus les plus proches du centre du cluster sont affichés. Ces individus sont appelés paragones. La distance entre chaque individu et le centre du groupe sont fournis. Par exemple, les individus représentatifs pour le groupe 1 sont les stations 258, 60, 209 , 63 et 89. Pour conclure on constate une nouvelle fois que le chiffre de la station n’est pas en lien avec son cluster (groupe).

Finalement on remarque que les cluster 1 et 3 sont opposés. En effet ils sont associés tous les deux à toutes les variables mais de façon opposée. Le cluster 1 se caractérise par de faibles taux alors que le cluster 3 se caractérise par de forts taux. Pour ce qui est du cluster 2 il se détache en se caractérisant seulement par les heures matinales avec un taux plutôt faible. Par conséquent, les stations dans le cluster 2 sont des stations dont le flux des vélos est plutôt matinal. Les stations présentent dans le cluster 1 et 3 ont des mouvements tout au long de la journée mais de façon opposée. Les mouvements sont faibles pendant les heures matinales pour le cluster 1 et élevés au cours des heures matinales du cluster 3.

Vert : cluster 1, flux faible tout le temps mais particulièrement le matin.

Orange : cluster 2, flux faible le matin et ne prend pas en compte l’après-midi.

Rouge : cluster 3, flux élevé sur toutes les heures mais particulièrement sur celles du matin.

Lorsque l’on compare ce résultat avec la cartographie on constate que le cluster 3 est composé majoritairement des stations en périphéries avec beaucoup d’activité. Les stations du cluster 2 se situent dans l’hyper centre de Toulouse. Le cluster 1 est une nouvelle fois un groupe avec peu d’activité mais cette fois plusieurs stations sont dans l’hyper centre.

Nous retenons que pour les jours ouvrés ou pour le week-end la meilleure séparation a été en 3 groupes, pour les groupes 1 et 3, on constate de légères similarités au niveau de la distinction des groupes entre les week-ends et les jours ouvrés. Cependant, on remarque quand même des différences d’utilisations. En effet pour les jours ouvrés, on constate que le flux est lié à une journée de travail type alors que pour le week-end, les horaires diffèrent, car il n’y a pas d’heure précise pour prendre les vélos. En effet, ils sont utilisés pour se divertir ou aller se divertir. De plus, la cartographie permet de nous rendre compte que les stations en centre-ville sont de manière générale assez utilisées. On constate aussi que les stations en périphérie gauche sont souvent les plus utilisées pour aller en centre-ville. Contrairement aux stations en périphérie droite qui elles sont peu utilisées. La position géographique, l’heure et le jour sont donc des facteurs du flux de vélos à Toulouse.

Conclusion

L’objectif de notre travail d’études et de recherches était d’étudier les flux des vélos en libre service de la ville de Toulouse. Nous avons étudié et réorganisé notre base de données afin de trouver les facteurs qui impactent ces flux.

Nous avons réalisé une analyse en composantes principales, outil extrêmement puissant de synthèse de l’information. Cette analyse nous a permise d’identifier les premiers facteurs liés aux comportements des stations de vélos en libre service. Nous avons appris grâce à cette analyse que les jours de la semaine avaient un impact sur la dynamique des stations de vélos. De plus, nous avons remarqué que l’heure avait elle aussi un impact. En effet, le comportement des stations dépend des heures de travail des clients. Par la suite, nous avons réalisé une classification. Celle-ci nous a permise d’identifier un certain nombre de groupes de stations qui se ressemblent en fonction de la semaine. Nous avons obtenu 3 groupes pour les jours ouvrés ainsi que 3 pour le week-end. La classification rejoint notre analyse en composantes principales car nous avons identifié là aussi que le jour de la semaine et les heures avaient un impact sur les flux. Nous pouvons ajouter grâce à cette méthode d’analyse en comparaison avec la cartographie effectuée que le comportement des stations est aussi dû à l’emplacement géographique de celles-ci.

Cette étude nous montre que les jours de la semaine, l’heure ainsi que la position géographique des stations sont des facteurs des flux de vélos en libre service dans la ville de Toulouse.

D'autres facteurs pourraient impacter le flux de vélos, comme par exemple les conditions météorologiques.

Bibliographie

(2017, octobre 15). Classification Hiérarchique sur Composantes Principales: L’Essentiel. Consulté à l’adresse http://www.sthda.com/french/articles/38-methodes-des-composantes-principales-dans-r-guide-pratique/78-classification-hierarchique-sur-composantes-principales-l-essentiel/

FactomineR. (2008). Consulté à l’adresse http://factominer.free.fr/factomethods/hierarchical-clustering-on-principal-components.html

Introduction à l’analyse d’enquêtes avec R et RStudio. (2020, avril 27). Consulté à l’adresse http://larmarange.github.io/analyse-R/

Aide mémoire dplyr et tidyr en francais. (2015, janvier). Consulté à l’adresse https://rstudio.com/wp-content/uploads/2016/01/data-wrangling-french.pdf

Les bases de la cartographie dynamique avec R Leaflet. (2017, mars 22). Consulté à l’adresse http://www.dacta.fr/blog/cartographie-r-leaflet.html

Barnier, J. (2020, mai 22). Partie 2 Prise en main | Introduction à R et au tidyverse. Consulté à l’adresse https://juba.github.io/tidyverse/02-prise_en_main.html#