Blog

Le Big Data pour la mesure de la mobilité des personnes

L’évolution rapide d’Internet depuis les années 2000 et la multiplication des appareils connectés ont engendré la génération d’une quantité sans précédent de données numériques. Cette croissance exponentielle est le socle de ce qu’on appelle aujourd’hui, le Big Data. Chaque fichier, chaque clic ou chaque déplacement connecté laisse une empreinte digitale numérique, contribuant à cette masse de données colossale. Ces informations sont le pivot des outils analytiques qui permettent de cartographier nos déplacements, offrant des perspectives inédites sur l’identification des schémas de déplacement et ouvrant la voie à des solutions innovantes pour améliorer l’efficacité des transports, la planification urbaine et l’expérience utilisateur des usagers.

Ainsi l’usage du Big Data dans la mesure de la mobilité des biens et des personnes représente une opportunité majeure dans un monde où le volume des données numériques ne va faire que progresser dans les années à venir.

Si les dix dernières années ont connu une croissance très importante, celle des dix suivantes s’annonce vertigineuse, comme l’indique le graphique ci-dessous. L’enjeu derrière cette croissance sera, en premier lieu, le stockage de ces données dans des data centers toujours plus importants et nombreux. On estime, en 2023, que ces bâtiments sont générateurs d’environ 2% d’émissions des GES de la Planète.

Evolution du Big Data
Évolution projetée du volume des données numériques générées sur Terre depuis 2010, en zettaoctet (1 zettaoctet équivaut à 1 milliard de téraoctet) - Statista, 2023.

Chez Entropy, dès la création de la société et des choix scientifiques réalisés pour créer nos modèles d’apprentissage, nous avons fait le choix de nous tourner vers l’IA frugale, même si le concept n’avait pas encore été formalisé comme aujourd’hui. Il s’agit pour nous, de n’utiliser que des données numériques ont déjà été produites d’une quelconque manière et d’en dupliquer l’usage pour obtenir de nouveaux résultats. A titre d’exemple, les données de GPS issues des applications téléphoniques servent principalement au géomarketing, c’est-à-dire positionner des publicités proches des profils sociodémographiques les plus susceptibles d’y adhérer. Dans notre cas, ces données serviront à observer des tendances liées aux schémas de mobilité des personnes.

Cette introduction faite, présentons désormais trois sources de données numériques permettant de recomposer des déplacements anonymisés d’individus. Certaines sont utilisées par Entropy, d’autres sont présentées ici à titre de vulgarisation pour le grand public ou les non-initiés.

Le Floating Car Data (FCD) ou les données de flottes de véhicules

Les données FCD sont des données de géolocalisation collectées à partir de véhicules équipés de dispositifs GPS. Ces données peuvent inclure des informations sur la vitesse, la direction, le trafic et les itinéraires de déplacement. Les données FCD sont généralement collectées en temps réel, ce qui permet d’obtenir une vision en temps réel de la mobilité sur les routes. Les données collectées sont ensuite envoyées à un système central pour être traitées. La transformation des données FCD implique généralement l’utilisation de techniques d’analyse de données pour identifier les tendances et les patterns de déplacement.

Le format

Ce sont des bases de données volumineuses, souvent découpées par mois pour plus de simplicité dans leur utilisation. Elles peuvent être partagées aux formats csv, json ou parfois en parquet selon le producteur de la donnée.

id timestamp lat/long heading speed
Un identifiant anonymisé provenant d’un véhicule. Une trace routière est composée de points du même identifiant. L’horodatage de la mesure des données, souvent en code UNIX. La position du véhicule en latitude et longitude (au format WGS 84). La direction à du véhicule sur la route (angle 0-360°) La vitesse issue de la mesure des données en km/h
a98db973k 1705331996 48.792285 2.151268 131 25
Illustration
FCD
Représentation des données FCD transformées en couples Origine-Destination passant par le point de mesure bleu dans le sens Paris - Yvelines. Les chevelus indiquent les itinéraires empruntés par les véhicules en amont et en aval du point de mesure. C’est l’option Node du logiciel Fluidity.
Les usages

Les données FCD peuvent être utilisées de nombreuses manières pour améliorer la mobilité. Les informations sur les itinéraires de déplacement peuvent être utilisées pour planifier les infrastructures routières, les services de transport public et les politiques de transport. Les données sur la congestion routière peuvent être utilisées pour améliorer la fluidité du trafic. Les données sur les heures de pointe peuvent être utilisées pour optimiser les horaires des services de transport public. En somme, les données FCD sont un outil précieux pour comprendre la mobilité. La génération, la transformation et l’utilisation de ces données peuvent contribuer à améliorer les infrastructures, les services de transport public et les politiques de transport. Les données FCD permettent de comprendre les besoins des populations, de planifier les projets de transport, d’optimiser les horaires des transports en commun, de réduire les temps de trajet des conducteurs et de rendre la mobilité plus sûre pour tous.

Les données GPS issues d’application téléphonique par SDK (Software Development Kit)

La collecte des données GPS issues de l’usage des applications téléphoniques de smartphone est réalisée à partir de ce que l’on appelle un SDK (Software Development Kit). Le SDK est une trousse de développement logiciel permettant à un développeur, parmi d’autres usages, d’insérer un programme dans une application mobile tierce. Cela permet in fine à un fournisseur de données de GPS d’obtenir les données de positions GPS issues de l’usage des smartphones.

En effet, les applications les plus usitées demandent aux utilisateurs lors de leur connexion, s’ils souhaitent activer le partage de leur position, jamais, une fois, à chaque utilisation de l’application ou tout le temps. Les utilisateurs partageant leurs positions permettent aux entreprises spécialisées dans les données GPS SDK de récupérer via l’application de l’éditeur (Sport, Cuisine, Journaux en ligne,etc.) le suivi GPS de leur déplacement en fonction des autorisations qu’ils ont accordées.

Ces données de position horodatées, sont ensuite anonymisées puis vendues par les entreprises spécialisées, principalement à des fins de géomarketing. L’usage de ces données pour caractériser les tendances globales de déplacements ne représente qu’environ 10 % des usages.

Il est important de noter que la CNIL (Commission Nationale Informatique & Libertés) a soumis, en 2023, un projet de régulation des usages des SDK pour les applications mobiles, insistant sur le fait que la récupération des données GPS doit être issue d’un consentement libre, spécifique et éclairé des utilisateurs. Les usages liés aux données personnelles issues des SDK ayant fait depuis 2018 le cas de mises en demeure et de sanctions de la part de la CNIL.

L’avantage principal de ces données est le volume de données généré par les utilisateurs, l’objet smartphone s’étant généralisé dans les sociétés occidentales. Chaque mois, ce sont entre 3 et 5 milliards de points GPS qui sont générés en France par exemple. Cependant, au-delà de l’horodatage et du type de système d’exploitation, ces données sont dépourvues d’autres informations, de type mode de transport, motif du déplacement ou sociodémographie de l’usager.

Le format
horodatage id appareil latitude longitude précision horizontale altitude méthode de localisation adresse ip système d’exploitation version du système d’exploitation manufacturier opérateur
2023-03-01 01:00:00 f9881f948-ed1e-4c33-9217-fa07658944a0 50.760630 3.005540 64.0 -0.7 gps 90.110.39.*** iOS 16 Apple NaN
2023-03-01 01:00:00 b3846fd1-85e1-45f2-c75a-b1a4799720af 43.310827 5.402327 11.1 107.4 fused 91.***.42.14 Android 10 NaN NaN
2023-03-01 01:00:00 42bffba9-17f4-4ce2-96d4-d554cc13da95 46.051000 6.556800 22.9 0.0 gps 77.150.***.252 Android 7 NaN 647-010,SFR
Illustration
SDK
Visualisation sur le logiciel Fluidity des points GPS agrégés passant par la gare d’Achères Grand Cormier pendant une jour moyen. Les couleurs indiquent les heures de la journée, vert = matin, bleu = midi, bordeaux = soir.
Les usages

Les données de localisation issues des applications mobiles permettent de comprendre les déplacements avec une précision spatiale importante. De plus, la finesse de ces données permet de les agréger selon la maille spatiale désirée; la rue, le quartier (ou IRIS), la commune, l’agglo, etc, pour obtenir des données volumineuses, représentatives mais partielles en informations attributaires. Ces données peuvent être utilisées à plusieurs titres. En premier lieu, elles peuvent enrichir un modèle de mobilité traditionnel en le détaillant d’une version annuelle à une version saisonnière, particulièrement pratique pour les territoires qui voient leurs populations varier en été ou en hiver. Dans un second temps, il faut noter que ces données GPS sont disponibles sur la Terre entière, avec plus ou moins de représentativité selon le taux d’équipement des habitants en smartphones. Néanmoins, même dans des pays peu pourvus en technologie, ou également appelés “en développement”, la quantité de données GPS issues des applications smartphones est largement supérieure à celle du Floating Car Data (FCD). De cette manière, des patterns de mobilité peuvent être identifiés, horodatés, les modes et les motifs peuvent être potentiellement recomposés, une photographie globale des déplacements peut ainsi être réalisée sans passer par une méthodologie d’enquête en face à face, avec un taux de représentativité également supérieur à ces méthodes historiques de recueil.

Les Floating Mobile Data (FMD) ou les données de flottes de téléphones mobiles

Les données de flottes de téléphones mobiles correspondent aux bornages réalisés par nos téléphones auprès des antennes téléphoniques permettant d’accéder au réseau. A chaque fois que le téléphone va se déplacer, il va chercher à “s’accrocher” à une nouvelle antenne relais pour continuer de capter le réseau cellulaire. De fait il apparaît possible de comprendre des déplacements d’individus sur le temps long en observant la série des antennes auxquels ils ont borné. La localisation de la zone dans laquelle se trouve l’usager peut se faire deux manières, soit par le principe de la Cell ID (permettant d’identifier auprès de quelle antenne le téléphone se trouve et donc n’importe où dans sa zone de couverture, voir illustration ci-dessous) ou par le principe de la triangulation. Une fois identifiés, les déplacements sont inscrits dans des zones correspondant aux intersections des antennes relais. En fonction de la couverture, c’est-à-dire de la quantité d’antenne dans une zone, la taille des territoires définissant les origines et destinations des déplacements peut varier. En zone urbaine, on peut découper des zones correspondant aux frontières communales et descendre au niveau du quartier, en zone plus rurale, les territoires seront plutôt des agrégats de communes.

Localisation des téléphones
Schéma des technologies de localisation d’un téléphone mobile : le Cell ID et la triangulation - Auteur depuis Projet Capalert.

A l’instar des données issues des SDK, les données FMD ne contiennent pas d’informations attributaires autres que l’horodatage des déplacements. Les modes de transports associés aux volumes de déplacement sont parfois fournis par les opérateurs. Ces données sont issues d’une recomposition à partir de la vitesse de déplacement du téléphone source.

Elles peuvent également se présenter sous la forme de fichier de présence, dire par créneau horaire, le nombre approximatif de personnes présentes sur un point d’intérêt, une gare par exemple.

Le format
Jour Zone Origine Zone Destination Heure arrivée Volume de déplacement Routier Ferré Piéton Autres
24/06/2017 Ablis Dourdan 13:00:00 28 28 0 0 0
24/06/2017 Ablis Dourdan 14:00:00 20 20 0 0 0
Illustration
FMD
Outil de visualisation illustrant les flux issus des données FMD sur le Plateau de Saclay au sud-ouest de Paris. - Projet ANR Norm-Atis
Les usages

Les données FMD sont principalement utilisées pour comprendre des tendances de déplacement, sur des grands volumes. L’atout principal de ces données résidant dans l’immense quantité de données générée chaque jour. En effet le taux d’équipement des français en téléphone portable est de 95 %, ce sont ainsi des milliards d’évènements qui sont enregistrés chaque jour par les opérateurs téléphoniques.

A l’inverse, devoir compter sur le maillage des antennes relais ne permet pas d’avoir la même précision spatiale sur tout le territoire hexagonal. Dans les zones moins maillées, les données seront proposées avec une forte agrégation spatiale.

Cependant il existe un cas d’usage dans lequel les données FMD font sens, ce sont les stations de ski, qui possèdent souvent une seule antenne relai permettant de qualifier les volumes de manière binaire, présent dans la station ou pas. Les opérateurs fournissant également le service cellulaire à tous les téléphones quelque soit leur provenance, grâce au roaming, le fournisseur peut indiquer à son client, d’où viennent les individus qui fréquentent sa zone mais également de quel pays ils sont originaires.

Conclusion

L’équipe fondatrice d’Entropy travaille sur l’usage des données massives numériques pour comprendre la mobilité des personnes depuis 2014. Nous avons ainsi pu tester une grande variété de type de données massives décrivant des déplacements de population dans l’espace-temps.

On l’a vu, chaque type de données possède ses points forts et ses points faibles (volumétrie, représentativité, précision spatiale, coût, etc.). Il n’existe pas de données massives qui permettent de caractériser à grande échelle les déplacements en OD avec les modes, les motifs et les données sociodémographiques.

Ainsi, dès la création de notre premier modèle de mobilité en 2017, nous étions persuadés que c’est la combinaison, l’utilisation, la fusion de données multisources qui permettait de modéliser le plus finement les déplacements, les forces d’un type de données compensant les faiblesses d’un autre.

Par ailleurs, la compréhension de la mobilité des individus à travers le Big Data représente non seulement un enjeu technique, mais aussi éthique et sociétal. Chez Entropy, nous sommes conscients de la responsabilité qui nous incombe en matière de protection des données personnelles. C’est pourquoi nous veillons à ce que toutes les données que nous utilisons soient anonymisées et traitées dans le respect de la Réglementation Générale sur la Protection des Données. En somme, l’utilisation du Big Data dans le domaine de la mobilité offre des perspectives inédites pour améliorer nos déplacements, optimiser les services de transport et ainsi contribuer à une planification urbaine plus efficace. C’est une révolution qui est en marche, une révolution qui, si elle est bien maîtrisée, peut contribuer à rendre nos villes plus vivables, plus durables et plus adaptées aux besoins de tous.

Autres articles

  • Autre article
    Entropy par Entropy : Découvrez notre équipe Episode 5 - Mila Vu
  • Autre article
    Entropy par Entropy : Découvrez notre équipe Episode 4 - Fares Katranji
  • Autre article
    Entropy par Entropy : Découvrez notre équipe Episode 3 - Amélie Rivoire
  • Autre article
    Entropy par Entropy : Découvrez notre équipe Episode 2 - Lydia Hamoum
  • Autre article
    Entropy par Entropy : Découvrez notre équipe Episode 1 - Guilhem Sanmarty
  • Autre article
    Le glossaire de la mobilité
  • Autre article
    Que retenir de l'intelligence artificielle ? Machine learning, deep learning, ...