Données ouvertes: City Bike et Bixi

City Bike, le système de vélo partagé de New York, rend publiques une multitude de données brutes sur les trajets qui sont effectués quotidiennement par ses utilisateurs. C’est là une initiative louable, qui s’inscrit dans le mouvement des données ouvertes.

Mais City Bike en dit peut-être trop. Pour chaque trajet individuel, l’entreprise donne l’heure du début et de la fin du déplacement, le sexe du cycliste, l’année de sa naissance, son type d’abonnement et l’identifiant unique du vélo utilisé — le tout organisé dans de volumineuses feuilles de calcul, assez rebutantes pour le profane (dont je suis).

Selon Todd Schneider, qui a fait une analyse exhaustive des données ouvertes de City Bike, ces renseignements permettent d’identifier de manière unique un cycliste dans 84% des cas.

That means you can find out where and when the rider dropped off the bike, which might be sensitive information. Because men account for 77% of all subscriber trips, it’s even easier to uniquely identify rides by women: if we restrict to female riders, then 92% of trips can be uniquely identified.

Je dirais même plus. J’irais même jusqu’à penser qu’il est possible de croiser ces données avec d’autres données disponibles au public, et ainsi parvenir à trouver certains noms des personnes concernées.

Par exemple, les utilisateurs réguliers qui prennent le City Bike pour aller travailler débutent probablement leur trajet au même endroit tous les jours, tout près de leur résidence. À partir de cette information, on peut donc déduire le ZIP Code (code postal) de la personne. En ajoutant à ce lieu de résidence présumé l’année de naissance et le sexe de la personne, qu’on connaît déjà, on détient quelques informations qu’on pourra tenter de croiser avec d’autres données.

Montréalais, rassurez-vous. Si la firme Bixi partage elle aussi des données sur l’utilisation des vélos, à ma connaissance elle ne divulgue pas les données brutes sur les allées et venues de ses abonnés.

Ajouter un commentaire