Concepts, méthodes et architecture pour l'autodétermination informationnelle dans la gouvernance des données

Student Nouha Laamech
PhD director Pr Congduc Pham
PhD co-director Dr Manuel Munier
Start date January 2021

07/10/2022: Le titre initial de cette thèse était «Autodétermination informationnelle dans les bâtiments intelligents». Au regard des travaux réalisés qui dépassaient largement le cadre des seuls bâtiments intelligents, il a été décidé de l’élargir à «Concepts, méthodes et architecture pour l’autodétermination informationnelle dans la gouvernance des données».

Résumé

Nouha Laamech

Les environnements connectés tels que les bâtiments intelligents (et par extension les villes intelligentes) promettent de nous apporter de nouveaux services: gestion de l’énergie, optimisation des transports, ciblage de l’information diffusée, etc. Le cœur de ces architectures à base d’objets connectés (IoT) est la donnée. Mais ces écosystèmes impliquent de nombreux systèmes informatiques opérés par des acteurs différents (chaque acteur pouvant avoir ses propres objectifs, contraintes, enjeux, etc.). Un des défis en terme de sécurité est de garder la maîtrise des informations échangées par ces nombreux systèmes. La notion d’autodétermination informationnelle signifie que chaque acteur est en capacité de décider et de contrôler qui utilise « ses » données, où, pour quel traitement (finalité), etc. Ce projet de thèse1 vise à concevoir de nouveaux mécanismes de traçabilité afin d’améliorer la maîtrise des informations manipulées et diffusées.

Mots Clés

sécurité de l’information, objets connectés, traçabilité, autodétermination informationnelle


Sujet détaillé

Le contexte scientifique

Les bâtiments intelligents (et par extension les villes intelligentes) possèdent un grand nombre de capteurs (ou objets connectés d’une façon plus générale) pour collecter des informations sur les usagers, leur environnement, etc. Certains de ces capteurs peuvent également être des actionneurs afin d’impacter l’environnement de l’usager. L’objectif étant de proposer de nouveaux services: gestion intelligente de l’énergie dans les bâtiments, optimisation des transports en commun, ciblage de l’information diffusée, etc. Les infrastructures mises en œuvre font alors appel à différents partenaires ayant des rôles bien ciblés: les producteurs de données, qui fournissent les données « primaires », les centres de collecte, de stockage et de diffusion de données (éventuellement « enrichies »), et les tiers qui utilisent différentes sources de données pour alimenter leurs traitements. Toutefois, l’usager qui a initialement consenti à fournir ses données en échange d’un « service » peut légitimement s’inquiéter de la diffusion « non maîtrisée » de ses données à différents acteurs dont il ignore souvent l’existence et plus encore la finalité de leurs traitements: profilage, réidentification des personnes, etc. À l’heure de la protection de la vie privée avec notamment l’entrée en vigueur du RGPD, cet usager est fondé à exiger de ses prestataires de services (directs) un peu plus de transparence sur l’usage qui est fait des données qu’il leur fournit. À défaut, un climat de défiance/méfiance pourrait rapidement s’installer avec, à terme, une forte probabilité que l’usager finisse par refuser de fournir ses données. Or, sans suffisamment de données source, les concepts de bâtiments (et villes) intelligents sont mis à mal.

Le droit à l’autodétermination informationnelle (ADI) avait été dégagé par la Cour constitutionnelle fédérale allemande en 1983. En 2016, le RGPD a posé un premier fondement à sa consécration au niveau européen. Dans la loi pour une République numérique du 7 octobre 2016 qui l’a introduit en France, le droit à l’autodétermination informationnelle est défini de manière suivante: « toute personne dispose du droit de décider et de contrôler les usages qui sont faits des données à caractère personnel la concernant ». Suivant cette définition, ce droit présuppose que l’utilisateur doive être (re)placé au cœur du système de traitement de données personnelles, être suffisamment informé pour faire des choix éclairés ainsi qu’avoir des moyens techniques pour les imposer aux responsables du traitement. Pour exercer son droit à l’ADI, tout utilisateur, même sans connaissances en informatique, devrait avoir des moyens techniques, faciles à comprendre et à utiliser, ainsi que des moyens juridiques pour faire valoir ses droits auprès des responsables du traitement, l’autorité de protection et le juge.

Si le citoyen d’aujourd’hui n’est vu que comme un capteur, le citoyen de demain devra avoir un rôle de décideur: le pouvoir doit être redonné aux individus (empowerment) pour en faire des smart citizens. Cette vision est d’ailleurs partagée par la CNIL dans son cahier IP n°5 « La plateforme d’une ville (les données personnelles au cœur de la fabrique de la smart city) ».

Les objectifs

L’objectif de ce projet est de concevoir et développer une architecture permettant d’assurer la traçabilité des informations: d’où viennent-elles ? qui les a fournies ? Il ne s’agit pas uniquement de la traçabilité à N-1 mais bien jusqu’au point 0 (origine de la captation). Nous pouvons pour cela nous référer aux modèles de provenance par exemple. C’est ce que l’on appelle la traçabilité ascendante. Les solutions que nous proposerons devront également permettre une traçabilité descendante, c’est-à-dire permettre à un acteur (ex: l’usager initial) de savoir où sont diffusées ses données, dans quels traitements elles sont impliquées, etc. Déployés au niveau des acteurs intermédiaires (les plateformes qui collectent, agrègent, lient et redistribuent ces données « enrichies »), de tels mécanismes permettraient de mieux contrôler les flux d’informations. C’est un point essentiel pour permettre au citoyen d’exercer son droit à l’ADI. Il nous faudra pour cela envisager plusieurs pistes. Soit l’usager (initial) est notifié automatiquement de chaque usage de ses données, ce qui peut, au final, le surcharger. Soit l’architecture proposée offre à cet usager un certain nombre d’outils (ex: tableaux de bord, cartographies des données) pour, à son initiative, l’informer de l’usage et de la propagation de ses données. Du point de vue de l’implémentation, nous serons amenés à intégrer certains mécanismes de sécurité au plus proche des capteurs, voire sur les capteurs eux-mêmes (dans une architecture réseau de capteurs).

À côté de cet axe principal de la problématique, abordée ici sous l’angle informatique, d’autres questions devront également être abordées. Les mécanismes proposés pour la traçabilité des informations ne devront pas compromettre les mécanismes d’anonymisation (par exemple) en permettant de réidentifier les personnes. Il serait judicieux de contractualiser les relations entre acteurs par la mise en place de politiques de sécurité orientées « contrôle d’usage de l’information » au travers de contrats dont la bonne exécution pourrait être supervisée de manière automatique: langage d’expression des clauses, vérification automatique, ajout de métadonnées (ex: éléments de preuve), etc. Les ontologies, et la sémantique d’une manière plus générale, pourraient également être utilisées pour représenter le « contenu » des données, notamment des données dites enrichies, pour savoir à partir de quelles données sources elles ont été générées. Ainsi, lors des traitements, pour inférer la provenance de la donnée résultat, plutôt que de se fonder sur une analyse syntaxique des algorithmes nous pourrions aborder cet aspect sous l’angle de la sémantique. L’objectif est de remettre l’utilisateur au centre du dispositif et de lui fournir des outils pour pouvoir exercer ses droits. Il n’est plus qu’un « capteur » dont on aspire les données… D’une manière plus générale, cet aspect de la traçabilité fait partie intégrante d’une démarche plus globale de gestion des risques liés à la sécurité de l’information (cf. EBIOS RM, ISO 27005, PIA).


  1. Ce travail est soutenu par le Conseil Départemental des Landes↩︎