Recherche,


Angela Bonifati : « nous avons besoin d’un langage informatique de référence pour les graphes »

Angela Bonifati - © Éric le Roux

Professeure d’informatique à Lyon 1, Angela Bonifati a reçu le prix international de la communauté d’informatique, décerné par le comité technique en sciences de gestion des données, en faisant la plus jeune scientifique à recevoir cette distinction. Reconnue pour l’ouverture de la recherche en gestion des données orientées graphes à d’autres domaines scientifiques, elle se fait la voix d’une communauté scientifique en faveur de la standardisation d’un langage de référence pour gérer les bases de données à l’aide de graphes. En 2023, elle a aussi été nommée membre de l'IUF.

Le web fait partie de ces technologies qui marquent une époque. La toile est aujourd’hui omniprésente dans notre quotidien et a profondément changé nos façons de communiquer, de partager des informations, de faire des achats... Aujourd’hui, rien de plus simple que de parcourir des pages web depuis un moteur de recherche pour accéder à l’information. Mais derrière ces requêtes, en apparence simples, se trouvent des processus informatiques très complexes. Des algorithmes capables d’interroger des bases de données immenses pour fournir un résultat en quelques secondes. Pour cela, les moteurs de recherche comme Google, les réseaux sociaux, ou des plateformes commerciales utilisent ce qu’on appelle des bases de données orientées graphes. Depuis maintenant plus de quinze ans qu’elle travaille sur ces bases de données, Angela Bonifati, Professeur d’informatique à l’Université Lyon 1, voit se profiler une véritable transformation numérique avec leur généralisation. Aujourd’hui, elle plaide avec toute une communauté scientifique pour une standardisation du langage informatique de ces bases de données orientées graphes. À l’instar de l’instauration du langage Web (W3C), à la fin des années 90.
 

La relation, pilier de la gestion des données

Dans une société en pleine transformation numérique, les données sont partout. Sur le web, en médecine, en chimie ou en biologie ; dans la détection des fraudes et la cybersécurité, ou encore en logistique. Pour naviguer dans cet océan numérique, et interroger des bases de données gigantesques, les informaticiens ont développé des systèmes capables d’identifier les relations qu’il existe entre données. Ces relations sont représentées par des objets mathématiques que l’on appelle des graphes et sont au cœur des bases de données orientées graphes. C’est typiquement ce que fait un moteur de recherche – et ce qui a fait le succès de Google.

Lorsqu’on effectue une recherche Web, par exemple sur un ou une scientifique célèbre, le moteur de recherche interroge des bases de données contenant des informations sur sa vie scientifique, sa vie personnelle, ses publications, ses découvertes, etc… Grâce aux bases de données orientées graphes, toutes ces informations sont reliées par des liens sémantiques. Ainsi, on obtient une réponse précise, rapide et détaillée. « Par les liens mêmes, on extrait des informations des bases de données qui ne seraient pas accessible autrement, ou prendraient beaucoup trop de temps », résume Angela Bonifati.

Dès les années 90, alors qu’elle a choisi la « voie risquée » de l’informatique, discipline encore émergente à cette époque, elle entrevoit le potentiel des données. Aujourd’hui chercheuse au LIRIS, Angela Bonifati est une spécialiste reconnue de la gestion des bases de données orientées graphes. Selon elle, nous exploitons encore une infime partie du potentiel de la technologie des graphes.
 

Des données intégrées, des applications toujours plus diversifiées

À la rapidité des requêtes s’ajoute une capacité d’intégration, c’est-à-dire la capacité à pouvoir traiter des données de différentes natures. Avec le boom du big data, les données numériques explosent et sont de plus en plus diversifiées : données textuelles, relationnelles, graphiques… Le processus d’intégration de données permet de fusionner toutes ces données et de pouvoir les interroger de façon unifiée. Les graphes permettent justement de connecter tous ces types d’informations. À condition de savoir comment les exploiter, de comprendre la structure des graphes.

Les graphes sont des objets mathématiques abstraits. Difficile pour le cerveau humain de se représenter des relations entre des millions de données. C’est pourquoi Angela a travaillé aux « schémas de graphes », des outils ayant intégré la structure des grands graphes et plus facile à manipuler. « Quand les données sont hétérogènes, on a besoin d’en comprendre la structure sous forme de graphe simplifié, pour accéder plus efficacement aux différentes sources de données sur lesquelles on fait des opérations d’intégration des données » explique la chercheuse.

Ainsi, le projet « Graphs 4 Covid-19 » auquel a participé le laboratoire LIRIS, permet aux experts scientifiques d’exploiter des informations hétérogènes liées à la pandémie (publications, brevets, données biologiques, informations sur les traitements et les vaccins…). Angela Bonifati a également travaillé sur des données médicales comme les dossiers patients ouverts (MIMIC 3). L’idée étant d'intégrer différents types de données à l’aide de graphes afin de, peut-être, faire émerger des relations entre maladies et facteurs de comorbidités, facteurs environnementaux, données démographiques… La chercheuse a également innové en intégrant l’expert du domaine médical dans le processus d’intégration, qui peut décider de la façon dont va se faire cette intégration de ses données.

En l’appliquant à des données réelles (dans le cadre d’un projet ANR) de l’AP-HP, elle a montré le potentiel d’application de l’intégration de données des graphes à d’autres domaines que l’informatique. Cet aspect pluridisciplinaire de l’intégration des données, au cœur du travail d’Angela Bonifati, lui ont notamment valu de recevoir le prestigieux prix de la société d’informatique IEEE TCDE Impact Aaward. Ce prix est décerné aux chercheurs qui ont mené une recherche scientifique de grand impact dans leur communauté avec des applications multidisciplinaires.
 

Vers un langage de référence pour les graphes ?

Mais pour aller plus loin dans l’exploitation des graphes, un frein reste le langage informatique, plaide cette chercheuse. Les requêtes sur des graphes sont exprimées dans un langage informatique particulier, propre aux bases de données orientées graphes. Or, à l’heure actuelle, s’il existe des langages très utilisés (Oracle, Neo4J, Oracle PGX), aucun ne fait référence. Certaines entreprises développent elles-mêmes leur propre langage. « Actuellement, il y a une fragmentation des langages qui rend leur pouvoir expressif plus difficile à comprendre. Est-ce qu’il n’y a pas des ambiguités dans les résultats des requêtes du fait que les langages ne sont pas clairement définis sur le plan sémantique ? », interroge Angela Bonifati.

La situation est encore plus criante pour les schémas de graphes, pour lesquels il n’existe presque pas de langage, ajoute l’intéressée. C’est afin d’aller vers un langage unifié, faisant référence au niveau international, qu’Angela Bonifati participe à des travaux au sein d’une communauté scientifique regroupant chercheurs et entreprises. De la même façon qu’il existe un langage standardisé pour le Web, ces scientifiques plaident pour un langage de graphes adopté par tous. « Ce qui a été fait pour les bases de données SQL (Structured Query Language), nous souhaitons l’obtenir pour les bases de données orientées graphes (GQL) ».

Un engagement reconnu par la société informatique américaine IEEE, en faisant la plus jeune scientifique au monde à recevoir le prix du comité technique de sciences en gestion de données. Émue, l’intéressée met en avant un travail collectif : « je suis très heureuse et très honorée de recevoir ce prix et je tiens surtout à remercier mes doctorants, post-doctorants et collaborateurs qui travaillent avec moi sur ces thématiques de bases de données graphes, intégration de données et graphes de connaissances et ont le même enthousiasme que moi ».

Avec l’explosion du big data et le développement de l’intelligence artificielle, cette production de données pourrait encore s’accélérer. En effet, l’IA s’appuie sur des données existantes pour les mettre en lien et créer en sortie de nouvelles données. Comment intégrer ces nouvelles données dans l’écosystème des graphes pour les exploiter ? Pour Angela Bonifati, c’est l’un des défis actuels auquel est confrontée la communauté scientifique. De quoi redoubler son enthousiasme.


Laboratoire :

Laboratoire d’InfoRmatique en Image et Systèmes d’information (LIRIS - CNRS/Université Claude Bernard Lyon 1/INSA Lyon/École centrale Lyon/Université Lyon 2)


Publié le 3 mai 2023 Mis à jour le 7 décembre 2023