Rechercher

Synthetic Data, ces données artificielles qui permettent de modéliser le futur

Tu as remarqué ? On entend de plus en plus parler des enjeux autour des données, des données personnelles bien sûr avec notamment la RGPD, mais aussi des données des entreprises et des collectivités. On entend depuis pas mal de temps d’ailleurs que la data c’est l’or noir du digital, le pétrole du 21ème siècle. Pour que tu sois dans le coup, j’ai eu envie de te parler aujourd’hui de “Synthetic Data”, de cette data transformée qui peut souvent être vraiment transformante.

Synthetic Data ? De quoi s’agit-il?

Pour faire simple, les synthetic data sont des données qui ont été transformées ou créées par un algorithme ou une opération manuelle à partir de données initiales. L’objectif ? Enlever le caractère sensible de certaines données initiales et permettre une utilisation pour, en général, valider un modèle mathématique et son comportement par rapport à la réalité. Les “synthetic data” sont très prisées par les Data Scientists qui s’en servent dans leur travaux de recherche et de modélisation.

Les enjeux autour de la “Synthetic Data” ? Qu’est ce qui est en jeu ?

  1. D’abord le respect de la vie privée, le respect de la confidentialité des données : Dans les fichiers de données initiaux se cachent souvent des données personnelles, des données propres aux utilisateurs, des données commerciales sensibles aussi… bref des données qu’il ne fait pas bon d’exposer aux yeux de tous. Et pourtant, il faut bien que les ingénieurs et les experts de la données puissent bosser sur leurs modélisations. Tu l’as compris, l’enjeu de la donnée synthétique est de leur permettre de travailler sans pour autant accéder aux données initiales jugées sensibles. Privacy by design ? Merci les Synthetic Data !
  1. Générer des données qui permettent d’aller plus loin : Les “Synthetic Data” sont générés pour répondre à un besoin qui ne pourrait pas être obtenu avec les données initiales. Pour se faire, celles et ceux qui vont générer de la synthetic data ont grosso modo deux technique à leur disposition : 
  • La première technique, la “data alteration”, revient à mettre à disposition de jeux de données de travail en ayant remplacé les données initiales (ex: on enlève les noms, les numéros de téléphones des utilisateurs et on les remplace par des codes anonymisés).
  • La deuxième technique, la “data augmentation”,  consiste quant à elle à modifier les données existantes et à les ajouter au nouveau jeu de données.

Bien sûr, il est possible de croiser les deux méthodes, l’enjeu principal étant de poser un socle de données suffisamment riche pour permettre de créer un modèle mathématique qui va générer de la valeur et permettre de nombreuses simulations aidant à la prise de décision. 

Quelques exemples permis grâce à l’utilisation de la “Synthetic Data” ?

Les champs des possibles permis avec l’utilisation de la “Synthetic Data” sont très larges car ces jeux de données permettent toutes sortes de tests et de cas d’usages dans de nombreux secteurs. Voici quelques exemples…

  • Tu te rappelles cet épisode sur les Fake News ? Facebook a recours aux synthetic data pour combattre les fake news, la propagande politique et le harcèlement en ligne. L’enjeu est de taille, la tâche est immense et la synthetic data apporte une contribution importante dans ce combat quotidien mené par ce géant des réseaux sociaux.
  • Tu te demandes comment font les ingénieurs pour entraîner les véhicules autonomes qui peuvent se déplacer tout seuls ? La réponse s’appelle Synthetic Data qui leur permet de simuler les conditions du réel avec des modèles de calcul complexes en temps réel. Ici les synthetic data vont permettre de tester avec des données théoriques différents types de situations pour, encore et encore, entraîner la machine et affiner le modèle de calcul.
  • Un exemple pour celles et ceux qui travaillent dans la sécurité ? Les synthetic data ont un énorme avantage, elles permettent de simuler des scénarios d’intrusion ou de piratage avec des données artificielles qui ne reposent pas sur des données existantes. Plutôt pratique pour simuler des attaques qui n’ont pas encore eu lieu, non ?
  • Un exemple pour le marketing ? La Synthetic Data permet aussi à des équipes marketing d’optimiser leurs investissements publicitaires sur des segments de prospects qui ressemblent comme deux gouttes d’eau à leurs meilleurs clients actuels. Sans l’usage des Synthetic Data pour réaliser ces simulations, cela ne serait pas possible car la RGPD l’en empêche.
  • Et dans la recherche, la santé ? L’usage des data synthétiques est très important parce qu’il permet, par exemple, de générer des données de façon artificielle quand les données existantes font défaut. Et oui, le futur se calcule et s’invente aussi avec la Synthetic Data.

En conclusion, la Synthetic Data sert à tout type de simulation permettant d’imaginer des situations actuelles mais aussi futures. Bienvenue dans la data-science.

Et pour aller plus loin avec la “Synthetic Data” ?

Tu n’avais pas encore entendu parlé de Synthetic data ? Good news, te voilà avec un coup d’avance pour, je l’espère, mieux comprendre ce monde de la data qui nous concerne tous.

Un peu de lecture ?

https://en.wikipedia.org/wiki/Synthetic_data
https://artik-consulting.com/blog/2020/10/12/synthetic-data-dataset-ideal/
https://riaktr.com/synthetic-data-become-major-competitive-advantage/
https://www.unite.ai/what-is-synthetic-data/
https://www.statice.ai/synthetic-data
https://research.aimultiple.com/synthetic-data/#why

Photo by Mika Baumeister on Unsplash

logo Discord

Envie de converser en mode Cozy Web avec toute la rédac’room et la formidable communauté bienveillante de plus de 600 personnes qui ont rejoint #BonjourPPC Le Digital pour tous ?
On vous accueille ici avec grand plaisir.



vignette podcast bonjourPPC

Tu cours après le temps ?
Si ça te dit de te joindre à nous et recevoir la newsletter hebdo te permettant d’apprendre plein de choses et de ne pas rater le train du digital, il te suffit de t’inscrire ici

Proposé par
PPC

Digital Evangelist, explorateur numérique né à l’ère du web 2.0, des blogs et YouTube, je suis spécialiste du live, anchorman de conférences, interviewer et podcasteur.

Entouré de cette merveilleuse Rédac'room, j'ai la joie d'animer en direct à 7h30 du mat sur Twitter #BonjourPPC, le podcast "Le digital pour tous" disponible sur Apple, Google, Spotify et Deezer.

Joindre la discussion

A lire dans cette thématique

illustration des lettres LSF effectué par main de robot style Terminator

La LSF et le digital

La LSF est la langue des signes française. Une langue à part entière reconnue en France en 2005. La LSF et le digital, c'est tout...

La Playlist du DJ

La newsletter