Dati sintetici: cosa sono, come generarli e quali sono i loro benefici

7 min

Come si allena l’intelligenza artificiale? Tra i dataset utilizzati durante l’apprendimento supervisionato dai ricercatori ci sono anche i dati sintetici, ovvero informazioni generate artificialmente. Quando i dati del mondo reale sono scarsi, sensibili o difficili da reperire sarà il computer stesso a produrne per ricreare un determinato contesto personalizzato. Come? Lo scopriamo partendo da una definizione accurata e concludendo con i vantaggi generati dall’uso dei dati sintetici.

Cosa sono i dati sintetici?

Per contestualizzare la definizione iniziamo da un esempio legato all’uso di dei dati sintetici per un sito di e-commerce. Poniamo il caso che un’azienda di shopping online voglia testare un nuovo algoritmo di raccomandazione dei prodotti. Invece di rischiare utilizzando i dati reali dei clienti, l’azienda potrebbe optare per un approccio più sicuro e innovativo: l’utilizzo dei dati sintetici. Questo le permetterà di creare profili di clienti completamente fittizi, ognuno con le proprie preferenze dettagliate e diverse storie d’acquisto.

Il secondo passaggio sarà quello di testare il suo nuovo algoritmo di raccomandazione su tali dati artificiali. Poiché i profili sono progettati per coprire un ampio spettro di comportamenti del consumatore, l’algoritmo potrà essere messo alla prova in un’infinità di scenari di acquisto. Il tutto avverrà senza violazione di privacy.

Il risultato? Un algoritmo di raccomandazione ben rodato e pronto per essere lanciato. Il suo compito sarà quello di offrire suggerimenti personalizzati in linea con le preferenze dei veri clienti, migliorando la loro esperienza d’acquisto. Grazie all’uso di dati artificiali, l’azienda avrà innovato e sperimentato in sicurezza.

In sostanza, i dati sintetici li usiamo per ampliare o sostituire i dati reali, con l’obiettivo di perfezionare i modelli di intelligenza artificiale. Questo, come vedremo, non solo tutela le informazioni sensibili, ma contribuisce anche a ridurre i bias nei dati.

cosa sono i dati sintetici

Tipologie di dati sintetici: parziali o completi

Una volta data la definizione generica, passiamo a comprendere le varie sfumature. In effetti, non è detto che i dati reali debbano essere ricreati per intero artificialmente. Ci possono essere anche casi in cui basta sostituire solo delle parti che contengono dati sensibili o che è necessario omettere. Per questo, a seconda del processo e dell’obiettivo, decideremo se affidarci a dati sintetici parziali o completi.

Dati sintetici parziali

I dati sintetici parziali sono un ottimo strumento per proteggere la privacy senza perdere il valore analitico di un dataset. In pratica, modificano solo alcune parti sensibili di un dataset originale. Questo mantiene intatta l’analisi dei dati, assicurando al contempo che le informazioni personali non possano essere ricollegate a persone reali.

Questo processo di creazione dei dati sintetici parziali, anche conosciuto come anonimizzazione dei dati, inizia con l’identificazione delle informazioni che sono considerate sensibili o riservate all’interno di un dataset. Queste possono includere, ad esempio, nomi, numeri di telefono, indirizzi email o qualsiasi altro dato che potrebbe essere utilizzato per identificare direttamente una persona.

Una volta identificate queste informazioni, sarà possibile generare nuove versioni sintetiche che mantengano le stesse caratteristiche statistiche dei dati originali (come la distribuzione e la correlazione) ma che non siano riconducibili ad un individuo specifico.

Inoltre, l’uso di dati parzialmente sintetici è spesso conforme alle normative sulla privacy e protezione dei dati, come il GDPR, poiché riduce il rischio di esposizione di dati identificabili.

Dati sintetici completi

Al contrario, i dati sintetici completi sono generati da zero senza includere alcuna parte di un dataset reale. Questo significa che, a differenza dei dati parziali che modificano solo alcune informazioni di un dataset esistente, i dati sintetici completi sono interamente costruiti tramite algoritmi che simulano le caratteristiche dei dati reali.

Il principale vantaggio di questo tipo di dati è che riescono a replicare le relazioni, le distribuzioni e le proprietà statistiche dei dati reali, pur essendo completamente generati da computer. Questo li rende particolarmente utili in diversi ambiti, in particolare nell’ambito del machine learning e della ricerca scientifica, dove spesso i dati reali sono limitati o difficili da ottenere a causa di questioni etiche o di privacy.

Ad esempio, i ricercatori possono utilizzare dati sintetici completi per testare e sviluppare nuovi modelli di intelligenza artificiale. Questi dati offrono la possibilità di condurre esperimenti in scenari controllati, permettendo di valutare le prestazioni di un modello in condizioni diverse senza il rischio di esporre informazioni sensibili o compromettere la privacy delle persone.

Inoltre, l’uso di dati completamente sintetici è essenziale quando si vuole garantire che il modello sia robusto e performante anche in situazioni non previste dai dati storici, o quando i dati reali disponibili sono insufficienti per addestrare modelli complessi. Un processo che può rivelarsi particolarmente utile in settori come la medicina o la finanza, dove i dati reali sono spesso incompleti o eccessivamente sensibili per essere utilizzati liberamente.


L'utilizzo di dati sintetici consente di innovare senza compromettere la privacy, garantendo sia la protezione delle informazioni sensibili sia la precisione dei risultati analitici. Share on X

Come si generano i dati sintetici?

Cerchiamo ora di capire, senza scendere eccessivamente nei dettagli tecnici, come si generano i dati sintetici. Il processo è complesso in quanto utilizza avanzate tecniche computazionali, ma quello che ci serve comprendere sono i metodi di base che possiamo adattare ai vari casi d’uso.

Metodi di base per generare dati sintetici:

  • Distribuzione Statistica: Questo metodo analizza prima i dati reali per identificare le distribuzioni statistiche sottostanti, come quelle normali o esponenziali. Successivamente, i data scientist generano campioni da queste distribuzioni per creare un dataset che assomigli statisticamente all’originale. Questo approccio è utile per dati semplici come numeri o tabelle.
  • Basato su Modelli: In questo caso si addestra un modello di machine learning per comprendere le caratteristiche dei dati reali. Una volta addestrato, il modello è in grado di generare dati artificiali che seguono la stessa distribuzione statistica dei dati reali. Questo metodo è ideale per creare set di dati ibridi che mantengono proprietà statistiche reali, ma con elementi sintetici aggiunti.
  • Metodi di Deep Learning: Tecniche come le reti antagoniste generative (GAN) e gli autoencoder variazionali (VAE) sono particolarmente utilizzate per dati complessi come immagini, video o serie temporali. Le GAN, ad esempio, impiegano due reti neurali: una genera dati mentre l’altra tenta di eseguire una discriminazione tra dati reali e sintetici. Questo processo continua fino a quando il discriminatore non riesce a fare la distinzione, generando dati sintetici di alta qualità che mimano fedelmente le variazioni dei dati reali.

Queste tecniche, come detto precedentemente, proteggono la privacy e consentono la conformità alle normative sui dati. Offrono, inoltre, la possibilità di testare algoritmi e modelli in condizioni controllate, migliorando così la loro affidabilità e precisione. Vediamo quali sono gli altri vantaggi che ci portano a delegare la generazione dei dati a un algoritmo.

Quali sono i vantaggi dei dati sintetici?

Sicuramente il principale motivo che ci spinge ad utilizzare una simulazione al posto dei dati reali è la tutela della privacy. In effetti, ottenere dei dati non riconducibili a persone reali facilita la conformità a normative sulla privacy come il GDPR. Le aziende potranno così utilizzare liberamente i dati in settori sensibili come la sanità e la finanza, senza preoccupazioni legali.

Si tratta di un vantaggio che rende questa tipologia di dati la soluzione ideale in ambito sanitario. Negli ospedali si potrebbero utilizzare i dati sintetici per analizzare tendenze delle malattie senza esporre informazioni sensibili dei pazienti, assicurando la conformità alla normativa sulla protezione dei dati personali. Ma in realtà sono anche altri i vantaggi, non meno importanti, che promuovono la scelta di questa tecnica.

Miglioramento del Machine Learning

I dati sintetici sono molto utilizzati per potenziare l’intelligenza artificiale, soprattutto quando le informazioni reali sono scarse o eccessivamente sensibili.

Utilizzando dati sintetici, possiamo allenare un algoritmo di riconoscimento facciale in modo sicuro e efficace, senza compromettere la privacy delle persone, generando volti realistici che non corrispondono a nessun individuo reale.

Fornendo set di dati ampi e vari, i dati sintetici diventano ideali per l’addestramento di modelli di machine learning. La quantità incide, infatti, sulla precisione e riduce il tempo di addestramento.

Test e simulazione efficaci

I dati sintetici creano un ambiente sicuro e scalabile per testare software e sistemi, permettendo simulazioni di scenari privi di rischi. La creazione di un ambiente controllato consente agli sviluppatori di identificare e risolvere problemi senza alcun timore di generare conseguenze nel mondo reale.

Un esempio? In un simulatore di volo, i dati sintetici permettono ai piloti di praticare manovre complesse e gestire emergenze aeree senza rischi reali, migliorando la loro preparazione e sicurezza.

Iscriviti alla nostra newsletter

Scalabilità senza limiti

Immagina di poter accedere a un flusso illimitato di dati perfettamente adatti alle tue esigenze analitiche. I dati sintetici trasformano la ricerca e lo sviluppo offrendo flussi illimitati di dati su misura, eliminando i costi e la complessità della raccolta dati reali. Questo accesso on-demand permette alle aziende di generare grandi volumi di dati, accelerando l’innovazione e riducendo il time-to-market.

Molte aziende tech scelgono i dati sintetici per testare l’efficacia di nuovi algoritmi di intelligenza artificiale, ottenendo risultati rapidi senza necessità di acquisire dati esterni.

Riduzione dei bias

Progettati per essere un modello neutro, i dati sintetici aiutano a eliminare i bias presenti nei set di dati reali, rendendo i modelli di intelligenza artificiale più giusti e affidabili.

Ad esempio, in un modello di reclutamento, i dati sintetici possono essere strutturati per assicurare una rappresentazione equa di generi e etnie. In tal modo si contrastano i pregiudizi, spesso presenti nei dati storici di assunzione, e si promuovono decisioni di impiego più giuste e obiettive.

Accelerazione dello sviluppo e dell’innovazione

Con i dati già etichettati e pronti per l’uso, i team di sviluppo possono concentrarsi su innovazioni e miglioramenti dei prodotti piuttosto che sulla laboriosa preparazione dei dati. Questo non solo accelera il time-to-market, ma aumenta anche l’efficienza complessiva del processo di sviluppo.

Ad esempio, in un progetto di visione artificiale, i dati sintetici possono includere immagini di veicoli con etichette pre-assegnate che identificano tipi, colori e dimensioni. Questo permette ai ricercatori di concentrarsi sull’affinamento degli algoritmi piuttosto che sul tempo intensivo necessario per il processo di etichettatura.

Concludendo possiamo dire che i dati sintetici non sono solo una risorsa tecnologica; sono un tassello fondamentale del processo innovativo di un’azienda. Generare dati estremamente simili ma non reali consente un progresso tecnologico che rispetta la privacy senza compromettere l’efficacia analitica.