Data-driven o data-centric? Yet another one

Qualche giorno fa ho iniziato a fare delle storie su Instagram parlando di dati, scienza aperta e qualche altra cosa che mi fa battere il cuore (chi mi conosce lo sa). Sono partita bene, poi mi sono persa. Non so se sia perché non riesco bene a usare IG, molto probabilmente quello che volevo comunicare non si può screenshottare e condividere su quella piattaforma.

For the great joy of my friend Andrea Borruso, torno a scrivere su questo blog. Qui, mi sento molto più a casa :) Allora, cosa dicevo? La settimana scorsa ho preso parte ad un workshop/roundtable dal titolo:

FAIR, responsible, and inclusive: Designing sustainable digital ecosystems for OpenScience - A European roundtable on sustainable transformation of scientific practice enhanced by platforms and AI

Un titolone, direi. In soldoni, un evento che si proponeva di parlare del sistema attuale di ricerca scientifica, delle cose che non funzionano, del bisogno di scienza che sia non solo aperta ma anche inclusiva, equa, e su come dati e tecnologie (si veda la voce: Intelligenza Artificiale) possano essere utilizzati per mettere in moto una vera e propria rivoluzione scientifica (accademica, per la maggior parte). Questo evento mi ha fatto pensare a tante, tantissime cose, e questo post proverà a raccogliere qualche riflessione.

Quando mi invitano ad eventi (soprattutto workshops) su data science, ricerca, e riproducibilità, una delle prime cose che dico è: la scienza del 21esimo è data-driven, e prima facciamo pace con questa idea, meglio è. 

Ma lo è davvero? Data-driven, dico.

Che cosa vuol dire data-driven?

Data-driven vuol dire letteralmente "guidato dai dati".

Quando si usa quest'espressione nel mondo della ricerca (a volte dico ricerca, a volte dico scienza, ma parlo sempre di questa cosa qui, ma fatta anche da scienziate, ricercatrici, studiose, time to edit that Wikipedia page I guess),  ci si riferisce ad un processo di ricerca che è, per l'appunto, guidato dai dati. Dalla loro raccolta, dalla loro analisi, dalla loro interpretazione.

Photo by Franki Chamaki on Unsplash

Ma è questo veramente l'approccio più giusto? Sono davvero i dati a decidere il flusso della nostra ricerca? A decidere a quali domande vale la pena rispondere, o a garantirci che i risultati saranno affidabili? Prima di rispondere a queste domande, facciamoci... un'altra domanda.

Che cosa vuol dire data-centric? 

Data-centric vuol dire "con i dati al centro".

Nel 17esimo secolo, quando sono nate le prime riviste scientifiche (tipo la Philosophical Transactions of the Royal Society), i dati erano fondamentalmente oggetti privati, 'una cosa che apparteneva alle persone che facevano ricerca'. Queste erano le sole persone in grado di validarne la correttezza e di interpretarli. In questo senso, nella scienza di allora, la grande e primaria utilità dei dati era quella di servire come evidenza, supportando o meno una certa ipotesi.

Facciamo un salto temporale pazzesco alla scienza di oggi. I dati non sono più proprietà privata (o non dovrebbero esserlo, ma questo e' un altro discorso), e il loro valore non e' più statico, fisso, predeterminato. Ci siamo resi conto, insomma, che i dati possono avere un grande potere e un grande valore, e che questo valore si accresce tanto più quanto più i dati viaggiano, interfacciandosi con delle realtà diverse, incontrando persone diverse. Sono quelle persone, le loro mani e le loro menti, a decidere cosa chiedere ai dati e come chiederlo.

Photo by JK on Unsplash

Stiamo arrivando al nostro concetto "data-centric". Il dato non decide, non prende le decisioni. Il dato vive. Ha ragione d'essere, ha i diritti di ogni cittadino di prima classe.

Questa presa di coscienza ha cambiato completamente il modo in cui facciamo ricerca (è davvero un nuovo paradigma, sotto molti punti di vista), e ha delle implicazioni molto importanti:

I dati fanno ormai parte a tutti gli effetti del ciclo di ricerca, e come tale dovrebbero entrare a  far parte (con ogni diritto) dello spettro di prodotti usati per valutarla, questa ricerca, e chi la fa (basta coi papers del 17 esimo secolo!).

I dati hanno anche un ciclo di vita proprio, e nascono e muoiono molte più volte di quello che pensiamo: quando ci avviciniamo a dei dati, e decidiamo di usarli per rispondere a qualche domanda, non possiamo ignorare il loro passato, il loro vissuto, il loro percorso! Bisogna prestare attenzione (e non poca!) alla storia dei dati, alla loro continua evoluzione e, talora, anche ai loro cambiamenti radicali: spesso, quello che è un dato all'inizio di una indagine, smette di essere tale dopo qualche tempo (per svariati motivi). 

Solo l'attenzione conscia a queste dinamiche ci permette di comprendere (e magari apprezzare davvero) il potere che hanno i dati di confermare o rifiutare certe ipotesi.

L'ultima considerazione nasce davvero come naturale conseguenza delle prime due: qualunque analisi dei dati ci troviamo a condurre non sarà mai un processo oggettivo condotto attraverso strumenti neutrali o metodi indipendenti dal contesto.
Semmai, tutto l'opposto è vero.

I dati possono essere usati per rappresentare diverse facce della realtà in cui viviamo; ognuna delle interpretazioni a cui arriviamo è strettamente dipendente da tanti fattori, anche e soprattutto dalle capacità tecniche (e non solo) che permettono di organizzare i dati in modo che confermino o meno una certa concettualizzazione della realtà.

Quello che rimane accanto ai dati, sono le persone.

E sono le persone a scegliere a quali domande rispondere.

Sono le persone a decidere come rappresentare il mondo.

Paola

PS: Il titolo di questo pezzo lo ha scelto il mio amico Andrea Borruso (e chi, se no?).

 







Comments

Popular posts from this blog

What I talk about when I talk about Open Science

To my friend, Jon.

Open Science Saves Lives