Marco Antonio Tangaro
Archiviazione, protezione e gestione dei dati nella comunità Life Science
Data storage, protection and management for the Life Science community

Attualmente ricercatore presso il CNR-IBIOM. Ho conseguito il Dottorato di Ricerca in Fisica presso l'Università degli Studi di Bari nel 2015, lavorando per 4 anni nell'ambito dell'esperimento ALICE ad LHC (CERN, Ginevra). Dal 2015 sono coinvolto nella comunità ELIXIR-IT, sviluppando servizi Cloud per la bioinformatica e integrando nuovi strumenti all'interno del workflow manager Galaxy. In particolare, guido lo sviluppo della piattaforma Laniakea, che consente la creazione di istanze Galaxy on-demand su Cloud. Sono coinvolto nei progetti europei H2020 EOSC-Life, EOSC-Pillar e BY-COVID, in ELIXIR, l'infrastruttura Europea per la ricerca sui dati biologici e nella comunità del Progetto Galaxy. Sto anche guidando lo sviluppo di un'istanza Galaxy nazionale distribuita basata su Cloud per la ricerca su Sars-CoV-2 e COVID-19, denominata Covalaxy, finanziata nel contesto del progetto EOSC (un progetto H2020).
Currently researcher at CNR-IBIOM. I obtained a PhD in Physics at the University of Bari (Bari, Italy) in 2015, working within the ALICE experiment at the LHC (CERN, Geneva) for 4 years. Since 2015 I am involved in the ELIXIR-IT community, developing Cloud services for bioinformatics and integrating new tools within the Galaxy workflow manager. In particular, I lead the development of the Laniakea platform, which allows the creation of on-demand Galaxy instances on the Cloud. I’m involved in the European H2020 EOSC-Life, EOSC-Pillar and BY-COVID projects, in ELIXIR, the European research infrastructure for biological data and in the Galaxy Project community. I’m also leading the development of a distributed Cloud-based national Galaxy instance for Sars-CoV-2 and COVID-19 research, named Covalaxy, funded in the context of EOSC (an H2020 project).
Negli ultimi anni, il volume e la varietà dei dati prodotti dai ricercatori in ambito Life Science è cresciuto in modo esponenziale grazie all'introduzione di tecnologie high-throughput, richiedendo soluzioni adeguate per la loro conservazione e gestione. Inoltre, le notevoli risorse computazionali richieste per la loro analisi rendono fondamentale l'adozione di piattaforme di calcolo distribuito che devono accedere in modo efficiente ai dati indipendentemente dalla loro ubicazione. Infine, le soluzioni tecniche adottate per l'archiviazione e la gestione dei dati devono rispettare i rigorosi vincoli legali imposti dal Regolamento Generale sulla Protezione dei Dati (GDPR) quando riguardano dati umani sensibili (es. dati genomici umani).
Presentiamo qui una panoramica di alcune delle strategie di archiviazione adottate nella comunità Life Science. In particolare, ci concentreremo sulle soluzioni adottate o in fase di sviluppo all'interno della comunità ELIXIR Galaxy, in Italia ma anche a livello Europeo, per supportare la crittografia dei dati sensibili e il calcolo distribuito in ambienti Cloud e HPC.
In recent years, the volume and variety of the data produced by life-science researchers has grown exponentially thanks to the introduction of high-throughput technologies, demanding adequate solutions for their storage and management. Furthermore, the significant computational resources required for their analysis are making increasingly necessary the adoption of distributed computing networks that need to efficiently access data independently from their physical location. Finally, the technical solutions adopted for data storage and management must adhere to stringent legal constraints imposed by the General Data Protection Regulation when they involve sensitive human data (e.g., human genomics).
We present here an overview of some of the storage strategies adopted in the Life Science community. In particular, we will focus on the solutions either adopted or under development within the ELIXIR Galaxy community, in Italy but also at European level, to support sensitive data encryption and distributed computing in Cloud and HPC environments.