16 Nov 2017

Marica Antonacci

INFN
http://home.infn.it/it/

Dal 2003 al 2012 ha lavorato come Software Engineer presso un’azienda privata specializzata nella realizzazione di soluzioni software per l’osservazione terrestre. Dal 2013 lavora come Tecnologo, esperto di Cloud Computing, presso INFN-BARI. Ha partecipato a diversi progetti sperimentando soluzioni open-source per sistemi di calcolo e storage distribuiti.
Ha contribuito alla realizzazione dell’infrastruttura cloud di produzione del sito di Bari (di cui oggi è amministratore di sistema) e alla sua integrazione nella EGI Federated Cloud.

From 2003 to 2012 she worked as a Software Engineer at a private company specializing in the creation of software for Earth observation software. Since 2013, she has been working as a Cloud Computing Technologist at INFN-BARI. She took part in several projects by experimenting with open-source solutions for distributed computing and storage systems. She contributed to the creation of the Bari production site’s infrastructure (of which she is today a system administrator) and its integration into EGI Federated Cloud.

SESSIONE 1

Big Data

Piattaforme di data analytics di grandi dimensioni on-demand con la PaaS di INDIGO-DataCloud

Marica Antonacci, Davide Salomoni, Giacinto Donvito, Alberto Brigandì, Germán Moltó and Miguel Caballer

Nel quadro del progetto europeo “INDIGO-DataCloud” abbiamo progettato e sviluppato soluzioni avanzate per la creazione trasparente di piattaforme complesse di data analytics su infrastrutture distribuite ed eterogenee, semplificando gli aspetti operativi.
La missione di INDIGO-DataCloud è offrire soluzioni per superare il gap tra I livelli PaaS e SaaS della cloud in vari settori, tra cui il computing, lo storage e le reti). La PaaS di INDIGO offre funzionalità avanzate di federazione e brokeraggio: Il PaaS Orchestrator realizza workflow complessi per coordinare lo sviluppo di infrastrutture virtuali descritte attraverso il linguaggio-template standard TOSCA.
Abbiamo sviluppato diversi template TOSCA per diversi use case a vari livelli di complessità: un’attenzione specifica è stata dedicata ai cluster di dati di grandi dimensioni (come Hadoop) e ai cluster di calcolo (come Apache Mesos). Il self-provisioning delle risorse, la configurazione automatizzata e l’elasticità dei cluster sono alcune delle caratteristiche più innovative offerte dalla PaaS di INDIGO. Usando la PaaS di INDIGO è possibile inizializzare in pochi minuti una infrastruttura di Big Data completa basata su insiemi di risorse autoconfigurate su cui far girare dei workload Spark su un cluster Mesos. In questo contributo offriamo dettagli sulle tecnologie adottate e le soluzioni realizzate.

On-demand large-scale data analytics platform with INDIGO-DataCloud PaaS

Marica Antonacci, Davide Salomoni, Giacinto Donvito, Alberto Brigandì, Germán Moltó and Miguel Caballer

In the framework of the European H2020 project “INDIGO-DataCloud” we have designed and developed an advanced solution for deploying complex data analytics platforms on distributed and heterogeneous e-infrastructures in a transparent and easy way, removing operational complexities for users. The mission of the INDIGO-DataCloud project is to provide solutions in several areas (like computing, storage, networks) in order to fill the existing gaps in the PaaS and SaaS levels of clouds.

The INDIGO PaaS provides advanced federation and brokering capabilities: the PaaS Orchestrator implements complex workflows to coordinate the deployment of virtual infrastructures described through the standard template language TOSCA. We have developed several TOSCA templates covering different use-cases with different levels of complexity: a special focus has been put on large-scale data clusters (like Hadoop) and computing clusters (like Apache Mesos). Self-provisioning of the resources, automated configuration, cluster elasticity are some of the cutting-edge features provided by the INDIGO PaaS.

Using the INDIGO PaaS it is possible to spin-up in a few minutes a complete big data infrastructure consisting of an automatically managed pool of cloud resources that are auto-configured for running Spark workloads on a Mesos cluster. In this contribution we provide details about the adopted technologies and the implemented solutions.