WORKSHOP GARR 2020
2-6 novembre 2020

5 novembre 2020

Iacopo Colonnelli

Università di Torino
https://www.unito.it/

5 novembre 2020 - SESSIONE 8: CONTAINER E FEDERAZIONE

JupyterFlow: Jupyter Notebooks su larga scala

Slide

Iacopo Colonnelli

JupyterFlow: Jupyter Notebooks su larga scala

Iacopo Colonnelli è uno studente di Dottorato in Modeling and Data Science all'Università di Torino. Ha conseguito la Laurea Magistrale in Ingegneria Informatica presso il Politecnico di Torino con una tesi su un algoritmo ad alte prestazioni per il tracciamento nell'ambito dell'esperimento ALICE al CERN. La sua ricerca si concentra sugli aspetti statistici e computazionali dell'analisi dati su larga scala e sulla modellazione e la gestione di workflow su arhitetture eterogenee e distribuite.

Iacopo Colonnelli is a Ph.D. student in Modeling and Data Science at Università di Torino. He received his master’s degree in Computer Engineering from Politecnico di Torino with a thesis on a high-performance parallel tracking algorithm for the ALICE experiment at CERN. His research focuses on both statistical and computational aspects of data analysis at large scale and on workflow modeling and management in heterogeneous distributed architectures.

 

JupyterFlow: Jupyter Notebooks su larga scala

I Jupyter Notebook sono largamente utilizzati sia in ambito industriale che accademico come strumento di didattica, prototipazione e analisi esplorative. Purtroppo il sistema runtime standard di Jupyter non è abbastanza potente per sostenere un carichi di lavoro reali e spesso l'unica soluzione è quella di riscrivere il codice da zero in una tecnologia con supporto HPC. Intrgrando lo stack Jupyter con StreamFlow (https://streamflow.di.unito.it/) è possibile creare i Notebook tramite un'interfaccia web su cloud ed eseguirli in maniera trasparente in remoto su una VM con GPU o su nodi HPC


JupyterFlow: Jupyter Notebooks at Scale

Jupyter Notebooks are widely used in both industry and academia as a tool for education, prototyping and explorative analyses. Unfortunately, the standard runtime system behind Jupyter Notebooks is not powerful enough to sustain real workloads and often the unique solution is to rewrite the code from scratch in a HPC-ready technology. By integrating the Jupyter stack with StreamFlow (https://streamflow.di.unito.it/) we are able to write Notebooks on a web interface on the cloud and then to transparently execute them remotely on either a GPU-equipped VM or on a set of nodes in a HPC center