GARR CONFERENCE 2022
18-20 MAY 2022, Palermo

Teven Le Scao

Hugging Face
https://huggingface.co/

19 maggio 2022 - SESSIONE 3 | AI E SOSTENIBILITÀ PER LA RICERCA

BigScience: Building an LHC for NLP and AI


Teven Le Scao

BigScience: Building an LHC for NLP and AI

Teven Le Scao is a staff researcher at Hugging Face, PhD student at LORIA and contributor at BigScience, an open collaborative research community (formally, the Summer of Language Models 21 workshop). His work concentrates on quantifying the effect of training data on language models small and large. Most recently, he has been the lead coordinator of BigScience's effort to train an open-source GPT3-sized multilingual language model.

 

ABSTRACT

Grazie a milioni di ore di calcolo, i nostri modelli attuali di linguaggio informatico godono di capacità di comprensione e generazione del linguaggio prima impensabili. Sono stati oggetto di intense ricerche, ingegnerizzazioni e speculazioni da quando OpenAI ha rilasciato GPT-3. Sebbene diversi gruppi abbiano lavorato su questo modello o lo stiano tuttora continuando a fare, tutti i modelli conosciuti come 100B+ parameter models, sono stati sviluppati come software closed-source dalle grandi aziende che lavorano nel settore delle tecnologie. In questo intervento presenterò Bigscience, un'organizzazione open source e a collaborazione aperta che mette insieme oltre un migliaio di ricercatori per lavorare su un modello multilingue di dimensioni GPT-3.

Scaled to millions of hours of computation, our current language models exhibit language understanding and generation capabilities that were previously unthinkable. They have been the subject of intense research, engineering, and speculation since OpenAI released GPT-3. Although several groups have trained or are currently training such a model, all of the currently publicly known 100B+ parameter models were developed as closed-source software by big technology companies. In this talk, I'll present Bigscience, an open-source, open-collaboration organization that gathers over a thousand researchers to train a GPT-3 sized multilingual model.