WORKSHOP GARR 2021
8-12 novembre 2021

Luca Gioacchini

Politecnico di Torino
https://www.polito.it/

10 novembre 2021 - SESSIONE 6: CYBERSECURITY

DarkVec: Analisi Automatica del Traffico Darknet mediante Word Embeddings

DarkVec: Automatic Analysis of Darknet Traffic with Word Embeddings

Slide


Luca Gioacchini

DarkVec: Analisi Automatica del Traffico Darknet mediante Word Embeddings

Luca Gioacchini è un dottorando presso il Politecnico di Torino e membro del centro di ricerca per tecnologie Big Data, SmartData@Polito. Ha conseguito la laurea magistrale in ICT for Smart Societies nel 2021. I suoi campi di ricerca includono tecniche di machine learning e data science applicate in ambito networking e cybersecurity. Durante i suoi studi, Luca ha approfondito maggiormente tecniche di deep learning e graph mining per il riconoscimento di eventi coordinati nel traffico darknet.

Luca Gioacchini is a Ph.D. candidate at Politecnico di Torino and member of SmartData@Polito research center for Big Data technologies. He received the M.Sc. in ICT for Smart Societies in 2021. His research interests are in the field of machine learning and data science techniques applied to networking and cybersecurity. During his studies, Luca has focused on deep learning and unsupervised graph mining techniques to detect coordinated events in darknet traffic.

 

 

ABSTRACT

Le darknet sono gruppi di indirizzi IP passivi che non offrono nessun servizio e salvano tutto il traffico Internet ricevuto. Quanto ricevuto è, per definizione, indesiderato e spesso viene generato da scanners, attaccanti e host mal configurati. La natura delle darknet le rende una valida sorgente di informazione per acquisire conoscenza riguardo attività malevole. Tuttavia, la massiccia quantità di pacchetti e sorgenti che raggiungono le darknet, rende complicato estrarre informazioni significative. In particolare, molte sorgenti contattano le darknet mentre eseguono azioni simili e coordinate, agendo spesso sotto il controllo di un controllore comune (botnets, crawlers, etc.). Come riconoscere e raggruppare automaticamente sorgenti che condividono comportamenti simili rimane un problema da risolvere. Nel nostro lavoro, introduciamo DarkVec, una metodologia per identificare gruppi di sorgenti, quali indirizzi IP, coinvolti in attività simili nel traffico darkn! et. DarkVec sfrutta tecniche di word embedding (Word2Vec) per estrarre pattern co-occorrenti fra le sorgenti che raggiungono le darknet. Nel nostro lavoro, testiamo ed esploriamo DarkVec tramite un mese di traffico darknet. Quindi, mostriamo che grazie ad una corretta definizione di servizi, gli embeddings generati possono essere facilmente usati per (i) associare indirizzi IP sorgenti sconosciuti alle labels note corrette (96% di accuratezza) e per (ii) identificare nuovi attacchi e gruppi di scanner precedentemente

Darknets are passive probes listening to traffic reaching IP addresses that host no services. Traffic reaching them is unsolicited by nature and often induced by scanners, malicious senders and misconfigured hosts. Its peculiar nature makes it a valuable source of information to learn about malicious activities. However, the massive amount of packets and sources that reach darknets makes it hard to extract meaningful insights. In particular, multiple senders contact the darknet while performing similar and coordinated tasks, which are often commanded by common controllers (botnets, crawlers, etc.). How to automatically identify and group such senders that share similar behaviors remains an open problem. We here introduce DarkVec, a methodology to identify clusters of senders (i.e., IP addresses) engaged in similar activities on darknets. DarkVec leverages word embedding techniques (e.g. Word2Vec) to capture the co-occurrence patterns of sources hitting the darknets. We extensively test DarkVec and explore its design space in a case study using one month of darknet data. We show that with a proper definition of service, the generated embeddings can be easily used to (i) associate unknown senders' IP addresses to the correct known labels (more than 96% accuracy), and (ii) identify new attack and scan groups of previously unknown senders.