Pin It

In un articolo apparso recentemente su arXiv, un modello matematico è stato utilizzato per quantificare la diffusione e la popolarità degli hashtag su Twitter.
Con i suoi 320 milioni di utenti mensili attivi, Twitter è uno dei social network più popolari.
Permette di inviare e leggere messaggi noti come tweet, producendone circa 500 milioni al giorno, e consente ai propri utenti di condividere idee, notizie, citazioni, testi e molto altro.
Come è noto, gli utenti possono anche inserire all’interno del proprio tweet un hashtag, ovvero una sorta di etichetta, utilizzando il carattere cancelletto seguito da una parola o un breve testo. Gli hashtag sono dei metadati che consentono di raggruppare i tweet e permettono agli utenti di cercare le discussioni contenenti determinate parole.
In effetti la ricerca di una data parola all’interno dei messaggi presenti su Twitter può risultare inesatta. Per esempio, se qualcuno è interessato a determinare il grado di felicità sul social network, potrebbe cercare tutti i tweet che contengono la parola “felice”. Tra i risultati di tale ricerca compariranno sia messaggi come “sono felice” ed affini, ovvero messaggi positivi, ma anche messaggi del tipo “non sono felice”.
Una ricerca fatta tramite hashtag invece, evita il problema in quanto i tweet contenenti l’hashtag #felice saranno molto probabilmente dei messaggi positivi.
La ricerca tramite hashtag non sarà comunque esaustiva in quanto non è detto che tutti i tweet allegri contengano effettivamente l’hastag #felice.
Nello studio proposto vengono quindi utilizzati gli hashtag come mezzo per studiare la popolarità di alcuni argomenti su Twitter.
L’idea è quella di riutilizzare dei modelli matematici piuttosto noti nel campo dell’epidemiologia ed un approccio statistico.
Il modello SIR è uno dei più noti modelli per la previsione, il controllo e l’analisi dei fenomeni epidemici. Nel modello SIR si considera che la popolazione di individui si divida in tre classi : gli infetti I, cioè individui malati in grado di trasmettere il contagio, i suscettibili S, cioè individui sani che possono essere contagiati ed i rimossi R, cioè individui che avendo contratto la malattia siano immunizzati oppure morti. Attraverso un sistema di equazioni differenziali ordinarie è possibile descrivere la dinamica delle tre classi di individui.
Recentemente si è unito a questo approccio deterministico, un approccio statistico per la determinazione dei parametri presenti nel modello attraverso dei metodi Monte Carlo basati su Catene di Markov.
Nel lavoro proposto i ricercatori hanno applicato lo stesso metodo per determinare il grado di contagiosità degli hashtag. L’idea dei ricercatori è stata quindi di riprendere tale approccio e considerare invece che la caratteristica infettiva di una malattia, il potere contagioso di un hashtag su Twitter. Definendo infatti la popolarità dell’hastag come quante volte gli utenti in un dato momento stanno scrivendo riguardo all’argomento, sono riusciti a studiare quanto tale argomento si diffonda.
La presenza degli hashtag su Twitter nel tempo è stata raccolta in una banca dati, fornendo quindi delle serie storiche utili poi per la stima dei parametri.
Dai risultati ottenuti si evince che esistono essenzialmente due tipi di hashtag: quelli poco
influenti ed un sottoinsieme di hashtag molto “infettivi”. I ricercatori servendosi della geo-localizzazione hanno raccolto i dati provenienti da due città diverse: New York e San Francisco. Non sono state osservate però grandi differenze nei risultati ottenuti dai dati provenienti dalle due città.

 

(A cura di Cristiana Di Russo)

Pin It
this site uses the awesome footnotes Plugin