YLLI-hankkeessa testattiin, miten luonnollisen kielen käsittelyn metodeilla voidaan analysoida suuria määriä dataa ja eritellä siitä haluttu informaatio, kuten paikannimet. Yhdistämällä some-postausten paikannimet kyseisten paikkojen koordinaatteihin voitiin tuottaa uutta paikkatietoa ihmisten aktiviteeteista. Maantieteilijä Sonja Koivisto tarkasteli maisterintutkielmassaan Twitter-postausten pohjalta liikunta-aktiivisuutta pääkaupunkiseudulla. Liikunta-aiheiset twiitit jakautuivat pääkaupunkiseudulle lähes samoin kuin väestö. Eniten twiittejä paikannettiin Helsingin niemeltä eli ydinkeskustan lähistöltä sekä alueellisista keskuksista kuten Tapiolasta, Leppävaarasta ja Tikkurilasta.
Twiitit joistakin urheilulajeista keskittyivät vahvasti kyseisten lajien harjoittelupaikkojen läheisyyteen, kuten odottaa saattoi. Esimerkiksi hiihtoaiheisia twiittejä tehtiin eniten Olarista, Paloheinästä, Hakunilasta ja Kivikosta, joissa on paljon hoidettuja latuja talvisin. Toisiin lajeihin tarvitaan erityinen kenttä tai halli, mutta tiettyjä lajeja, kuten juoksua, on helppo harrastaa missä tahansa.
Jalkapallosta, jääkiekosta ja salibandystä twiitattiin harrastajamääriin verrattuna paljon, kun taas uinti- ja hiihtotwiittejä oli harrastajamäärään suhteutettuna vähemmän. Tähän voi vaikuttaa lajin trendikkyys, harrastajien ikärakenne ja heidän someaktiivisuutensa sekä se, kuinka suosittu laji on penkkiurheilijoiden kesken.
Mitä some-tutkijan on huomioitava?
Sosiaalisen median tuottama data avaa uudenlaisia ovia tutkimukselle. Perinteisesti datan kerääminen on ollut työlästä sekä kallista ja otokset rajattuja. Nykyisin sosiaalisesta mediasta voidaan kerätä aineistoksi yhdellä kyselyllä miljoonia postauksia. Ihmiset ovat tuottaneet datan valmiiksi.

Tutkimuseettistä pohdintaa herättää kuitenkin se, ettei postaaja todennäköisesti ole alun perin voinut tietää postauksensa päätyvän tutkimuskäyttöön. Somea tutkimuksessa hyödyntävän tutkijan täytyykin huomioida ennen kaikkea aineiston tuottaneiden postaajien anonymiteetti ja yksityisyys. Niitä tulee vaalia kautta linjan aina datan käsittelystä tulosten esittelyvaiheeseen saakka. Tämä onnistuu, jos data esimerkiksi ryhmitellään tarpeeksi suuriin alueellisiin yksiköihin.
Sosiaalisen median mahdollisuuksien toisena kääntöpuolena on, että some-aineisto voi olla varsin vinoutunutta. Koko väestö ei postaa aktiivisesti, ja postauksia tehdään eri teemoista vaihtelevalla innokkuudella. Usein sosiaalisessa mediassa aktiivisimpia ovat nuoret, mikä jättää vanhemmat sukupolvet aliedustetuiksi. Tärkeää onkin pitää mielessä, että tutkimustulokset harvoin edustavat väestöä tasaisesti. Onkin kiinnitettävä erityistä huomiota siihen, keiden ääni tulee kuulluksi. Tutkimustulosten edustavuutta voidaan kuitenkin parantaa esimerkiksi vertailemalla tuloksia joko virallisten tilastojen kanssa tai toteuttamalla edustava kyselytutkimus samasta aiheesta.

Vaikka sosiaalisen median tarjoaman datan mahdollisuudet näyttäytyvät mielenkiintoisina, tulee tutkimustulosten hyödyntämisessä noudattaa varovaisuutta. Näemme kuitenkin mielenkiintoisia mahdollisuuksia siinä, että sosiaalisen median data voi tulevaisuudessa olla myös paikkatietodataa. Kertoohan some paljon kansalaisten arjesta ja aktiviteeteistä – kuten liikuntatottumuksista