e-data&research

Twitterdata input voor RIVM

Wat vindt Nederland van de coronamaatregelen? De Corona Gedragsunit van het RIVM onderzoekt ons gedrag en welbevinden met data uit interviews, enquêtes en Twitter.
Vragen over gedrag en welbevinden zijn gemakkelijk te stellen met gerichte (online) interviews en enquêtes. Naast deze standaardmethodes gebruikt de Corona Gedragsunit ook Twitter voor analyses over coronamaatregelen. De analyses zijn van Antal van den Bosch, hoogleraar taal en kunstmatige intelligentie en directeur van het Meertens Instituut.


Top-10
Zijn team, bestaande uit onderzoekers van het RIVM, de Universiteit Leiden en de Radboud Universiteit, meet met Twitter het vertrouwen in de besluitvorming en het draagvlak voor maatregelen zoals mondkapjes.

“We maakten onder meer iedere week een top-10 van meest gestelde vragen. Bij sommige vragen zie je dan een stijgende lijn: vragen over de aanpassingen in de horeca stond eind mei op nummer 1, maar die zagen we de weken ervoor al opklimmen. Hetzelfde zagen we met de uitbraken in slachthuizen. Voordat de problematiek in Nederland speelde, werd al over gevallen in Amerika en Duitsland getweet, en bijvoorbeeld gevraagd of vlees uit zulke slachthuizen besmet was.”

Enorme bak data
Van den Bosch: “Eind 2010 startte het Netherlands eScience Center in samenwerking met de Radboud Universiteit met automatische scraping van Twitter, binnen de grenzen van wat Twitter gratis toelaat. “We archiveren via programma-interfaces. Inmiddels is deze enorme bak data ondergebracht bij SURFsara.” Overigens hebben Twitterdata ook nadelen, benadrukt Van den Bosch. Zo mag je tweets nooit herpubliceren, en is het onmogelijk een dataset opnieuw te construeren omdat een groeiend percentage van de tweets later vaak niet meer beschikbaar is. Van den Bosch: “Bitwise reproductie is dus niet mogelijk. Daar moet je mee leven. Er zijn talloze sociale media die compleet op slot zitten. Sociale media-data zijn problematisch, maar minder problematisch dan andere persoonsgebonden data.” Ook is de Twitterbevolking niet representatief voor onze samenleving. Jongeren zijn bijvoorbeeld ondervertegenwoordigd. En dan is de groep die twittert over de coronacrisis ook nog vrij specifiek: “Mannen boven de 55 zijn bovengemiddeld vertegenwoordigd”, aldus Van den Bosch.

Machine learning
Van den Bosch werkte al eerder samen met het RIVM, om het gedrag ten aanzien van vaccinaties te peilen op Twitter. Sinds de uitbraak van de coronacrisis in Nederland levert hij elke twee weken input op basis van een gerichte vraag van het RIVM. Van den Bosch en zijn team gebruiken tools uit de computerlinguïstiek, zoals sentimentanalyse, en uit de kunstmatige intelligentie. “Deze tools clusteren de data. De vraag ‘waar kan ik mondkapjes krijgen?’ vind je in allerlei varianten in een groep van zo’n honderd tweets die door automatische clustering bij elkaar worden gevonden. Zo’n cluster kun je dan in één keer een label geven. Dat gebeurt eerst handmatig. Daarna kun je met machine learning de computer leren zelf tweets te labelen, op basis van de labels die je als annotator hebt toegekend. Dan gaat het niet meer om honderden maar honderdduizenden tweets.”

Aan de hand van sentimentanalyses wordt gemeten of tweets een positieve of negatieve lading hebben. Dat gebeurt met behulp van woordenlijsten met zogenaamde polariteitsscores (positief of negatief). Sentimentanalyses geven een vrij grove indicatie van een grote hoeveelheid tweets. Interessanter vindt Van den Bosch de aspectuele, gerichte labeling om bijvoorbeeld draagvlak voor mondkapjes in het openbaar vervoer te meten. “We labelen die clusters dan als voor en tegen, maar we zijn ook in gaan zoomen op daadwerkelijk argumenten, want het RIVM wil ook weten waarom.”

Mens in de loop
Het is nog onduidelijk of het werk voor het RIVM wordt voortgezet. De handmatige labeling kost tijd, maar een volledig automatisch proces is ondenkbaar. “De mens blijft bij AI essentieel. Iemand moet besluiten welke data wordt verzameld, welke labeling wordt toegekend, of de eerste output van machine learning werkbaar is. Je moet blijven controleren hoe accuraat de labeling is.”

rivm.nl/gedragsonderzoek