Er worden verschillende data-analysetechnieken gebruikt om zienswijzen te analyseren. Allereerst wordt een aantal technieken ingezet om data-analyse mogelijk te maken. Met de techniek Optical Character Recognition (OCR) worden zienswijzen omgezet naar voor de computer leesbare tekst. Computers kunnen alleen goed rekenen met getallen. Het proces om woorden om te zetten naar getallen wordt vectorisatie genoemd. Er worden drie verschillende algoritmes ingezet na de voorbewerking van de data:
Met dit algoritme worden documenten op vooraf vastgestelde thema’s gesorteerd. Data scientists spreken over labels. Een zienswijze krijgt een label of meerdere labels toegekend, waardoor medewerkers hier sneller mee verder kunnen. Alle zienswijzen over geluid kunnen zo doorgestuurd worden naar de inhoudelijke deskundige voor geluid.
De unsupervised algoritme halen onderwerpen en thema’s uit de tekst op basis van veel voorkomende woorden. Ook brengt dit algoritme sleutelwoorden (keywords) in kaart. Deze sleutelwoorden kunnen door inhoudelijke deskundigen verder geanalyseerd worden.
- Mate van vergelijkbaarheid
Soms dienen participanten precies dezelfde zienswijze in. Door de vectoren van zienswijzen te bekijken, worden zienswijzen met de techniek cosine similarity onderverdeeld in de volgende drie categorieën: hetzelfde, vergelijkbaar of uniek.