Analýza sentimentu: Barometr nálady

Počítačovému software to jde dobře s čísly a tvrdými daty vůbec. Bude se mu ale dařit u detekce nálad a pocitů? Analýza sentimentu je dnes součástí vyhledávacích enginů. Výběr zboží nebo dovolené se bez zelené a červené barvičky téměř neobejde. To platí i pro recenze knih, hudby nebo filmů. O hodnocení nálad dedikovaných internetových fór a diskusí ani nemluvě.

Začalo to sémantickým diferenciálem, se kterým přišel Charles E. Osgood a jeho kolegovéSuci a Tannenbaum v r. 1957. Vše pak sepsali v knize The Measurement of Meaning.

Nepřehlédnutelnou výhodou sémantického diferenciálu je jeho jednoduchost a možnost projekce do různých kultur a věkových skupin. I proto je stále příznivě vnímán širokou odbornou veřejností.

Klíčovými nositeli sentimentu jsou přídavná jména. Standardní forma sémantického diferenciálu s klasickým bodovým hodnocením bipolární škály adjektiv vypadá takto:

Dobrý 1_______2_______3______4______5_______6_______7 Špatný

nebo:

Dobrý 3_______2_______1______0______1_______2_______3 Špatný

(kde: 3 = velmi, 2 = dost, 1 = trochu a 0 = ani-ani)

Sémantický diferenciál se s výhodou používá k efektivnímu zjištění psychosémantické sítě. Pomocí něho a faktorové analýzy Osgood zjistil, že určitý pojem si každý člověk zařadí do svého sémantického prostoru, čímž se dostal k jednoznačné metrice pro určování významu slov. Ty je potřebné posuzovat ze tří základních pohledů. Jde o tyto tři emoční dimenze psaného textu:

  • Hodnocení (posouzení pojmu pomocí bipolárních adjektiv; pozitivní – negativní)
  • Potence (účinek výpovědi je silný – slabý)
    • distance (vztah autora k tématu)
    • specifičnost (forma formulace: jasná, vágní)
    • určitost (autor si je jistý nebo je na pochybách?)
  • Intenzita (emotivnost výpovědi)

Tyto tři kategorie a jejich podkategorie lze rovněž s výhodou použít pro automatickou detekci a klasifikaci pocitů a určení sentimentu konkrétního textu – např. počítačem.

Nutnou podmínkou úspěšnosti analýzy sentimentu je použití speciálních slovníků, které dokáží postihnout ironii, sarkasmus, slang nebo idiomatická spojení zkoumaného textu. Všechny jejich formy jsou totiž velmi časté v internetových diskusích. Kombinované navíc grafikou emotikonů (smajlíci, palce nahoru/dolů, apod.).

Jedním z prvních experimentů na poli analýzy sentimentu byla studie dvou dam, Bo PangLillian Lee, které se na počátku tohoto století zabývaly analýzou filmových recenzí na internetu. Společně též napsaly monografii Opinion Mining and Sentiment Analyses. Ta se rovněž řadí k prvním v této oblasti.

Závěrem ukázka analýzy sentimentu na stránkách BBC. Pro akci je nutné stisknout tlačítko START. Vše ostatní lze řídit pomocí panelu na levé straně.

Zdroj: Captaview’s Blog