研究レポート: 感情情報付きコーパスとレーベンシュタイン距離を用いた感情分析システムの開発 第1報

ライム回路について

高木 一 (TAKAGI, Hitoshi)

公開開始 2024/ 7/27

 


1. まとめ 

感情情報付きコーパス(※1)とレーベンシュタイン距離(※2)を用いて文章から感情を推定する感情分析システム「ライム回路」(※3)を開発し、2024年 7月27日に公開しました

推定の正確さは、聞き手の感情(客観感情)でランダム判定に比べて 4.6倍、話し手の感情(主観感情)で同 2.9倍です

本システムは、JavaScriptで記述されており、ブラウザ上で動作し、幅広いコンピュータ環境で使用できます。

※1 コーパス (corpus)。自然言語の文章や使い方を大規模に収集し、コンピュータで検索できるよう整理されたデータベースのこと(コーパスとは?基本的な意味からAIへの活用についても解説 | DXを推進するAIポータルメディア「AIsmiley」)。

本システムでは、感情情報付きのコーパスである、梶原 智之さん、中島 悠太さんによる「WRIME: 主観と客観の感情分析データセット」(Ver.1)を使用しています。

※2 レーベンシュタイン距離 (Levenshtein distance)。2つの文字列がどの程度異なっているかを示す距離の一種(レーベンシュタイン距離 - Wikipedia 2023年3月26日 (日) 01:19の版)。

※3 名称の由来は、あかほりさとる・ねぎしひろし原作の「セイバーマリオネット」シリーズに登場するマリオネット(女性型アンドロイド)「ライム」、及びライム達が持つ「乙女回路」。

2. 推定の正確さ 

開発した「ライム回路」による推定の正確さを、下記の方法で評価しました。なお、1章では客・主の順番で記述しましたが、ここから 主・客の順番で記述します。

「WRIME Ver.1」(全 43,200件)のなかの、「ライム回路」内の評価データとしてパラメータ最適化に使用していない1,200件の文章に対し、「ライム回路」による感情分析を実施しました。

Plutchikの基本8感情それぞれについて、「ライム回路」は感情強度を0以上3.5未満で出力します。これを、「WRIME Ver.1」の各文に付された、基本8感情それぞれの感情強度(0:なし、1:弱い、2:中程度、3:強い)と比較しました。

主観感情(話し手の感情)では感情強度1.5以上、客観感情(聞き手の感情)では感情強度0.5以上を感情有りとして※、感情有り・無しを「ライム回路」が正しく判定できているか(正答率)を数値化しました。

※主観に比べて客観は、感情強度の値が低いため。

結果を、表1、表2に示します。

表1. 主観感情推定の正答率

表2. 客観感情推定の正答率

基本8感情それぞれの、感情有りの場合の正答率(条件付き確率)と感情無しの場合の正答率(条件付き確率)の単純平均値を、ランダム判定での正答率 50%と比較した後、基本8感情について積を計算することで総合評価をしました。

その結果、推定の正確さは、主観感情でランダム判定に比べて 2.9倍、客観感情で同 4.6倍であることが分かりました。

 

ライム回路について

公開開始: 2024/ 7/27


© 2024 TAKAGI-1