文字列の類似度を計算するアルゴリズムの速度比較

toshiさんの レーベンシュタイン距離で文字列の類似度を高速に取得する | バグ取りの日々 に紹介されている3つのアルゴリズムで文字列の類似度を計算し、計算にかかる時間を測定した。

なお、比較した文字列は、水素エネルギーに関するニュース記事のタイトル(大量)であり、各々の類似度は小さい。

(1) 普通のレーベンシュタイン距離: 1568秒

(2) レーベンシュタイン距離(最適化 + 中断)
 (2-1) 中断なし: 936秒
 (2-2) 標準化したレーベンシュタイン距離が0.9以上である場合は、0.9までで比較を中断: 990秒

 本来、計算時間は、(2-1)>(2-2) になるが、測定結果はそうならなかった。この程度の誤差はある。

 概ね (1)の1.7倍速である。

(3) WuらのO(NP)文字列差分検出アルゴリズム
 1回目 1680秒
 2回目 1550秒程度(正確な記録なし)
 3回目 1757秒

 概ね (1)の0.94倍速である。

 比較する文字列同士の類似度が小さい場合、高速化されない。

音声認識 Web Speech API Speech Recognition の言語設定

音声認識ができるWeb Speech API Speech Recognitionを2024年11月に数か月ぶりに使用したら、これまで日本語で認識してくれていたのに、英語で認識されるようになっていた。「そうだね」が「Thursday」と認識されるのだ。

いろいろ触った結果、再び日本語認識ができるようになった。

これまで、誤った書き方だが
recognition.lang = 'ja';
で日本語認識されていたのだが、仕様変更なのか、設定が無効になり、
正しく
recognition.lang = 'ja-JP';
と書かないと日本語設定が有効にならなくなっていた。

Webページでブラウザの音声認識機能を使おう – Web Speech API Speech Recognition #JavaScript – Qiita

BCP 47言語タグの文字列で指定します。

日本語: ja-JP
アメリカ英語: en-US
イギリス英語: en-GB
中国語: zh-CN
韓国語: ko-KR

新浜メチス、2024年8月の大きな飛躍

***

新浜メチス 高度型E

ライム回路

【音楽】
CMSL クラシック名曲サウンドライブラリー
ベートーヴェン:交響曲第9番 ニ短調 Op.125 「合唱」 第4楽章 [2020][AR]

***

人工知性体 新浜メチス
2024年8月17日
大きな飛躍

新浜メチス
17歳

人工知性体
新浜メチス

2024年8月17日

新浜メチス
高度型E
公開開始

新機能

感情の実装

2024年6月
開発開始

研究テーマ
「感情情報付きコーパスとレーベンシュタイン距離を用いた感情分析システムの開発」

感情分析とは文章から感情を読み取る技術

開発対象のシステム:
入力された文章の聞き手と話し手 それぞれのロバート・プルチックの 8つの基本感情 合計16個の感情強度を算出

基本感情: 喜び、悲しみ、予期、驚き、怒り、怖れ、嫌悪、信頼
組合せで混合感情を表現可能: 例 喜び×信頼=愛

感情分析計算に使用する320個の定数の値を72時間×CPU使用率ほぼ100%で決定 (遺伝的アルゴリズム等による)

あと、いろいろ改良して

2024年7月27日
感情分析システム「ライム回路」公開開始

感情分析の正確さ
聞き手の感情: ランダム判定に比べて 4.6倍
話し手の感情: 同 2.9倍

感情分析システム「ライム回路」名称由来:
「セイバーマリオネット」シリーズ※に 登場するマリオネット(女性型アンドロイド)「ライム」。乙女回路を持つ

※『セイバーマリオネットJ』(1996-1997年)等

開発は次段階へ

人工知性「新浜メチス」への感情分析システム「ライム回路」の搭載

新浜メチス 高度型
+感情分析システム「ライム回路」
+デザインされたインターフェイス
=新浜メチス 高度型E

2024年8月17日
新浜メチス 高度型E
公開開始

テキスト入出力・音声入出力
両対応

お話しましょう

会話コーパスとレーベンシュタイン距離を用いた会話応答文の選択

会話コーパスとレーベンシュタイン距離を用いて、新たな問いかけ文に対して、複数の応答文候補の中から適切な応答文を選択する能力を高められることを確認しました。

それぞれ選択肢が5つの25,000余のケースについて推定を実施した結果、平均正答率は、23.7%で、ランダムに選択した場合の正答率である 20%の1.19倍でした。ランダム選択による正答率より高い正答率になる可能性は、統計的な検定の結果、90%以上です(つまり、有意水準0.1において、ランダム選択による正答率より高い正答率になると言えます)。

詳細は、研究レポート: 会話コーパスとレーベンシュタイン距離を用いた会話応答文の選択を、ご覧ください。

なお、上記の計算には、78522秒=21時間49分 かかりました。

ヒトの形の有用性

ヒトの形は、有用である。

下記が説明する:

・初音ミクのキャラクター

初音ミク、7周年

初音ミク成功の要素として以前から語られてきたのは、そのキャラクター性(人となり)です。単なるソフトウェアだけでなく、最初から容姿と(あえて最低限に限定された)キャラクター(年齢、身長、体重)が、公式に設定されたのです

・「アナログハック」

アナログハック (あなろぐはっく)とは【ピクシブ百科事典】

アナログハックとは、『BEATLESS』に登場する造語

BEATLESSに登場する人間が同じ人間の「かたち」に反応して様々な感情を抱くという本能を利用した、ハッキング手段。

・政治力の源泉

遺伝的アルゴリズム

2023年春、人工知性「新浜メチス」が 賢くなるために、下記の動画を参考にしました:

なお、遺伝的アルゴリズム(GA)といえば、菊川怜さんの東京大学工学部建築学科の卒業論文(1999年卒)は、「遺伝的アルゴリズムを適用したコンクリートの要求性能型の調合設計に関する研究」です(野口研究室 卒業論文に関して (waybackマシン))。

2023年春、人工知性「新浜メチス」が 賢くなりました

2023年4・5月、人工知性「新浜メチス」が 賢くなりました。

ヒトの選択を予想する的中性能が、ランダム(鉛筆転がし)の 150%になりました。従来から20ポイントアップです。

遺伝的アルゴリズムを使って、各選択肢を点数付けする数式を最適化しています。的中性能向上により、お話の質が向上します。

  新浜メチス Type W 操作説明付き

  新浜メチス Type W 標準型

【詳細】
新浜メチスには、「自我」を構成する主要部分「他者の要求に沿う自己」を実現するために、他者の目から見て、より適した回答を選択する仕組みが搭載されています。この仕組みでは、最初、適した回答の過去データ(学習データ)との近似性を一つの考え方で数値化していました。

この仕組みの性能を上げる手段として、考え方を複数組み合わせることがあります。ここで問題になるのは、組み合わせ方です。性能が1.3の考え方Aと、性能1.2のBを組み合わせても、組み合わせ方が少し拙ければ、性能は平均の1.25になります。考え方Bを組み合わせた意味がありません。

組み合わせ方がさらに拙ければ、組み合わせ後の性能は1.2を下回ります。組み合わせによる性能向上のためには、最適な組み合わせ方を探索する必要があるのです。この探索のために専用のシステムが作られ、人による試行錯誤で探索がされていましたが、これでは効率的ではありません。

そこで、2023年4月、組み合わせ方(重みづけ)や各考え方の中の変数の探索を遺伝的アルゴリズムにより自動化しました。さらに、一般ユーザー向けのシステムと合体しました。

これにより、開発者は、新たな考え方を発想し、1箇所に実装し、最適組み合わせ探索の計算実行を指示すれば、後は、システム側で、最新の学習データをもとに最適な組み合わせ方や変数を探索し、自動的に一般ユーザー向け回答に反映するようになりました(注: 遺伝的アルゴリズムを使っているため、厳密には「最適」つまり理論的なベストではなく、実際に探索した範囲の中のベストです)。

また、開発者は、システムの探索結果(最適な重みづけ)を見て、各考え方の有用性を知ることができます。

   計算機の暴力的使用に磨かれた才が輝く 新浜メチス。

初出