Written by
SD/T

トピックモデル:平衡状態にあるトピック群のサンプリング

トピックモデルは複数の文書データに共通のトピック群を探す手法で、文章の中で言語的に固定された単語や意味カテゴリではなく、複数の単語の共起性によって創発される潜在的意味を抽出してくれます。このページではSEEDATA Technologiesの広本と鳥居が、トピックモデルにおけるサンプリング近似法の理論的背景を説明します。

(1) トピックモデルにおけるギブスサンプリング

トピックモデルの解法で用いられるギブスサンプリングは、マルコフ連鎖モンテカルロ法(MCMC法)の一つです。ここでいうサンプリングとは、各文書のトピックや各単語の潜在変数の母集団たるディリクレ分布から、確率的に標本を取り出す事を指しています。ディリクレ分布については、文書データ間の多様性と文書データ内のトピック多様性に着目して考察しました。

トピックモデル:ハイパーパラメタの解釈

また、これらのハイパーパラメタのステップ依存性を以下で考察し、ステップを重ねるごとに収束していくことも確認しました。

トピックモデル:トピックの収束性

では、このハイパーパラメタはなぜ収束するのでしょうか。またトピック分布を求めるために、アルゴリズムの中はどのような条件に従ってサンプリングを行なっているのでしょうか。

(2) マルコフ連鎖とトピックの平衡状態

まず、マルコフ連鎖モンテカルロ法について考えましょう。マルコフ連鎖とは、ある状態間のステップについて、直前の状態に依存した確率分布で次の状態が決まるようなモデルを指し、トピックモデルにおける「状態」はトピックに当たります。ある文章について、NステップでN回トピックを遷移した場合を考えると、その確率は以下のようになります。

Xiは、iステップ目におけるトピックです。左辺は、まさにN回トピックを遷移した場合の確率であり、右辺はステップごとでトピックがXiからXi+1へ遷移し、その遷移確率Tを掛け合わせたものとなっています。マルコフ連鎖は、これらが等式で結ばれているモデルとなります。つまり、ギブスサンプリングでトピックというラベルをつける文書は、ステップごとにトピック間(状態間)を以下のように遷移すると考えることができます。

上の矢印は文書の流れを表していますが、完全な図ではありません。というのも、あらゆるトピック間を矢印で繋ぐ必要があるためです。あるステップでトピック1であった文書は、トピック1に留まることも含めて全てのトピックに遷移する可能性があり、またトピック1に流入してくる文書も、どのようなトピックからでも遷移してくる可能性があります。

マルコフ連鎖は、直前の状態にしか依存しないので、例えば文書がトピック1から4に移動する時は、1ステップ前にトピック1にあったという事実にしか影響しません。この場合遷移確率は、トピック1以前の全ての状態を記憶していないのです。そしてその遷移確率が、LDAではディリクレ分布にしたがって決定されています。それでは、実際にマルコフ連鎖でトピックモデルを考えるときに必要な以下の条件を用いて、遷移確率について考えていきましょう。

(3) 定常分布と詳細釣り合いの式

ステップを経て計算された結果は、未知の分布、つまり文書や単語がどのようなトピック分布を持っているのかを再現する必要があります。また、母集団は潜在的にディリクレ分布に従っており、文書集合についてトピックの分布は一意に決まっているものでなければなりません。従って、トピックはマルコフ連鎖のステップによらず、定常分布となる必要があります。サンプリングにおいては、あるトピックkから見たとき、1ステップで新たにトピックkにラベリングされる文書数(流入量)と、kから別のトピックにラベリングされる文書量(流出量)の間に以下のような関係が考えられます。

従って、定常分布となるためには流出量と流入量が釣り合う必要があり、以下のような式が任意のトピックkとk’の間に成り立つことが平衡状態の十分条件となります。

この式は詳細釣り合いの式と呼ばれ、この式に従って遷移確率を決めることで定常的な分布を最終的に再現することが可能になります。

(4) サンプリングにおける注意点

詳細釣り合いを満たすように遷移確率を指定すれば、確かに定常的な分布を再現するようになるのですが、ここで注意点があります。以下は、トピックモデル:トピックの収束性でも紹介した、ハイパーパラメタのステップ依存性のグラフです。

これを見ると、初期状態が異なっていても、ステップを重ねることでハイパーパラメタが収束していることがわかります。パラメタが収束すれば、ディリクレ分布も定常的になっているため、確かにこのアルゴリズムは詳細釣り合いを満たしていると確認できます。このグラフからは、収束のためには少なくとも60モンテカルロステップほどを要すると見積もることが。

つまりサンプリングは、ある程度のステップを重ねることで初めて初期条件によらない、本来の定常分布を再現するのです。初期条件の影響を強く受けた期間、つまりグラフにおいては初めの60MCSほどをバーンイン期間と呼びます。この期間の長さはデータや手法によっても異なるので、サンプリングをする際には収束性について必ず確認するようにしましょう。

今回は、トピックモデルに基づいたMCMC法の基本的な事項と、サンプリングにおける注意点を説明しました。次回は、これまでの総まとめとしてトピックモデルのグラフィカルモデルと実際のサンプリングを視覚的に理解していきましょう。

【この記事の作成者】

鳥居健次郎、広本拓麻:SEEDATA Technologies

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です