日本国内外の先端事例や生活者トレンドをSEEDATA独自の視点で分析し、ブログ形式で配信しています。News

Written by
広本 拓麻
SEEDATA Technologies

因子分析:潜在変数の平均値と消費者異質性の対応

[mathjax]

因子分析はマーケティングや心理学・教育学において広く用いられる多変数解析の手法で、大量のデータの背後にある潜在的な共通因子を抽出することができます。SEEDATAではこの手法を様々なデータで適用し、定性リサーチのヒントとしており、従来の調査手法とは異なる独自の分析を行なっています。このブログでは因子分析の応用として、消費者異質性になぞらえた個人データのセグメンテーションについて解説していきます。

1. 潜在変数によるマクロな市場の分解


 前回は、潜在変数を仮定したモデルにおける求解に有効な手法である、EMアルゴリズムを紹介しました。(因子分析:EMアルゴリズムを用いたパラメタ推定の基礎) 不完全データの尤度関数の導出や、Mステップにおける最大化の手順は、スタンフォード大のAndrew Ng氏がまとめている講義資料[1]などをご覧いただければと思います。このブログでは因子分析の応用として、潜在変数により個人をクラスタリングし、マーケティング戦略上のターゲットを絞る手順について説明していきます。

1.1 消費者異質性と因子分析の関係

 因子分析の枠組みが、マーケティング上どのように有用なのかについて解説していきます。現代は人々の価値観が多様化し、その消費行動も細分化されたことで、 画一的なマーケティングはもはや通用しない時代となっています。加えて、SNSやIoTの拡大によって、人々の消費行動やインサイトを反映したデータ量が爆発的に増加しています。

 このような状況では従来のマス・マーケティングではなく、消費者のニーズを明確に捉えて個に特化した、細分化されたマーケティングが求められています。従って、消費者一人一人は異質だということを認め、一見して同じような消費行動においても、それらの背景にある個人ごとの潜在的な意識の違いについて考えることが求められます。この異質性とは、この記事を見ている人々の動機を例に取れば、以下のように考えることができます。

 同じページに訪れたとしても、そのモチベーションは人によって異なるでしょう。例えばAさんはマーケティングについて知見を深めるためであり、因子分析をあわよくば活用したいと考えているようです。Bさんは因子分析というより、メインとしてSEEDATAのテクノロジーチームに関心があり、マーケティングの数学的背景にも興味を持っています。

 これは通常の消費行動についても同様であり、背景にある潜在的な因子を明らかにすることが、一見すると画一的な消費者の振る舞いを、より深く分析することにつながります。この潜在的な因子というのが、因子分析における潜在変数にそのまま対応します。つまり上記の例では潜在因子の数は4つであり、各個人が持つ潜在変数(z_i)から個人の潜在的な意識を特定することができます。

1.2 マクロな市場の分解

 各個人について潜在変数が得られたとしても、ひとりひとりに対応した商品やサービスの開発は不可能でしょう。あくまで消費者異質性や潜在変数を導入した目的としては、例えばN=100000程のマクロな市場についてその解像度を高めて分析することで、4,5個のミクロな市場に分解することです。先述の例で言えば、「このブログの読者」という大雑把な集合から「因子分析に興味がある層」「マーケティングに興味がある層」などと異質性によって読者を分解することに当たります。

 もちろん個人の中でもモチベーションは様々ですが、グルーピングをするときには、その動機づけとして最もドミナントなものを人ごとにラベリングすれば良いでしょう。つまり、先述のAさんはマーケティングの勉強のために来たという要因が最も強いため、そのグループに属するということになります。

 これが通常のマス・マーケティングにおいては一括りにして考えてしまうため、開発した商品の訴求がうまく刺さっていないということが起こります。細かいニーズに対して、逆に商品数を増やすことで対応しようとする企業もありますが、消費者からすると選択の負荷が高まり、これが逆に離脱の原因となることも考えられます。つまりこのブログも、以上のような読者層が実際にあるとすれば、数式に普段触れていない人が理解できるようなコンテンツと、式展開を繰り返す回を意識的に分けて書く必要があるということです。

2. 個人データのクラスタリング


2.1 因子分析における潜在変数の取り扱い

 それでは実際にデータをクラスタリングするために、因子分析のモデルについておさらいしましょう。因子分析は雑多で多次元の観測データを、より解釈しやすい低次元の潜在変数へと変換する役割があります。(因子分析:基本表式とパラメタ・変数の定性的意味、データ内の異質性に基づいたモデル) この中で有用な量として、全データに共通のパラメタである因子負荷量と、個人ごとに異なる潜在変数がありました。

 しかし、EMアルゴリズムを用いた解法においては、潜在変数(z_i)をあらわに扱うことはありません。そこで、Eステップにおいて事後分布(p(boldsymbol{rm Z}|boldsymbol{rm X},boldsymbol{theta}))を計算した際に得られる、分布の平均値(mu_{z_i|x_i})を用いてクラスタリングすることを考えます。先述の通り、潜在変数の事前分布は正規分布に従うので、事後分布(p(boldsymbol{rm Z}|boldsymbol{rm X},boldsymbol{theta}))は以下のように置くことができます。

begin{eqnarray}
p(boldsymbol{rm Z}|boldsymbol{rm X},boldsymbol{theta})=N(mu_{z_i|x_i},Phi_{z_i|x_i})tag{2}
end{eqnarray}

 実際EMアルゴリズムでは完全データをあらわに扱うことなく、分布の期待値を求めることで、尤度関数の最大化を行っていることに注意しましょう。分布は個人ごとに異なっており、この平均値(mu_{z_i|x_i})が、マーケティング上重要な消費者異質性をデータから抽出する際に参照する量となります。

2.2 潜在変数の分布の平均値によるクラスタリング

因子数を(m)とすると、個人は潜在変数が従う分布の平均値(mu_{z_i|x_i})を用いて(m)次元空間における1点として据えることができるでしょう。

 この空間上でクラスタリングを行えば、全データを潜在因子という切り口でいくつかの集団に分けることが可能になります。重要なのは、これらのクラスターごとでとのような特性があるかということ、つまり市場の例でいうところのラベリングを行う必要があるということです。この時は、クラスターごとの(mu_{z_i|x_i})の平均値を見れば良いでしょう。もともと潜在変数としては平均0の正規分布に従っていたため、あるクラスターにおいて因子ごとで平均値を比べたときに、その絶対値が大きい因子がクラスターを代表するファクターとして考えることができます。

まとめ


 今回は因子分析がマーケティングにおいて実際どのような意義を持つかについて論じ、実際にミクロな市場の把握という目的に対して、潜在因子の平均値を用いたクラスタリングの手順を簡単に説明しました。次回は実践編として、簡単なオープンデータを利用して実際にいクラスタリングを行い、潜在因子としてどのような要素があるかということについて解説していきたいと思います。

参考文献
[1]AndrewNg, CS229 Lecture notes, Lecture X “FactorAnalysis”,<http://cs229.stanford.edu/notes/cs229-notes9.pdf>
[2]佐藤忠彦, “ビッグデータ時代のマーケティング―ベイジアンモデリングの活用”

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です