【講演ノート】【第36回#1】関係データ解析へのランダム行列理論の応用

第36回数学カフェの講演ノートを公開します.

講演者:渡邊千紘さん:HP

※ご所属は講演当時のものです.現在は博士号取得されています.

(NTTコミュニケーション科学基礎研究所・東京大学)

2015年3月に東京大学大学院 情報理工学系研究科 システム情報学専攻修了.
2015年4月より,NTTコミュニケーション科学基礎研究所 メディア情報研究部メディア認識研究グループに所属.
2019年4月より,東京大学大学院 情報理工学系研究科数理情報学専攻にて,博士後期課程在学中.
専門は機械学習・統計学.特に関係データ解析(ブロックモデル,matrix reordering)やニューラルネットワークモデルにおける解釈可能性など.

講演概要

機械学習は,計算機科学の一分野で,大量のデータを解析・理解し,機械に対して高度なタスクを行わせるための技術です.自動運転・ゲームAI・生物学など近年様々な領域で応用されるなど,産業界から注目を集めています.それと同時に,その技術発展を支える基礎理論の研究も,日進月歩の進歩を遂げています.

第36回数学カフェでは,機械学習に関して第一線で研究をされている3名の先生方(渡邊千紘先生・今泉允聡先生・田中章詞先生)を招待し,機械学習の数理に関してご講演をしていただきます(講演日時は下記スケジュールをご参照ください).今回の講演会#1では渡邊千紘先生にご講演いただきます.

関係データとは,一般に異なる2つのものの間の関係を表す行列形式のデータであり,実世界には様々な関係データが存在しています.例えば,顧客と商品の間の購買データ(各行が1人の顧客,各列が1つの商品に対応し,行列の(i, j)成分が顧客iによる商品jの購入回数を表す)などが関係データにあたります.

関係データの解析において,行・列がそれぞれクラスタ(グループ)構造を持つと仮定したモデルであるLatent Block Model (LBM)が有用であることが知られています.上の例では,これは商品の購入傾向が似ている顧客同士のグループが存在すること,また同じユーザから購入されやすい商品のグループが存在することを仮定することに相当し,与えられた行列データからこれらの行・列クラスタ割り当てを推定することで,推薦システム等への応用が可能です.

与えられた行列データに対してLBMを仮定し,行・列のクラスタ割り当てを推定する問題は共クラスタリングと呼ばれ,多くのアルゴリズムが提案されていますが,共クラスタリングを行う際には,基本的に行・列のクラスタ数を事前に決めておく必要があります.そのため,共クラスタリングの手法自体に加え,与えられたクラスタ数の妥当性を検証するための手法を構築することは重要な課題です.

本講演では,特にLBMのクラスタ数に対して統計的検定を行うための手法を紹介します.このような検定の漸近的な(=行列サイズm→∞の極限における)妥当性を証明する際に,ランダム行列理論における結果を用います.

特に,
ある条件を満たすランダム行列Zから定義されるサンプル共分散行列Z^TZの最大固有値(を正規化したもの)が行列サイズm→∞の極限でindex 1のTracy-Widom分布に法則収束すること [1] 上記のサンプル共分散行列Z^T Zの固有ベクトルがdelocalization propertyと呼ばれる性質を持つこと [2] が重要で,これらの性質を用いてLBMのクラスタ数の検定で用いる検定統計量の漸近的な挙動を導くことができます.
本講演では,検定の手順や適用結果,検定統計量の性質に加え,上記のランダム行列理論における結果が証明中のどこでどのように利用されているかなどを紹介したいと思います.

参考文献

Chihiro Watanabe and Taiji Suzuki, Goodness-of-fit Test for Latent Block Models. Computational Statistics & Data Analysis, Vol. 154 (2021), pp. 107090. arXiv:1906.03886. 2019.
統計学の基礎について:Aad van der Vaart, Asymptotic Statistics, Cambridge University Press (1998), ~pp. 13など
ランダム行列の性質について:Terence Tao, Topics in random matrix theory, American Mathematical Society, 2012. など
[1] Natesh S Pillai and Jun Yin, Universality of covariance matrices. Annals of Applied Probability, Vol. 24 (3) (2014), pp. 935–1001.
[2] Alex Bloemendal, Antti Knowles, Horng-Tzer Yau, and Jun Yin, On the principal components of sample covariance matrices. Probability Theory and Related Fields, Vol. 164 (2016), pp. 459–552.

イベントは終了しています。

第36回数学カフェ申し込みサイト:概要などが記載されています。

講演ノート

※ファイルのロードに多少のお時間をいただきます。