【第18回数学カフェ】【確率・統計・機械学習回】

講演者

TwitterID: Kenmatsu4 さん(まつけんさん)

プログラマのための技術情報共有サイト「Qiita」にて、記事投稿ユーザー23674人のうち「いいね」の数でランキング32位を獲得されています。
https://qiita-user-ranking.herokuapp.com/?page=2

本講演では、主に確率、統計の初心者の方や、プログラマ、エンジニアの方でデータ分析に興味を持っている方が確率統計のエッセンスを数理的に理解できることを目標に、データの集約方法から、大数の法則や中心極限定理など、確率・統計で利用される非常に重要な数学の定理などを紹介します。

TwitterID: delta2323_ さん(大野健太さん)

数学科出身で、ニューラルネットワークのライブラリー Chainer の開発者の一人です。本講演では数学に興味を持つ方を対象として、機械学習・深層学習の導入と深層学習の理論解析に関する最近の結果を紹介します。

内容

まつけんさん

機械学習、特にディープラーニングの人気の高まりとともに、近年データアナリティクスにスポットライトが当たっています。データを扱うためには確率・統計の基本知識は欠かせません。機械学習の手法も確率的なバックグラウンドを持つものが多数あります。コンピューターが発達した現代では、計算自体は実行してしまえば結果が出ますが、その結果値の解釈をするためには何が行われてその値が出力されているか仕組みを理解することが重要です。そのためには確率統計の道具の数理的理解が非常に役に立ちます。

データ分析の目的は、

  • 手持ちのデータをシンプルに集約して概要を知りたい
  • まだ手に入っていないデータの推測をしたい
  • 手持ちのデータが生み出される構造を知りたい
  • グループ間に差異があるか知りたい

など様々で、それぞれ使われる道具が異なります。なぜ統計を学ぶために確率が必要か疑問に思う方も中にはいるかもしれませんが、推測を行うということは不確実性を扱うことになるため確率的なアプローチが必要となってくるのです。ランダムな事象を、ある種決定的な数式という表現形式でどのように捉えていくのか、確率の概念は非常に興味深いものです。実用的な目的だけでなく、数学的な美しさも感じられると考えています。

本講演では、主に確率、統計の初心者の方や、プログラマ、エンジニアの方でデータ分析に興味を持っている方が確率統計のエッセンスを数理的に理解できることを目標に、データの集約方法から、大数の法則や中心極限定理など、確率・統計で利用される非常に重要な数学の定理などを紹介します。
データ分析はその数式に基づきデータを流して計算することが非常に重要であるため、数式の解説だけでなくPythonなどのプログラミング言語を用いたデモンストレーションを用いて、確率統計の手法や理論に対して直感を養うことも目的としています。

大野さん

本講演では数学に興味を持つ方を対象として、機械学習・深層学習の導入と深層学習の理論解析に関する最近の結果を紹介します。

機械学習は情報科学の一分野で、人間が行うような「判断」を計算機にも行わせるための技術の総称です。典型的には、与えられたデータから特徴・傾向・法則などを抽出して何らかのモデルを構築する学習(訓練とも言う)を行った後、未知のデータに対してモデルを適用する予測(推論とも言う)を行います。近年、計算機・インターネット・様々なデバイスが発達し大量のデータが取得できるようになりました。その結果、データから知見を得たいというニーズが高まり、その実現技術として機械学習は様々な産業分野に応用されています。

本講演では、まず機械学習(特に頻度論の立場での教師あり学習)の問題設定を定式化します。その中で、損失関数・訓練誤差・汎化誤差など、機械学習において重要な概念も導入します。
機械学習の理論的な側面に関しては素晴らしい本が多数存在します。しかし、定義・定理・証明と整理されている数学の教科書とは異なり、何を仮定しているかが明示されていなかったり、関数に定義域が書かれていなかったりなど、数学を専攻してきた人には慣れないと最初は読みにくいかもしれません。また、(大学)数学を専攻していない方の中には、数式の羅列に圧倒される方も多くいるかもしれません。そのギャップをなるべく解消し、機械学習の理論面を扱う本を読みやすくすることを目標とします。

本講演の後半では、深層学習の理論的解析に関して、最近の結果を紹介します。
深層学習は機械学習の一分野で、予測モデルとして、単純な変換を何回も適用する「深い」計算グラフを利用するのを特徴とします。2009年の音声認識・2012年の画像認識のコンテストなどを契機に注目を浴び、そのブームは2017年の現在でも続いています。
深層学習は、当初実用的には高い予測精度を実現した事で注目を浴び、精度のさらなる改善や学習速度向上のために様々なヒューリスティックが提案されてきました。しかし、なぜそのような予測精度を達成できるかについての理論的な説明は乏しく、現在でも多くの未解決問題が残っています。それでも、様々な研究者が得意分野の道具を持ち寄って、深層学習の理論解析が現在進行系で進めています。予測モデルの汎化誤差は「汎化誤差の下限」「近似誤差」「推定誤差」「最適化誤差」の4つに分解できます[Bottou+11][得居15]。本講演でもこの分解になぞって最近の結果を紹介します。また、特にその中の1つを詳しく解説する予定です(深層学習モデルが作る損失関数のlandscapeについて話そうと思っています)。

参考文献

  • mathtakeさんのブログ記事「Deep Learningの理論的論文リスト」 2017年3月29日閲覧
    http://mathetake.hatenablog.com/entry/2016/12/20/005632
  • [Bottou+11] L. Bottou and O. Bousquet, “The tradeoffs of large scale learning,” In Optimization for Machine Learning, MIT Press, pp. 351–368, 2011.
  • [得居15] 得居誠也. (2015). 最適化から見たディープラーニングの考え方 (< 特集> ニューロサイエンスと数理モデリング). オペレーションズ・リサーチ: 経営の科学, 60(4), 191-197.

パネルディスカッション

数学カフェは、すでに研究されていることをお話しするだけでなく、今後どういった課題が考えうるか、創造的な議論が出来る場にしたいと思っています。従来は参加者のみんなで自由に議論するスタイルをとっていましたが、今回は規模も大きいため、パネリストの方々をお迎えしてパネルディスカッションの時間を設けました。

  • 前半 (20分間)「今後機械学習の理論はどのように進展していくか?」
    微分幾何学専攻から機械学習の分野に進まれたMathetakeさん(六本木某所のエンジニア)をお招きし、講師の大野さんと議論していただきます。たとえば幾何的な目線で機械学習の理論を捉えると、どんな世界が広がって見えるのでしょうか?とても楽しみです!
  • 後半 (10分間)「確率・統計の知識と機械学習をどう結びつけるか?」
    機械学習の理論を習得するにあたって、確率・統計学の基本的な知識からの隔たりに戸惑う方も多くいらっしゃるかもしれません。本パートでは、確率・統計や保険数理に関する著作多数であり、機械学習も含めた関連諸分野に関する講師経験も豊富な岩沢宏和先生をお迎えし、講師の大野さんと共に議論をしていただきます。

パネリスト

TwitterID: MATHETAKE さん
  • 数学科出身
  • 学生時代の専門はSymplectic幾何学。特に4次元のhyper-Kähler多様体の性質について研究。
  • 修論テーマが早く決まりすぎ&結果が出て暇だったので、数理ファイナンスの勉強していたらいつの間にか機械学習にハマってしまい、純粋数学の人ならではの視点から機械学習を開設するブログを開設。
  • Twitterで誰か雇ってくれ、と呟いたところ複数社からダイレクトメッセージが届きTwitter就活をする。
  • 現在六本木某所で機械学習エンジニアとして勤務。

ブログのURL: http://mathetake.hatenablog.com/

岩沢宏和さん

現在、日本アクチュアリー会、損害保険事業総合研究所などで、アクチュアリー関連講座の講師を務めている。また、東京大学大学院経済学研究科でも学部との共通講義「保険数理II」の講師を務めている。

  • 日本保険年金リスク学会(JARIP)理事。
  • パズル・デザイナーとしての顔ももち、 国際パズルデザインコンペティションにてパズル・オブ・ザ・イヤー(2008年)、パズラーズ・ アウォード(2012年)など多数受賞。
  • 米NPO法人International Puzzle Collectors Associationアジア地区プレジデント。
  • 主な著書:『リスク・セオリーの基礎』、『損害保険数理』(共著)、『分布からはじめる確率・統計入門』、『リスクを知るための確率・統計入門』、『世界を変えた確率と統計のからくり134話』、『確率パズルの迷宮』、『確率のエッセンス』など多数。

タイムテーブル

時間は目安です。

時間 内容 担当
13:00-13:10 開会あいさつ 主催者
13:15-14:15 講演1 まつけんさん
14:30-15:30 講演1 まつけんさん
15:30-15:45 質疑等 まつけんさん
16:00-17:00 講演2 大野さん
17:10-18:10 講演2 大野さん
18:10-18:20 質疑等 大野さん
18:25-18:55 パネルディスカッション パネリストの方々

注意事項

お申込みにあたっては、会場のセキュリティの観点から、本名とご所属をお教えください。入場以外の使途には用いませんのでご安心くださいませ。

当日は身分証明書をご提示頂く必要があります。お忘れのないようにお願い致します。

皆様にお会い出来るのを楽しみにしております。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です