みなさん、こんにちは。
先日の柴田尚樹さんのサロンのレポートをお送りします。
レポーターは山本顕範さんです。


人類の全科学知識を整理する技術「知の構造化」
柴田 尚樹さん (Naoki Shibata, Ph.D)
東京大学 助教, スタンフォード大学 客員研究員, (楽天株式会社 執行役員)
知の構造化とは

東大の前学長の小宮山先生による話で「科学が進化すればするほど、最先端の学術研究は細分化し、論文の量は膨大になる。したがって専門家であってもある学術分野の全体像が分からなくなってしまう状況は深刻な問題を引き起こす。その結果政府も企業も間違った投資が行われてしまったり、研究がニーズに対応した方向に進まないだけでなく、学問間の融合が起こりにくくなる。ついてはある学術領域の全体像を見えるようにする方法論を作りたい。」という話が発端との事。
これを「知の構造化(Structuring Knowledge)」と呼び、中でも、学術知識を対象にした「知の構造化」を「学術俯瞰」と呼ぶそうです。


調べる方法としては大きく分けて3つしかなくて、Domain Experts(専門家に聞く), Computer BasedでText miningとLink miningが大まかにあって、Domain Expertsは恣意性や処理量の問題があり、Text miningは抽出の困難性や専門知識の問題、Link miningはLinkの均一性や時差の問題があるそうです。
しかし例えば太陽電池に関する分野でも論文は年間3000本も出されるので専門家にまかせても全部読破できるのは不可能で,link miningが一番良く、text miningを併せて使えば良さそうという事が判ったそうです。
link miningとは2000年前後にネットワーク分析が流行し、そのうち2つの本が学説として有名で
“Six degrees of separation” (by Stanley Milgram, 1967)
“Small-world network” (by Duncan Watts, 1998)
このうちStanleyはノーベル賞をそのうち取るだろうと柴田さんは考えている程の革命的な学説だそうです。
その中で語られているのは「人は自分の知り合いを6人介すと世界中の人々と知り合いになれる。」”Small-world network” (by Duncan Watts, 1998)というのがあって、そのようなことが現実に起こる為には
1.自分自身の近くで密に結合し合っている、つまりタモリ式の友達の友達が友達である確率が高い(クラスタリング係数が大きい)にも関わらず、
2.異なるグループ間をつなぐリンク、つまりショートカットを持つ人がいる(平均パス長が小さい)からである。
という2つの基本的なルールがあるそうです。
学術俯瞰

手順としては書誌情報をダウンロード,
文献間のネットワークを引用関係から構築、クラスタリングを抽出して可視化、そこからトピックを抽出という方法だそうです。可視化する為にはLarge Graph Layout (LGL)という局所最適ばねモデルという方法でゴム紐状に繋げて行くことで固まりを表し、同じクラスタ内のリンクを色分けする事で擬似的につぶした様な状態の図に纏め、トピックの抽出にはNC-Value法というやり方でアブストラクトから特徴語を取り出し、tf-idf法という方法でクラスターの特徴語を見つけて行くという手法だそうです。
こうして可視化した図を見てみると例えば 再生医療(Regenerative Medicine)の場合には大きく3つ程の色分けが見られて,それぞれES Cell, iPS Cell等の語で纏められるクラスタがみえてきます。また 太陽電池(Solar Cells)の場合なら,大きく4つのトピックがでてきます。トピックに応じて階層的にクラスタリングも可能で,太陽電池の場合には4つのおおきなクラスタリングの中をさらに分けてみて行く事も可能です。また学術領域の進化には2つの形態があり,一つの塊まりがどんどん大きくなる場合と新しい新興クラスターが分離されて独立して行くパターンがあるようです。
これらの手法を使って新興学術分野を早期発見するのに使えないかと考えているそうです。
産業化チャンス領域の早期発見
テクノロジーイノベーションは、科学(Science)->技術(Technology)->産業(Industry)の順に知識が伝搬して起こるので科学レイヤーには存在するが、技術レイヤーにはまだ存在していない領域を「産業化チャンス領域」名付け、既に論文にはなっているが、特許になっていない領域を自動的に発見したい。ScienceとTechnologyのギャップは産業側から見ればチャンスになり得るとのことです。
やり方は学術俯瞰とほぼ同じで論文クラスターと特許クラスターの意味的な近さ(Semantic Similarity)を測定していくことになります。
太陽電池の場合なら論文レイヤーのdye-sensitized(色素増感)、polymer(ポリマー)系の太陽電池は、まだ特許がほとんどない。論文はより基礎的、特許は応用的な周辺技術が多いのでdye-sensitized(色素増感)polymer(ポリマー)系の太陽電池は今後チャンスがある領域と考えられ,論文クラスターと特許クラスターの意味的な近さ測定を自動化できれば、そこに投資をするかの判断材料になるのではないかとのことです。
こうしていくつかの例を実際に可視化して見せていただくととても面白い事がみえてきました。
例えばSNSの可視化をしてみると散漫に殆ど均一化されていて、部分が殆ど分けられない状態になる事や、浜松の産業構造等はいくつかの大企業が中核になっている事、Silicon
Valleyの投資ネットワークの場合にはいくつか他のVCとは明らかに違う特徴が見いだせる物がある等,感覚的には掴んでるような事を実際に図で視覚化されるだけでなく、興味深い図がふんだんにでてきて非常に興味深かったです。
データの取得と処理に相当の時間がかかるようですが,こういう形で図に可視化するという最終的に非常に解りやすい形で俯瞰できるのは非常に面白かったです。