5月のギークサロン、「松尾豊氏と『ウェブと融合する人工知能の世界』について語る」の開催レポートをお送りします。レポーターは本間清司氏です。
松尾さんは、以前スタンフォードで人工知能を軸足にwebマイニングの研究をされていましたが、日本に戻った現在でも世界から見た日本というメンタリティを忘れずに日々研究に勤しんでいるそうです。
ウェブと人工知能の融合
人工知能 AI (Artificial Inteligence) は遡れば数十年の歴史があり、聡明期においては知識を明示的に書いて処理することに留まっていましたが、知識獲得のボトルネックのために冬の時代が長かったそうです。しかし、昨今のwebの広がりよって様々な形で知識が取り出せるようになり再注目を浴びつつあります。
webでの検索は基本的にキーワードベースですが、エンティティ(入力されたそれぞれの固有名詞)ごとに属性と属性値と呼ばれる構造を持っており、それらの関係性を記述していくことによりネットワークが構築されます。
この ” 意味ネットワーク ” を web mining によって自動的に抽出することができるようになり、ウェブと人工知能の融合が進むことになります。
google 検索の結果から可視化
次に具体的な例として、2人の名前で google 検索した結果からその2人の共著関係を推定し、social graph的に研究者のネットワークを図示する仕組みを説明されました。
google 検索した結果ページの特徴属性の判別精度を上げるために訓練データで学習をさせた場合、研究者の例で 80%〜90%ぐらいの精度で判別できるそうです。
n人のネットワークを表示しようとすると n^2のクエリーを出さなければいけないので、サーチ回数を減らすためにも名前を2人一緒に入れるのではなく、1人でサーチした結果の上位分だけ使用することによりオーダーが n^2 -> n になるといったスケーラビリティの工夫もされています。
しかし、同姓同名、多種のエンティティへの拡張、関係抽出(特定の関係性をどう抽出するか)、学習(どのようにパターン学習するか)といった、技術的な研究課題があります。
どれぐらい難しいかというと、属性抽出のワークショップにおいてその抽出精度を競う大会の優勝者でも属性抽出のF値は15%ぐらいで非常に難しいそうです。ちなみに質問にも挙がりましたが、F値とは Precision(システムが真と判断したうち、本当に真である割合) と Recall(そもそも真のものを真と正しく判断できる割合)の相乗平均です。
ソーシャルネットワーク・人物情報の抽出
上記のような 関係を抽出する技術を用い、氏は2003年より人工知能学会においてPOLYPHONETという LinkedInのような研究者間の関係支援システムを運営されており、アーティスト間や企業間などの関係性抽出にも応用できるそうです。
氏の開発したこの技術は、「あの人検索SPYSEE」というサービスでも利用されている。
サービス開始時の10万人はwikiから選別し、現在80万人の人物検索が可能になっているそうです。PVも順調に伸びていますが、ビジネスとしてはまだ具体的なモデルがまだなく、広告が主な収益源だそうです。
また、才能ある人を応援したい人々から少額寄付を集めて応援する仕組みの Cheering SPYSEE というサービスも昨年開始し、現在25名を支援されています。
大量データから社会現象の予測
サロンの話題も佳境にさしかかり、「ブログから選挙結果を予測」する例を挙げて説明されました。実は、得票数とブログでの言及数には高い相関があり、氏があるデータの説明を行っている時は一同が興味深く注目していました。
次に、このサロン前週にweb系国際会議で発表してきたホットなネタとして「Twitter を用いた地震速報」の例を紹介されました。600個の訓練データで、あるつぶやきが本当に地震が来たかどうか約60%の精度で判断することができるそうです。さらに、つぶやきが起きた地域と時間差を考慮すると震源地の予測も可能で、地震が発生してから最短20秒程度でメールで知らせることもできるといいます。
ウェブ学会について
W3Cが開催するウェブ系でトップの学会で、採択率10%、日本からは例年4〜5件、氏はここ5年で6本通しているそうです。webの歴史は15年程度と浅いため、学術コミュニティでも認知が弱く、氏はそのために尽力していきたいと語られていた。私もウェブの学会があることを知らなかったので、今後はたまに論文を読みたいと思いました。
今後の目標
これまでの50年間の AIは、計算機パワーもデータの量も少なかったので、限られたリソースの中での研究でした。しかし現在ではそれらのボトルネックが解消されつつあるので、アルゴリズムを考えることが課題とされます。
AIの核である機械学習を実現する上で一番難しいのは、どういった軸を取るかという「属性を生成する」ことだそうです。適切な属性が見つかれば学習は一気に進み、人間が自然に行ってる学習の能力、つまり「分ける」という中心的な処理をコンピュータ上で実現することが氏の最終目標だそうです。
氏曰く、機械と人間の最大の違いは「何かに気づく」かどうか。それこそ日常当たり前に行っていることは言われなければわからないが、気づくことが人間のアイデンティだなと再認識しました。
裏サロンでは、ノーベル賞を取るような頭脳の持ち主が言語化して考える人とそうではない人の例の話から脳科学の話題に至り、会場の討論も白熱したままタイムアウト。興味のつきないサロンでした。
コメントは停止中です。