みなさん、こんにちは。6月のギークサロン「丹羽善将氏とTwitterのローカリゼーションについて語る」のレポートをお送りします。レポーターは湯浅敬氏です。
geek-niw.jpg


丹羽さん自己紹介
2006年在学中に点スイッチ社を設立、 2007年慶應大学SFC卒業、2010年San Franciscoに引っ越し、Twitterに入社。 2007年にSIGGRAPHのために渡米した際に、シリコンバレーに寄り、JTPA のギークサロンに参加した。その後2009年のJTPAカンファレンスに参加するなど、JTPAとの縁も深い。


Twitterで働くこと
Twitter社はSan FranciscoのSOMAにある。会社には個室はなく、フラットでオープンな雰囲気。ミーティングルームは40個以上あり、それぞれ鳥の名前がついている。名前と場所を覚えるのが大変。朝と昼ご飯が出る。従業員は200人以上いて、社員は皆MacBookを持っている。カスタマイズしている。毎週金曜日にTea Timeというミーティング。酒、DJが来て騒ぐ。オープンで楽しくWork hard, Be nice。
Twitterの国際化、その成長と手法
現在60%以上のアカウントがアメリカ外で登録されている。外国語ではスペイン語に対応したが、今年2月にチリの地震のあと登録が増え災害時に便利なツールであることが認識された。日本では、今年1月から急激にユーザが増えた。
Twitterは世界中でユーザを増やしたい意向である。フランス語、イタリア語、ドイツ語、スペイン語それに日本語対応のエンジニアを雇っているが、基本的にシステムの説明やコマンドの翻訳は、 ユーザのコミュニティを使っている。
その理由は会社が翻訳に使う予算がなかったこと。しかし、オープンソースを使っているため、ユーザの中にボランティアで 翻訳したい人がいっぱいいた。また、Twitter独特の言葉や用語が数多くあり、外部の翻訳会社に任せられないという理由があった。
Twitterは原文(英語)に対して単語の候補を上げたり、翻訳者が翻訳語を選択したり書き込んだりするインターフェイスを提供し、Translator(翻訳者)アカウントを持つユーザが翻訳をしている。この方式では、翻訳の候補に対して議論したり評価を与えることでよりよい翻訳を作ることができる。逆に時間がかかること、長文や法律などの難しい文章には、ボランティアが出て来ないという問題もある。またボランティアの翻訳者チームを管理することも大変である。
文字コードの話
文字をコンピュータが扱うには、文字集合と符号化方式の2つの概念が用いられる。 UnicodeやJIS X0208は文字集合であり、UTF-8やShift JISは符号化方式である。
Twitterではどの言語に対しても「140文字」を提供している。元々は SNSの文字数制限(160文字)に制御文字などを考慮してASCIIで140文字としたが、その後国際化する際に、別の言語でも140文字を提供することになった。そのため英語やドイツ語などは不利で、日本語や中国語の方が多くのことを書くことができる。140文字の数え方は、「UnicodeでCanonicalに最も短くなるように正規化している」具体的にはNFC (Normalize Form C)で符号化して文字数を140文字にしている。
Twitterのローカリゼージョン 日本の携帯電話のサポート
日本人は携帯が好きで、85%のインターネットユーザが携帯を使っている。日本に進出するには、この携帯電話に対応する必要がある。しかし、ケータイは技術も文化も異なる。さらに3つあるキャリア(DoCoMo、au、ソフトバンク)が異なる技術を使っている。
さらに多くの携帯端末でCookieが使えなかったり、JPEGをレンダリングできない機種があったり、絵文字がキャリアによって違うなどの問題がある。
絵文字については3社が独自にUnicodeセットを作ったが、対応がバラバラでauとソフトバンクで重なる部分が出るなどの問題があった。Google社が2007年に絵文字の統一コードを提案している。Twitterでは発信元のキャリアを割り出し、そこからGoogleのUnicodeへの変換を行っている。
Twitterは日本では特にケータイに広まり、ソフトバンクが Twitter対応の携帯を発表している。また写真投稿など日本独自の機能も提供している。一方、ハッシュタグなどに日本語が使えないなど、課題も残っている。