Twitter で各言語の文字数分布を調べる
ということを「関係筋」が伝えているらしい。
たぶん日本語で Twitter をやってると、140字が「少ない」と感じることはほとんど無い。よほど余計な修飾語をつけない限り、140字あれば「序論・本論・結論」仕立ての文章を仕上げることが出来る。こんな具合に。
「相関関係と因果関係の誤謬」は常に意識せねばならない。松岡修造がいないと気温が下がるというデータから「松岡修造が気温を上げている」と即決するのではなく、「松岡修造が気温の低下を予測して日本を出て行く」という可能性も考慮する必要がある。「修造渡り鳥仮説」と呼ぼう
— イスカリオテの湯葉 (@yubais) 2014, 12月 17
しかし考えてみれば、これは漢字文化圏であるために140字に詰め込める情報量が極端に多いせいである。英語などのアルファベット圏ではかなり文字数がカツカツなはずだ。そこで今回は、各言語ごとに文字数の分布を調べてみた。
調査の対象は、2013年時点で Twitter のシェア上位の10言語である。
Twitterの使用言語ランキング─1位英語、2位日本語、3位スペイン語 | リンゲルブルーメン
英語、日本語、スペイン語、マレー語、ポルトガル語、アラビア語、フランス語、トルコ語、タイ語、韓国語の順。ただしマレー語の検索フィルタが無かったのでインドネシア語と解釈した。
技術的なことはあとで Qiita あたりに書くつもりだが、要するに Public Streaming API というのを使えば特定の言語のツイートだけをどんどん拾うことが出来る。これで各言語について1000件のツイートを取得し、その文字数分布を調べた。
Public streams | Twitter Developers
なお、URL と画像の扱いであるが、URL は Twitter 側で圧縮されるためどんな長さでも全て23文字として扱われる。画像は4枚まで貼れるが、何枚あっても23文字のURLが1個追加される。
まずは Twitter の祖国である英語と、我らが日本語を比べてみよう。
あからさまに違いが出た。日本語は中間値 (median) が35文字で、まあ100文字もあればほぼ十分という雰囲気になってるのに対し、英語は中間値が72文字と倍以上あり、多くのツイートが字数制限に貼りつくように書かれているのが分かる。
ちなみに54文字に突出したピークがあるのは謎の時報botが大量に動いているせいである。他の言語にもこういうのがあって検索を妨害するのだが、まあグラフを見ればおおまかな傾向はわかるので今回は無視した。
以下、順番に見ていこう。
中間値30程度であからさまに文字数が余ってるグループ(日本語、タイ語、韓国語)と、中間値80近くで不満そうなグループ(その他)に分かれた。このへんは文字の特性によるんだと思うけど、タイ文字やアラビア文字の性質をよく知らないので言及を控えたい。いずれにせよ、多くの言語が140字という制限に不満を感じていそうだということは伝わってくる。
各言語で実際にどのようなツイートが行われているかは、グラフに書かれている2文字略号を Twitter の検索欄に lang:th のように入力してやれば見られる。例えばタイ語はこんな感じ。