1400字制限

最近の記事のほとんどが1400字を超えているのでタイトル無視も甚だしいが1400字「以下」に制限するとは言っていない

Twitter で各言語の文字数分布を調べる

ということを「関係筋」が伝えているらしい。

たぶん日本語で Twitter をやってると、140字が「少ない」と感じることはほとんど無い。よほど余計な修飾語をつけない限り、140字あれば「序論・本論・結論」仕立ての文章を仕上げることが出来る。こんな具合に。

しかし考えてみれば、これは漢字文化圏であるために140字に詰め込める情報量が極端に多いせいである。英語などのアルファベット圏ではかなり文字数がカツカツなはずだ。そこで今回は、各言語ごとに文字数の分布を調べてみた。

調査の対象は、2013年時点で Twitter のシェア上位の10言語である。

Twitterの使用言語ランキング─1位英語、2位日本語、3位スペイン語 | リンゲルブルーメン

英語、日本語、スペイン語、マレー語、ポルトガル語アラビア語、フランス語、トルコ語タイ語、韓国語の順。ただしマレー語の検索フィルタが無かったのでインドネシア語と解釈した。

技術的なことはあとで Qiita あたりに書くつもりだが、要するに Public Streaming API というのを使えば特定の言語のツイートだけをどんどん拾うことが出来る。これで各言語について1000件のツイートを取得し、その文字数分布を調べた。

Public streams | Twitter Developers

なお、URL と画像の扱いであるが、URL は Twitter 側で圧縮されるためどんな長さでも全て23文字として扱われる。画像は4枚まで貼れるが、何枚あっても23文字のURLが1個追加される。

まずは Twitter の祖国である英語と、我らが日本語を比べてみよう。

f:id:yubais:20151001225149p:plain

f:id:yubais:20151001225228p:plain

あからさまに違いが出た。日本語は中間値 (median) が35文字で、まあ100文字もあればほぼ十分という雰囲気になってるのに対し、英語は中間値が72文字と倍以上あり、多くのツイートが字数制限に貼りつくように書かれているのが分かる。

ちなみに54文字に突出したピークがあるのは謎の時報botが大量に動いているせいである。他の言語にもこういうのがあって検索を妨害するのだが、まあグラフを見ればおおまかな傾向はわかるので今回は無視した。

以下、順番に見ていこう。

f:id:yubais:20151001225744p:plain

 

f:id:yubais:20151001230010p:plain

f:id:yubais:20151001230034p:plain

 

 

f:id:yubais:20151001230050p:plain

f:id:yubais:20151001230125p:plain

f:id:yubais:20151001230205p:plain

f:id:yubais:20151001230239p:plain

f:id:yubais:20151001230259p:plain

中間値30程度であからさまに文字数が余ってるグループ(日本語、タイ語、韓国語)と、中間値80近くで不満そうなグループ(その他)に分かれた。このへんは文字の特性によるんだと思うけど、タイ文字やアラビア文字の性質をよく知らないので言及を控えたい。いずれにせよ、多くの言語が140字という制限に不満を感じていそうだということは伝わってくる。

各言語で実際にどのようなツイートが行われているかは、グラフに書かれている2文字略号を Twitter の検索欄に lang:th のように入力してやれば見られる。例えばタイ語はこんな感じ。

lang:th - Twitter Search

 

四国が500km南に移動すると歴史はどう変わるか(ただの妄想)

f:id:yubais:20150930165433j:plain

もし日本列島が最初からこんな形だったら、どういう歴史が営まれていただろうかを考えてみる。

まず、こんな遠い四国に人が住んでるのか、と言われれば、太平洋諸島の隅々まで人が住んでるわけだから当然住んでいるだろう。では、その人種はどういう構成か。

日本人のルーツとは、氷河期にわたってきた縄文人と、2000年くらい前に来た弥生人が適当に混ざり合って出来たものだと大雑把に説明されている。ただしこの混合が十分でないため、南九州や東北ではより縄文系の遺伝子が強く残ってるらしい。となれば、四国人はおそらく南九州から渡来してくるだろうから、弥生系とほとんど混血せずに縄文系の強い遺伝子が残っていることだろう。彫りの深い顔は「四国顔」と言われるに違いない

こうも遠ければ、沖縄や北海道と同様に、おそらく明治になるまで朝廷や幕府の支配下に入ることは無い。それどころか、四国内で統一国家ができるかどうかさえ危うい。琉球でさえ15世紀にようやく尚巴志に統一されたし、ハワイが統一されたのはヨーロッパ人の到来後である。

琉球のように中継貿易で栄えるには位置的に難しそうだ。一方で面積があるので、農業で自足していくだろう。気候的には熱帯に近いだろうから「高松バナナ」とか「松本松山マンゴー」とか名産になってると思う。

むしろ、明治にきちんと日本に組み込まれるのかが不安になる。大航海時代にやってきたヨーロッパ人によりあっさり植民地化されて、現代ではグアムのようにアメリカ合衆国シコク準州なっている懸念もある。

一方で、影響を受けるのは四国だけではない。四国は世界で48番目に大きな島であり、台湾の半分ほどある。これだけの領土が日本列島から分離すれば、その日本史への、あるいは世界史への影響も相当なものがあるはずだ。

ジャレド・ダイヤモンド「銃・病原菌・鉄」によると、大航海時代を経て世界の覇権を制したヨーロッパと植民地化される中国の明暗は「地形」で説明できるという。いわく、ヨーロッパは半島や離島が多く統一国家が長く存在しなかったため、多数の国家が争い、一方のアジアは少数の勢力に統一されていた。この競争の有無が、最終的な世界の覇権を分けたのだという。

銃・病原菌・鉄 上巻
銃・病原菌・鉄 上巻
posted with amazlet at 15.09.30
草思社 (2013-07-12)
売り上げランキング: 859

ここで四国が遠く離れた独立勢力として存在していれば、大航海時代のヨーロッパに近い競争状態をつくり、東アジアが先に世界を席巻していたかもしれない。そうなれば今ごろ、アメリカ西海岸には漢字の看板がひしめくブレードランナー的、あるいはベイマックス的世界になっていたに違いない。四国、ちょっと近すぎたかも。

 

四国はどこまで入れ換え可能か (新潮文庫)
佐藤 雅彦
新潮社
売り上げランキング: 66,500

電気で生きる細菌のこと

電気で生きる微生物を初めて特定 | 理化学研究所

海底に生息する生物の一部は光と化学物質に代わる第3のエネルギーとして電気を利用して生きているのではないかという仮説を立て、本研究を実施しました。

いわば「光合成」「化学合成」につづいて「電気合成」とでも言うべき反応を発見したぞ、という話。ではこの3つはそもそも何なのか、について解説したい。

よくSFで「あの星には生命反応があるぞ」というセリフがある。たぶん生命体のみが発する固有のオーラみたいなのを観測してるんだろうけれど、残念ながら現代科学はそういう意味での「生命反応」は存在しない。生物も無生物も単なる物質のカタマリで、その並び方が違うだけだと考えられている。

しかし強いて解釈すると、あれは「有機物を検出した」という意味だと思われる。有機物は炭素を骨格にした物質という意味で、生物は頻繁にこの有機物を合成しているが、無生物から有機物が生み出されることはほとんどない*1。なので、星が有機物で満ちていたら「生命がいるっぽい」と見当をつけることが出来る。

有機物は主に炭素でできているので、燃やすと熱エネルギーを発してCO2になる。では逆に、CO2とエネルギーから有機物を合成することは出来るだろうか?

ご存知のとおり、人類はそういうことは出来ない。人は、すでに有機物になったご飯や野菜や肉を消化して取り込むことしかしない。このように他の生物の生み出した有機物を食べるものを従属栄養生物という。

もちろん消費者だけでは経済が成り立たないので、なかにはCO2とエネルギーから有機物を合成する独立栄養生物がいる。代表格はもちろん植物であり、彼らは光のエネルギーによってCO2から有機物を合成している。

一方、深海のような光がまったく届かない場所では、べつのエネルギーから有機物を合成する生物がいる。それが化学合成細菌である。硫化水素 H2S を硫黄 S に酸化してエネルギーを得る硫黄細菌や、鉄イオン Fe2+ を Fe3+ に酸化する鉄細菌などが有名だ。あまり我々の生活に縁はないが、原始の生命は深海で生まれたと考えられているので、彼らの存在がなければ今の我々の隆盛は無かっただろう。先人に感謝しよう。

今回発見されたのは鉄細菌の一種 A.ferrooxidans が電気を通しやすい岩石の近くで暮らしていたので「もしかして鉄がなくても電気エネルギーを直接吸ってるんじゃね?」と試してみたら実際そうだった、という話のようだ。電気をメインで利用してるという意味ではないようだが。

こうなると次は核エネルギーを利用する細菌が欲しいが、今のところニセ科学界隈でしか見つかっていない。オクロの天然原子炉を探せば見つかるかもしれない。

*1:もちろん皆無ではない。1828年にヴェーラーがはじめて無機物から有機物を合成できることを発見し、有機物こそが生命の源とする考え方が覆された。

投稿テスト

「またブログを作ったのか。これで何個目だ?」

「思い出せる範囲で7つ目ですね」

師匠は呆れた顔をした。

「君はなぜそうブログが続かないのかね。Twitter のほうはずいぶん長続きしてるようだが。君はどちらかというと長文を書くタイプではなかったかな」

「それについては色々考えたのですが、僕は逆だと思うのですよ。文字数制限がないからこそ、際限なく思ったことを書きまくって、収集がつかなくなってしまう。一方 Twitter は制限がきついので、頑張って話をまとめようとするし、説明不足な点があっても "仕方ない" と言い訳できる。文章を書くのが好きだからこそ、逆に文字数制限が要るんじゃないかと思うんです」

「ほう。つまりブログにも文字数制限が欲しいということか」

「その通りです。さいわいこのはてなブログには右下に現在の文字数が(354)表示されてるみたいですし」

「悪くないアイデアだな。では具体的に何文字がいいと思う?」 

Tumblr では普通に書いてたら5000文字とか行きましたね」

yubascript — ナチスの暗号機「エニグマ」とその前史のごく簡単な覚書

「うーむ。これはインターネットの文章としては長すぎる」

「最小限のことだけ書いたつもりだったんですけどね」

「まあ、5000は多いし、かといって500だと Twitter とあまり違わないから、その間くらいにしよう」

「では Twitter の10倍ということで、1400字にしますか」

「悪くない。とりあえずそれで行こう。ただこういうのはルールが肝心だ。たとえば Amazon やツイートを埋め込んだ場合は何文字にするか」 

「どういう計算か分かりませんが右下に数字が出るので、それに準拠しましょう」

「どうやらHTMLタグ以外の部分が文字数換算されるようだな。Amazon は iframe なのでゼロ、Twitter は本文や名前が出るのでそれなりの文字数がある」

「把握です」

「で、文字数を決めたはいいが何を書くつもりだ?」

「別に決めなくてもいいんじゃないですかね。そのうち連載小説でも始まるかもしれませんし」

「結局 Tumblr横浜駅SF専用サイトになってしまったな」

「あれ、HTMLを直接書きづらいから不便なんですよね。だからプレーンテキスト中心になっちゃいます。その点はてブロは良さそうですね。マークダウンまで対応してるからコードも載せやすそう」

「技術系の記事は Qiita に書くつもりだろ」

「それはまあ。適材適所」

「結局、君のように節操無く文章を書くタイプの人間は、決まったブログを用意せずにあちこちに文章スペースを用意しておくのが一番いいんじゃないかね」

「そうかもしれません。まあ、もし核戦争が起きてあちこちのデータセンターが消滅しても、あちこちにブログを書いておけば自分が生きた証が残る可能性が高いじゃないですか」

「問題を起こした時にマスコミに晒される危険性も高まるな」

「あっ、もうすぐ1400字なので、とりあえず今日はこのへんで」