アルファベットの頻度(etaoin shrdlu)

1年前に「わら人形」について書いたが、この言葉から頭に浮かんだのが、コナン・ドイルのホームズもの短編「踊る人形」である(単純な連想で、直接の関係はまったくない)。ネタばれになるので詳しくは書かないが、この中に「アルファベット各文字が使われる頻度」についての話が出てくる。面白いテーマなので、ちょっと調べてみた。

まず、この "The Adventure of the Dancing Men" であるが、シャーロック・ホームズの言葉を借りると、

As you are aware, E is the most common letter in the English alphabet (中略) The order of the English letters after E is by no means well marked (中略) Speaking roughly, T, A, O, I, N, S, H, R, D, and L are the numerical order in which letters occur

アルファベット全文字を網羅したものではないが、もう一度書くとこうなる。

etaoinshrdl

この短編を収めた "The Return of Sherlock Holmes" の Oxford University Press 版を私は持っているが、そこにはこんな注がある。

The Encyclopaedia Britannica ("Cryptography") gives the frequency as E, T, A, O, I, N, R, S, H, D, L.

つまり、

etaoinrshdl

また「詳注版ホームズ全集」(ちくま文庫)では、この作品について原注者が他の3つの調査結果を引用している。最後のものは電報文なので、ちょっと特殊かもしれない。

etoanirshdlcwumfygpbvkxqjz
etaoinsrhldcumfwgypbvkxjqz
eoanirstdlhucmpyfgwbvkxjqz

ドイル以前にこのテーマを題材にしたのが、エドガー・アラン・ポーの「黄金虫」 The Gold-Bug である。今度はこの作品から引用してみよう。

Now, in English, the letter which most frequently occurs is e. Afterwards, the succession runs thus: a o i d h n r s t u y c f g l m w b k p q x z. E predominates so remarkably, that an individual sentence of any length is rarely seen, in which it is not the prevailing character.

これも全文字ではないが、整理すると、

eaoidhnrstuycfglmwbkpqxz

さらにネットでは、いろいろな調査結果が見つかって面白い。文学作品等についてあげているサイトから引用する。

etaoinhsrdlmuwycfgpbvkxjqz (David Copperfield)
etaoinhsrdlumcywfgbpvkzjxq (Pride and Prejudice)
etaonihsrdlumcyfwgpbvkxjqz (Wuthering Heights)
etaonhsirdlumcwfgypbvkjqxz (Vanity Fair)
etoainshrdlmucfwygpbvkxjqz (Gulliver's Travels)
etaoihnsrdluwgcymfpbkvqxjz (Alice in Wonderland)

etaoinsrhldcumfpgwybvkxjqz (British National Corpus)
etaoinsrhldcumfpgwybvkxjqz (Brown corpus)

( http://www.bckelk.ukfsn.org/words/etaoin.html )

コーパスを使った最後の2つは奇しくも一致している。

さらに、今回初めて知ったのは、etaoin shrdlu という単語があることだ。私の持っている電子辞書の英和辞典にちゃんと載っている。「混乱」「誤り」などの意味があり、辞書の説明には書かれていなかったが、この「アルファベットの頻度」と関係あることは明白だ。次のサイトには詳しいことが書かれているが、この単語に触発された小説もかなりあることがわかり、なんとも面白い。
http://en.wikipedia.org/wiki/ETAOIN_SHRDLU

今回のテーマについて、手っ取り早く参考になりそうなサイトをあげておこう。

http://en.wikipedia.org/wiki/Letter_frequencies
http://www.askoxford.com/asktheexperts/faq/aboutwords/frequency?view=uk
http://deafandblind.com/word_frequency.htm#word-frequency

「詳注版ホームズ全集」は残念ながら絶版になってしまったようだ。前述のように、短編「踊る人形」は、「ホームズの生還」(出版社によっては「ホームズの帰還」)に収められている。原題の The Dancing Men を「人間」ではなく「人形」と訳したのはうまいと思うが、「にんぎょう」ではなく、以前取り上げた effigy の訳語にもあった「ひとがた」と読むのが正しいのだろうか。


関連:
「背景知識・雑学」一覧
「言葉についての言葉」一覧
「わら人形」とstraw man
hang in effigyという慣習

シャーロック・ホームズの生還 新訳シャーロック・ホームズ全集 (光文社文庫)シャーロック・ホームズの生還 新訳シャーロック・ホームズ全集 (光文社文庫)
日暮 雅通

光文社 2006-10-12
売り上げランキング : 74146

Amazonで詳しく見る
by G-Tools


The Return of Sherlock Holmes (The Oxford Sherlock Holmes)The Return of Sherlock Holmes (The Oxford Sherlock Holmes)
Arthur Conan, Sir Doyle Richard Lancelyn Green

Oxford Univ Pr (T) 1995-02-02
売り上げランキング : 1148102

Amazonで詳しく見る
by G-Tools