研究ツールのテストのため文章中の単語の出現頻度を求めた(表記の揺れは別単語と認識する)。
使用した文章はこちらから入手したThe Wonderful Wizard of Ozです。
全単語について頻度を求めたけど、膨大なのでとりあえず上位50個だけ。
これだけでも眺めてみるといろいろと面白い。the、多いねー。そして意外なのはand。英文はこの傾向があるのか?この文章の特性なのか?
多くの英文に頻出する単語、この文章に固有の単語やその割合などから文章の特性やジャンルなどクラスタリングできそうな気がする。
こんな初歩的なことはデータ工学なんかで既にたくさん研究されているでしょう。調べたことはないけど。
単語 | 出現回数 | エントロピー |
---|---|---|
the | 2746 | 0.87008872 |
and | 1593 | 0.504752852 |
to | 1098 | 0.347908745 |
of | 819 | 0.259505703 |
a | 795 | 0.251901141 |
I | 647 | 0.205006337 |
was | 501 | 0.158745247 |
in | 463 | 0.146704689 |
you | 448 | 0.141951838 |
he | 410 | 0.12991128 |
her | 402 | 0.127376426 |
Dorothy | 366 | 0.115969582 |
that | 366 | 0.115969582 |
it | 353 | 0.111850444 |
she | 342 | 0.108365019 |
they | 332 | 0.105196451 |
said | 332 | 0.105196451 |
for | 308 | 0.097591888 |
as | 303 | 0.096007605 |
with | 268 | 0.084917617 |
had | 263 | 0.083333333 |
is | 251 | 0.079531052 |
them | 237 | 0.075095057 |
at | 233 | 0.07382763 |
all | 233 | 0.07382763 |
not | 233 | 0.07382763 |
so | 229 | 0.072560203 |
Scarecrow | 224 | 0.070975919 |
were | 214 | 0.067807351 |
his | 211 | 0.066856781 |
The | 209 | 0.066223067 |
me | 197 | 0.062420786 |
him | 183 | 0.057984791 |
Woodman | 181 | 0.057351077 |
Lion | 178 | 0.056400507 |
my | 175 | 0.055449937 |
but | 174 | 0.05513308 |
be | 173 | 0.054816223 |
Oz | 158 | 0.050063371 |
have | 157 | 0.049746515 |
will | 157 | 0.049746515 |
on | 152 | 0.048162231 |
little | 138 | 0.043726236 |
But | 128 | 0.040557668 |
do | 125 | 0.039607098 |
from | 122 | 0.038656527 |
are | 121 | 0.03833967 |
could | 120 | 0.038022814 |
Witch | 120 | 0.038022814 |
one | 117 | 0.037072243 |