memorandums

日々の生活で問題解決したこと、知ってよかったことなどを自分が思い出すために記録しています。

単語の出現頻度

研究ツールのテストのため文章中の単語の出現頻度を求めた(表記の揺れは別単語と認識する)。

使用した文章はこちらから入手したThe Wonderful Wizard of Ozです。

全単語について頻度を求めたけど、膨大なのでとりあえず上位50個だけ。

これだけでも眺めてみるといろいろと面白い。the、多いねー。そして意外なのはand。英文はこの傾向があるのか?この文章の特性なのか?

多くの英文に頻出する単語、この文章に固有の単語やその割合などから文章の特性やジャンルなどクラスタリングできそうな気がする。

こんな初歩的なことはデータ工学なんかで既にたくさん研究されているでしょう。調べたことはないけど。

単語 出現回数 エントロピー
the 2746 0.87008872
and 1593 0.504752852
to 1098 0.347908745
of 819 0.259505703
a 795 0.251901141
I 647 0.205006337
was 501 0.158745247
in 463 0.146704689
you 448 0.141951838
he 410 0.12991128
her 402 0.127376426
Dorothy 366 0.115969582
that 366 0.115969582
it 353 0.111850444
she 342 0.108365019
they 332 0.105196451
said 332 0.105196451
for 308 0.097591888
as 303 0.096007605
with 268 0.084917617
had 263 0.083333333
is 251 0.079531052
them 237 0.075095057
at 233 0.07382763
all 233 0.07382763
not 233 0.07382763
so 229 0.072560203
Scarecrow 224 0.070975919
were 214 0.067807351
his 211 0.066856781
The 209 0.066223067
me 197 0.062420786
him 183 0.057984791
Woodman 181 0.057351077
Lion 178 0.056400507
my 175 0.055449937
but 174 0.05513308
be 173 0.054816223
Oz 158 0.050063371
have 157 0.049746515
will 157 0.049746515
on 152 0.048162231
little 138 0.043726236
But 128 0.040557668
do 125 0.039607098
from 122 0.038656527
are 121 0.03833967
could 120 0.038022814
Witch 120 0.038022814
one 117 0.037072243