世界の果てで、呟いてみるひとり。

鳴原あきらの過去・現在・未来

日本語テキストの難易度を測る

下記のボックスに入力された日本語テキストの難易度を測定します。

http://kotoba.nuee.nagoya-u.ac.jp/sc/obi2/index.html



帯2(obi-2.x) は、日本語のテキストの難易度(リーダビリティ)を推定するプログラムです。


このプログラムは、難易度として、1から13までのいずれかの値を出力します。 これらの値は、次のような学年を意味します。
1 - 6 : 小学(1年 - 6年)
7 - 9 : 中学(1年 - 3年)
10 - 12 : 高校(1年 - 3年)
13 : 大学


難易度の規準には、小中高大の教科書127冊から抽出した1478サンプル、約100万字のコーパス(教科書コーパス)を用いています。


プログラムは、まず、それぞれの難易度に対する尤度を、連続する2文字の生起確率(文字bigram)に基づいて計算します。 得られた尤度のうち、最大の尤度をとる難易度が、求める難易度となります。


実際の難易度の計算は、もう少し複雑です。 あるテキストに対して、文字の生起確率から計算された13個の尤度を難易度順にプロットしたのが、下のグラフの点線です。 理想的には、なめらかな曲線を描くはずですが、実際には、そうはなりません。 そこで、これら13個の値に対して、スムージングを適用します。 スムージングによって得られた結果を、青線(4次多項式)および赤線(2次多項式)で示しています。


試しに、公開している自分のテキストのいくつかを入れてみましたが、「硬い硬い」とよく叱られていた20代前半の頃の作品でも、難易度は「中3(ふつう)」。
最近の作品のオリジナルや二次創作を投げ込んでみると難易度は「中2(やさしめ)」。
評論ですと、多少ばらつきがあって「高校〜大学」まで行きますが、まあ、それは仕方が無いですよね。


ちょっと安心(安心?)


このサイトですと、星新一の作品を分析して人工知能に短編を書かせるプロジェクトの方が、興味をひかれるかもしれませんね……星マリナさんが、コメントつけてらっしゃいますけども(マリナさんには私も、一度だけ、偶然、お会いしたことがあります。オキュルスで)


ところで。