やさしい日本語チェッカーを作る
公開日 : 2021-12-21 13:15:00
- この記事は やさしい日本語 Advent Calendar 2021 アイコン別ウィンドウで開きます の第21日目の記事です。
やさしい日本語文への書き換えに使えるツールはいくつかあって、私たちが作っている「伝えるウェブ」も言い換えの提案をしてくれるという点ではその手のツールの一つではあるのですが、言い換え支援システムを開発・運用してきた視点から、「これ」というものを作りたいと思い、そのロジックについて考察してみました。
- 日本語読解学習支援システム リーディング チュウ太 アイコン別ウィンドウで開きます
- 日本語文章難易度判定システム jReadability アイコン別ウィンドウで開きます
- やさにちチェッカー アイコン別ウィンドウで開きます
やさしい日本語チェッカーとは、つまりは「やさしくない日本語」らしきものを見つけて指摘したり、言い換えの提案をしてくれるものです。
伝えるウェブやPowerCMS Xのやさしい日本語エディタには「結果の詳細」ボタンをクリックすると画像のような感じで単語の難易度を可視化して言い換えの提案をしてくれます。
具体的なパラメタは検討していくとして、ざっとアイデアメモ的に。
- 文末表現 (です・ます調)
- 文全体の長さ
- 1文の長さ (短文化の提案)
- 1文の中の係助詞「は」格助詞「が」の数 (分割の提案)
- 1文に出現する句点の数 (分割の提案)
- 難語の出現数・出現比率 (言い換えの提案)
- 極端に連続した漢字 (難しい漢字をひらがなにする)
- 極端に連続したひらがな、カタカナ(適度に漢字を混ぜる)
- 同音異義語 (言い換えの提案)
- 同字異義・異音語 (言い換えの提案)
1. については、すでに文末表現を揃える機能を実装しています。この言い換えパターンに一致するものを指摘すれば良いと考えます。また、「〜ましょう」のような曖昧で複数の意味を持つ文末表現なども同様に指摘します。
2. 3. 文全体の長さはもちろん伝えなければならない内容によって変わってくるかと思うので、これは情報発信側のレギュレーションで決められるようにするとして、弘前大学人文社会科学部社会言語学研究室のガイドラインに「1文の拍数は最大48拍にしてください」とあるように、1文は多くても50文字以内くらいが基準かと思います。
同じく、4. 5. ですが、1文の中の係助詞「は」格助詞「が」が複数指定しているような文章は短文に分割できないかを検討するのが良いでしょう。適度な句点「、」は読みやすさに寄与しますが、1文の中に数多くの句点がある場合、文章を分割できる場合があります(伝えるウェブにも自動分割するロジックがあります)。
6. 難語の出現数・出現比率ですが、問題のひとつがこれです。前述の多くのツールの難易度判定が JLPT (日本語能力試験)の出題基準にある語彙のリストを元に作られていつのですが、現在の出題基準は公開されていません。旧試験では、レベルが N1〜N4の 4段階だったのですが、現在の基準は N1〜N5 (数字が小さいほど難しい)となっています。明確な基準が公表されていません。また、旧基準では時代とともに変わる日本語が追いついていません。たとえば「ラジカセ」はあるのに「スマートフォン」「スマホ」はない。
伝えるウェブでは、「やさしい日本語で書かれた文章に出現する語彙はやさしい」という仮説のもとで、旧JLPTの出題基準の語彙を元にして、やさしい日本語で書かれた文章を解析して出現頻度を調べ、N1〜N5に振り分けた独自の語彙難易度データベースを作成しています。これをブラッシュアップさせたものを使うことを考えています。
7. 8. 極端に連続したひらがな、カタカナ、漢字をチェックします。ひらがなが必ずしもやさしいわけではなく、ひらがな率が高くなると、単語のまとまりがわかりにくくなります。textlint / textlint アイコン別ウィンドウで開きます なんかを使うのもいいかな、と考えていますが、伝えるウェブのコードを利用した発展型とするかもしれません。
そのうち作ります!