アルファサード株式会社 代表取締役 野田 純生のブログ


その後の伝えるウェブ (やさしい日本語化エンジンの開発)


公開日 : 2020-12-23 12:18:41


この記事は、WebアクセシビリティAdventカレンダーに参加しています。年始の挨拶とAdventカレンダーくらいしかブログを書かなくなった Junnamaです(昨日と同じこと書いた)

アルファサードでは「伝えるウェブ」というWebサイトを「やさしい日本語化」するサービスを開発して提供しています。最初に人前でお披露目したのは2018年のアクセシビリティの祭典でした。早いものでもう2年半近くが経ちますね。その後の「伝えるウェブ」についてご紹介します。

多言語音声翻訳試作品コンテストで最優秀賞を受賞

Webページ変換の他、APIを作成したので、それを活用したWebアプリを作成して総務省と国立研究開発法人情報通信研究機構「NICT」が主催する、「第2回多言語音声翻訳コンテストの試作品 (PoC) コンテスト」に応募しました。

最優秀賞(総務大臣賞)を受賞しました。試作品は以下のようなものです。

  • 音声入力した内容をNICTのAPIを利用してテキスト化
  • テキスト化したものを伝えるウェブAPIを使ってやさしい日本語化
  • やさしい日本語化したものを英語などの他言語に翻訳

試作品の処理フロー

「私が東京へ行きましょう。」→「Let's go Tokyo.」

になるものが、

「私が東京へ行きましょう。」→「私が東京へ行きます。」→「I'm going to Tokyo.」

になるなど、他言語の下訳に有効になるようなケースもありました。

辞書に登録した言い換えフレーズは当時の約5,000語から約30,000語へ

お披露目したのは本当にまだまだ開発中のもので、多分イベントの数日前にようやくWebページ変換の実装が終わった程度のときだったかと思います。その後もコツコツと登録作業を続け、現在は約30,000語の言い換えデータベースを持つまでになりました。当時は私一人でメンテナンスを行っていましたが、今年からは辞書メンテナンスチームという社内の有志により週に1回時間を使って辞書のメンテナンスを行っています。

辞書をメンテナンスしていて感じること

みんな難しい言葉使いすぎなんですね。特に今年になって使われだした言葉たち。


パンデミック クラスター感染 コロナ禍 ロックダウン 接待を伴う飲食店 PCR検査 新しい生活様式 ステイホーム 3つの密 ソーシャルディスタンス 自粛警察 緊急事態宣言 オーバーシュート 医療崩壊 東京アラート テレワーク GoToトラベル GoToイート


うまく変換できないウェブページたち

ウェブページ翻訳では、うまく変換できないページがあります。これらは言い換え云々以前の話です。ウェブページ翻訳は以下のようなロジックで行います。

  • URLのパラメタに言い換えをしたいページのURLを渡す
  • ページのソースをプログラムによって取得
  • テキストの言い換えとリンクなどを書き換えて伝えるウェブのサーバーからブラウザに返す

うまく言い換えられないページのパターンは以下のようなものです(言い換えられないページが悪いと言っているわけではありません)。

  • ruby(ふりがな)を付けると画像と文字が重なってしまう、文字がブロックをオーバーフローしてテキストが隠れてしまう
  • ページの中で JavaScriptを使って ajaxで jsonデータを取得してページにデータを埋め込んでいるようなページ
  • プログラムからのアクセスを禁じていて200を返さなかったり別のページにリダイレクトしてしまうサイト

このうち、2つめのパターンは、クロスドメインの制約(CORS=Cross-Origin Resource Sharing)なので、別途プロキシのようなプログラムを作ることで回避できますが、そこを自動化するような仕組みは現在のところ未実装です。伝えるウェブのサービスへの問い合わせは圧倒的に公的サイト関係が多いのですが、公的サイトでもこの手のページが意外と多いんだな、という感想を持ちました。

やさしい日本語エディタの開発

ウェブページ翻訳をメインとして当初は開発していましたが、ステイホーム期間が暇だったので(そこか!)、やさしい日本語エディタというものを作りました。これは、要するにリッチテキストエディタ TinyMCE のプラグイン(カスタムボタン)を追加して、エディタ上で選択したテキスト部分をやさしい日本語に変換するというものです。結果をそのまま Microsoft Wordにペーストできるのが便利です。ふりがなつきテキストを画像化することもできます(これはSNSへの投稿に便利)。

やさしい日本語APIあります

すでにご紹介したとおりですが、伝えるウェブは進化を続けていて、JSON REST形式のAPIもあります。ウェブ開発者の皆さんで、何かこれを使って何かを作りたい方がいらっしゃいましたら、まぁお金のことは二の次です。お気軽にお問い合せください

伝えるウェブAPI



このブログを書いている人
野田純生の写真
野田 純生 (のだ すみお)

大阪府出身。ウェブアクセシビリティエバンジェリスト。 アルファサード株式会社の代表取締役社長であり、現役のプログラマ。経営理念は「テクノロジーによって顧客とパートナーに寄り添い、ウェブを良くする」。 プロフィール詳細へ