アルファサード株式会社 代表取締役 野田 純生のブログ


音声ブラウザと相性の良いHTMLを作る(5)。


公開日 : 2007-05-28 20:37:06


関連エントリー

広告をスキップ

PDFをどうするか

ホームページ・リーダーは3.04からPDFの読み上げに対応している。それ以前のバージョンでは未対応だった。PC-Talker XP Version1.14, 95 Reader Version 6.0, JAWS for Windows Professional Version 6.2 ではPDFを読み上げることができるようだ。

参考: 日本の視覚障害者用ウェブ利用ソフトの機能調査

とはいえ、まだまだ問題は多そうだ。

日本の視覚障害者用ウェブ利用ソフトの機能調査 > 5.3 ユーザエージェントによって差があった機能 > 5.3.2 PDFとFlash より引用

PDFに関しては,

  • 95 Reader以外は,表示行ごとに区切って読むので,読み上げが不自然だった.
  • JAWS以外は,PDFのテーブルを表として読み上げることができなかった.
  • グラフの読み上げに関しては,PC-Talkerはグラフの表題しか読み上げなかった,
  • HPR 3.04は見出しを読まなかった.
  • 画像の代替テキストは,95 ReaderとJAWSは読み上げるが,PC-TalkerはPDF上では読み上げることができなかった.HPR 3.04は読み上げる画像と読み上げない画像があった.

日本の視覚障害者用ウェブ利用ソフトの機能調査 > 6.9 PDFはどの程度利用できるかより引用

調査の結果,PDFの利用にはかなりの制約があることがわかった.全ユーザエージェントが共通してできたのは,本文と表を上から順に読み上げることだけである(以下略)

広告をスキップ

ゲートウェイへの実装

これまでNaked(Beta) (音声ブラウザができるだけ読み上げやすいページに変換しようと試みるゲートウェイ) では、Content-Type が text で始まらないものは無条件にリダイレクトしていたのだが、Xpdf をインストールするついでがあったので変換を試みることにした。

見出しが読めるわけでもなく、表が読めるわけでもないが (JAWSでは表がうまく読み上げられるようだ)、文章が途中で分割されてしまう (95 Reader以外は,表示行ごとに区切って読むので,読み上げが不自然だった.) 部分に関しては、改行(文章や単語の中で改行されたと思われる部分)を削除することで対応させた(つもり)。

この部分はXpdfの解釈もGoogleやYahoo!の検索結果から参照出来るHTML(もどき)も共通していて、PDFをテキスト化した時に「各行毎に改行されてしまう」傾向がある。スクリーンリーダーや音声ブラウザの多くが各行毎に読み上げてしまうことから、おそらくPDFの仕様なんだろう (このあたりは見出しの抽出方法とあわせて今後調べてみようと思う)。

これは想像なのだが、これが仕様であるならばおそらく縦書きのPDFの読み上げ状況が悪いのではないかと思う(誰か分かる人教えてください)。

現状の変換についてはちょっと(まだまだ実用的じゃないと思うけど)以下の通り

変換方針

  • PDFはテキスト化する。
  • タイトルの取得を試みるが取得に失敗した場合は最初の1行をタイトルとみなす。
  • テキスト化の際に分割された(であろう)行をつなげる。

今後の対応課題

  • 見出し等の文書構造のサポート(見出しを抽出してページ内リンクでナビゲーションを作る)。

表は...ちょっと僕の力量では難しいかもしれないが。


以下、変換結果。元にしたのは (特に意味はありません)「京都府ウェブアクセシビリティガイドラインのPDF版」。

ベタ読みになってしまうのが何とも辛いところだけど、テキスト変換するだけでもこうして携帯版が出来たりルビを振れたりするし、やはりHTMLやプレーンテキストで情報が伝わるように作成することが大切なのだと思う。



このブログを書いている人
野田純生の写真
野田 純生 (のだ すみお)

大阪府出身。ウェブアクセシビリティエバンジェリスト。 アルファサード株式会社の創業者であり、現役のプログラマ。経営理念は「テクノロジーによって顧客とパートナーに寄り添い、ウェブを良くする」。 プロフィール詳細へ