音声ブラウザと相性の良いHTMLを作る(5)。
公開日 : 2007-05-28 20:37:06
関連エントリー
PDFをどうするか
ホームページ・リーダーは3.04からPDFの読み上げに対応している。それ以前のバージョンでは未対応だった。PC-Talker XP Version1.14, 95 Reader Version 6.0, JAWS for Windows Professional Version 6.2 ではPDFを読み上げることができるようだ。
とはいえ、まだまだ問題は多そうだ。
日本の視覚障害者用ウェブ利用ソフトの機能調査 > 5.3 ユーザエージェントによって差があった機能 > 5.3.2 PDFとFlash より引用
PDFに関しては,
- 95 Reader以外は,表示行ごとに区切って読むので,読み上げが不自然だった.
- JAWS以外は,PDFのテーブルを表として読み上げることができなかった.
- グラフの読み上げに関しては,PC-Talkerはグラフの表題しか読み上げなかった,
- HPR 3.04は見出しを読まなかった.
- 画像の代替テキストは,95 ReaderとJAWSは読み上げるが,PC-TalkerはPDF上では読み上げることができなかった.HPR 3.04は読み上げる画像と読み上げない画像があった.
日本の視覚障害者用ウェブ利用ソフトの機能調査 > 6.9 PDFはどの程度利用できるかより引用
調査の結果,PDFの利用にはかなりの制約があることがわかった.全ユーザエージェントが共通してできたのは,本文と表を上から順に読み上げることだけである(以下略)
ゲートウェイへの実装
これまでNaked(Beta) (音声ブラウザができるだけ読み上げやすいページに変換しようと試みるゲートウェイ) では、Content-Type が text で始まらないものは無条件にリダイレクトしていたのだが、Xpdf をインストールするついでがあったので変換を試みることにした。
見出しが読めるわけでもなく、表が読めるわけでもないが (JAWSでは表がうまく読み上げられるようだ)、文章が途中で分割されてしまう (95 Reader以外は,表示行ごとに区切って読むので,読み上げが不自然だった.
) 部分に関しては、改行(文章や単語の中で改行されたと思われる部分)を削除することで対応させた(つもり)。
この部分はXpdfの解釈もGoogleやYahoo!の検索結果から参照出来るHTML(もどき)も共通していて、PDFをテキスト化した時に「各行毎に改行されてしまう」傾向がある。スクリーンリーダーや音声ブラウザの多くが各行毎に読み上げてしまうことから、おそらくPDFの仕様なんだろう (このあたりは見出しの抽出方法とあわせて今後調べてみようと思う)。
これは想像なのだが、これが仕様であるならばおそらく縦書きのPDFの読み上げ状況が悪いのではないかと思う(誰か分かる人教えてください)。
現状の変換についてはちょっと(まだまだ実用的じゃないと思うけど)以下の通り
変換方針
- PDFはテキスト化する。
- タイトルの取得を試みるが取得に失敗した場合は最初の1行をタイトルとみなす。
- テキスト化の際に分割された(であろう)行をつなげる。
今後の対応課題
- 見出し等の文書構造のサポート(見出しを抽出してページ内リンクでナビゲーションを作る)。
表は...ちょっと僕の力量では難しいかもしれないが。
以下、変換結果。元にしたのは (特に意味はありません)「京都府ウェブアクセシビリティガイドラインのPDF版」。
- Naked (Beta) による変換結果 (音声ブラウザ向け)
- Naked (Beta) による変換結果 (携帯ブラウザ向け)
- Naked (Beta) による変換結果 (ルビつき)
- 参考: Yahoo! によるHTML変換バージョン (最初のパラグラフで「JIS規格」がぶった切られてしまっている。これでは読み上げられない。)
- 参考: Google によるHTML変換バージョン(Yahoo! と同じ問題あり)
ベタ読みになってしまうのが何とも辛いところだけど、テキスト変換するだけでもこうして携帯版が出来たりルビを振れたりするし、やはりHTMLやプレーンテキストで情報が伝わるように作成することが大切なのだと思う。