WikipediaをソースにしてMTのインポートフォーマットを(テスト用に)生成する。
公開日 : 2008-02-02 23:17:19
皆さんテスト用データってどうしてますか?
僕はもっぱらこのブログのエクスポートデータを利用してましたが、やっぱり客先では恥ずかしいので...とはいえある程度のコンテンツが無いとテストにもならんじゃないですか。
ということで、「Wikipedia」の特定の一覧ページからソースを取得してテスト用データを作成するスクリプトを書いて取得生成したテスト用データを置いておきます。
(追記)と思ったんですが、GFDLのライセンス的なことが気になるしスプログ作られるのも嫌だし一旦削除します。
手順としては、
ターゲットとなるページを決めて(今回は「日本の法律一覧」ページをターゲットとしました。何故なら「一覧」ページを取得するのが簡単でそこそこ量があって都合が良かったから)、URLを抽出して LWP::UserAgent; でもってソースを取得、パラグラフを先頭から3つ、各text, text_more, keywordsに放り込んで且つexcerptには元ページのURL、ターゲットページの見出しを読んでプライマリカテゴリ, カテゴリを抽出(同じタグも付けて)、で、ごにょごにょして...
今気づいたけど、日付(authored_on)を適当にずらしておけば日付アーカイブのテストにも使えたよなぁ。まぁ次回やるとするか。
Wikipediaがソースだから「クリエイティブ・コモンズ」 GFDLです。「スプログ」には使うなよ!
とりあえず400程度のエントリーをテスト用に生成できます。