アルファサード株式会社 代表取締役 野田 純生のブログ


WikipediaをソースにしてMTのインポートフォーマットを(テスト用に)生成する。


公開日 : 2008-02-02 23:17:19


皆さんテスト用データってどうしてますか?

僕はもっぱらこのブログのエクスポートデータを利用してましたが、やっぱり客先では恥ずかしいので...とはいえある程度のコンテンツが無いとテストにもならんじゃないですか。

ということで、「Wikipedia」の特定の一覧ページからソースを取得してテスト用データを作成するスクリプトを書いて取得生成したテスト用データを置いておきます。

(追記)と思ったんですが、GFDLのライセンス的なことが気になるしスプログ作られるのも嫌だし一旦削除します。

手順としては、

ターゲットとなるページを決めて(今回は「日本の法律一覧」ページをターゲットとしました。何故なら「一覧」ページを取得するのが簡単でそこそこ量があって都合が良かったから)、URLを抽出して LWP::UserAgent; でもってソースを取得、パラグラフを先頭から3つ、各text, text_more, keywordsに放り込んで且つexcerptには元ページのURL、ターゲットページの見出しを読んでプライマリカテゴリ, カテゴリを抽出(同じタグも付けて)、で、ごにょごにょして...

今気づいたけど、日付(authored_on)を適当にずらしておけば日付アーカイブのテストにも使えたよなぁ。まぁ次回やるとするか。

Wikipediaがソースだから「クリエイティブ・コモンズ」 GFDLです。「スプログ」には使うなよ!

とりあえず400程度のエントリーをテスト用に生成できます。

カテゴリ


このブログを書いている人
野田純生の写真
野田 純生 (のだ すみお)

大阪府出身。ウェブアクセシビリティエバンジェリスト。 アルファサード株式会社の代表取締役社長であり、現役のプログラマ。経営理念は「テクノロジーによって顧客とパートナーに寄り添い、ウェブを良くする」。 プロフィール詳細へ