WikipediaをソースにしてMTのインポートフォーマットを(テスト用に)生成する。

| コメント(0) | トラックバック(0)

皆さんテスト用データってどうしてますか?

僕はもっぱらこのブログのエクスポートデータを利用してましたが、やっぱり客先では恥ずかしいので...とはいえある程度のコンテンツが無いとテストにもならんじゃないですか。

ということで、「Wikipedia」の特定の一覧ページからソースを取得してテスト用データを作成するスクリプトを書いて取得生成したテスト用データを置いておきます。

(追記)と思ったんですが、GFDLのライセンス的なことが気になるしスプログ作られるのも嫌だし一旦削除します。

手順としては、

ターゲットとなるページを決めて(今回は「日本の法律一覧」ページをターゲットとしました。何故なら「一覧」ページを取得するのが簡単でそこそこ量があって都合が良かったから)、URLを抽出して LWP::UserAgent; でもってソースを取得、パラグラフを先頭から3つ、各text, text_more, keywordsに放り込んで且つexcerptには元ページのURL、ターゲットページの見出しを読んでプライマリカテゴリ, カテゴリを抽出(同じタグも付けて)、で、ごにょごにょして...

今気づいたけど、日付(authored_on)を適当にずらしておけば日付アーカイブのテストにも使えたよなぁ。まぁ次回やるとするか。

Wikipediaがソースだから「クリエイティブ・コモンズ」 GFDLです。「スプログ」には使うなよ!

とりあえず400程度のエントリーをテスト用に生成できます。

トラックバック(0)

トラックバックURL: http://junnama.alfasado.net/cgi/mt/mt-tb.cgi/119

コメントする

Facebook

Twitter

このブログ記事について

このページは、Junnama Nodaが2008年2月 2日 23:17に書いたブログ記事です。

ひとつ前のブログ記事は「Let's PHP!」です。

次のブログ記事は「MTタグだけでプラグイン(みたいなもん)を作る。」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 6.2.6