Wikipedia のデータファイルを使ってみたい
参考
Wikipediaのダウンロードできるデータファイル一覧 | mwSoft
Wikipedia:データベースダウンロード - Wikipedia
Wikipedia のデータはクロール禁止になっている。
代わりにダンプがダウンロードできる。
最新のファイル → http://dumps.wikimedia.org/jawiki/latest/
■全体的に
データ量が多いので、ダウンロードもデータの投入も加工も何もかも時間がかかる。
■ページの情報
ページのタイトル等のみの情報(page)と本文(text)がある。
jawiki-latest-pages-articles.xml.bz2 をダウンロード。
解凍 → 加工 → MySQL に投入という手順。
解凍すると xml が出てくるので、sql にするために xml2sql を使う。Data dumps/xml2sql - Meta
Windows なら zip をダウンロードして解凍すれば使える。
ただ、xml ファイルをそのまま xml2sql に渡すと
「unexpected element <ns>」のようなエラーが出るので sed で加工してから渡す。
Windows7 のコマンドプロンプトだとエスケープがうまく書けなかったので
MinGW で下記のコマンドを実行した。(パス通してなければ xml2sql はフルパスで書く)
cat jawiki-latest-pages-articles.xml | sed -e 's/<ns>.*<\/ns>\|<ns.*\/>\|<parentid>.*<\/parentid>\|<parentid.*\/>\|<sha1>.*<\/sha1>\|<sha1.*\/>\|<model>.*<\/model>\|<model.*\/>\|<format>.*<\/format>\|<format.*\/>\|<redirect>.*<\/redirect>\|<redirect.*\/>//' | xml2sql
Mac のデフォルトの sed だとうまくいかないかもしれないのでだめなら GNU sed を使う。
brew install gnu-sed → brew link gnu-sed → gsedコマンド使う(sedコマンドの代わりに)
データベースを用意する。スキーマは mediawiki のものを利用する。
http://svn.wikimedia.org/viewvc/mediawiki/trunk/phase3/maintenance/tables.sql
■カテゴリの情報
jawiki-latest-categorylinks.sql.gz をダウンロード。
解凍後 MySQL にそのまま投入する。
■本文情報として abstract.xml は利用できないの?
どうも 1行目しかないっぽく、画像の指定しか入ってなかったりするものもあって、
残念ながら自分にとっては役に立たなさそうだった。
Wikipediaのダウンロードできるデータファイル一覧 | mwSoft
Wikipedia:データベースダウンロード - Wikipedia
Wikipedia のデータはクロール禁止になっている。
代わりにダンプがダウンロードできる。
最新のファイル → http://dumps.wikimedia.org/jawiki/latest/
■全体的に
データ量が多いので、ダウンロードもデータの投入も加工も何もかも時間がかかる。
■ページの情報
ページのタイトル等のみの情報(page)と本文(text)がある。
jawiki-latest-pages-articles.xml.bz2 をダウンロード。
解凍 → 加工 → MySQL に投入という手順。
解凍すると xml が出てくるので、sql にするために xml2sql を使う。Data dumps/xml2sql - Meta
Windows なら zip をダウンロードして解凍すれば使える。
ただ、xml ファイルをそのまま xml2sql に渡すと
「unexpected element <ns>」のようなエラーが出るので sed で加工してから渡す。
Windows7 のコマンドプロンプトだとエスケープがうまく書けなかったので
MinGW で下記のコマンドを実行した。(パス通してなければ xml2sql はフルパスで書く)
cat jawiki-latest-pages-articles.xml | sed -e 's/<ns>.*<\/ns>\|<ns.*\/>\|<parentid>.*<\/parentid>\|<parentid.*\/>\|<sha1>.*<\/sha1>\|<sha1.*\/>\|<model>.*<\/model>\|<model.*\/>\|<format>.*<\/format>\|<format.*\/>\|<redirect>.*<\/redirect>\|<redirect.*\/>//' | xml2sql
Mac のデフォルトの sed だとうまくいかないかもしれないのでだめなら GNU sed を使う。
brew install gnu-sed → brew link gnu-sed → gsedコマンド使う(sedコマンドの代わりに)
データベースを用意する。スキーマは mediawiki のものを利用する。
http://svn.wikimedia.org/viewvc/mediawiki/trunk/phase3/maintenance/tables.sql
mysql -uroot -pマシンスペックにもよるが、すごく時間がかかる。待つ。
create database wikipedia;
exit
mysql -uroot -p wikipedia < tables.sql
mysqlimport --default-character-set=utf8 -uroot -p -d -L wikipedia page.txt
mysqlimport --default-character-set=utf8 -uroot -p -d -L wikipedia revision.txt
mysqlimport --default-character-set=utf8 -uroot -p -d -L wikipedia text.txt
■カテゴリの情報
jawiki-latest-categorylinks.sql.gz をダウンロード。
解凍後 MySQL にそのまま投入する。
■本文情報として abstract.xml は利用できないの?
どうも 1行目しかないっぽく、画像の指定しか入ってなかったりするものもあって、
残念ながら自分にとっては役に立たなさそうだった。
by tokage-shippo
| 2014-03-03 18:33
