自作自演

Firefox の話題を中心に Web 関係の話も扱うつもりの雑記。だった。
zisakuzien.exblog.jp

Top

Wikipedia のデータファイルを使ってみたい

参考
Wikipediaのダウンロードできるデータファイル一覧 | mwSoft
Wikipedia:データベースダウンロード - Wikipedia

Wikipedia のデータはクロール禁止になっている。
代わりにダンプがダウンロードできる。
最新のファイル → http://dumps.wikimedia.org/jawiki/latest/

■全体的に
データ量が多いので、ダウンロードもデータの投入も加工も何もかも時間がかかる。

■ページの情報
ページのタイトル等のみの情報(page)と本文(text)がある。
jawiki-latest-pages-articles.xml.bz2 をダウンロード。
解凍 → 加工 → MySQL に投入という手順。

解凍すると xml が出てくるので、sql にするために xml2sql を使う。Data dumps/xml2sql - Meta
Windows なら zip をダウンロードして解凍すれば使える。
ただ、xml ファイルをそのまま xml2sql に渡すと
「unexpected element <ns>」のようなエラーが出るので sed で加工してから渡す。

Windows7 のコマンドプロンプトだとエスケープがうまく書けなかったので
MinGW で下記のコマンドを実行した。(パス通してなければ xml2sql はフルパスで書く)
cat jawiki-latest-pages-articles.xml | sed -e 's/<ns>.*<\/ns>\|<ns.*\/>\|<parentid>.*<\/parentid>\|<parentid.*\/>\|<sha1>.*<\/sha1>\|<sha1.*\/>\|<model>.*<\/model>\|<model.*\/>\|<format>.*<\/format>\|<format.*\/>\|<redirect>.*<\/redirect>\|<redirect.*\/>//' | xml2sql

Mac のデフォルトの sed だとうまくいかないかもしれないのでだめなら GNU sed を使う。
brew install gnu-sed → brew link gnu-sed → gsedコマンド使う(sedコマンドの代わりに)

データベースを用意する。スキーマは mediawiki のものを利用する。
http://svn.wikimedia.org/viewvc/mediawiki/trunk/phase3/maintenance/tables.sql
mysql -uroot -p
create database wikipedia;
exit

mysql -uroot -p wikipedia < tables.sql

mysqlimport --default-character-set=utf8 -uroot -p -d -L wikipedia page.txt
mysqlimport --default-character-set=utf8 -uroot -p -d -L wikipedia revision.txt
mysqlimport --default-character-set=utf8 -uroot -p -d -L wikipedia text.txt
マシンスペックにもよるが、すごく時間がかかる。待つ。

■カテゴリの情報
jawiki-latest-categorylinks.sql.gz をダウンロード。
解凍後 MySQL にそのまま投入する。

■本文情報として abstract.xml は利用できないの?
どうも 1行目しかないっぽく、画像の指定しか入ってなかったりするものもあって、
残念ながら自分にとっては役に立たなさそうだった。
[PR]
by tokage-shippo | 2014-03-03 18:33
Mozilla Firefox ブラウザ無料ダウンロード

about this...

書き手の名前は 晴柳祐志 と言います。


リンク

Twitter
いつか何とかしたいサイト

最新のトラックバック

[foxkeh]フォクす..
from 「 Firefox ×?=!..
[Firefox]Fir..
from +Sun Flower〜報告〜+
Firefoxバトン
from MなMによるMのための日記
スキン変更!
from SUKA・SUKA・BLOG
Firefox 1.5に..
from mmkg

検索

S M T W T F S
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
XML | ATOM

個人情報保護
情報取得について
免責事項