MariaDBへwikipediaの全データぶち込んでみた

http://mediawiki.logs.today/wiki/


wikipediaのAPIを叩いてBotに問い合わせがあったら返答させようと思ったのですが、

制限が厳しいので自前で構築しました。

wikipediaのデータはスクレイピング禁止です。

APIはリクエスト数などの制限は数字で明言化されていませんが、wikipediaのサーバへ負荷をかけてはいけないということです。

http://qiita.com/yubessy/items/16d2a074be84ee67c01f


ユーザーローカルさんのAPIもありますが、1分のリクエストを30件以下と制限があります。

ユーザーローカルWikipedia API


自前でWikipediaクローンを構築したほうが無難なのでやってみました。

Wikipediaはデータをダウンロードできるようになっています。

Wikipedia:データベースダウンロード 


参考:

Wikipediaの大量データをMySQLに保存する






2,167,738ページ、一日半かけてMariaDBへぶち込みました。(ウィキペディア日本語版のダンプ2017/6の最新)

mediawikiをインストールするとWikipediaのように検索、表示してくれます。

(infoboxテンプレートも入れました。)


http://mediawiki.logs.today/wiki/index.php/夏菜

(サーバ維持費がかかるので辞めました)


無駄に長いURLにしてしまいました。

http://mediawiki.logs.today/wiki/

表示が重いのでcacheを有効にし、且つCDNも利用しています。

新しいCDN「Rapid START(ラピッドスタート)


まだ不完全でTOPページは表示がグチャグチャです。

直し方がわからない。

http://mediawiki.logs.today/wiki/


ネットにある情報は古くてxml2sqlではMariaDBへインポートできません。

mwdumper.jarにて行いました。


とりあえず、APIが叩けるので、これでいいかな?

参考:

MediaWiki APIを使ってWikipediaの情報を取得


自分のwikiで叩いても同じ結果が返ってきます。

http://mediawiki.logs.today/wiki/api.php?format=xml&action=query&prop=info&titles=%E3%82%A8%E3%83%9E%E3%83%BB%E3%83%AF%E3%83%88%E3%82%BD%E3%83%B3




二度とやりたくないくらい大変な作業でした。