1. 下載的wiki離線資料庫,格式是xml怎麼用呢
簡單步驟分步閱讀
1
/3
下載 WikiTaxi 和離線維基網路資料庫
在你使用 WikiTaxi 之前,必須先下載它和維基網路的離線資料庫,我們提供了簡化版的英文版、完整英文版和中文版的維基資料庫供大家下載,下載鏈接位於文章結尾處,請根據自己的需求選擇下載。不過數據比較大,並且伺服器位於國外,速度有點不盡人意,只能有點耐心吧。
2
/3
導入維基資料庫到 WikiTaxi
因為維基網路提供的離線資料庫(.xml.bz2)文件格式 WikiText 並不能直接使用,所以我們需要先將資料庫轉換成 WikiTaxi 的 .taxi 格式。下載解壓 WikiTaxi 之後你可以看到一個 WikiTaxi_Importer.exe 的文件,雙擊運行它。簡單來說,它就是一個轉換資料庫格式的工具。使用方法和簡單,第一項選擇 .xml.bz2 文件,第二項選擇要保存轉換好的.taxi文件,然後按 Import Now 即可開始。中間那個橫條是用來調整分配多少內存給該工具來進行轉換工作,當然能用的內存越多,轉換速度也就也快了。轉換好之後,如沒特別需要,之前那個.xml.bz2的文件你可以刪除掉了。
3
/3
運行 WikiTaxi
如果你已經製作好.taxi資料庫之後,那麼雙擊運行 wikitaxi.exe ,在菜單里選擇 「Options」-> 「Open *.taxi Database」來打開剛才那個製作好的.taxi資料庫文件即可。然後,就沒然後了,你現在已經擁有一個離線的維基網路資料庫了!想查詢什麼直接搜索就行了。
使用方法
1
/2
WikiTaxi首先需要Wikipedia的數據文件,比如在這里可以下載英文版本的備份導出文件:
http://mps.wikimedia.org/enwiki/
一般選擇pages-articles.xml.bz2,20100916的備份導出文件已經達到了6.1G。
下載之後,運行WikiTaxi_Importer.exe,將該數據文件轉換提取成自己的資料庫格式文件.taxi,通常設置更多的內存,會提高轉換提取的速度,這個過程可能會有幾十分鍾以上。WikiTaxi轉換提取後的資料庫約為10.7G。
2
/2
轉換提取完成後,運行WikiTaxi.exe, 打開資料庫文件,即可開始離線瀏覽、搜索Wikipedia了,默認是隨機挑選的頁面。在資料庫轉換提取正確的情況下,就可以刪除Wikipedia備份導出文件了。如果希望運行時自動載入資料庫文件,可以創建使用命令行參數方式,