首先請先至Nutch官網下載「nutch-0.9.tar.gz」~
安裝步驟
請先解壓縮「nutch-0.9.tar.gz」
tar zxvf nutch-0.9.tar.gz
然後建立一個爬行器的爬行清單檔案~ 這裡以筆者的部落格為範例:
cd nutch-0.9 echo http://blog.ring.idv.tw/index.ser > urls
修改「conf/crawl-urlfilter.txt」中的「MY.DOMAIN.NAME」改成下述:
+^http://([a-z0-9]*.)*ring.idv.tw/
修改「conf/nutch-site.xml」,加上一個「http.agent.name」的參數值:
<property> <name>http.agent.name</name> <value>crawler</value> </property>
啟動Crawler開始抓網頁~ 預設啟動十個Thread來爬~
bin/nutch crawl urls -dir ring -depth 5 -topN 50 &
抓完網頁的相關資料並建立索引之後~ 就要開始部署搜尋引擎了~
請將「nutch-0.9.war」搬移至你JBoss或Tomcat部署的資料夾下
mkdir nutch.war mv nutch-0.9.war nutch.war unzip nutch-0.9.war
修改「nutch.war/WEB-INF/classes/nutch-site.xml」,為它加上要搜尋的資料夾,也就是我們剛剛透過Crawler所建立的那些索引檔~
<property> <name>searcher.dir</name> <value>/usr/local/data/nutch-0.9/ring</value> </property>
修改「server.xml」,如果你的環境是JBoss 4.2.2GA的話~ 請參考下述做法:
cd JBoss-4.2.2.GA/server/default/deploy/jboss-web.deployer vi server.xml
找到「<Connector port="8080"」這一行,為它加上「URIEncoding="UTF-8" useBodyEncodingForURI="true"」即可~ 避免利用Get傳送方式導致編碼錯誤~
最後啟動你的JBoss來玩嚕~
參考資源
相關資源
.Introduction to Nutch, Part 1: Crawling
.Introduction to Nutch, Part 2: Searching