KazMuzik.net
Music / Technology / Healthcare / Immigration / アメリカ
Google
 
<< Norton Internet Security 2007怒りの Reimbursement #4 >>

Nutch 0.9 - Kaz Muzik Blog Backup Project #1 - KazMuzik Blog
2007-04-16 22:28

2/24/2007 に最初に Nutch を紹介したときは、0.8.1 でしたが、最近 4/2/2007 に 0.9 がリリースされました。Nutch は、Cluster と DFS (Distributed File System) の機能を提供するフレームワークである Hadoop をベースにしています。以前は、CrawlDb に、hadoop の io パッケージの UTF8 というクラスを使っていましたが、これは Deprecated になっているため、0.9 では Text を使うようになりました。このため、データの互換性がなくなりましたが、一応、CrawlDbConverter というコンバータも提供されているようです。私の場合は、そんなに crawl した資産があるわけではないので、新たに 0.9 を使うことにします。

前回はこのブログを crawl して、検索用の Lucene index を作成しましたが、今回は crawl にフォーカスして、ブログのバックアップをとること考えてみたいと思います。まずは手始めに、トップページから始めて、depth 3 で crawl してみます。
$ cd /usr/local/nutch-0.9
$ mkdir urls-kazmuzikblog
$ vi urls-kazmuzikblog/nutch
$ cat urls-kazmuzikblog/nutch
http://kazuomik.livejournal.com/
$ vi conf/conf/crawl-urlfilter.txt
$ cat conf/conf/crawl-urlfilter.txt
+^http://kazuomik.livejournal.com/
-.
$ export NUTCH_JAVA_HOME=/usr/java/jdk1.6.0_01
$ bin/nutch crawl urls-kazmuzikblog -dir crawl-1 -depth 3
crawl started in: crawl-1
rootUrlDir = urls-kazmuzikblog
threads = 10
depth = 3
...
crawl finished: crawl-1
$


#2 に、つづく

Tags: computer_technology