javaeyes 发表于 2013-1-27 06:25:58

nutch爬行中的depth(层数,深度?)

一直搞不清楚nutch中的depth是什么意思,就照着字面意思理解,认为是指html文件所在文件夹的相对于网站的深度。今天做了个小实验,证明并不是这样,下面来看看
先在Tomcat里面建一个示例网站Test,网站根目录下建四个网页index.html, a.thml, b.html, c.html.建一个文件夹1,内有1.html,在文件夹1中建文件夹2,建2.html。它们的链接关系:index.html中有a.html和1.html的链接,a.html中有b和c的链接,1.html中有2.html的链接。这个示例网站是按我原来的意思建的:第一层有四个文件,且包含了蜘蛛能访问到的链接,第二层有一个文件1.html,第三层为2.html。这是一个以文件夹为深度的例子。
启动nutch的爬虫爬行网站(配置可以网上查,很多)。
<div class="code_title">cmd代码<div class="dp-highlighter">   
[*]nutch crawl  urls -dir c:\Test -threads 5 -depth 1  
页: [1]
查看完整版本: nutch爬行中的depth(层数,深度?)