`

在Eclipse中构建Heritrix 1.xx

阅读更多

在Eclipse中构建Heritrix 

这里采用的是Heritrix 1.14.4 

1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载 
heritrix-1.14.4.zip 
heritrix-1.14.4-src.zip 

2.在Eclipse 中创建一个java project的工程,分别对 
heritrix-1.14.4.zip 
heritrix-1.14.4-src.zip 进行解压。 

3.将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。 
4.将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。 
5.将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。 
6.将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。 
7.将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。 
如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。 

 

显示代码打印1 /**   

2  * @throws IOException   

3  * @return Returns the directory under which reside the WAR files   

4  * we’re to load into the servlet container.   

5  */    

6 public static File getWarsdir()    

7 throws IOException {    

8     return getSubDir("webapps");    

9 }

 


8.配置文件进行修改,找到conf下heritrix.properties文件 

 

显示代码打印1 //设置用户密码    

2 heritrix.cmdline.admin = admin:admin    

3 //设置端口    

4 heritrix.cmdline.port = 8080

 

 

9.对工程进行jar包引入,将lib下面所有的jar包引入工程。 
10.在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置 
选择Classpath 
选择User Entries -- Advanced 
选择Add Folders 将conf文件夹添加进去。 
点击Run 开始运行 


05:22:32.875 EVENT  Starting Jetty/4.2.23  
05:22:32.937 WARN!! Delete existing temp dir C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/workspace/jcjcd/heritrixDemo/webapps/admin.war!/]  
05:22:33.062 EVENT  Started WebApplicationContext[/,Heritrix Console]  
05:22:33.156 EVENT  Started SocketListener on 127.0.0.1:8080  
05:22:33.156 EVENT  Started org.mortbay.jetty.Server@1f6f0bf  
Heritrix version: @VERSION@  

分享到:
评论

相关推荐

    Eclipse下配置Heritrix

    Eclipse下配置Heritrix,具体配置步骤详细介绍。

    Heritrix 3.x 用户手册

    在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI 它是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    此文件中包括heritrix-1.14.4.zip和heritrix-1.14.4-src.zip 其中src是源码,已测试能够集成到eclipse中进行二次开发

    heritrix jmxremote.password

    jmxremote.password

    eclipse下配置heritrix 1.14.4

    很多网上的资料讲得比较乱,不够完善,而且都是把源文件放项目根目录下,不符合我们开发者的习惯。其实几步就可以完成了,记住的我们开发的习惯对进行配置,很容易上手

    Heritrix 配置

    在Eclipse里配置Heritrix的开发环境 1. 下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包; 2. 在Eclipse下新建普通Java项目,取名Heritrix;(如我打开Eclipse的...

    Heritrix在Eclipse中的源文件

    Heritrix在Eclipse中的源文件。Heritrix1.14.4;Eclipse:helios。 在Eclipse中新建一个javaproject工程,将下载下来的。另附说明

    heritrix-1.14.2.zip

    heritrix-1.14.2.zip是一个开源项目

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    这是我在官方网站下载的,里面还有在myeclipse安装方法及常见问题解决

    Heritrix Eclipse下环境配置

    Heritrix是用来爬取网页的开源工具包,本文档描述了如何在Eclipse环境下配置heritrix

    Heritrix lucene开发自己的搜索引擎(源码)1

    1.光盘中所附代码的运行环境 服务器Tomcat5.5版本 数据库采用MySQL 5.0 版本 JDK采用1.5.0 Spring采用1.2.8版本 DWR采用1.1.3版本 Windows平台 Tomcat 插件TomcatPlugin(下载地址:...

    web爬虫Heritrix.zip

    整个流程都在图2.1中。 (1)预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。 (2)提取链:主要是下载网页,进行DNS转换,填写请求和响应表单。 (3)抽取链:当提取完成时,抽取感兴趣...

    Heritrix3手册翻译

    Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    heritrix系统使用.ppt

    heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识

    heritrix-1.12.1.zip

    免费资源,赶紧下载学习。heritrix-1.12.1.zip

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix...heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:http://blog.csdn.net/kath_y/article/details/9385015

    开发自己的搜索引擎 Lucene+Heritrix.pdf.part2

    开发自己的搜索引擎-Lucene+Heritrix>>完整版 pdf 文档,共分为两个压缩文件,请全部下载解压。

    开发自己的搜索引擎lucene and heritrix

    1.光盘中所附代码的运行环境 服务器Tomcat5.5版本 数据库采用MySQL 5.0 版本 JDK采用1.5.0 Spring采用1.2.8版本 DWR采用1.1.3版本 Windows平台 Tomcat 插件TomcatPlugin(下载地址:...

    开发自己的搜索引擎--Lucene+Heritrix.zip

    开发自己的搜索引擎--Lucene+Heritrix

Global site tag (gtag.js) - Google Analytics