java爬虫开源框架（爬取框架源代码）

E安全 • 2024年4月4日 17:56:02 • Java • 阅读 50

本篇文章给大家谈谈java爬虫开源框架，以及爬取框架源代码对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、java 实现网络爬虫用哪个爬虫框架比较好2、开源爬虫框架各有什么优缺点？3、爬虫框架都有什么？4、北大青鸟java培训：编程开发都有哪些常用的开源框架？

java 实现网络爬虫用哪个爬虫框架比较好

有些人问，开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：

上面说的爬虫，基本可以分3类：

1.分布式爬虫：Nutch

2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector

3. 非JAVA单机爬虫：scrapy

第一类:分布式爬虫

爬虫使用分布式，主要是解决两个问题：

1)海量URL管理

2)网速

现在比较流行的分布式爬虫，是Apache的Nutch。但是对于大多数用户来说，Nutch是这几类爬虫里，最不好的选择，理由如下：

1)Nutch是为搜索引擎设计的爬虫，大多数用户是需要一个做精准数据爬取（精抽取）的爬虫。Nutch运行的一套流程里，有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说，用Nutch做数据抽取，会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发，来使得它适用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新写一个分布式爬虫框架了。

2)Nutch依赖hadoop运行，hadoop本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机爬虫快。

3)Nutch虽然有一套插件机制，而且作为亮点宣传。可以看到一些开源的Nutch插件，提供精抽取的功能。但是开发过Nutch插件的人都知道，Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件，使得程序的编写和调试都变得异常困难，更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点，而这五六个挂载点都是为了搜索引擎服务的，并没有为精抽取提供挂载点。大多数Nutch的精抽取插件，都是挂载在“页面解析”(parser)这个挂载点的，这个挂载点其实是为了解析链接（为后续爬取提供URL），以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。

4)用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高，何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。

5)很多人说Nutch2有gora，可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了，这里说的持久化数据，是指将URL信息（URL管理所需要的数据）存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说，URL信息存在哪里无所谓。

6)Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1，但是这个版本绑定了gora-0.3。如果想用hbase配合nutch（大多数人用nutch2就是为了用hbase)，只能使用0.90版本左右的hbase，相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用，Nutch2的教程有两个，分别是Nutch1.x和Nutch2.x，这个Nutch2.x上写的是可以支持到hbase 0.94。但是实际上，这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本，这个版本在官方的SVN中不断更新。而且非常不稳定（一直在修改）。

所以，如果你不是要做搜索引擎，尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风，非要选择Nutch来开发精抽取的爬虫，其实是冲着Nutch的名气（Nutch作者是Doug Cutting），当然最后的结果往往是项目延期完成。

如果你是要做搜索引擎，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话，建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。

开源爬虫框架各有什么优缺点？

首先爬虫框架有三种

分布式爬虫：Nutch

JAVA单机爬虫：Crawler4j，WebMagic，WebCollector

非JAVA单机爬虫：scrapy

第一类:分布式爬虫

优点：

海量URL管理

网速快

缺点：

Nutch是为搜索引擎设计的爬虫，大多数用户是需要一个做精准数据爬取（精抽取）的爬虫。Nutch运行的一套流程里，有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。

用Nutch做数据抽取，会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发，来使得它适用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目全非。

Nutch依赖hadoop运行，hadoop本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机爬虫。

Nutch虽然有一套插件机制，而且作为亮点宣传。可以看到一些开源的Nutch插件，提供精抽取的功能。但是开发过Nutch插件的人都知道，Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件，使得程序的编写和调试都变得异常困难，更别说在上面开发一套复杂的精抽取系统了。

Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点，而这五六个挂载点都是为了搜索引擎服务的，并没有为精抽取提供挂载点。大多数Nutch的精抽取插件，都是挂载在“页面解析”(parser)这个挂载点的，这个挂载点其实是为了解析链接（为后续爬取提供URL），以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text)

用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高，何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。

Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1，但是这个版本绑定了gora-0.3。Nutch2.3之前、Nutch2.2.1之后的一个版本，这个版本在官方的SVN中不断更新。而且非常不稳定（一直在修改）。

第二类:JAVA单机爬虫

优点：

支持多线程。

支持代理。

能过滤重复URL的。

负责遍历网站和下载页面。爬js生成的信息和网页信息抽取模块有关，往往需要通过模拟浏览器(htmlunit,selenium)来完成。

缺点：

设计模式对软件开发没有指导性作用。用设计模式来设计爬虫，只会使得爬虫的设计更加臃肿。

第三类:非JAVA单机爬虫

优点：

先说python爬虫，python可以用30行代码，完成JAVA

50行代码干的任务。python写代码的确快，但是在调试代码的阶段，python代码的调试往往会耗费远远多于编码阶段省下的时间。

使用python开发，要保证程序的正确性和稳定性，就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂，使用scrapy这种爬虫也是蛮不错的，可以轻松完成爬取任务。

缺点：

bug较多，不稳定。

爬虫可以爬取ajax信息么？

网页上有一些异步加载的数据，爬取这些数据有两种方法：使用模拟浏览器（问题1中描述过了），或者分析ajax的http请求，自己生成ajax请求的url，获取返回的数据。如果是自己生成ajax请求，使用开源爬虫的意义在哪里？其实是要用开源爬虫的线程池和URL管理功能（比如断点爬取）。

如果我已经可以生成我所需要的ajax请求（列表），如何用这些爬虫来对这些请求进行爬取？

爬虫往往都是设计成广度遍历或者深度遍历的模式，去遍历静态或者动态页面。爬取ajax信息属于deepweb（深网）的范畴，虽然大多数爬虫都不直接支持。但是也可以通过一些方法来完成。比如WebCollector使用广度遍历来遍历网站。爬虫的第一轮爬取就是爬取种子集合(seeds)中的所有url。简单来说，就是将生成的ajax请求作为种子，放入爬虫。用爬虫对这些种子，进行深度为1的广度遍历（默认就是广度遍历）。

爬虫怎么爬取要登陆的网站？

这些开源爬虫都支持在爬取时指定cookies，模拟登陆主要是靠cookies。至于cookies怎么获取，不是爬虫管的事情。你可以手动获取、用http请求模拟登陆或者用模拟浏览器自动登陆获取cookie。

爬虫怎么抽取网页的信息？

开源爬虫一般都会集成网页抽取工具。主要支持两种规范：CSSSELECTOR和XPATH。

网页可以调用爬虫么？

爬虫的调用是在Web的服务端调用的，平时怎么用就怎么用，这些爬虫都可以使用。

爬虫速度怎么样？

单机开源爬虫的速度，基本都可以讲本机的网速用到极限。爬虫的速度慢，往往是因为用户把线程数开少了、网速慢，或者在数据持久化时，和数据库的交互速度慢。而这些东西，往往都是用户的机器和二次开发的代码决定的。这些开源爬虫的速度，都很可以。

爬虫框架都有什么？

主流爬虫框架通常由以下部分组成：

1.种子URL库：URL用于定位互联网中的各类资源，如最常见的网页链接，还有常见的文件资源、流媒体资源等。种子URL库作为网络爬虫的入口，标识出爬虫应该从何处开始运行，指明了数据来源。

2.数据下载器：针对不同的数据种类，需要不同的下载方式。主流爬虫框架通畅提供多种数据下载器，用来下载不同的资源，如静态网页下载器、动态网页下载器、FTP下载器等。

3.过滤器：对于已经爬取的URL，智能的爬虫需要对其进行过滤，以提高爬虫的整体效率。常用的过滤器有基于集合的过滤器、基于布隆过滤的过滤器等。

4.流程调度器：合理的调度爬取流程，也可以提高爬虫的整体效率。在流程调度器中，通常提供深度优先爬取、广度优先爬取、订制爬取等爬取策略。同时提供单线程、多线程等多种爬取方式。

北大青鸟java培训：编程开发都有哪些常用的开源框架？

对于程序员来说，大部分都是学习的编程开发语言，而编程也一直是互联网软件开发领域的主流编程语言之一。

今天，我们就一起来了解一下，的生态圈都包含了哪些框架。

的生态环境开放、自由，在Sun/Oracle、Google、Apache、Eclipse基金会等各大厂商，还有技术大牛的共同努力下，的生态圈异常繁荣，各种优秀的开源框架层出不穷。

SpringBootSpringBoot是Pivotal团队推出的一个支持快速开发的框架，伴随Spring4.0而生，继承了Spring的优秀特质，简化了使用Spring编码、配置、部署的过程，使项目的开发变得简单、敏捷。

SpringCloudSpringCloud是基于SpringBoot的一整套分布式系统下的微服务构建框架，包含了众多的子项目，如SpringCloudConfig、SpringCloudStream等。

Hadoop/SparkHadoop是个获得极大应用的大数据框架，是大数据领域标志性的解决方案。

Spark通过完善的内存计算和处理优化，极大的提升了速度，是具备流处理能力的下一代批处理框架。

Spark体系还包括一系列附加库，如SparkStreaming、SparkMLlib、SparkGraphX、SparkNet、CaffeOnSpark等。

KafkaKafka是LinkedIn使用Scala开发的一个分布式消息中间件，可以实现不同应用之间的松耦合，由于其可扩展、高吞吐、低延迟、高可靠等特性而被广泛使用。

ElasticSearchElasticSearch是基于Lucene的实时分布式搜索引擎，河北北大青鸟认为由于其搜索稳定、可靠，速度快、安装方便等特点，是使用广泛的开源搜索引擎之一。

NutchNutch是Apache旗下的高度可扩展、可伸缩、可插拔的开源网络爬虫框架，功能完整。

当然爬出框架还有很多：Heritrix、Crawler4j、WebCollector、WebMagic、SeimiCrawler、HtmlUnit等，可根据实际项目需要选择。

在爬虫领域，Python可能使用的更多一些，入门也简单。

爬虫的难点不在于语言的选择，无论、Python都可以胜任，关键还是反反爬策略的制定，以及各种实战的积累。

java爬虫开源框架的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于爬取框架源代码、java爬虫开源框架的信息别忘了在本站进行查找喔。

本文来自投稿，不代表【痞子匠】观点，发布者：【E安全】

本文地址：https://www.pizijiang.com/seo/227572.html ，如若转载，请注明出处！

举报投诉邮箱：253000106@qq.com

开源框架爬虫

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

E安全作者

64.2K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

java春招（java春招还没学完）

上一篇 2024年4月4日 17:52:59

java上海（java上海工资一般多少）

下一篇 2024年4月4日 18:02:10

Java

java路由分发,java 路由框架

求java高手进~~在线等~~ 迭代器Iterator 本身是一个接口，集合在重写Collection的iterator()方法时利用内部类提供了迭代器的实现。Iterator提供了统一的遍历集合元素的方式，其提供了用于遍历集合的两个方法：boolean hasNext()判断集合是否还有元素可以遍历。学生成绩管理功能目标：1输入班级n个同学的学号，姓名，…

E安全
2024年5月23日
36000
网络安全

网络安全知识框架分享图片,网络安全知识有哪些

lan是什么接口 1、LAN接口是局域网接口。LAN接口是局域网接口，主要的用途是让路由器和局域网进行连接。LAN接口通常在路由器上面，主要是用来负责输出信号，通过用网线连接电脑的网卡接口，达到让电脑可以上网的作用。 2、LAN接口实际上就是局域网接口。它主要是用于路由器与局域网进行连接，因局域网类型也是多种多样的，所以这也就决定了路由器的局域网接口类型也可…

E安全
2024年5月23日
43000
Java

java主要有哪些框架,java自动化测试框架有哪些

java开发框架有哪些 1、Struts是一个基于Sun Java EE平台的MVC框架；Spring是轻量级的Java EE应用程序框架；Hibernate是一个开放源代码的对象关系映射框架；Swing图形用户接口库。 2、java开发框架如下：SSH组合一般常说的SSH组合框架，就是Struts，Spring，Hibernate，后来Struts被Sp…

E安全
2024年5月23日
36000
Java

爬虫用java还是python,爬虫跟java哪个好

学Java好还是学Python好? Java作为发展已经很成熟的编程语言，可以说是无处不在，学好java就业机会非常多。而python随着人工智能时代的到来而火爆，容易入门，未来发展空间巨大。可以说，python和java都是非常值得学的。对于从事大型软件开发或者需要与底层系统交互的开发者来说，学习Java是一个不错的选择。Python是一种简洁、易学且功…

E安全
2024年5月22日
42000
Java

java开源oa系统j.office,java开源ocr

OA系统的技术平台 1、纵观OA市场，中国共有五大经典OA办公系统，分别是：泛微OA、致远OA、华天动力OA、通达OA、以及蓝凌OA。 2、OA办公系统中OA是Office Automation的简写，就是办公自动化系统。所谓OA办公系统就是用网络和OA软件构建的一个单位内部的办公通信平台，用于辅助办公。 3、OA是Office-Automation的缩写，…

E安全
2024年5月22日
40000
Linux

linux系统框架,linux系统基本构成框架

Linux系统架构与目录解析的内容《Linux系统架构与目录解析》提供了完整的系统启动流程图，为读者说明各个目录与文件位于开机流程中的重点。 dev是device（设备）的缩写。这个目录下是所有Linux的外部设备，其功能类似DOS下的.sys和Win下的.vxd。在Linux中设备和文件是用同种方法访问的。例如：/dev/hda代表第一个物理IDE硬盘。…

E安全
2024年5月22日
42000
Java

java的框架有哪些,java中的框架有哪些

java的三大框架是什么,功能各是什么(java中使用框架是干什么用的) 1、Java三大框架：Struts，Spring，Hibernate。 2、JAVA三大框架Struts、hibernate和spring。struts 主要负责表示层的显示，spring 利用它的IOC和AOP来处理控制业务（负责对数据库的操作），hibernate 主要作用是数据的…

E安全
2024年5月22日
39000
Linux

linux系统用装驱动吗,linux驱动必须开源吗

Linux系统需要“驱动程序”吗? 需要，不过大部分linux都自带，少量的也都有自动安装文件比如ati的显卡驱动什么的。 linux软件开发能转驱动。Linux驱动开发也属于内核开发中的设备驱动开发。linux也是需要驱动程序的。驱动程序是操作系统操作控制特定硬件的一个中间层，他给和操作系统对接来控制具体的硬件。 linux系统是需要安装显卡驱动的。安装…

E安全
2024年5月22日
40000
Java

orm框架java,orm框架解决了什么问题,如果让你实现,思路是啥

Javaweb现在流行用什么框架? 1、Struts是一个基于Sun Java EE平台的MVC框架；Spring是轻量级的Java EE应用程序框架；Hibernate是一个开放源代码的对象关系映射框架；Swing图形用户接口库。 2、WebWork【Java开源Web开发框架】WebWork是由组织开发的，致力于组件化和代码重用的拉出式MVC模式J2EE…

E安全
2024年5月22日
46000
黑客技术

开源黑客学习网站,黑客源代码

想建一个企业网站,用哪个开源系统比较好呢(php+mysql) 1、如果LZ想尝试其它的CMS可以给你推荐几款：Drupal、DO-CMS、 Destoon B2B网站管理系统、刀客建站系统、AKCMS、AutoCMS、 Alpha CMS、 Arlicle等等。其实还有很多很多。 2、Joomla！是一套在国外相当知名的内容管理系统，2007年开源cm…

E安全
2024年5月22日
47000