java爬虫开源框架(爬取框架源代码)

本篇文章给大家谈谈java爬虫开源框架,以及爬取框架源代码对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

1、java 实现网络爬虫用哪个爬虫框架比较好2、开源爬虫框架各有什么优缺点?3、爬虫框架都有什么?4、北大青鸟java培训:编程开发都有哪些常用的开源框架?

java 实现网络爬虫用哪个爬虫框架比较好

有些人问,开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:

上面说的爬虫,基本可以分3类:

1.分布式爬虫:Nutch

2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector

3. 非JAVA单机爬虫:scrapy

第一类:分布式爬虫

爬虫使用分布式,主要是解决两个问题:

1)海量URL管理

2)网速

现在比较流行的分布式爬虫,是Apache的Nutch。但是对于大多数用户来说,Nutch是这几类爬虫里,最不好的选择,理由如下:

1)Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取(精抽取)的爬虫。Nutch运行的一套流程里,有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说,用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发,来使得它适用于精抽取的业务,基本上就要破坏Nutch的框架,把Nutch改的面目全非,有修改Nutch的能力,真的不如自己重新写一个分布式爬虫框架了。

2)Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫快。

3)Nutch虽然有一套插件机制,而且作为亮点宣传。可以看到一些开源的Nutch插件,提供精抽取的功能。但是开发过Nutch插件的人都知道,Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件,使得程序的编写和调试都变得异常困难,更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点,而这五六个挂载点都是为了搜索引擎服务的,并没有为精抽取提供挂载点。大多数Nutch的精抽取插件,都是挂载在“页面解析”(parser)这个挂载点的,这个挂载点其实是为了解析链接(为后续爬取提供URL),以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。

4)用Nutch进行爬虫的二次开发,爬虫的编写和调试所需的时间,往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高,何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。

5)很多人说Nutch2有gora,可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了,这里说的持久化数据,是指将URL信息(URL管理所需要的数据)存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说,URL信息存在哪里无所谓。

6)Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1,但是这个版本绑定了gora-0.3。如果想用hbase配合nutch(大多数人用nutch2就是为了用hbase),只能使用0.90版本左右的hbase,相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用,Nutch2的教程有两个,分别是Nutch1.x和Nutch2.x,这个Nutch2.x上写的是可以支持到hbase 0.94。但是实际上,这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本,这个版本在官方的SVN中不断更新。而且非常不稳定(一直在修改)。

所以,如果你不是要做搜索引擎,尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风,非要选择Nutch来开发精抽取的爬虫,其实是冲着Nutch的名气(Nutch作者是Doug Cutting),当然最后的结果往往是项目延期完成。

如果你是要做搜索引擎,Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合,就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话,建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。

开源爬虫框架各有什么优缺点?

首先爬虫框架有三种

分布式爬虫:Nutch

JAVA单机爬虫:Crawler4j,WebMagic,WebCollector

非JAVA单机爬虫:scrapy

第一类:分布式爬虫

优点:

海量URL管理

网速快

缺点:

Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取(精抽取)的爬虫。Nutch运行的一套流程里,有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。

用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发,来使得它适用于精抽取的业务,基本上就要破坏Nutch的框架,把Nutch改的面目全非。

Nutch依赖hadoop运行,hadoop本身会消耗很多的时间。如果集群机器数量较少,爬取速度反而不如单机爬虫。

Nutch虽然有一套插件机制,而且作为亮点宣传。可以看到一些开源的Nutch插件,提供精抽取的功能。但是开发过Nutch插件的人都知道,Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件,使得程序的编写和调试都变得异常困难,更别说在上面开发一套复杂的精抽取系统了。

Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点,而这五六个挂载点都是为了搜索引擎服务的,并没有为精抽取提供挂载点。大多数Nutch的精抽取插件,都是挂载在“页面解析”(parser)这个挂载点的,这个挂载点其实是为了解析链接(为后续爬取提供URL),以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text)

用Nutch进行爬虫的二次开发,爬虫的编写和调试所需的时间,往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高,何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题(hadoop的问题、hbase的问题)。

Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1,但是这个版本绑定了gora-0.3。Nutch2.3之前、Nutch2.2.1之后的一个版本,这个版本在官方的SVN中不断更新。而且非常不稳定(一直在修改)。

第二类:JAVA单机爬虫

优点:

支持多线程。

支持代理。

能过滤重复URL的。

负责遍历网站和下载页面。爬js生成的信息和网页信息抽取模块有关,往往需要通过模拟浏览器(htmlunit,selenium)来完成。

缺点:

设计模式对软件开发没有指导性作用。用设计模式来设计爬虫,只会使得爬虫的设计更加臃肿。

第三类:非JAVA单机爬虫

优点:

先说python爬虫,python可以用30行代码,完成JAVA

50行代码干的任务。python写代码的确快,但是在调试代码的阶段,python代码的调试往往会耗费远远多于编码阶段省下的时间。

使用python开发,要保证程序的正确性和稳定性,就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂,使用scrapy这种爬虫也是蛮不错的,可以轻松完成爬取任务。

缺点:

bug较多,不稳定。

爬虫可以爬取ajax信息么?

网页上有一些异步加载的数据,爬取这些数据有两种方法:使用模拟浏览器(问题1中描述过了),或者分析ajax的http请求,自己生成ajax请求的url,获取返回的数据。如果是自己生成ajax请求,使用开源爬虫的意义在哪里?其实是要用开源爬虫的线程池和URL管理功能(比如断点爬取)。

如果我已经可以生成我所需要的ajax请求(列表),如何用这些爬虫来对这些请求进行爬取?      

爬虫往往都是设计成广度遍历或者深度遍历的模式,去遍历静态或者动态页面。爬取ajax信息属于deepweb(深网)的范畴,虽然大多数爬虫都不直接支持。但是也可以通过一些方法来完成。比如WebCollector使用广度遍历来遍历网站。爬虫的第一轮爬取就是爬取种子集合(seeds)中的所有url。简单来说,就是将生成的ajax请求作为种子,放入爬虫。用爬虫对这些种子,进行深度为1的广度遍历(默认就是广度遍历)。

爬虫怎么爬取要登陆的网站?

这些开源爬虫都支持在爬取时指定cookies,模拟登陆主要是靠cookies。至于cookies怎么获取,不是爬虫管的事情。你可以手动获取、用http请求模拟登陆或者用模拟浏览器自动登陆获取cookie。

爬虫怎么抽取网页的信息?

开源爬虫一般都会集成网页抽取工具。主要支持两种规范:CSSSELECTOR和XPATH。

网页可以调用爬虫么?

爬虫的调用是在Web的服务端调用的,平时怎么用就怎么用,这些爬虫都可以使用。

爬虫速度怎么样?

单机开源爬虫的速度,基本都可以讲本机的网速用到极限。爬虫的速度慢,往往是因为用户把线程数开少了、网速慢,或者在数据持久化时,和数据库的交互速度慢。而这些东西,往往都是用户的机器和二次开发的代码决定的。这些开源爬虫的速度,都很可以。

爬虫框架都有什么?

主流爬虫框架通常由以下部分组成:

1.种子URL库:URL用于定位互联网中的各类资源,如最常见的网页链接,还有常见的文件资源、流媒体资源等。种子URL库作为网络爬虫的入口,标识出爬虫应该从何处开始运行,指明了数据来源。

2.数据下载器:针对不同的数据种类,需要不同的下载方式。主流爬虫框架通畅提供多种数据下载器,用来下载不同的资源,如静态网页下载器、动态网页下载器、FTP下载器等。

3.过滤器:对于已经爬取的URL,智能的爬虫需要对其进行过滤,以提高爬虫的整体效率。常用的过滤器有基于集合的过滤器、基于布隆过滤的过滤器等。

4.流程调度器:合理的调度爬取流程,也可以提高爬虫的整体效率。在流程调度器中,通常提供深度优先爬取、广度优先爬取、订制爬取等爬取策略。同时提供单线程、多线程等多种爬取方式。

北大青鸟java培训:编程开发都有哪些常用的开源框架?

对于程序员来说,大部分都是学习的编程开发语言,而编程也一直是互联网软件开发领域的主流编程语言之一。

今天,我们就一起来了解一下,的生态圈都包含了哪些框架。

的生态环境开放、自由,在Sun/Oracle、Google、Apache、Eclipse基金会等各大厂商,还有技术大牛的共同努力下,的生态圈异常繁荣,各种优秀的开源框架层出不穷。

SpringBootSpringBoot是Pivotal团队推出的一个支持快速开发的框架,伴随Spring4.0而生,继承了Spring的优秀特质,简化了使用Spring编码、配置、部署的过程,使项目的开发变得简单、敏捷。

SpringCloudSpringCloud是基于SpringBoot的一整套分布式系统下的微服务构建框架,包含了众多的子项目,如SpringCloudConfig、SpringCloudStream等。

Hadoop/SparkHadoop是个获得极大应用的大数据框架,是大数据领域标志性的解决方案。

Spark通过完善的内存计算和处理优化,极大的提升了速度,是具备流处理能力的下一代批处理框架。

Spark体系还包括一系列附加库,如SparkStreaming、SparkMLlib、SparkGraphX、SparkNet、CaffeOnSpark等。

KafkaKafka是LinkedIn使用Scala开发的一个分布式消息中间件,可以实现不同应用之间的松耦合,由于其可扩展、高吞吐、低延迟、高可靠等特性而被广泛使用。

ElasticSearchElasticSearch是基于Lucene的实时分布式搜索引擎,河北北大青鸟认为由于其搜索稳定、可靠,速度快、安装方便等特点,是使用广泛的开源搜索引擎之一。

NutchNutch是Apache旗下的高度可扩展、可伸缩、可插拔的开源网络爬虫框架,功能完整。

当然爬出框架还有很多:Heritrix、Crawler4j、WebCollector、WebMagic、SeimiCrawler、HtmlUnit等,可根据实际项目需要选择。

在爬虫领域,Python可能使用的更多一些,入门也简单。

爬虫的难点不在于语言的选择,无论、Python都可以胜任,关键还是反反爬策略的制定,以及各种实战的积累。

java爬虫开源框架(爬取框架源代码)

java爬虫开源框架的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于爬取框架源代码、java爬虫开源框架的信息别忘了在本站进行查找喔。

本文来自投稿,不代表【】观点,发布者:【

本文地址: ,如若转载,请注明出处!

举报投诉邮箱:253000106@qq.com

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年4月4日 17:52:59
下一篇 2024年4月4日 18:02:10

相关推荐

  • java路由分发,java 路由框架

    求java高手进~~在线等~~ 迭代器Iterator 本身是一个接口,集合在重写Collection的iterator()方法时利用内部类提供了迭代器的实现。Iterator提供了统一的遍历集合元素的方式,其提供了用于遍历集合的两个方法:boolean hasNext()判断集合是否还有元素可以遍历。 学生成绩管理功能目标:1输入班级n个同学的学号,姓名,…

    2024年5月23日
    3600
  • 网络安全知识框架分享图片,网络安全知识有哪些

    lan是什么接口 1、LAN接口是局域网接口。LAN接口是局域网接口,主要的用途是让路由器和局域网进行连接。LAN接口通常在路由器上面,主要是用来负责输出信号,通过用网线连接电脑的网卡接口,达到让电脑可以上网的作用。 2、LAN接口实际上就是局域网接口。它主要是用于路由器与局域网进行连接,因局域网类型也是多种多样的,所以这也就决定了路由器的局域网接口类型也可…

    2024年5月23日
    4300
  • java主要有哪些框架,java自动化测试框架有哪些

    java开发框架有哪些 1、Struts是一个基于Sun Java EE平台的MVC框架;Spring是轻量级的Java EE应用程序框架;Hibernate是一个开放源代码的对象关系映射框架;Swing图形用户接口库。 2、java开发框架如下:SSH组合 一般常说的SSH组合框架,就是Struts,Spring,Hibernate,后来Struts被Sp…

    2024年5月23日
    3600
  • 爬虫用java还是python,爬虫跟java哪个好

    学Java好还是学Python好? Java作为发展已经很成熟的编程语言,可以说是无处不在,学好java就业机会非常多。而python随着人工智能时代的到来而火爆,容易入门,未来发展空间巨大。可以说,python和java都是非常值得学的。 对于从事大型软件开发或者需要与底层系统交互的开发者来说,学习Java是一个不错的选择。Python是一种简洁、易学且功…

    2024年5月22日
    4200
  • java开源oa系统j.office,java开源ocr

    OA系统的技术平台 1、纵观OA市场,中国共有五大经典OA办公系统,分别是:泛微OA、致远OA、华天动力OA、通达OA、以及蓝凌OA。 2、OA办公系统中OA是Office Automation的简写,就是办公自动化系统。所谓OA办公系统就是用网络和OA软件构建的一个单位内部的办公通信平台,用于辅助办公。 3、OA是Office-Automation的缩写,…

    2024年5月22日
    4000
  • linux系统框架,linux系统基本构成框架

    Linux系统架构与目录解析的内容 《Linux系统架构与目录解析》提供了完整的系统启动流程图,为读者说明各个目录与文件位于开机流程中的重点。 dev是device(设备)的缩写。这个目录下是所有Linux的外部设备,其功能类似DOS下的.sys和Win下的.vxd。在Linux中设备和文件是用同种方法访问的。例如:/dev/hda代表第一个物理IDE硬盘。…

    2024年5月22日
    4200
  • java的框架有哪些,java中的框架有哪些

    java的三大框架是什么,功能各是什么(java中使用框架是干什么用的) 1、Java三大框架:Struts,Spring,Hibernate。 2、JAVA三大框架Struts、hibernate和spring。struts 主要负责表示层的显示,spring 利用它的IOC和AOP来处理控制业务(负责对数据库的操作),hibernate 主要作用是数据的…

    2024年5月22日
    3900
  • linux系统用装驱动吗,linux驱动必须开源吗

    Linux系统需要“驱动程序”吗? 需要,不过大部分linux都自带,少量的也都有自动安装文件 比如ati的显卡驱动什么的。 linux软件开发能转驱动。Linux驱动开发也属于内核开发中的设备驱动开发。linux也是需要驱动程序的。驱动程序是操作系统操作控制特定硬件的一个中间层,他给和操作系统对接来控制具体的硬件。 linux系统是需要安装显卡驱动的。安装…

    2024年5月22日
    4000
  • orm框架java,orm框架解决了什么问题,如果让你实现,思路是啥

    Javaweb现在流行用什么框架? 1、Struts是一个基于Sun Java EE平台的MVC框架;Spring是轻量级的Java EE应用程序框架;Hibernate是一个开放源代码的对象关系映射框架;Swing图形用户接口库。 2、WebWork【Java开源Web开发框架】WebWork是由组织开发的,致力于组件化和代码重用的拉出式MVC模式J2EE…

    2024年5月22日
    4600
  • 开源黑客学习网站,黑客源代码

    想建一个企业网站,用哪个开源系统比较好呢(php+mysql) 1、如果LZ想尝试其它的CMS可以给你推荐几款:Drupal、DO-CMS、 Destoon B2B网站管理系统、 刀客建站系统、AKCMS、AutoCMS、 Alpha CMS、 Arlicle等等。其实还有很多很多。 2、Joomla! 是一套在国外相当知名的内容管理系统,2007年开源cm…

    2024年5月22日
    4700

发表回复

登录后才能评论



关注微信