java爬虫采集（java爬虫获取网页数据）

E安全 • 2024年4月1日 17:22:19 • Java • 阅读 59

今天给各位分享java爬虫采集的知识，其中也会对java爬虫获取网页数据进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、Java网络爬虫怎么实现？2、如何用java爬虫爬取招聘信息3、java爬虫抓取指定数据

Java网络爬虫怎么实现？

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。\x0d\x0a传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。\x0d\x0a\x0d\x0a以下是一个使用java实现的简单爬虫核心代码：\x0d\x0apublic void crawl() throws Throwable { \x0d\x0a while (continueCrawling()) { \x0d\x0a CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL \x0d\x0a if (url != null) { \x0d\x0a printCrawlInfo(); \x0d\x0a String content = getContent(url); //获取URL的文本信息 \x0d\x0a \x0d\x0a //聚焦爬虫只爬取与主题内容相关的网页，这里采用正则匹配简单处理 \x0d\x0a if (isContentRelevant(content, this.regexpSearchPattern)) { \x0d\x0a saveContent(url, content); //保存网页至本地 \x0d\x0a \x0d\x0a //获取网页内容中的链接，并放入待爬取队列中 \x0d\x0a Collection urlStrings = extractUrls(content, url); \x0d\x0a addUrlsToUrlQueue(url, urlStrings); \x0d\x0a } else { \x0d\x0a System.out.println(url + ” is not relevant ignoring …”); \x0d\x0a } \x0d\x0a \x0d\x0a //延时防止被对方屏蔽 \x0d\x0a Thread.sleep(this.delayBetweenUrls); \x0d\x0a } \x0d\x0a } \x0d\x0a closeOutputStream(); \x0d\x0a}\x0d\x0aprivate CrawlerUrl getNextUrl() throws Throwable { \x0d\x0a CrawlerUrl nextUrl = null; \x0d\x0a while ((nextUrl == null) (!urlQueue.isEmpty())) { \x0d\x0a CrawlerUrl crawlerUrl = this.urlQueue.remove(); \x0d\x0a //doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的”Robot.txt”中配置的规则进行爬取 \x0d\x0a //isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap \x0d\x0a //isDepthAcceptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免 \x0d\x0a if (doWeHavePermissionToVisit(crawlerUrl) \x0d\x0a (!isUrlAlreadyVisited(crawlerUrl)) \x0d\x0a isDepthAcceptable(crawlerUrl)) { \x0d\x0a nextUrl = crawlerUrl; \x0d\x0a // System.out.println(“Next url to be visited is ” + nextUrl); \x0d\x0a } \x0d\x0a } \x0d\x0a return nextUrl; \x0d\x0a}\x0d\x0aprivate String getContent(CrawlerUrl url) throws Throwable { \x0d\x0a //HttpClient4.1的调用与之前的方式不同 \x0d\x0a HttpClient client = new DefaultHttpClient(); \x0d\x0a HttpGet httpGet = new HttpGet(url.getUrlString()); \x0d\x0a StringBuffer strBuf = new StringBuffer(); \x0d\x0a HttpResponse response = client.execute(httpGet); \x0d\x0a if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) { \x0d\x0a HttpEntity entity = response.getEntity(); \x0d\x0a if (entity != null) { \x0d\x0a BufferedReader reader = new BufferedReader( \x0d\x0a new InputStreamReader(entity.getContent(), “UTF-8”)); \x0d\x0a String line = null; \x0d\x0a if (entity.getContentLength() 0) { \x0d\x0a strBuf = new StringBuffer((int) entity.getContentLength()); \x0d\x0a while ((line = reader.readLine()) != null) { \x0d\x0a strBuf.append(line); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a if (entity != null) { \x0d\x0a nsumeContent(); \x0d\x0a } \x0d\x0a } \x0d\x0a //将url标记为已访问 \x0d\x0a markUrlAsVisited(url); \x0d\x0a return strBuf.toString(); \x0d\x0a}\x0d\x0apublic static boolean isContentRelevant(String content, \x0d\x0aPattern regexpPattern) { \x0d\x0a boolean retValue = false; \x0d\x0a if (content != null) { \x0d\x0a //是否符合正则表达式的条件 \x0d\x0a Matcher m = regexpPattern.matcher(content.toLowerCase()); \x0d\x0a retValue = m.find(); \x0d\x0a } \x0d\x0a return retValue; \x0d\x0a}\x0d\x0apublic List extractUrls(String text, CrawlerUrl crawlerUrl) { \x0d\x0a Map urlMap = new HashMap(); \x0d\x0a extractHttpUrls(urlMap, text); \x0d\x0a extractRelativeUrls(urlMap, text, crawlerUrl); \x0d\x0a return new ArrayList(urlMap.keySet()); \x0d\x0a} \x0d\x0aprivate void extractHttpUrls(Map urlMap, String text) { \x0d\x0a Matcher m = (text); \x0d\x0a while (m.find()) { \x0d\x0a String url = m.group(); \x0d\x0a String[] terms = url.split(“a href=\””); \x0d\x0a for (String term : terms) { \x0d\x0a // System.out.println(“Term = ” + term); \x0d\x0a if (term.startsWith(“http”)) { \x0d\x0a int index = term.indexOf(“\””); \x0d\x0a if (index 0) { \x0d\x0a term = term.substring(0, index); \x0d\x0a } \x0d\x0a urlMap.put(term, term); \x0d\x0a System.out.println(“Hyperlink: ” + term); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a} \x0d\x0aprivate void extractRelativeUrls(Map urlMap, String text, \x0d\x0a CrawlerUrl crawlerUrl) { \x0d\x0a Matcher m = relativeRegexp.matcher(text); \x0d\x0a URL textURL = crawlerUrl.getURL(); \x0d\x0a String host = textURL.getHost(); \x0d\x0a while (m.find()) { \x0d\x0a String url = m.group(); \x0d\x0a String[] terms = url.split(“a href=\””); \x0d\x0a for (String term : terms) { \x0d\x0a if (term.startsWith(“/”)) { \x0d\x0a int index = term.indexOf(“\””); \x0d\x0a if (index 0) { \x0d\x0a term = term.substring(0, index); \x0d\x0a } \x0d\x0a String s = //” + host + term; \x0d\x0a urlMap.put(s, s); \x0d\x0a System.out.println(“Relative url: ” + s); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a \x0d\x0a}\x0d\x0apublic static void main(String[] args) { \x0d\x0a try { \x0d\x0a String url = “”; \x0d\x0a Queue urlQueue = new LinkedList(); \x0d\x0a String regexp = “java”; \x0d\x0a urlQueue.add(new CrawlerUrl(url, 0)); \x0d\x0a NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L, \x0d\x0a regexp); \x0d\x0a // boolean allowCrawl = crawler.areWeAllowedToVisit(url); \x0d\x0a // System.out.println(“Allowed to crawl: ” + url + ” ” + \x0d\x0a // allowCrawl); \x0d\x0a crawler.crawl(); \x0d\x0a } catch (Throwable t) { \x0d\x0a System.out.println(t.toString()); \x0d\x0a t.printStackTrace(); \x0d\x0a } \x0d\x0a}

如何用java爬虫爬取招聘信息

1、思路：

明确需要爬取的信息

分析网页结构

分析爬取流程

优化

2、明确需要爬取的信息

职位名称

工资

职位描述

公司名称

公司主页

详情网页

分析网页结构

3、目标网站-拉勾网

网站使用json作为交互数据，分析json数据，需要的json关键数据

查看需要的信息所在的位置，使用Jsoup来解析网页

4、分析爬取流程

1.获取所有的positionId生成详情页，存放在一个存放网址列表中ListString joburls

2.获取每个详情页并解析为Job类，得到一个存放Job类的列表ListJob jobList

3.把ListJob jobList存进Excel表格中

Java操作Excel需要用到jxl

5、关键代码实现

public ListString getJobUrls(String gj,String city,String kd){

String pre_url=””;

String end_url=”.html”;

String url;

if (gj.equals(“”)){

url=”;city=”+city+”needAddtionalResult=falsefirst=falsepn=”+pn+”kd=”+kd;

}else {

url=””+gj+”px=defaultcity=”+city+”needAddtionalResult=falsefirst=falsepn=”+pn+”kd=”+kd;

}

String rs=getJson(url);

System.out.println(rs);

int total= JsonPath.read(rs,”$.content.positionResult.totalCount”);//获取总数

int pagesize=total/15;

if (pagesize=30){

pagesize=30;

}

System.out.println(total);

// System.out.println(rs);

ListInteger posid=JsonPath.read(rs,”$.content.positionResult.result[*].positionId”);//获取网页id

for (int j=1;j=pagesize;j++){ //获取所有的网页id

pn++; //更新页数

url=””+gj+”px=defaultcity=”+city+”needAddtionalResult=falsefirst=falsepn=”+pn+”kd=”+kd;

String rs2=getJson(url);

ListInteger posid2=JsonPath.read(rs2,”$.content.positionResult.result[*].positionId”);

posid.addAll(posid2); //添加解析的id到第一个list

}

ListString joburls=new ArrayList();

//生成网页列表

for (int id:posid){

String url3=pre_url+id+end_url;

joburls.add(url3);

}

return joburls;

}

public Job getJob(String url){ //获取工作信息

Job job=new Job();

Document document= null;

document = Jsoup.parse(getJson(url));

job.setJobname(document.select(“.name”).text());

job.setSalary(document.select(“.salary”).text());

String joball=HtmlTool.tag(document.select(“.job_bt”).select(“div”).html());//清除html标签

job.setJobdesc(joball);//职位描述包含要求

job.setCompany(document.select(“.b2”).attr(“alt”));

Elements elements=document.select(“.c_feature”);

//System.out.println(document.select(“.name”).text());

job.setCompanysite(elements.select(“a”).attr(“href”)); //获取公司主页

job.setJobdsite(url);

return job;

}

void insertExcel(ListJob jobList) throws IOException, BiffException, WriteException {

int row=1;

Workbook wb = Workbook.getWorkbook(new File(JobCondition.filename));

WritableWorkbook book = Workbook.createWorkbook(new File(JobCondition.filename), wb);

WritableSheet sheet=book.getSheet(0);

for (int i=0;ijobList.size();i++){ //遍历工作列表，一行行插入到表格中

sheet.addCell(new Label(0,row,jobList.get(i).getJobname()));

sheet.addCell(new Label(1,row,jobList.get(i).getSalary()));

sheet.addCell(new Label(2,row,jobList.get(i).getJobdesc()));

sheet.addCell(new Label(3,row,jobList.get(i).getCompany()));

sheet.addCell(new Label(4,row,jobList.get(i).getCompanysite()));

sheet.addCell(new Label(5,row,jobList.get(i).getJobdsite()));

row++;

}

book.write();

book.close();

}

java爬虫抓取指定数据

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取图片的流程和爬取内容的流程基本相同，但是爬取图片的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

关于java爬虫采集和java爬虫获取网页数据的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

本文来自投稿，不代表【痞子匠】观点，发布者：【E安全】

本文地址：https://www.pizijiang.com/seo/219130.html ，如若转载，请注明出处！

举报投诉邮箱：253000106@qq.com

数据爬虫网页

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

E安全作者

64.2K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

动态规划java（动态规划java背包问题）

上一篇 2024年4月1日 17:15:01

rjava计算机中丢失jvm.dll的简单介绍

下一篇 2024年4月1日 17:24:24

Java

java二维数组获得数据,java二维数组用法

java中怎样用一位数组获得二维数组中某一行的值利用 for循环遍历数组即可 for循环是开界的。 Number ： Name ： A ： B ： Value；通过读取指定的列名，你可以得到，列名在数组中对应的索引值。其实多维数组是在一维数组的基础上进行变换的，就拿二维数组来说，它是在一维数组上存储一维数组。得到一维数组的长度lenth，如果长度为8…

E安全
2024年5月23日
45000
Excel

excel中逐个叠加数值,excel数据叠加

Excel表中如何将一列的数值全部加上一个数值,并且覆盖原有的数值呢? 1、打开EXCEL表格，在其中一个单元格输入要“加”的数值，复制。选择单元格中要“加”的数据，点击“粘贴”–选择性粘贴—加，即可。 2、假设一个表格（如图一），将A列的数值分别加上5，然后在B列中快速获得所要的相加结果。 3、EXCEL给每列数值增加一个固定的数值…

E安全
2024年5月23日
60000
Java

java将数据分类存进二维数组,java将二维数组保存在文件

java怎么从mysql查询出来的结果转化为二维数组,举个例子把你二维数组中的所有数据拼接起来，用“，”连接，组成一个长的字符串，存入数据库。进行其他操作时，可先将该字符串解析，原理和普通的字符串是一样的。 –这儿存在两种情况：字符串不存在分隔符号字符串中存在分隔符号，跳出while循环后，@location为0，那默认为字符串后边有一个分隔…

E安全
2024年5月23日
44000
Excel

excel重复输入提醒,表格数据输入重复怎么提醒

怎样设置excel,使得同一列输入数字重复时,显示提示 1、在 Excel 菜单栏上选择“开始”选项卡，然后单击“条件格式”。在条件格式下拉菜单中选择“突出显示单元格规则”，然后选择“数值”。在数值下拉菜单中选择“重复值”。 2、开启EXCEL表格，选择整列单元格，点选“开始”–条件格式–突出显示单元格规则。选择”重复值“设定突出显示…

E安全
2024年5月23日
49000
Java

java动态生成复选框,java复选框如何回显数据

如何用javaScript实现复选框的联动? 很简单，给表格一个ID，ID=form1，再给个参数sty；e=display：none；然后JavaScript写 function open(){document.getElementById(form1).style.display=block} 在按钮上写JavaScript：open()；好了，试试看。…

E安全
2024年5月23日
43000
C语言

c语言获取网页源码,c语言网页编程

怎么通过C语言读取网页里面的数据 1、使用WebBrowser控件，可以操作网页中的元素、控件，调用网页的JS方法。可以使用MFC集成WebBrowser。 QT中，有与WebBrowser类似的QWebEngineView控件。 2、解决方法：当使用的输入法为微软拼音输入法2003，并且隐藏语言栏时(不隐藏时没问题)关闭RealOne就会出现这个问题，因…

E安全
2024年5月23日
57000
Excel

excel怎么回归分析数据,excel中怎么进行回归分析

Excel怎样做回归分析呢? 1、点击文件点击左上角的【文件】。点击选项点击左下角的【选项】。点击加载项弹出Excel选项窗口框，点击左边的【加载项】。点击分析工具库点击右边的【分析工具库】。点击转到点击下面的【转到】。 2、方法如下：选择成对的数据列，将使用“X、Y散点图”制成散点图。在数据点上单击右键，选择“添加趋势线”-“线性”，并在选项标签…

E安全
2024年5月22日
43000
Java

爬虫用java还是python,爬虫跟java哪个好

学Java好还是学Python好? Java作为发展已经很成熟的编程语言，可以说是无处不在，学好java就业机会非常多。而python随着人工智能时代的到来而火爆，容易入门，未来发展空间巨大。可以说，python和java都是非常值得学的。对于从事大型软件开发或者需要与底层系统交互的开发者来说，学习Java是一个不错的选择。Python是一种简洁、易学且功…

E安全
2024年5月22日
43000
Excel

excel不统计重复数据,excel 统计不重复数据

Excel如何不用公式统计不重复的数据个数?Excel不用公式统计不重复的数… 1、首先选中Excel表格，双击打开。然后在该界面中，选中要显示不重复的公司数量的单元格。再者在该界面中，公示框中输入统计不计重复的公司数量的公式“=SUMPRODUCT(1/COUNTIF(A1：A6，A1：A6))”。 2、示例公式：=SUM(N(MATCH(IF…

E安全
2024年5月22日
58000
Excel

excel随机组合词语,数据随机组合

EXCEL如何从10个词语中,随机选出3个,组合不重复。 1、=RANK(A1，$A$1：$A$10) 下拉到B3 B1：B3就是1-10随机抽取的三个数每按一次F9，会在B1：B3得到1-10随机抽取的不重复的三个数再用index函数，可实现数字到名字的对应。 2、首先选定A1到A10，输入等号rand按Ctrl加Enter，在B1输入公式等号RANK…

E安全
2024年5月22日
45000