java爬虫采集(java爬虫获取网页数据)

今天给各位分享java爬虫采集的知识,其中也会对java爬虫获取网页数据进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

1、Java网络爬虫怎么实现?2、如何用java爬虫爬取招聘信息3、java爬虫抓取指定数据

Java网络爬虫怎么实现?

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。\x0d\x0a传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。对于垂直搜索来说,聚焦爬虫,即有针对性地爬取特定主题网页的爬虫,更为适合。\x0d\x0a\x0d\x0a以下是一个使用java实现的简单爬虫核心代码:\x0d\x0apublic void crawl() throws Throwable { \x0d\x0a while (continueCrawling()) { \x0d\x0a CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL \x0d\x0a if (url != null) { \x0d\x0a printCrawlInfo(); \x0d\x0a String content = getContent(url); //获取URL的文本信息 \x0d\x0a \x0d\x0a //聚焦爬虫只爬取与主题内容相关的网页,这里采用正则匹配简单处理 \x0d\x0a if (isContentRelevant(content, this.regexpSearchPattern)) { \x0d\x0a saveContent(url, content); //保存网页至本地 \x0d\x0a \x0d\x0a //获取网页内容中的链接,并放入待爬取队列中 \x0d\x0a Collection urlStrings = extractUrls(content, url); \x0d\x0a addUrlsToUrlQueue(url, urlStrings); \x0d\x0a } else { \x0d\x0a System.out.println(url + ” is not relevant ignoring …”); \x0d\x0a } \x0d\x0a \x0d\x0a //延时防止被对方屏蔽 \x0d\x0a Thread.sleep(this.delayBetweenUrls); \x0d\x0a } \x0d\x0a } \x0d\x0a closeOutputStream(); \x0d\x0a}\x0d\x0aprivate CrawlerUrl getNextUrl() throws Throwable { \x0d\x0a CrawlerUrl nextUrl = null; \x0d\x0a while ((nextUrl == null) (!urlQueue.isEmpty())) { \x0d\x0a CrawlerUrl crawlerUrl = this.urlQueue.remove(); \x0d\x0a //doWeHavePermissionToVisit:是否有权限访问该URL,友好的爬虫会根据网站提供的”Robot.txt”中配置的规则进行爬取 \x0d\x0a //isUrlAlreadyVisited:URL是否访问过,大型的搜索引擎往往采用BloomFilter进行排重,这里简单使用HashMap \x0d\x0a //isDepthAcceptable:是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱(自动生成一些无效链接使爬虫陷入死循环),采用深度限制加以避免 \x0d\x0a if (doWeHavePermissionToVisit(crawlerUrl) \x0d\x0a (!isUrlAlreadyVisited(crawlerUrl)) \x0d\x0a isDepthAcceptable(crawlerUrl)) { \x0d\x0a nextUrl = crawlerUrl; \x0d\x0a // System.out.println(“Next url to be visited is ” + nextUrl); \x0d\x0a } \x0d\x0a } \x0d\x0a return nextUrl; \x0d\x0a}\x0d\x0aprivate String getContent(CrawlerUrl url) throws Throwable { \x0d\x0a //HttpClient4.1的调用与之前的方式不同 \x0d\x0a HttpClient client = new DefaultHttpClient(); \x0d\x0a HttpGet httpGet = new HttpGet(url.getUrlString()); \x0d\x0a StringBuffer strBuf = new StringBuffer(); \x0d\x0a HttpResponse response = client.execute(httpGet); \x0d\x0a if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) { \x0d\x0a HttpEntity entity = response.getEntity(); \x0d\x0a if (entity != null) { \x0d\x0a BufferedReader reader = new BufferedReader( \x0d\x0a new InputStreamReader(entity.getContent(), “UTF-8”)); \x0d\x0a String line = null; \x0d\x0a if (entity.getContentLength() 0) { \x0d\x0a strBuf = new StringBuffer((int) entity.getContentLength()); \x0d\x0a while ((line = reader.readLine()) != null) { \x0d\x0a strBuf.append(line); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a if (entity != null) { \x0d\x0a nsumeContent(); \x0d\x0a } \x0d\x0a } \x0d\x0a //将url标记为已访问 \x0d\x0a markUrlAsVisited(url); \x0d\x0a return strBuf.toString(); \x0d\x0a}\x0d\x0apublic static boolean isContentRelevant(String content, \x0d\x0aPattern regexpPattern) { \x0d\x0a boolean retValue = false; \x0d\x0a if (content != null) { \x0d\x0a //是否符合正则表达式的条件 \x0d\x0a Matcher m = regexpPattern.matcher(content.toLowerCase()); \x0d\x0a retValue = m.find(); \x0d\x0a } \x0d\x0a return retValue; \x0d\x0a}\x0d\x0apublic List extractUrls(String text, CrawlerUrl crawlerUrl) { \x0d\x0a Map urlMap = new HashMap(); \x0d\x0a extractHttpUrls(urlMap, text); \x0d\x0a extractRelativeUrls(urlMap, text, crawlerUrl); \x0d\x0a return new ArrayList(urlMap.keySet()); \x0d\x0a} \x0d\x0aprivate void extractHttpUrls(Map urlMap, String text) { \x0d\x0a Matcher m = (text); \x0d\x0a while (m.find()) { \x0d\x0a String url = m.group(); \x0d\x0a String[] terms = url.split(“a href=\””); \x0d\x0a for (String term : terms) { \x0d\x0a // System.out.println(“Term = ” + term); \x0d\x0a if (term.startsWith(“http”)) { \x0d\x0a int index = term.indexOf(“\””); \x0d\x0a if (index 0) { \x0d\x0a term = term.substring(0, index); \x0d\x0a } \x0d\x0a urlMap.put(term, term); \x0d\x0a System.out.println(“Hyperlink: ” + term); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a} \x0d\x0aprivate void extractRelativeUrls(Map urlMap, String text, \x0d\x0a CrawlerUrl crawlerUrl) { \x0d\x0a Matcher m = relativeRegexp.matcher(text); \x0d\x0a URL textURL = crawlerUrl.getURL(); \x0d\x0a String host = textURL.getHost(); \x0d\x0a while (m.find()) { \x0d\x0a String url = m.group(); \x0d\x0a String[] terms = url.split(“a href=\””); \x0d\x0a for (String term : terms) { \x0d\x0a if (term.startsWith(“/”)) { \x0d\x0a int index = term.indexOf(“\””); \x0d\x0a if (index 0) { \x0d\x0a term = term.substring(0, index); \x0d\x0a } \x0d\x0a String s = //” + host + term; \x0d\x0a urlMap.put(s, s); \x0d\x0a System.out.println(“Relative url: ” + s); \x0d\x0a } \x0d\x0a } \x0d\x0a } \x0d\x0a \x0d\x0a}\x0d\x0apublic static void main(String[] args) { \x0d\x0a try { \x0d\x0a String url = “”; \x0d\x0a Queue urlQueue = new LinkedList(); \x0d\x0a String regexp = “java”; \x0d\x0a urlQueue.add(new CrawlerUrl(url, 0)); \x0d\x0a NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L, \x0d\x0a regexp); \x0d\x0a // boolean allowCrawl = crawler.areWeAllowedToVisit(url); \x0d\x0a // System.out.println(“Allowed to crawl: ” + url + ” ” + \x0d\x0a // allowCrawl); \x0d\x0a crawler.crawl(); \x0d\x0a } catch (Throwable t) { \x0d\x0a System.out.println(t.toString()); \x0d\x0a t.printStackTrace(); \x0d\x0a } \x0d\x0a}

java爬虫采集(java爬虫获取网页数据)

如何用java爬虫爬取招聘信息

1、思路:

明确需要爬取的信息

分析网页结构

分析爬取流程

优化

2、明确需要爬取的信息

职位名称

工资

职位描述

公司名称

公司主页

详情网页

分析网页结构

3、目标网站-拉勾网

网站使用json作为交互数据,分析json数据,需要的json关键数据

查看需要的信息所在的位置,使用Jsoup来解析网页

4、分析爬取流程

1.获取所有的positionId生成详情页,存放在一个存放网址列表中ListString joburls

2.获取每个详情页并解析为Job类,得到一个存放Job类的列表ListJob jobList

3.把ListJob jobList存进Excel表格中

Java操作Excel需要用到jxl

5、关键代码实现

public ListString getJobUrls(String gj,String city,String kd){

String pre_url=””;

String end_url=”.html”;

String url;

if (gj.equals(“”)){

url=”;city=”+city+”needAddtionalResult=falsefirst=falsepn=”+pn+”kd=”+kd;

}else {

url=””+gj+”px=defaultcity=”+city+”needAddtionalResult=falsefirst=falsepn=”+pn+”kd=”+kd;

}

String rs=getJson(url);

System.out.println(rs);

int total= JsonPath.read(rs,”$.content.positionResult.totalCount”);//获取总数

int pagesize=total/15;

if (pagesize=30){

pagesize=30;

}

System.out.println(total);

// System.out.println(rs);

ListInteger posid=JsonPath.read(rs,”$.content.positionResult.result[*].positionId”);//获取网页id

for (int j=1;j=pagesize;j++){ //获取所有的网页id

pn++; //更新页数

url=””+gj+”px=defaultcity=”+city+”needAddtionalResult=falsefirst=falsepn=”+pn+”kd=”+kd;

String rs2=getJson(url);

ListInteger posid2=JsonPath.read(rs2,”$.content.positionResult.result[*].positionId”);

posid.addAll(posid2); //添加解析的id到第一个list

}

ListString joburls=new ArrayList();

//生成网页列表

for (int id:posid){

String url3=pre_url+id+end_url;

joburls.add(url3);

}

return joburls;

}

public Job getJob(String url){ //获取工作信息

Job job=new Job();

Document document= null;

document = Jsoup.parse(getJson(url));

job.setJobname(document.select(“.name”).text());

job.setSalary(document.select(“.salary”).text());

String joball=HtmlTool.tag(document.select(“.job_bt”).select(“div”).html());//清除html标签

job.setJobdesc(joball);//职位描述包含要求

job.setCompany(document.select(“.b2”).attr(“alt”));

Elements elements=document.select(“.c_feature”);

//System.out.println(document.select(“.name”).text());

job.setCompanysite(elements.select(“a”).attr(“href”)); //获取公司主页

job.setJobdsite(url);

return job;

}

void insertExcel(ListJob jobList) throws IOException, BiffException, WriteException {

int row=1;

Workbook wb = Workbook.getWorkbook(new File(JobCondition.filename));

WritableWorkbook book = Workbook.createWorkbook(new File(JobCondition.filename), wb);

WritableSheet sheet=book.getSheet(0);

for (int i=0;ijobList.size();i++){ //遍历工作列表,一行行插入到表格中

sheet.addCell(new Label(0,row,jobList.get(i).getJobname()));

sheet.addCell(new Label(1,row,jobList.get(i).getSalary()));

sheet.addCell(new Label(2,row,jobList.get(i).getJobdesc()));

sheet.addCell(new Label(3,row,jobList.get(i).getCompany()));

sheet.addCell(new Label(4,row,jobList.get(i).getCompanysite()));

sheet.addCell(new Label(5,row,jobList.get(i).getJobdsite()));

row++;

}

book.write();

book.close();

}

java爬虫抓取指定数据

根据java网络编程相关的内容,使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码,通过使用正则表达式即可得到我们想要的内容。

比如,我们如果想得到一个网页上所有包括“java”关键字的文本内容,就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容,只得到包括“java”这个关键字的内容的效果。

从网页上爬取图片的流程和爬取内容的流程基本相同,但是爬取图片的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签,再用src属性的正则表达式获取这个img标签中的src属性的图片url,然后再通过缓冲输入流对象读取到这个图片url的图片信息,配合文件输出流将读到的图片信息写入到本地即可。

关于java爬虫采集和java爬虫获取网页数据的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

本文来自投稿,不代表【】观点,发布者:【

本文地址: ,如若转载,请注明出处!

举报投诉邮箱:253000106@qq.com

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年4月1日 17:15:01
下一篇 2024年4月1日 17:24:24

相关推荐

  • java二维数组获得数据,java二维数组用法

    java中怎样用一位数组获得二维数组中某一行的值 利用 for循环遍历数组 即可 for循环是开界的。 Number : Name : A : B : Value;通过读取指定的列名,你可以得到,列名在数组中对应的索引值。 其实多维数组是在一维数组的基础上进行变换的,就拿二维数组来说,它是在一维数组上存储一维数组。 得到一维数组的长度lenth,如果长度为8…

    2024年5月23日
    4500
  • excel中逐个叠加数值,excel数据叠加

    Excel表中如何将一列的数值全部加上一个数值,并且覆盖原有的数值呢? 1、打开EXCEL表格,在其中一个单元格输入要“加”的数值,复制。选择单元格中要“加”的数据,点击“粘贴”–选择性粘贴—加,即可。 2、假设一个表格(如图一),将A列的数值分别加上5,然后在B列中快速获得所要的相加结果。 3、EXCEL给每列数值增加一个固定的数值…

    2024年5月23日
    6000
  • java将数据分类存进二维数组,java将二维数组保存在文件

    java怎么从mysql查询出来的结果转化为二维数组,举个例子 把你二维数组中的所有数据拼接起来,用“,”连接,组成一个长的字符串,存入数据库。进行其他操作时,可先将该字符串解析,原理和普通的字符串是一样的。 –这儿存在两种情况:字符串不存在分隔符号 字符串中存在分隔符号,跳出while循环后,@location为0,那默认为字符串后边有一个分隔…

    2024年5月23日
    4400
  • excel重复输入提醒,表格数据输入重复怎么提醒

    怎样设置excel,使得同一列输入数字重复时,显示提示 1、在 Excel 菜单栏上选择“开始”选项卡,然后单击“条件格式”。在条件格式下拉菜单中选择“突出显示单元格规则”,然后选择“数值”。在数值下拉菜单中选择“重复值”。 2、开启EXCEL表格,选择整列单元格,点选“开始”–条件格式–突出显示单元格规则。选择”重复值“设定突出显示…

    2024年5月23日
    4900
  • java动态生成复选框,java复选框如何回显数据

    如何用javaScript实现复选框的联动? 很简单,给表格一个ID,ID=form1,再给个参数sty;e=display:none;然后JavaScript写 function open(){document.getElementById(form1).style.display=block} 在按钮上写JavaScript:open();好了,试试看。…

    2024年5月23日
    4300
  • c语言获取网页源码,c语言网页编程

    怎么通过C语言读取网页里面的数据 1、使用WebBrowser控件,可以操作网页中的元素、控件,调用网页的JS方法。 可以使用MFC集成WebBrowser。 QT中,有与WebBrowser类似的QWebEngineView控件。 2、解决方法:当使用的输入法为微软拼音输入法2003,并且隐藏语言栏时(不隐藏时没问题)关闭RealOne就会出现这个问题,因…

    2024年5月23日
    5700
  • excel怎么回归分析数据,excel中怎么进行回归分析

    Excel怎样做回归分析呢? 1、点击文件 点击左上角的【文件】。点击选项 点击左下角的【选项】。点击加载项 弹出Excel选项窗口框,点击左边的【加载项】。点击分析工具库 点击右边的【分析工具库】。点击转到 点击下面的【转到】。 2、方法如下:选择成对的数据列,将使用“X、Y散点图”制成散点图。在数据点上单击右键,选择“添加趋势线”-“线性”,并在选项标签…

    2024年5月22日
    4300
  • 爬虫用java还是python,爬虫跟java哪个好

    学Java好还是学Python好? Java作为发展已经很成熟的编程语言,可以说是无处不在,学好java就业机会非常多。而python随着人工智能时代的到来而火爆,容易入门,未来发展空间巨大。可以说,python和java都是非常值得学的。 对于从事大型软件开发或者需要与底层系统交互的开发者来说,学习Java是一个不错的选择。Python是一种简洁、易学且功…

    2024年5月22日
    4300
  • excel不统计重复数据,excel 统计不重复数据

    Excel如何不用公式统计不重复的数据个数?Excel不用公式统计不重复的数… 1、首先选中Excel表格,双击打开。然后在该界面中,选中要显示不重复的公司数量的单元格。再者在该界面中,公示框中输入统计不计重复的公司数量的公式“=SUMPRODUCT(1/COUNTIF(A1:A6,A1:A6))”。 2、示例公式:=SUM(N(MATCH(IF…

    2024年5月22日
    5800
  • excel随机组合词语,数据随机组合

    EXCEL如何从10个词语中,随机选出3个,组合不重复。 1、=RANK(A1,$A$1:$A$10) 下拉到B3 B1:B3就是1-10随机抽取的三个数 每按一次F9,会在B1:B3得到1-10随机抽取的不重复的三个数 再用index函数,可实现数字到名字的对应。 2、首先选定A1到A10,输入等号rand按Ctrl加Enter,在B1输入公式等号RANK…

    2024年5月22日
    4500

发表回复

登录后才能评论



关注微信