今天给各位分享java正则截取href的知识,其中也会对java 正则 提取进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
1、之间的数据’ title=’java获取网页内容中所有的标签的href属性指向的地址,并在屏幕打印出来 即是查找href=和>之间的数据’>java获取网页内容中所有的标签的href属性指向的地址,并在屏幕打印出来 即是查找href=和>之间的数据2、求助 java正则表达式将括号里的内容提取出来3、java正则表达式提取网址,标题,日期4、如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中
之间的数据’>java获取网页内容中所有的标签的href属性指向的地址,并在屏幕打印出来 即是查找href=和>之间的数据
jsoup()
URL url = …
Document doc = Jsoup.parse(url, 3000);
Elements elements = doc.select(“a”);
for(Element element : elements){
System.out.println(element.attr(“href”));
}
求助 java正则表达式将括号里的内容提取出来
1.就用LS的例子来改进吧,LS的例子用正则匹配的捕获型,也就是说除了捕获了/patroninfo~S0*chx/1069163/modpinfo,还捕获了带单引号的 ‘/patroninfo~S0*chx/1069163/modpinfo‘ (输出 System.out.println(mat.group(0) 就是);
这样无论在效率还是安全性上都有欠缺。
2 Pattern.compile(“\\'(.*?)\\'”)也可以改为Pattern pat = Pattern.compile(“\'(.*?)\'”),减少代码冗余和理解复杂度。
捕获用法:
public class Test {
public static void main(String[] args) {
String str = “a href=\”#\” onClick=\”return open_new_window( ‘/patroninfo~S0*chx/1069163/modpinfo’ )\””;
Pattern pat = Pattern.compile(“\'(.*?)\'”);
Matcher mat = pat.matcher(str);
if (mat.find()) {
System.out.println(mat.group(1));
}
}
}
非捕获方法:
public class Test {
public static void main(String[] args) {
String str = “a href=\”#\” onClick=\”return open_new_window( ‘/patroninfo~S0*chx/1069163/modpinfo’ )\””;
Pattern pat = Pattern.compile(“(?=\’).*(?=\’)”);
Matcher mat = pat.matcher(str);
if (mat.find()) {
System.out.println(mat.group(0));
}
}
}
java正则表达式提取网址,标题,日期
import java.util.regex.*;
import java.util.List;
import java.util.ArrayList;
class A {
public static void main(String[] args) {
String htmlStr = “lia href=\”?bid=2did=0eid=1227\”高速路上停车捡葫芦引发交通事故一人身亡/aspan2013-09-29/span/li”;
String reg = “lia href=\”?\’?(.*?)\”?\’?(.*?)/aspan(.*?)/span”;
Pattern p = Pattern.compile(reg, Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(htmlStr);
ListString url = new ArrayListString();
ListString title = new ArrayListString();
ListString date = new ArrayListString();
while(m.find()){
url.add(m.group(1));
title.add(m.group(2));
date.add(m.group(3));
}
for(int i = 0; i url.size(); i++){
System.out.println(“标题:”+title.get(i)+”\r\n日期:”+date.get(i)+”\r\n链接:”+url.get(i)+”\r\n”);
}
}
}
如何用Java正则表达式提取html中所有的文本和超链接,然后分别存入txt文件和数据库中
您好,您这样:提取链接的标签文本和url地址
将Html文件代码传入string参数s,代码如下:
private void Reg_A_Href(string s)
{
string str = s;
Regex re = new Regex(@”a[^]+href=\s*(?:'(?href[^’]+)’|””(?href[^””]+)””|(?href[^\s]+))\s*[^]*(?text.*?)/a”, RegexOptions.IgnoreCase | RegexOptions.Singleline);
MatchCollection mc = re.Matches(str);
Console.WriteLine(mc.Count);
foreach (Match m in mc)
{
info_Add(“[href] ” + m.Groups[“href”].Value);
info_Add(“[text] ” + m.Groups[“text”].Value);
Console.WriteLine(“{0}:{1}”, m.Groups[“href”].Value, m.Groups[“text”].Value);
}
}
java正则截取href的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于java 正则 提取、java正则截取href的信息别忘了在本站进行查找喔。