java使用solr教程

E安全 • 2024年3月28日 00:42:42 • Java • 阅读 48

如何使用solr创建富文本索引

Solr支持从富文本文件中，如pdf,word中抽取内容建立索引。

首先，需要配置支持这一功能的requestHandler。编辑solrconfig.xml,加入：

requestHandler name=”/update/extract” class=”solr.extraction.ExtractingRequestHandler”

lst name=”defaults”

str name=”fmap.content”content/str

str name=”fmap.Content-Type”Content-Type/str

str name=”uprefix”ignored_/str

/lst

lst name=”date.formats”

stryyyy-MM-dd/str

/lst

/requestHandler

solr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。为了使用这个类我们我们需要拷贝jar包：solr-dataimporthandler-extras.jar到lib目录，并确认solrconfig.xml中的lib配置包含它。

div class=”alert alert-info” role=”info”

ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的，

/div

调用/update/extract完成文件索引

调用/update/extrac的方式有很多种，下面介绍使用solr4j api在java工程里调用：

//建立客户端连接

SolrClient client=new HttpSolrClient(“”);

//单个文件索引

public void indexFromFile(String fileName,String id) throws Exception{

//ContentStreamUpdateRequest 是专门用来提交文件的

ContentStreamUpdateRequest request=new ContentStreamUpdateRequest(“/update/extract”);

String contentType=”application/text”;

request.addFile(new File(fileName), contentType);

//literal.xxx 文件以外的字段，xxx将直接映射到schema.xml中的同名字段

request.setParam(“literal.id”, String.valueOf(id));

request.setParam(“literal.author”, author);

request.setParam(“literal.title”, tilte);

request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true);

client.request(request);

client.commit();

}

public static void main(String[] args) {

try{

SolrMananger client=new SolrMananger();

client.indexFromFile(“e:/apache-solr-ref-guide-5.3.pdf”, 1, “Justn”, “solr-ref”);

}catch(Exception e){

e.printStackTrace();

}

运行后，查看solr控制台，使用query验证文件是否成功索引。

教你使用solr搭建你的全文检索

Solr 是一个可供企业使用的基于 Lucene 的开箱即用的搜索服务器对Lucene不熟？那么建议先看看下面两篇文档

实战Lucene 第部分初识 Lucene lo lucene /

用Lucene加速Web搜索应用程序的开发 lucene /

一 solr介绍

solr是基于Lucene Java搜索库的企业级全文搜索引擎目前是apache的一个项目它的官方网址在 solr需要运行在一个servlet 容器里例如tomcat solr在lucene的上层提供了一个基于HTTP/XML的Web Services 我们的应用需要通过这个服务与solr进行交互

二 solr安装和配置

关于solr的安装和配置这里也有两篇非常好的文档作者同时也是 Lucene Java 项目的提交人和发言人

使用Apache Solr实现更加灵巧的搜索 solr /l

solr /l

下面主要说说需要注意的地方

Solr的安装非常简单下载solr的zip包后解压缩将dist目录下的war文件改名为solr war直接复制到tomcat 的webapps目录即可注意一定要设置solr的主位置有三种方法我采用的是在tomcat里配置java p/env/solr/home的一个JNDI指向solr的主目录（example目录下）建立/tomcat /conf/Catalina/www.easyaq.com/solr xml文件

Context docBase= D:/solr war debug= crossContext= true Environment name= solr/home type= java lang String value= D:/solr/solr override= true //Context

观察这个指定的solr主位置里面存在两个文件夹 conf和data 其中conf里存放了对solr而言最为重要的两个配置文件schema xml和solrconfig xml data则用于存放索引文件

schema xml主要包括types fields和其他的一些缺省设置

solrconfig xml用来配置Solr的一些系统属性例如与索引和查询处理有关的一些常见的配置选项以及缓存扩展等等

上面的文档对这两个文件有比较详细的说明非常容易上手注意到schema xml里有一个

uniqueKeyurl/uniqueKey

的配置这里将url字段作为索引文档的唯一标识符非常重要

三加入中文分词

对全文检索而言中文分词非常的重要这里采用了qieqie庖丁分词（非常不错））集成非常的容易我下载的是 alpha 版本其中它支持最多切分和按最大切分创建自己的一个中文TokenizerFactory继承自solr的BaseTokenizerFactory

/** * Created by IntelliJ IDEA * User: ronghao * Date: * Time: : : * 中文切词对庖丁切词的封装 */ public class ChineseTokenizerFactory extends BaseTokenizerFactory { /** * 最多切分默认模式 */ public static final String MOST_WORDS_MODE = most words ; /** * 按最大切分 */ public static final String MAX_WORD_LENGTH_MODE = max word length ; private String mode = null; public void setMode(String mode) { if (mode==null||MOST_WORDS_MODE equalsIgnoreCase(mode) || default equalsIgnoreCase(mode)) { this mode=MOST_WORDS_MODE; } else if (MAX_WORD_LENGTH_MODE equalsIgnoreCase(mode)) { this mode=MAX_WORD_LENGTH_MODE; } else { throw new IllegalArgumentException( 不合法的分析器Mode 参数设置: + mode); } } @Override public void init(Map args) { super init(args); setMode(args get( mode )); } public TokenStream create(Reader input) { return new PaodingTokenizer(input PaodingMaker make() createTokenCollector()); } private TokenCollector createTokenCollector() { if( MOST_WORDS_MODE equals(mode)) return new MostWordsTokenCollector(); if( MAX_WORD_LENGTH_MODE equals(mode)) return new MaxWordLengthTokenCollector(); throw new Error( never happened ); } }

在schema xml的字段text配置里加入该分词器

fieldtype name= text class= solr TextField positionIncrementGap=

*** yzer type= index

tokenizer class= ronghao fulltextsearch *** yzer ChineseTokenizerFactory mode= most words / filter class= solr StopFilterFactory ignoreCase= true words= stopwords txt /

filter class= solr WordDelimiterFilterFactory generateWordParts= generateNumberParts= catenateWords= catenateNumbers= catenateAll= /

filter class= solr LowerCaseFilterFactory /

filter class= solr RemoveDuplicatesTokenFilterFactory /

/ *** yzer

*** yzer type= query

tokenizer class= ronghao fulltextsearch *** yzer ChineseTokenizerFactory mode= most words /

filter class= solr SynonymFilterFactory synonyms= synonyms txt ignoreCase= true expand= true /

filter class= solr StopFilterFactory ignoreCase= true words= stopwords txt /

filter class= solr WordDelimiterFilterFactory generateWordParts= generateNumberParts= catenateWords= catenateNumbers= catenateAll= /

filter class= solr LowerCaseFilterFactory /

filter class= solr RemoveDuplicatesTokenFilterFactory /

/ *** yzer

/fieldtype

完成后重启tomcat 即可在

体验到庖丁的中文分词注意要将paoding *** ysis jar复制到solr的lib下注意修改jar包里字典的home

四与自己应用进行集成

Solr安装完毕现在可以将自己的应用与solr集成其实过程非常的简单应用增加数据——根据配置的字段构建add的xml文档——post至solr/update

应用删除数据à根据配置的索引文档唯一标识符构建delete的xml文档——post至solr/update

检索数据à构建查询xml—get至/solr/select/——对solr返回的xml进行处理——页面展现

具体的xml格式可以在solr网站找到另外就是solr支持高亮显示非常方便

关于中文 solr内核支持UTF 编码所以在tomcat里的server xml需要进行配置

Connector port= maxHttpHeaderSize= URIEncoding= UTF …/

另外向solr Post请求的时候需要转为utf 编码对solr 返回的查询结果也需要进行一次utf 的转码检索数据时对查询的关键字也需要转码然后用 + 连接

String[] array = StringUtils split(query null ); for (String str : array) { result = result + URLEncoder encode(str UTF ) + + ; }

lishixinzhi/Article/program/Java/hx/201311/25984

java怎么调用solr查询接口

solr官方网站

下面是一个例子：

import org.apache.solr.client.solrj.SolrServer;

import org.apache.solr.client.solrj.SolrServerException;

import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer;

import org.apache.solr.client.solrj.response.QueryResponse;

import org.apache.solr.common.SolrDocument;

import org.apache.solr.common.params.ModifiableSolrParams;

import java.net.MalformedURLException;

public class Main {

public static void main(String[] args) throws MalformedURLException, SolrServerException {

SolrServer server = new CommonsHttpSolrServer(“”);

ModifiableSolrParams params = new ModifiableSolrParams();

// 查询关键词

params.set(“q”, “2010”);

// 分页，，start=0就是从0开始，，rows=5当前返回5条记录，，，第二页就是变化start这个值为5就可以了。

params.set(“start”, 0);

params.set(“rows”, 5);

// 排序，，如果按照id 排序，，那么将score desc 改成 id desc(or asc)

params.set(“sort”, “score desc”);

// 返回信息 * 为全部这里是全部加上score，如果不加下面就不能使用score

params.set(“fl”, “*,score”);

QueryResponse response = server.query(params);

// 搜索得到的结果数

System.out.println(“Find:”+ response.getResults().getNumFound()+”\n\n”);

// 输出结果

for(SolrDocument doc:response.getResults())

{

System.out.println(“id: ” + doc.getFieldValue(“id”).toString());

System.out.println(“title: ” + doc.getFieldValue(“title”).toString()+”\n”);

}

本文来自投稿，不代表【痞子匠】观点，发布者：【E安全】

本文地址：https://www.pizijiang.com/seo/205921.html ，如若转载，请注明出处！

举报投诉邮箱：253000106@qq.com

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

E安全作者

64.2K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

java反射作用是什么

上一篇 2024年3月28日 00:37:23

java获取网络文件

下一篇 2024年3月28日 00:45:48

Java

深入java虚拟机pdf,深入java虚拟机中村成洋 pdf

在linux环境下,java怎么实现从word格式转换为pdf格式 //设置当前使用的打印机，我的Adobe Distiller打印机名字为 Adobe PDF wordCom.setProperty( ActivePrinter ， new Variant( Adobe PDF ))；//设置printout的参数，将word文档打印为postscript…

E安全
2024年5月23日
46000
Java

java截取指定长度字符串,java截取指定字符串之后的

java中如何截取字符串中的指定一部分第一个参数是开始截取的字符位置。（从0开始）第二个参数是结束字符的位置+1。（从0开始）indexof函数的作用是查找该字符串中的某个字的位置，并且返回。 int end)；截取s中从begin开始至end结束时的字符串，并将其赋值给s；split讲解：java.lang.string.split split 方法将…

E安全
2024年5月23日
44000
Java

java绑定一个端口,java使用端口

java如何多个service共用一个端口你如果有多个项目的话，你可以把多个项目放到一个tomcat里面，这样端口相同使用项目名称来进行区分项目。你如果非要使用同一个，你也可以配置不同的域名导向不同的项目。就是访问的域名不同转接到的项目不同。如果需要同时启动多个程序，要么修改tomcat的配置文件中的监听端口。要么修改jar包程序的监听端口。不能在一台服…

E安全
2024年5月23日
36000
Java

java多线程并发编程基础,Java多线程并发执行返回

电脑培训分享Java并发编程:核心理论电脑培训发现本系列会从线程间协调的方式（wait、notify、notifyAll）、Synchronized及Volatile的本质入手，详细解释JDK为我们提供的每种并发工具和底层实现机制。人们开始意识到了继承的众多缺点，开始努力用聚合代替继承。软件工程解决扩展性的重要原则就是抽象描述，直接使用的工具就是接口。接…

E安全
2024年5月23日
48000
Java

自学java找工作,自学java找工作需要包装简历吗

自学java学多久可以找到工作 1、自学Java至少需要一年以上的时间才能达到找工作的水平。报班培训四到六个月的时间就可以找到一份不错的工作。 2、自学Java至少需要一年以上的时间才能达到找工作的水平。 3、如果要想找到一份Java相关的工作，需要至少学习5-6个月时间才能就业。Java开发需要掌握一些基础的编程语言知识，比如掌握面向对象的编程思想、基本的…

E安全
2024年5月23日
44000
Java

java左移右移,java 左移

java位移问题 1、思路：直接用Integer类的bit运算操作。 2、移位操作：左移：向左移位，符号后面的数字是移了多少位，移的位用0补齐，例如2进制数01111111左移一位后变为11111110，移位是字节操作。 3、Java 位运算 Java 位运算[转]一，Java 位运算表示方法：在Java语言中，二进制数使用补码表示，最高位为符号位，正数的…

E安全
2024年5月23日
43000
Java

java技术规范,java规范性要求

现在主流的JAVA技术是什么? java最流行开发技术程序员必看 1 、Git Git一直是世界上最受欢迎的Java工具之一，也是Java开发人员最杰出的工具之一。Git是一个开源工具，是-种出色的分布式版本控制解决方案。（1）.Java基础语法、数组、类与对象、继承与多态、异常、范型、集合、流与文件、反射、枚举、自动装箱和注解。（2）.Java面向对象编…

E安全
2024年5月23日
41000
Java

javasocket编程,Java socket编程中,禁用nagle算法的参数

Java进行并发多连接socket编程 1、Java可利用ServerSocket类对外部客户端提供多个socket接口。基本的做法是先创建一个ServerSocket实例，并绑定一个指定的端口，然后在这个实例上调用accept()方法等待客户端的连接请求。 2、Socket socket=server.accept(0；Thread handleThrea…

E安全
2024年5月23日
47000
Java

java死亡,java死代码是什么意思

我的世界传送回死亡点指令是什么? 1、下面就让我们一起来了解一下吧：我的世界回到死的地方的指令是输入/back，就可以回到死亡地点了，当然也可以看信标，因为死亡后会有一道光集中在死亡点，只要循着光就可以找到目的地了。 2、在服务器中的指令首先打开指令台，在指令行输入“/back”就可以回到自己的死亡地点了。在单人游戏中的指令在单人游戏中，您无法直接返回到…

E安全
2024年5月23日
49000
Java

myeclipse能部署java工程么,myeclipse支持jdk18

myeclipse如何建java文件 1、点击【File】—【New】–【Class】在如下界面，输入Class的名字，如Test，点击【Finish】。Test.java文件创建成功。 2、点击【File】—【New】–【Class】在如下界面，输入Class的名字，如Test，点击【Finish】。 Te…

E安全
2024年5月23日
41000