--Lucene中文分词的highlight显示

本站首页 管理页面写新日志退出

« August 2025 »
日一二三四五六
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

公告

我的分类（专题）

首页(1304)
Eclipse(8)
J2ME(3)
OpenSymphony(16)
Hibernate(97)
Tapestry(23)
J2SE(72)
Symbian(2)
eXtremeComponents(13)
JBoss(33)
Javascript(13)
MySQL(72)
Java Open Source(104)
DWR(Ajax)(29)
Spring(61)
WebWork(15)
Apache(jakarta)(77)
软件设计(6)
算法(22)
Acegi(2)
Subversion(44)
Dojo(Ajax)(2)
Wicket(3)
IDEA(2)
ESB(6)
TinyMCE+FCKeditor(20)
Grails(1)
Prototype(Ajax)(32)
设计模式(20)
Prototype(0)
FreeMarker(17)
集成测试(14)
codehaus.org(2)
AOP(13)
Java代码(7)
Struts 2.0(6)
Groovy(5)
Linux(10)
网站架构(70)
Cache(11)
Python(40)
网络与系统管理(34)
shell/bash(4)
Pylons学习(2)
Django(88)
Ruby on Rails(120)
Ubuntu(4)
Quixote(3)
视频处理(20)
Web(UI+UE)(2)
TurboGears(25)
jQuery(2)
iBatis(7)
CentOS(2)
MySQL集群(1)
SELinux(1)

日志更新

Java中压缩与解压--中文文件名乱码解
对当前目录下所有文件进行压缩代码
java zip 中文问题
iBatis for Paging
再析在spring框架中解决多数据源的问
如何在spring框架中解决多数据源的问
SELinux 的配置小解
apache+mod_ssl中证书生成方
StatSVN的使用（续）
[原创]MySQL的LIST分区体验与总

留言板

签写新留言

我也想装饰元件
谢谢
飘过！
模板的问题
mule 求助
extremecomponents.cs
搜索呢？
[Apache(jakarta)]Apa
jsper报表的制作!
求助一下,关于compass的

链接

SpringSide
SpringFramework中文论坛
 BlogJava
Java开源大全
 Java视线论坛
 CSDN Java频道
 JavaScud开源平台
 JavaAPI中文文档
 一个不错的提供代码示例的站点
 Spring 中文开发手册(1.1.PR)
Springframework
Hibernate
Java版模式速查手册
 良葛格學習筆記
 javareference
java2s
GRAILS

Blog信息

blog名称:
日志总数:1304
评论数量:2242
留言数量:5
访问次数:7590975
建立时间:2006年5月29日

[Apache(jakarta)]Lucene中文分词的highlight显示
软件技术

lhwork 发表于 2006/12/14 11:43:01

1、问题的来源增加分词以后结果的准确度提高了，但是用户反映返回结果的速度很慢。原因是，Lucene做每一篇文档的相关关键词的高亮显示时，在运行时执行了很多遍的分词操作。这样降低了性能。 2、解决方法在Lucene1.4.3版本中的一个新功能可以解决这个问题。Term Vector现在支持保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息。利用Lucene中新增加的Token信息的保存结果以后，就不需要为了高亮显示而在运行时解析每篇文档。通过Field方法控制是否保存该信息。修改HighlighterTest.java的代码如下： //增加文档时保存Term位置信息。 private void addDoc(IndexWriter writer, String text) throws IOException { Document d = new Document(); //Field f = new Field(FIELD_NAME, text, true, true, true); Field f = new Field(FIELD_NAME, text , Field.Store.YES, Field.Index.TOKENIZED, Field.TermVector.WITH_POSITIONS_OFFSETS); d.add(f); writer.addDocument(d); } //利用Term位置信息节省Highlight时间。 void doStandardHighlights() throws Exception { Highlighter highlighter =new Highlighter(this,new QueryScorer(query)); highlighter.setTextFragmenter(new SimpleFragmenter(20)); for (int i = 0; i < hits.length(); i++) { String text = hits.doc(i).get(FIELD_NAME); int maxNumFragmentsRequired = 2; String fragmentSeparator = "..."; TermPositionVector tpv = (TermPositionVector)reader.getTermFreqVector(hits.id(i),FIELD_NAME); //如果没有stop words去除还可以改成 TokenSources.getTokenStream(tpv,true); 进一步提速。 TokenStream tokenStream=TokenSources.getTokenStream(tpv); //analyzer.tokenStream(FIELD_NAME,new StringReader(text)); String result = highlighter.getBestFragments( tokenStream, text, maxNumFragmentsRequired, fragmentSeparator); System.out.println("\t" + result); } } 最后把highlight包中的一个额外的判断去掉。对于中文来说没有明显的单词界限，所以下面这个判断是错误的： tokenGroup.isDistinct(token) 这样中文分词就不会影响到查询速度了。附件是适合lucene-core-2.0.0.jar使用的highlighter.jar

阅读全文(2220) | 回复(0) | 编辑 | 精华

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.328 second(s), page refreshed 144762697 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号