--java搜索引擎: lucene学习笔记 1

本站首页 管理页面写新日志退出

« June 2026 »
日一二三四五六
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

公告

我的分类（专题）

首页(1304)
Eclipse(8)
J2ME(3)
OpenSymphony(16)
Hibernate(97)
Tapestry(23)
J2SE(72)
Symbian(2)
eXtremeComponents(13)
JBoss(33)
Javascript(13)
MySQL(72)
Java Open Source(104)
DWR(Ajax)(29)
Spring(61)
WebWork(15)
Apache(jakarta)(77)
软件设计(6)
算法(22)
Acegi(2)
Subversion(44)
Dojo(Ajax)(2)
Wicket(3)
IDEA(2)
ESB(6)
TinyMCE+FCKeditor(20)
Grails(1)
Prototype(Ajax)(32)
设计模式(20)
Prototype(0)
FreeMarker(17)
集成测试(14)
codehaus.org(2)
AOP(13)
Java代码(7)
Struts 2.0(6)
Groovy(5)
Linux(10)
网站架构(70)
Cache(11)
Python(40)
网络与系统管理(34)
shell/bash(4)
Pylons学习(2)
Django(88)
Ruby on Rails(120)
Ubuntu(4)
Quixote(3)
视频处理(20)
Web(UI+UE)(2)
TurboGears(25)
jQuery(2)
iBatis(7)
CentOS(2)
MySQL集群(1)
SELinux(1)

日志更新

Java中压缩与解压--中文文件名乱码解
对当前目录下所有文件进行压缩代码
java zip 中文问题
iBatis for Paging
再析在spring框架中解决多数据源的问
如何在spring框架中解决多数据源的问
SELinux 的配置小解
apache+mod_ssl中证书生成方
StatSVN的使用（续）
[原创]MySQL的LIST分区体验与总

留言板

签写新留言

我也想装饰元件
谢谢
飘过！
模板的问题
mule 求助
extremecomponents.cs
搜索呢？
[Apache(jakarta)]Apa
jsper报表的制作!
求助一下,关于compass的

链接

SpringSide
SpringFramework中文论坛
 BlogJava
Java开源大全
 Java视线论坛
 CSDN Java频道
 JavaScud开源平台
 JavaAPI中文文档
 一个不错的提供代码示例的站点
 Spring 中文开发手册(1.1.PR)
Springframework
Hibernate
Java版模式速查手册
 良葛格學習筆記
 javareference
java2s
GRAILS

Blog信息

blog名称:
日志总数:1304
评论数量:2242
留言数量:5
访问次数:7818124
建立时间:2006年5月29日

[Apache(jakarta)]java搜索引擎: lucene学习笔记 1
软件技术

lhwork 发表于 2006/12/14 11:51:48

简介Doug Cutting 于2000年开始的项目 2001年9月后加入apache, Lucene是Doug Cutting的middle name 。目前Lucene已经是apache的top level的项目，已经不在jakarta下面，同时也有了python，perl，c++，.net, Ruby(进行中)多个版本 Lucene 主要的两个任务:indexing and searching Indexing主要使用的类 IndexWriter 较核心的类，index文件由它创建 Directory 一个抽象的标示index文件地址的类，有两个实现:FSDirectory和RAMDirectory，前者是基于文件系统，后者使用内存 Analyzer 文件的分析器（听起来别扭，还是叫Analyzer好了)的抽象，这个类用来处理分词(对中文尤其重要，转换大小写(Computer-> computer,实现查询大小写无关)，转换词根(computers->computer),消除stop words等,还负责把其他格式文档转换为纯文本等 Document 一个Document对应一个文档记录,他有很多Field,用来处理不同的信息,和检索相关 Field 有4(5?)种类型的Field, 下面专门列出 stop words: 出现频率非常高的一些词汇,它们一般没有检索的意义, 比如英文中的(as a, an, the, in) 类型 Analyzed Indexed Stored 说明 Field.Keyword(String,String/Date) Y Y 这个Field用来储存会直接用来检索的比如(身份证号,姓名,日期等) Field.UnIndexed(String,String) Y 不会用来检索的信息,但是检索后需要显示的,比如,硬件序列号,文档的url地址 Field.UnStored(String,String) Y Y 大段文本内容,会用来检索,但是检索后不需要从index中取内容,可以根据url去load真实的内容 Field.Text(String,String) Y Y Y 检索,获取都需要的内容,直接放index中,不过这样会增大index Field.Text(String,Reader) Y Y 如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略. Searching主要使用的类 IndexSearcher 以只读的方式访问index（注意IndexReader不是只读的),需要传给他一个Query对象来搜索 Term Term是一个搜索的基本单位,包含一个Field(目标)和一个value(条件),可以直接用new Term("field","condition value")构造 Query Query有很多子类,比如BooleanQuery,PhraseQuery等,可以在Term基础上加上逻辑(是否, 或) TermQuery 一个很基本的Query, 可以由term构造 new TermQuery(term); Hits 包含了搜索的结构,默认按照相关度排序,hits并不会把所有记录(可能很大)直接保存,而是有一个lazy loading机制 tips Lucene允许一个index中的多个Document可以为Heterogeneous(异类) 也就是说,一个Document 有Field (name,price), 下一个Document可以有Field(name,age),两个Document可以代表完全不同的记录,不过这点我还没有想到有什么特别的用处如果需要对Field增加内容的, 可以使用doc.add(Field.Text("word",newword));如果doc中已经有word这个Field, newword会被自动加入进去,原来的会继续存在, 相当于一个"word"实际上对应一个数组，相当于append Document的编号是不固定的, 如果对index做了修改, document编号会重新计算如果要删除删除index中的记录，使用IndexReader类完成, IndexReader会先标记删除，真实的删除行为在indexReader关闭时执行.也就是说IndexReader也会修改index 通过indexReader.undeleteAll()方法只能恢复同一个indexreader实例标记删除的记录没有update方法，要更新记录, 只能通过delete以后再add来进行, 如果要批量进行, 一次性delete完毕以后关闭Reader再打开Writer来add的效率较高

阅读全文(2944) | 回复(0) | 编辑 | 精华

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.052 second(s), page refreshed 144857253 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号