在RDBMS里面做搜索是一件困难的事情。现在的需求是需要对用户的资料进行搜索。用户的资料由多个域组成,其中包含用户的爱好,工作经验等。这些域都是文本,包含大量的信息。
对用户这个实体使用标注@Indexed(index = "users")来指定本实体需要被索引,索引存放的文件夹是users,可以在Hibernate配置文件中使用hibernate.lucene.index_dir来指定默认的索引目录。
Lucene索引的4种类型,分别是Keyword,Text,Unstored,Unindexed。
为Hibernate添加监听器,这样当实体更新之后,索引也会自动更新。
<!-- 插入Lucene事件监听器使得数据库更新时可以自动更新索引 --> <event type="post-commit-update"> <listener class="org.hibernate.lucene.event.LuceneEventListener"/> </event> <event type="post-commit-insert"> <listener class="org.hibernate.lucene.event.LuceneEventListener"/> </event> <event type="post-commit-delete"> <listener class="org.hibernate.lucene.event.LuceneEventListener"/> </event>
如果有中文的话,使用下面的分析器:
<property name="hibernate.lucene.analyzer">org.apache.lucene.analysis.cjk.CJKAnalyzer</property>
这个分析器在Lucene官方网站的Sandbox里面有下载的。
需要注意的是,其中的Update监听器只有在显式调用update方法才能触发,也就是说使用saveOrUpdate是不会触发索引更新的。
完成索引之后,就可以用来搜索了。
IndexReader reader = IndexReader.open( new File( BASE_DIR, "users" ) ); Searcher searcher = new IndexSearcher(reader);
String keyword = "软件"; String termStr1 = "address"; String termStr2 = "jobExperience"; Term term1 = new Term(termStr1, keyword); Term term2 = new Term(termStr2, keyword); BooleanQuery query = new BooleanQuery(); Query query1 = new TermQuery(term1); Query query2 = new TermQuery(term2); query.add(query1, false, false); query.add(query2, false, false);
Hits hits = searcher.search(query); System.out.println(hits.length() + " total matching documents"); for (int i = 0; i < hits.length(); i++) { System.err.println(hits.doc(i)); } |