以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 XML在电子商务与电子政务中的应用 』  (http://bbs.xml.org.cn/list.asp?boardid=36)
----  最近我研究 全文搜索引擎的心得  (http://bbs.xml.org.cn/dispbbs.asp?boardid=36&rootid=&id=27843)


--  作者:erp2
--  发布时间:2/27/2006 12:42:00 PM

--  最近我研究 全文搜索引擎的心得
最近我研究 全文搜索引擎的心得

最近我研究 全文搜索引擎的心得
研究心得:
1、看到网上那么多人在研究: Google的Page Rank我很心痛 ,我就看了两天Page Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。
2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我?
     接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。
3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分: A、用来计算关键字在文本中出现的次数 B、用来查询的。
4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库
最后我要说一下总体思路:
  抓取----然后---预处理----然后索引---然后----保密
预处理: 包括计算 rank 将htm文件中的htm表示提取纯文本信息 ,然后保存对应的文本信息
数据库中只保存 文件编号 url Rank  Title 纯文本信息等基本信息
然后索引  索引很重要么?  答案是:索引不是非常重要  
主要是 "保密" 这部分的运算
运算之后就可以直接将结果返回给客户端了  
用我的新研究的方法进行运算取得结果用时在 1秒以内   

以上是我研究的一些心得,希望对大家有所帮助。

也许有人会问,那你用什么语言开发?
当然用 C、C++ 最好,其次是用Delphi开发 ,这样不但效率高,还可以保证程序在Linux下照样可以执行。

最后也许还有人回问,蜘蛛的效率如何,你写过没有?
答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测:
=========================================
▄【┻┳═一(99923309) 12:05:57
思鱼给他们讲讲我的 蜘蛛  
思鱼(20275543) 12:02:50
我在家里测试了一下
  
思鱼(20275543) 12:03:00
很不错
  
思鱼(20275543) 12:03:10
和摆渡前几年的一样   
============================
根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取 10万个网页,而且每个网页的大小限制在 100K以内,Baidu目前每个网页的大小限制在 130K以内。

最后,我已经收集了100万个国内的一级域名.

有兴趣的可以一起聊聊啊!

erp2@163.com   
www.519so.com  是我花了两周时间做的一个小测试服务器的内存是 512MB

QQ:99923309


--  作者:shuc
--  发布时间:4/3/2006 5:18:00 PM

--  
不错

支持
有思想的人
--  作者:Jakson33
--  发布时间:5/7/2006 10:01:00 AM

--  
LZ真是个牛人啊!
--  作者:cwzb
--  发布时间:8/13/2006 3:41:00 PM

--  
不错.强力支持:)


搞不好,你能搞出一个比GG要好得多的搜索器:)


--  作者:yuico
--  发布时间:10/28/2006 6:20:00 PM

--  
学习了
--  作者:niweiliang
--  发布时间:3/14/2007 12:59:00 PM

--  
楼主厉害啊
--  作者:abc0317
--  发布时间:6/1/2007 5:01:00 PM

--  
不错,楼主值得表扬!
--  作者:jx
--  发布时间:6/3/2007 12:52:00 PM

--  
Google的PageRank还是有其道理的,应该谦虚些。
--  作者:qlping2007
--  发布时间:6/26/2007 6:26:00 PM

--  
有意思,我是初学者,好好学习。
--  作者:wooq
--  发布时间:12/16/2007 2:29:00 AM

--  
06年研究这个  不错
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
3,964.844ms