新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   >>中国XML论坛<<     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> VoiceXML, CCXML, OpenVXI
    [返回] 中文XML论坛 - 专业的XML技术讨论区XML.ORG.CN讨论区 - 高级XML应用『 XML在语音技术中的应用 』 → 最近我研究 全文搜索引擎的心得 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 6680 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 最近我研究 全文搜索引擎的心得 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     erp2 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(高数修炼中)
      文章:16
      积分:163
      门派:XML.ORG.CN
      注册:2005/11/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给erp2发送一个短消息 把erp2加入好友 查看erp2的个人资料 搜索erp2在『 XML在语音技术中的应用 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看erp2的博客楼主
    发贴心情 最近我研究 全文搜索引擎的心得

    最近我研究 全文搜索引擎的心得

    最近我研究 全文搜索引擎的心得
    研究心得:
    1、看到网上那么多人在研究: Google的Page Rank我很心痛 ,我就看了两天Page Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。
    2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我?
         接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。
    3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分: A、用来计算关键字在文本中出现的次数 B、用来查询的。
    4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库
    最后我要说一下总体思路:
      抓取----然后---预处理----然后索引---然后----保密
    预处理: 包括计算 rank 将htm文件中的htm表示提取纯文本信息 ,然后保存对应的文本信息
    数据库中只保存 文件编号 url Rank  Title 纯文本信息等基本信息
    然后索引  索引很重要么?  答案是:索引不是非常重要  
    主要是 "保密" 这部分的运算
    运算之后就可以直接将结果返回给客户端了  
    用我的新研究的方法进行运算取得结果用时在 1秒以内   

    以上是我研究的一些心得,希望对大家有所帮助。

    也许有人会问,那你用什么语言开发?
    当然用 C、C++ 最好,其次是用Delphi开发 ,这样不但效率高,还可以保证程序在Linux下照样可以执行。

    最后也许还有人回问,蜘蛛的效率如何,你写过没有?
    答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测:
    =========================================
    ▄【┻┳═一(99923309) 12:05:57
    思鱼给他们讲讲我的 蜘蛛  
    思鱼(20275543) 12:02:50
    我在家里测试了一下
      
    思鱼(20275543) 12:03:00
    很不错
      
    思鱼(20275543) 12:03:10
    和摆渡前几年的一样   
    ============================
    根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取 10万个网页,而且每个网页的大小限制在 100K以内,Baidu目前每个网页的大小限制在 130K以内。

    最后,我已经收集了100万个国内的一级域名.

    有兴趣的可以一起聊聊啊!

    erp2@163.com   
    www.519so.com  是我花了两周时间做的一个小测试服务器的内存是 512MB

    QQ:99923309


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/2/27 12:52:00
     
     mawei 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:56
      门派:XML.ORG.CN
      注册:2006/4/1

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给mawei发送一个短消息 把mawei加入好友 查看mawei的个人资料 搜索mawei在『 XML在语音技术中的应用 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看mawei的博客2
    发贴心情 
    顶,我加你qq了
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/4/1 10:05:00
     
     lizhengjian 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:1
      积分:58
      门派:XML.ORG.CN
      注册:2006/5/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给lizhengjian发送一个短消息 把lizhengjian加入好友 查看lizhengjian的个人资料 搜索lizhengjian在『 XML在语音技术中的应用 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看lizhengjian的博客3
    发贴心情 
    哥哥学学别人的开源精神,要放屁不要在这里呀
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/22 17:52:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 XML在语音技术中的应用 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/12/27 13:53:32

    本主题贴数3,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    58.594ms