新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   >>中国XML论坛<<     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 中文XML论坛 - 专业的XML技术讨论区W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → OntoSCORM:一个基于领域本体的知识搜索引擎 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 694852 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: OntoSCORM:一个基于领域本体的知识搜索引擎 举报  打印  推荐  IE收藏夹 
       本主题类别: E-learning | 信息检索    
     csdncannon 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:大三(研究MFC有点眉目了!)
      文章:70
      积分:621
      门派:XML.ORG.CN
      注册:2006/2/17

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给csdncannon发送一个短消息 把csdncannon加入好友 查看csdncannon的个人资料 搜索csdncannon在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看csdncannon的博客21
    发贴心情 

    public class ChineseAnalyzer extends Analyzer {
     
     private Reader input ;
     private static final int MAX_WORD_LEN = 255;
     private static final int IO_BUFFER_SIZE = 1024;
     private final char[] buffer = new char[MAX_WORD_LEN];
     private final char[] ioBuffer = new char[IO_BUFFER_SIZE];
     public TokenStream tokenStream(String fieldName, Reader reader) {

        input = reader ;
        try {
      int dataRead = input.read(ioBuffer);
     } catch (IOException e) {
      e.printStackTrace();
     }
     
        final String chiStr = new String(ioBuffer) ;
     return new TokenStream()
     {
      Sentence sentence = SplitWord.splitWord( chiStr ) ;
      int wordNum = sentence.totalWords() ;
      int i = 0 ;
      int start = 0 ;
      int end ;
      int pos = 0 ;
      public Token next()
      {
       if( i  == wordNum )
        return null;
       else
       {
        Word word = sentence.getWord(i) ;
        String content = word.getWord() ;
        start = pos ;
        end = start + content.length() ;
        pos = end + 1 ;
        
        i++ ;
        return new Token( content ,
                                                                                                start ,end) ;
          
       }     
      }
     } ;
     }
     
     public static void main (String[] args)
     {
      Analyzer analyzer = new ChineseAnalyzer() ;
         TokenStream stream1 =
             analyzer.tokenStream("contents", new StringReader(
               "巴拿马和美国都是国家地区,汉族是一个民族"));
         TokenStream stream2 =
             analyzer.tokenStream("contents", new StringReader(
               "上海民族交通大学微电子学院陈进法兰西"));
         
         ArrayList tokenList1 = new ArrayList();
         while (true) {
           Token token = null ;
      try {
       token = stream1.next();
      } catch (IOException e) {
       e.printStackTrace();
      }
           if (token == null) break;

           tokenList1.add(token);
         }
         
         ArrayList tokenList2 = new ArrayList();
         while (true) {
           Token token = null ;
      try {
       token = stream2.next();
      } catch (IOException e) {  
       e.printStackTrace();
      }
           if (token == null) break;

           tokenList2.add(token);
         }
         
         for (int i = 0; i < tokenList1.size(); i++) {
             Token token = (Token) tokenList1.get(i);

             System.out.println("[" + token.termText() + "] "
               + ": " + token.startOffset + " => "
                                                    + token.endOffset) ;
         }
         
         for (int i = 0; i < tokenList2.size(); i++) {
             Token token = (Token) tokenList2.get(i);

             System.out.println("[" + token.termText() + "] "
               + ": " + token.startOffset + " => "  
                                                    + token.endOffset) ;
         }
     }
    }

    上面那段代码的结果:
    [巴拿马] : 0 => 3
    [和] : 4 => 5
    [美国] : 6 => 8
    [都] : 9 => 10
    [是] : 11 => 12
    [国家] : 13 => 15
    [地区] : 16 => 18
    [,] : 19 => 20
    [汉族] : 21 => 23
    [是] : 24 => 25
    [一个] : 26 => 28
    [民族] : 29 => 31
    [上海] : 0 => 2
    [民族] : 3 => 5
    [交通] : 6 => 8
    [大学] : 9 => 11
    [微电子] : 12 => 15
    [学院] : 16 => 18
    [陈] : 19 => 20
    [进] : 21 => 22
    [法兰西] : 23 => 26
    [民族] : 27 => 29

    第一个句子里的"民族"竟然出现在了第二个句子的tokenStream里面,这就是lz所说的ICTCLAS不稳定吗?

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/31 16:51:00
     
     csdncannon 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:大三(研究MFC有点眉目了!)
      文章:70
      积分:621
      门派:XML.ORG.CN
      注册:2006/2/17

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给csdncannon发送一个短消息 把csdncannon加入好友 查看csdncannon的个人资料 搜索csdncannon在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看csdncannon的博客22
    发贴心情 
    从上面那段代码看来,是因为ICTCLAS分词出来的结果有错误才导致了IDF算错了

    以下是引用jpz6311whu在2006-5-30 22:37:00的发言:
    我当然希望能和你讨论,但是你描述的不是很详细。基于你所说的,我只能建议说在lucene源代码里面设置几个调试断点看看idf的值到底是多少,大概就是Similarity.java里面吧。
    如果你想深入讨论,起码要把你所测试的三个句子贴出来,然后分词结果贴出来,然后把idf的具体值贴一下吧。没有这些数据,你就这样泛泛的一说,我真的没办法弄清楚。

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/31 16:57:00
     
     jpz6311whu 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:研三(收到微软亚洲研究院的Offer了)(版主)
      文章:1718
      积分:10610
      门派:W3CHINA.ORG
      注册:2005/4/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给jpz6311whu发送一个短消息 把jpz6311whu加入好友 查看jpz6311whu的个人资料 搜索jpz6311whu在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看jpz6311whu的博客23
    发贴心情 
    int dataRead = input.read(ioBuffer);
    第一次ioBuffer读了之后没有清空,所以最后那个“民族”还是保留到了到第二次。

    最简单的改法:
      Analyzer analyzer1 = new ChineseAnalyzer() ;
      Analyzer analyzer2 = new ChineseAnalyzer() ;
         TokenStream stream1 =
             analyzer1.tokenStream("contents", new StringReader(
               "巴拿马和美国都是国家地区,汉族是一个民族"));
         TokenStream stream2 =
             analyzer2.tokenStream("contents", new StringReader(
               "上海民族交通大学微电子学院陈进法兰西"));

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/6/3 20:43:00
     
     wyf_aaa 美女呀,离线,快来找我吧!
      
      
      等级:大一(高数修炼中)
      文章:31
      积分:180
      门派:XML.ORG.CN
      注册:2006/3/7

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给wyf_aaa发送一个短消息 把wyf_aaa加入好友 查看wyf_aaa的个人资料 搜索wyf_aaa在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看wyf_aaa的博客24
    发贴心情 
    请教楼主:哪里能找到ICTCLAS的dll动态连接库?我下载了源代码,只能生成exe文件,不能生成dll文件。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/6/9 15:36:00
     
     jpz6311whu 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:研三(收到微软亚洲研究院的Offer了)(版主)
      文章:1718
      积分:10610
      门派:W3CHINA.ORG
      注册:2005/4/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给jpz6311whu发送一个短消息 把jpz6311whu加入好友 查看jpz6311whu的个人资料 搜索jpz6311whu在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看jpz6311whu的博客25
    发贴心情 
    以下是引用wyf_aaa在2006-6-9 15:36:00的发言:
    请教楼主:哪里能找到ICTCLAS的dll动态连接库?我下载了源代码,只能生成exe文件,不能生成dll文件。


    你可以用c++的ide新建dll工程,然后编译之后就生成dll,不要新建application工程。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/6/9 22:09:00
     
     wyf_aaa 美女呀,离线,快来找我吧!
      
      
      等级:大一(高数修炼中)
      文章:31
      积分:180
      门派:XML.ORG.CN
      注册:2006/3/7

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给wyf_aaa发送一个短消息 把wyf_aaa加入好友 查看wyf_aaa的个人资料 搜索wyf_aaa在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看wyf_aaa的博客26
    发贴心情 
    ICTCLAS下载以后已经是一个完整的工程了,新建工程后怎么能把已有工程导入新的工程呢?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/6/10 8:12:00
     
     guchusheng 美女呀,离线,快来找我吧!
      
      
      等级:大一(高数修炼中)
      文章:20
      积分:165
      门派:XML.ORG.CN
      注册:2005/10/25

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给guchusheng发送一个短消息 把guchusheng加入好友 查看guchusheng的个人资料 搜索guchusheng在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看guchusheng的博客27
    发贴心情 
    您好!请问您能把您用protege构建的“教育技术”领域的本体发给我好吗?因为我还不知道怎么能详细的构建,您能把您做的发给我,供我参考一下,非常感谢!
    liujg2004@126.com thanks!!!!!!!!!!!!!!!!!!!
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/6/13 17:33:00
     
     tristones 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:63
      门派:XML.ORG.CN
      注册:2004/7/24

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给tristones发送一个短消息 把tristones加入好友 查看tristones的个人资料 搜索tristones在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看tristones的博客28
    发贴心情 
    用protege构建的“教育技术”领域的本体能给我一份吗?
    非常感谢!
    stonecl@gmail.com
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/6/15 14:07:00
     
     ly2122003 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:7
      积分:107
      门派:XML.ORG.CN
      注册:2005/6/19

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给ly2122003发送一个短消息 把ly2122003加入好友 查看ly2122003的个人资料 搜索ly2122003在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看ly2122003的博客29
    发贴心情 
    “教育技术”领域的本体也给我一份吧.
    非常感谢!pyscr2003@yahoo.com.cn
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/6/15 16:17:00
     
     liweijiexsf 美女呀,离线,快来找我吧!
      
      
      等级:大一(高数修炼中)
      文章:19
      积分:159
      门派:XML.ORG.CN
      注册:2006/3/18

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给liweijiexsf发送一个短消息 把liweijiexsf加入好友 查看liweijiexsf的个人资料 搜索liweijiexsf在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看liweijiexsf的博客30
    发贴心情 
    "教育领域的本体"能给我一份吗?
    很需要呀,非常感谢!
    liweijiexsf@yahoo.com.cn
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/6/29 10:03:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/3/28 11:08:08

    本主题贴数102,分页: [1] [2] [3] [4] [5] [6]... [11]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    125.000ms