cedary

本站首页 管理页面写新日志退出

« may 2026 »
日一二三四五六
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

公告

暂无公告...

我的分类（专题）

首页(28)
数学(25)
数据挖掘和机器学习(0)
搜索引擎(0)
算法设计和网站设计(0)
生活(2)

日志更新

奥运女足中日之战想到的
祭奠——牙和钱包
数学之美系列二十三输入一个汉字需要敲
数学之美系列二十二由电视剧《暗算》所想
数学之美系列二十二由电视剧《暗算》所想
数学之美系列二十一－布隆过滤器（Bl
数学之美系列二十－自然语言处理的教父
数学之美系列十九－马尔可夫链的扩展
数学之美系列十八－矩阵运算和文本处
数学之美系列十七闪光的不一定是金子

最新评论

回复:露个脸

留言板

签写新留言

链接

Blog信息

blog名称:cedary
日志总数:28
评论数量:20
留言数量:0
访问次数:120917
建立时间:2008年7月27日

[数学]数学之美系列七 -- 信息论在信息处理中的应用（转载）发表者：吴军, Google 研究员
文章收藏

雪松发表于 2008/7/27 15:23:28

我们已经介绍了信息熵，它是信息论的基础，我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时，没有讲如何定量地衡量一个语言模型的好坏，当然，读者会很自然地想到，既然语言模型能减少语音识别和机器翻译的错误，那么就拿一个语音识别系统或者机器翻译软件来试试，好的语言模型必然导致错误率较低。这种想法是对的，而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语言模型的人来讲，既不直接、又不方便，而且很难从错误率反过来定量度量语言模型。事实上，在贾里尼克(Fred Jelinek)的人研究语言模型时，世界上既没有像样的语音识别系统，更没有机器翻译。我们知道，语言模型是为了用上下文预测当前的文字，模型越好，预测得越准，那么当前文字的不确定性就越小。信息熵正是对不确定性的衡量，因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发，定义了一个称为语言模型复杂度(Perplexity)的概念，直接衡量语言模型的好坏。一个模型的复杂度越小，模型越好。李开复博士在介绍他发明的 Sphinx

阅读全文(2302) | 回复(0) | 编辑 | 精华 | 删除

[数学]数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)（转载）发表者: 吴军，Google 研究员
文章收藏

雪松发表于 2008/7/27 15:22:02

[离散数学是当代数学的一个重要分支，也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算，我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句，我们用 Google Trends 来搜索一下“离散数学”这个词，可以发现不少有趣的现象。比如，武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣的城市。] 我们上回谈到了如何建立搜索引擎的索引，那么如何自动下载互联网所有的网页呢，它要用到图论中的遍历（Traverse) 算法。图论的起源可追溯到大数学家欧拉（Leonhard Euler）。1736 年欧拉来到德国的哥尼斯堡（Konigsberg，大哲学家康德的故乡，现在是俄罗斯的加里宁格勒），发现当地市民们有一项消遣活动，就是试图将下图中的每座桥恰好走过一遍并回到原出发点，从来没有人成功过。欧拉证明了这件事是不可能的，并写了一篇论文，一般认为这是图论的开始。图论中所讨论的的图由一些节点和连接这些节点

阅读全文(1244) | 回复(-1) | 编辑 | 精华 | 删除

[数学]数学之美系列五 -- 简单之美：布尔代数和搜索引擎的索引（转载）发表者: 吴军，Google 研究员
文章收藏

雪松发表于 2008/7/27 15:20:47

[建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题，这里我们谈谈索引问题，以后我们还会谈如何度量网页的相关性，和进行网页自动下载。］世界上不可能有比二进制更简单的计数方法了，也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化，其实从根本上讲都没有逃出布尔运算的框框。布尔（George Boole) 是十九世纪英国一位小学数学老师。他生前没有人认为他是数学家。布尔在工作之余，喜欢阅读数学论著、思考数学问题。1854 年“思维规律”（An Investigation of the Laws of Thought, on which are founded the Mathematical Theories of Logic and Probabilities）一书，第一次向人们展示了如何用数学的方法解决逻辑问题。布尔代数简单得不能再简单了

阅读全文(1267) | 回复(0) | 编辑 | 精华 | 删除

[数学]数学之美系列四 -- 怎样度量信息?（转载）发表者：吴军，Google 研究员
文章收藏

雪松发表于 2008/7/27 15:18:39

前言: Google 一直以 “整合全球信息，让人人能获取，使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢？信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年，香农提出了“信息熵”(shāng) 的概念，才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。那么我们如何量化的度量信息量呢？我们来看一个例子，马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯，赛后我问一个知道比赛结果的观众“哪支球队是冠军”？他不愿意直接告诉我，而要让我猜，并且我每猜一次，他要收一元钱才肯告诉我是否猜对了，那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编

阅读全文(1246) | 回复(0) | 编辑 | 精华 | 删除

[数学]数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用（转载）发表者：吴军，Google 研究员
文章收藏

雪松发表于 2008/7/27 15:17:06

前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统：其中 s1，s2，s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1，s2，s3...。其实我们平时在说话时，脑子就是一个信息源。我们的喉咙（声带），空气，就是如电线和光缆般的信道。听众耳朵的就是接收端，而听到的声音就是传送过来的信号。根据声学信号来推测说话者的意思，就是语音识别。这样说来，如果接收端是一台计算机而不是人的话，

阅读全文(1202) | 回复(0) | 编辑 | 精华 | 删除

[数学]数学之美系列二 -- 谈谈中文分词（转载）发表者: 吴军， Google 研究员
文章收藏

雪松发表于 2008/7/27 15:13:34

谈谈中文分词
----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词：
中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的，也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。用 “查字典” 法，其实就是我们把一个句子从左向右扫描一遍，遇到字典里有的词就标识出来，遇到复合词（比如 “上海大学”）就找最长的词匹配，遇到不认识的字串就分割成单字词，于是简单的分词就完成了。这种简单的分词方法完全能处理上面例子中的句子。八十年代，哈工大的王晓龙博士把它理论化，发展成最少词数的分词理论，即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性（有双重理解意思）的分割时就无能为力了。比如，对短语 “发展中国家” 正确的分割是“发

阅读全文(1201) | 回复(0) | 编辑 | 精华 | 删除

[数学]数学之美系列一 -- 统计语言模型(转载）发表者: 吴军， Google 研究员　
文章收藏

雪松发表于 2008/7/27 15:11:15

发表者: 吴军, Google 研究员前言也许大家不相信，数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时，总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地，介绍一些数学工具，以及我们是如何利用这些工具来开发 Google 产品的。系列一：统计语言模型 (Statistical Language Models) Google 的使命是整合全球的信息，所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来，人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字（不论是印刷体或手写体）和进行海量文献的自动检索，这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决这个问题，人们容易想到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基（Noam Chomsky 有史以来最伟大的语言学家）

阅读全文(1497) | 回复(0) | 编辑 | 精华 | 删除

露个脸
随笔

雪松发表于 2008/7/27 11:42:53

也算在互联网的从业一年了，在网上什么痕迹还都没有留下，同事们都劝我留下些足迹，借口太忙（其实是太懒），还有就是觉得自己的那点水平太有限了，怕人耻笑！呵呵！但是无论如何都要有个开始，那就今天吧！

阅读全文(2432) | 回复(1) | 编辑 | 精华 | 删除

« 1 2 3 ›

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.723 second(s), page refreshed 144819451 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号