« | July 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | | |
| 公告 |
暂无公告... |
Blog信息 |
blog名称:cedary 日志总数:28 评论数量:20 留言数量:0 访问次数:116285 建立时间:2008年7月27日 |

| |
[生活]奥运女足中日之战想到的  随笔
雪松 发表于 2008/8/16 0:50:30 |
今晚看了奥运会中日之间女足的较量,很精彩。但是,很可惜,输了。基于某种长期的思想情绪,心里总是有一种奇怪的想法,那就是中国队无论是什么项目可以输给其他国家,就是不能输给小日本,当然最好也不要输给“高丽棒子”,呵呵!可能潜意识中很愤青吧!我相信有很多的国人与我的想法相同。
我这一代人是从小的时候就被灌输了仇日思想的,再看看比我小几岁的人,男生更加热衷于日本的卡通或A片,女生则是韩剧的忠实粉丝,仿佛没人还想得起九一八、南京大屠杀。每每看到他们眉飞色舞两眼红心状的谈论某某明星某某剧情时,总是令我这个老夫子摇头叹息不止!
其实静下心来想一想,也许大家都偏离了正常的轨道。忘记历史或者对历史缺乏了解显然是不对的。但停步不前也是错误的,翻开中国的历史,蒙古人当初欺压了中华各民族几百年,恐怕明朝初年华夏各民族与蒙古族的关系也不会好到哪里!可是现在绝不会有人说要警惕蒙古人云云,不是么?也许很多隔阂要经过历史的沉淀才能消除,很多的仇恨要经过历史的拂拭才能够化解。中日之间的关系 |
|
[生活]祭奠——牙和钱包 生活百科
雪松 发表于 2008/8/5 19:39:21 |
想来兄弟也算是前无古人后无来者了!半年前刷牙刷掉了小半颗门牙,今天吃西瓜有吃掉了大半颗槽牙!!!可怜我的牙啊!遂一怒之下牙把牙排到了我的不耐用榜第二名,仅次于工资卡!看来又得去找牙医了!上次钻了三条胡同找了个私人小诊所经过艰苦的讨价还价结果是:小半颗门牙=430¥。不知道这次的大半颗槽牙的价值是多少!痛苦的期待中…… |
|
[数学]数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律 (转载) 发表者:Google(谷歌)研究员 吴军 文章收藏
雪松 发表于 2008/7/27 15:57:46 |
今天各种汉字输入法已经很成熟了,随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法,从理论上分析一下,输入汉字到底能有多快。
我们假定常用的汉字在二级国标里面,一共有 6700 个作用的汉字。如果不考虑汉字频率的分布,用键盘上的 26 个字母对汉字编码,两个字母的组合只能对 676 个汉字编码,对 6700 个汉字编码需要用三个字母的组合,即编码长度为三。当然,聪明的读者马上发现了我们可以对常见的字用较短的编码对不常见的字用较长的编码,这样平均起来每个汉字的编码长度可以缩短。我们假定每一个汉字的频率是 p1, p2, p3, ..., p6700 它们编码的长度是 L1, L2, L3, ..., L6700 那么,平均编码长度是 p1×L1 + p2×L2 + ... + p6700×L6700
香农第一定理指出:这个编码的长度的最小值是汉字的信息熵,也就是说任何输入方面不可能突破信息熵给定的极限。当然,香农第 |
|
[数学]数学之美系列二十一 - 布隆过滤器(Bloom Filter) (转载) 发表者:Google(谷歌)研究员 吴军 文章收藏
雪松 发表于 2008/7/27 15:52:09 |
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash table)来存储的。它的好处是快速准确,缺点是费存储空间。当集合比较小时,这个问题不显著,但是当集合巨大时,哈希表存储效率低的问题就显现出来了。比如说,一个象 Yahoo,Hotmail 和 Gmai 那样的公众电子邮件(email)提供商,总是需要过滤来自发送垃圾邮件的人(spamer)的垃圾邮件。一个办法就是记录下那些发垃圾邮件的 email 地址。由于那些发送者不停地在注册新的地址,全世界少说也有几十亿个发垃圾邮件的地址,将他们都存起来则需要大量的网络服务器。如果用哈希表,每存储一亿个 email |
|
[数学]数学之美 系列二十 -自然语言处理的教父 马库斯 (转载) 发表者:Google 研究员,吴军 文章收藏
雪松 发表于 2008/7/27 15:49:59 |
我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得。的确,马库斯虽然作为第一作者发表的论文并不多,但是从很多角度上讲,他可以说是自然语言处理领域的教父。
马库斯教授长期当任宾夕法尼亚大学计算机系主任,直到他在几年前从 AT&T 找到皮耶尔替代他为止。作为一个管理者,马库斯显示出在自然处理和计算机科学方面的卓识的远见。在指导博士生时,马库斯发现语料库在自然语言处理中的重要性。马库斯呕心沥血,花了十几年工夫建立了一系列标准的语料库,提供给全世界的学者使用。这套被称为 LDC 的语料库,是当今全世界自然语言处理的所有学者都使用的工具。我们在以前的系列中讲到,当今的自然语言处理几乎都是使用给予统计的方法。要做统计,就需要大量有代表性的数据。利用这些数据开发一个自然语言处理系统的过程,可以统称为训练。比如,我们要训练一个汉语分词系统,我们需要一些已经分 |
|
[数学]数学之美 系列十八 - 矩阵运算和文本处理中的分类问题(转载) 发表者:Google 研究员,吴军 文章收藏
雪松 发表于 2008/7/27 15:42:29 |
我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究,我才发现数学家们提出那些矩阵的概念和算法,是有实际应用的意义的。
在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。这两种分类问题都可用通过矩阵运算来圆满地、同时解决。为了说明如何用矩阵这个工具类解决这两个问题的,让我们先来来回顾一下我们在余弦定理和新闻分类中介绍的方法 |
|
[数学]数学之美 系列十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(转载) Google 研究员 吴军 文章收藏
雪松 发表于 2008/7/27 15:39:36 |
自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。
搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正。
在有了网页排名(page rank)以后,作弊者发现一个网页被引用的连接越多,排名就可能越靠前,于是就有了专门卖链接和买链接的生意。比如,有人自己创建成百上千个网站,这些网站上没有实质的内容,只有到他们的客户网站的连接。这种做法比重复关键词要高明得多,但是还是不太难被发现。因为那些所谓帮别人提高排名的网站,为了维持生意需要大量地卖链接,所以很容易露马脚。(这就如同造假钞票,当某一种假钞票的流通量相当大以后,就容易找到根源了。)再以后,又有了形形色色 |
|
|