You’ve finally got your hands on the diverse collection of HTML documents you needed. But the content you’re interested in is hidden amidst adverts, layout tables or formatting markup, and other various links. Even worse, there’s visible text in the menus, headers and footers that you want to filter out. If you don’t want to write a complex scraping program for each typ
1、比较购物 随着国内电子商务的发展,越来越多的用户开始体验网上购物,除了著名的TaoBao和Ebay,国内还有很多中小型的B to C 专业网站,在众多的网站中,如何货比三家,不需要登陆每个网站来查看自己想要购买的商品呢?这样就孕育了比较购物的设想,所谓比较购物就是为消费者提供从多种在线零售网站中进行商品价格、网站信誉、购物方便性等方面的比较资料,随着比较购物网站的发展,其作用不仅表现在为在线消费者提供方便,也为在线销售上推广产品提供了机会,实际上也就等类似于一个搜索引擎的作用了,并且处于网上购物的需要,从比较购物网站获得的搜索结果比通用搜索引擎获得的信息更加集中,信息也更全面(如有些比较购物网站除了产品价值信息之外,还包含了包含对在线销售商的评价等),于
A Roadmap to Text Mining and Web Mining
- Under Construction, Last Modified: Jan 8, 2002 -
Text Mining in General
M. Hearst, Untangling Text Data Mining, ACL99
Mining in Textual Mountains: An Interview with Marti Hearst,