本站首页    管理页面    写新日志    退出


«August 2025»
12
3456789
10111213141516
17181920212223
24252627282930
31


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接

DMman's Blog

idmer's Blog

DHTML

eYou帮

Java国内站

Java国外站

PHP博客

PHP国内站点

PHP国外站点

Unix C/C++

Unix/Linux

程序设计

大牛blog

实用网站

网络安全

在线手册


Blog信息
blog名称:
日志总数:18
评论数量:37
留言数量:0
访问次数:136813
建立时间:2007年7月19日




[data mining]【转】查找"看不见的网页"的途径与工具
其他

jdilt 发表于 2007/7/26 12:38:11

查找"看不见的网页"的途径与工具 邢志宇   "看不见的网页"(The Invisible Web)是指搜索引擎商出于自身考虑不愿索引的某些网络内容,或是因为技术原因普通搜索引擎(popular search engines)无法索引的网络内容。这些普通搜索引擎的"蜘蛛"不容易接近的"深层网络"(deep Web)的数量,要比搜索引擎索引的网页(visible Web)多出500多倍。如何搜索Invisible Web 已经引起国内外学者和网络搜索爱好者的关注。就搜索技术而言,搜索网站和搜索引擎商正在寻求构建能够揭示Invisible Web的目录指南,或改进搜索技术,增加搜索功能等多种对策;就具体搜索而言,用户应注意调整搜索策略,熟悉相关目录和专用搜索引擎,掌握相应的搜索技巧。一般来说,搜索Invisible Web可以从目录指南(directories)、具有检索功能的网站(searchable sites)、免费数据库(free Web databases),以及专用搜索引擎(specialized search engines)和优秀普通搜索引擎等四种途径入手,选择使用相应的检索工具。  一、目录指南 1、Librarians' Index to the Internet( http://lii.org/),一个可以信赖的经过图书馆员筛选和维护的包括14,000多个网站的主题目录,在查询框输入一个宽泛的主题词加上"and databases"就可以进入相关的"Invisible Web"资源,如输入检索词"biology and databases"(生物和数据库),就可找到普通搜索引擎无法索引的有关生物方面的数据库资源。 2、FindLaw ( http://www.findlaw.com/),世界著名的法律网站,在法律条目下链接许多免费数据库,是查找法律Invisible Web的常用工具。 3、InfoMine ( http://infomine.ucr.edu),图书馆员编制的包括120,000 多个学术网站的分类目录。 4、About.com ( http://www.about.com/) ,内容广泛,查询主题数以万计,包括众多"Invisible Web"资源,并有精选新闻和评论,输入"Invisible Web"可以找到很多隐藏网页链接,如:"Invisible Web: The Cloaked Internet"("看不见的网页":被掩盖的网络资源)、 " Visible versus Invisible Web"(从可见网页到"看不见的网页")等等, 可作为搜索"Invisible Web"的指南。 5、Academicinfo( http://www.academicinfo.net/),学术资源主题指南,提供一个适合大学生利用的学术网络资源检索入口。它以"Subject Gateway"区分知识领域,利用知识树的方式细分主题,主题下汇集该门学科的包括数据库等的各种相关网络资源,而不仅仅是网站的链接。该目录以图书馆和学术单位的电子资源为主,主题的分类和内容指引清晰易寻,使用方便。  二、搜索"Invisible Web"的网站 1、Direct Search ( http://www.freepint.com/gary/direct.htm),最具权威的用于检索"看不见的网页"的网站,拥有数量庞大的Invisible Web资源链接。 2、The Invisible Web Directory ( http://www.invisible-web.net/),《看不见的网页》(The Invisible Web:  Uncovering Information Sources Search Engines Can't See )作者 Chris Sherman和 Gary Price创办的专门用于指导检索Invisible Web资源的网站,网站的宗旨是"寻找搜索引擎无法找到的隐藏的网络资源"(Finding Hidden Internet Resources Search Engines Can't See)。 3、Profusion ( http://www.profusion.com), Intelliseek公司旗下的一个智能型并行元搜索引擎,其搜索对象分为包括WEB(万维网)、News(新闻)、Jobs(职业信息)、MP3、 Downloads(下载文件)、Legal(法津)、Discussions(讨论组)等21个资源大类。可搜索以网页搜索为主的其它搜索引擎无法搜索到的数据库、百科全书等资源类型的信息。 4、CompletePlanet ( http://www.completeplanet.com/),BrightPlanet公司经营的网站,包括70,000多个可以检索的数据库及专用搜索引擎,用于从数据库查找不能够被普通搜索引擎索引的文件。 三、Invisible Web 数据库 1、AnimalSearch ( http://animalsearch.net/),一个适合家庭使用的有关动物的网站数据库。 2、Educator's Reference Desk ( http://www.eduref.org/),在过去的十年中,该网站始终链接着AskERIC网站上的2000多个教学计划, 3000多种在线教育信息链接和200多件咨询档案。该网站提供 "ERIC教育研究数据库"--世界最大的教育资源数据库和美国教育部的GEM(Gateway to Educational Materials)的检索入口。 3、NatureServe Explorer( http://www.natureserve.org/explorer),网上百科全书,提供美国和加拿大60,000多种植物、动物、生态系统的权威资料。 4、Nuclear Explosions Database ( http://www.ga.gov.au/oracle/nukexp_query.html),澳大利亚地球科学数据库,提供1945年以来世界范围内核爆炸的地点、时间、规模等数据,点击"databases"下的"Online Tools"可以看到在线制图工具和数据库列表。 5、PubMed ( http://www.ncbi.nlm.nih.gov/entrez/query.fcgi), 提供对MEDLINE(美国国家医学图书馆的文献数据库)1400多万全文和相关资源的检索,还可以浏览美国国家医学图书馆(NLM)所属的国家生物技术信息中心(NCBI)的数字化生命科学期刊文献馆(PubMed Central (PMC))中160多种专业期刊全文和《书架》(Bookshelf)数据库中不断增长的生物医学工程图书的全文,它还提供目前世界上最大的生物分子数据库NCBI的Entrez数据库检索系统,以此为入口可以检索更多的生命科学方面的数据库。 6、LookSmart's FindArticles ( http://www.findarticles.com/),LookSmart管理的一个免费全文数据库,可提供900多种出版物的5500万篇文章的全文免费检索和打印。从LookSmart主页(http://search.looksmart.com/)上列的"Articles"按钮,也可进入该数据库。 7、Directory of Open Access Journals ( http://www.doaj.org/),2003年5月由瑞典隆德大学图书馆推出的开放式目录检索系统,免费提供1300多种期刊的篇目检索和300多种自然科学、人文科学及社会科学期刊的全文检索。 四、搜索引擎 1、Incywincy( http://www.incywincy.com/),以Net Research Server (NRS)技术为核心的Invisible Web搜索引擎,其目录是由DMOZ(http://dmoz.org/)提供的 Open Directory Project,其"蜘蛛"程序并不是探寻所有的网站,而仅仅是抓取ODP中的Invisible Web网页。 2、google scholar( http://scholar.google.com),Google学术搜索实际上是Google索引的一个子集,涉及医药、物理、经济以及计算机科学等多个领域,可以搜到一些与输入关键词相关的学术性刊物文章,研究机构论文、书籍、摘要及技术报告等等,搜索结果中可以列出文章的不同版本以及被其他文章所引用的次数。它可以对pubmed(美国国立生物技术信息中心 (NCBI)开发的用于检索MEDLINE、PreMED-LINE数据库的网上检索系统)等独立的专业数据库进行检索。 3、Singingfish ( http://www.singingfish.com),一个优秀的声/视频搜索引擎,它只索Windows Media、Real、 QuickTime、mp3等多媒体文档,其搜索结果可以免费使用。 4、Google News ( http://news.google.com/) 颇受好评的Google新闻搜索,拥有4500多个新闻源,每15分钟自动更新,其"Top Stories"下拉菜单,可供浏览不同国家的"最新新闻"。注:Yahoo!News、Topix.net、Daypop等也有类似功能。  5、Scirus ( http://www.scirus.com/) ,一个覆盖16700多万网页的著名的科学搜索引擎,它的高级搜索功能尤其令人称道,可以从科学学科(如: Agricultural and Biological Sciences、Astronomy...)、信息源(如:NASA、 US Patent Office...)、文件格式(如:PDF、HTML...)、信息类型(如:Abstracts、Articles、 Books...)等途径检索1920年至今的期刊和网络科学文献,查找具体数据、报告、文章和相关研究网页极为方便。 在搜索多种非HTML文档(non-HTML files)方面功能强大或独具特色的普通搜索引擎,如Google (http://www.google.com/) 、Yahoo!  (http://www.yahoo.com/)、Gigablast (http://www.gigablast.com/)等,也是搜索Invisible Web不可忽视的工具


阅读全文(1403) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.156 second(s), page refreshed 144759293 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号