1.可以用哪些搜索引擎查找专业信息
全世界有成千上万个被称为 “ 搜索引擎 ” 的网站。
实际上,这些网站中真正适合海外推广的搜索引擎不过 10 个。其中最著名的是 Google, Yahoo, Alltheweb, AltaVista 和 Inktomi 等。
其他网站的搜索结果都来自于这些搜索引擎,或者他们之间的搜索结果交叉使用。为了让您更好地进行网站推广,我们以下将对其作逐一介绍。
Google 全球最大的机器搜索引擎, Google 每天提供 2 亿次查询服务,占全球搜索引擎查询市场份额的 29.2 %,无可争议的世界第一; Google 通过对 80 多亿网页进行整理,为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。 Yahoo !是全球认知度最高及最有价值的互联网品牌之一,也是最大的门户网站。
有英、中 、日、韩、法、德等 10 余种语言版本。在全球消费者品牌排名中居第 38 位 , 是全球最大的搜索引擎和门户网站。
拥有 2.94 亿有效注册用户,每天 12 亿访问人次,覆盖全球网民的 61% ;全球有 1840 万业务采购决策者访问 Yahoo! MSN 属于微软公司, 美国对互联网浏览量进行统计的康姆斯科公司公布统计数据称:微软 MSN 网站已接近雅虎,成为继美国在线之后,网民浏览人数排名第二的美国门户网站。 AOL 即美国在线,是美国也是世界上最早的门户网站之一, 80% 是美国本土用户,其搜索结果全部来自于 Google 。
也就是说,有良好的 Google 排名也有良好的 AOL 排名。 Lycos 是全世界最早的搜索引擎之一。
根据媒体调查统计, Lycos 以月 3700 万次的独立访问排名第 5 大用户最常访问的网站。目前, Lycos 主要搜索结果来自于 Alltheweb 。
Ask 规模不大,但很有特色的搜索搜索。 Ask 是 DirectHit 的母公司,于 2001 年收购 Teoma 搜索引擎,并全部采用 Teoma 搜索结果。
Overture 是最早的付费搜索引擎(竞价排名搜索引擎)。搜索结果被 Yahoo, MSN 等采用。
Overture 收购了 Google 的对手 Inktomi 后被 Yahoo 收购,它开通了含约 32 亿文档的 “ 全球最大 ” ( Overture )的搜索索引服务,也是业界提供关键词标准流量的公司。 Netscape 由著名的浏览器公司网景公司开发的搜索引擎, Netscape 的搜索结果全部来自于 Google 。
另外,全世界最大的开放式目录 DMOZ 录属于网景公司。 AltaVista 全世界最古老的搜索引擎之一,也是功能最完善,搜索精度较高的全文搜索引擎之一。
截止 2002 年 6 月, AltaVista 宣称其数据库已存有 11 亿个 Web 文件,并且经过升级,其搜索精度已达业界领先水平。该搜索引擎已于 2003 年被 Yahoo 收购。
Inktomi 只对搜索引擎提供搜索结果。 2003 年被 Overture 收购。
在 2004 年 Yahoo 开发自己全新的搜索引擎技术之前, Inktomi 还是全球第二大搜索引擎,其搜索结果被 Hotbot, MSN 等著名的网站采用。 HotBot 是比较活跃的搜索引擎,数据更新速度比其他引擎都快。
网页库容量为 1.1 亿,以独特的搜索界面著称。该引擎已被 Lycos 收购,成为 Terra Lycos Network 的一部分。
AllTheWeb 是目前成长最快的搜索引擎,支持 225 种文件格式搜索,其数据库已存有 49 种语言的 21 亿个 Web 文件,而且以其更新速度快,搜索精度高而受到广泛关注,被认为是 Google 强有力的竞争对手。 LookSmart 与 Yahoo 、Open Directory Project ( Dmoz )等齐名的分类目录搜索引擎,,向包括 MSN 、AltaVista 、Excite 提供目录搜索。
在全球拥有相当规模的商业客户资源,并通过与 MSN 、AltaVista 、Infospace 等重量级门户合作,共享资源,使得 LookSmart 成为国内出口企业进行境外搜索引擎注册推广的一条重要渠道。 Infospace 是著名的元搜索引擎。
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。 Infoseek 是全球著名的搜索引擎之一,提供全文检索功能,并有较细致的分类目录。
网页收录极其丰富,以西文为主。 CNN 美国有线新闻网( CNN )是美国时代华纳旗下的新闻媒体网站。
于 2001 年随时代华纳集团并入了美国在线。 CNN 覆盖了六大洲,成为了历史上第一个名副其实的全球电视网。
2.大学里跟 搜索引擎 相关的专业有哪些
大学里跟 搜索引擎 相关的专业是电脑专业的。
本专业是计算机硬件与软件相结合、面向系统、侧重应用的宽口径专业。通过基础教学与专业训练,培养基础知识扎实、知识面宽、工程实践能力强,具有开拓创新意识,在计算机科学与技术领域从事科学研究、教育、开发和应用的高级人才。本专业开设的主要课程有:电子技术、离散数学、程序设计、数据结构、操作系统、计算机组成原理、微机系统、计算机系统结构、编译原理、计算机网络、数据库系统、软件工程、人工智能、计算机图形学、数字图像处理、计算机通讯原理、多媒体信息处理技术、数字信号处理、计算机控制、网络计算、算法设计与分析、信息安全、应用密码学基础、信息对抗、移动计算、数论与有限域基础、人机界面设计、面向对象程序设计等。
3.搜索引擎通常具备哪些基本的检索功能
现有的搜索引擎基本上分为三类:1.1 single search engine(独立搜索引擎) 它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。
1.2 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。
由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。1.3 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。
相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。2 网络搜索引擎的工作原理及其基本构成 用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。
为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。
独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成.网络蜘蛛。
是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。
为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。
索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。
为了提高检索的效率,需要建立索引。索引一般为倒排档索引。
搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。
然后将分级排序后的结果显示给用户。3 搜索引擎的主要性能评价指标3.1 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。
有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。
Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度。
由于索引不同,在检索信息时产生的结果会不同。3.2 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。
另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不但提高了搜索引擎的质量,而且会得到用户的支持。
3.3 搜索引擎的检索效果 检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。响应时间是用户输入检索式开始查询到检出结果的时间。
查全率是指一次搜索结果中符合用户要求的数目与和用户查询相关的总数之比;查准率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比;相似度是指用户查询与搜索结果之间相似度的一种度量。虽然由于无法估计网络上与某个检索提问相关的所有信息数量。
所以目前尚没有定量计算查全率的更好方法,但是它作为评价检索效果的指标还是值得保留。查准率也是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。
总之,一个好的搜索引辇应该具有较快的响应速度和高的查全率和查准率,或者有极大的相似度。3.4 搜索引擎的受欢迎程度 搜索引擎的受欢迎程度体现了用户对于搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。
搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态的变化。搜索引擎的服务水平和它所收集的信息量、信息的新鲜度和查询的精。
4.开发搜索引擎需要具备哪些知识
随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。
搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索(如企业、人名、电话黄页等)。
下面以网络搜索机器人为例来说明搜索引擎技术。 1.网络机器人技术 网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。
一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。
网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。 机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。
它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤: (1)机器人从起始URL列表中取出URL并从网上读取其指向的内容; (2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中; (3)从文档中提取指向其他文档的URL,并加入到URL列表中; (4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间); (5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。
搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。
也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。 搜索引擎是一个技术含量很高的网络应用系统。
它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。 2.索引技术 索引技术是搜索引擎的核心技术之一。
搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。
目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点: (1)存储语法库,和词汇库配合分出句子中的词汇; (2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式; (3)词汇宽,应可划分为不同的专业库,以便于处理专业文献; (4)对无法分词的句子,把每个字当作词来处理。 索引器生成从关键词到URL的关系索引表。
索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。
不同的搜索引擎系统可能采用不尽相同的标引方法。例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。
检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。 3. 检索器与结果处理技术 检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。
当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。
一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。
特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为: (1)按频次排定次序 通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。
(2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。
这种解决方案。
5.做一个搜索引擎要涉及那些知识
随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。
搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索(如企业、人名、电话黄页等)。
下面以网络搜索机器人为例来说明搜索引擎技术。 1.网络机器人技术 网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。
一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。
网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。 机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。
它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤: (1)机器人从起始URL列表中取出URL并从网上读取其指向的内容; (2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中; (3)从文档中提取指向其他文档的URL,并加入到URL列表中; (4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间); (5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。
搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。
也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。 搜索引擎是一个技术含量很高的网络应用系统。
它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。 2.索引技术 索引技术是搜索引擎的核心技术之一。
搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。
目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点: (1)存储语法库,和词汇库配合分出句子中的词汇; (2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式; (3)词汇宽,应可划分为不同的专业库,以便于处理专业文献; (4)对无法分词的句子,把每个字当作词来处理。 索引器生成从关键词到URL的关系索引表。
索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。
不同的搜索引擎系统可能采用不尽相同的标引方法。例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。
检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。 3. 检索器与结果处理技术 检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。
当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。
一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。
特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为: (1)按频次排定次序 通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。
(2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。