范文大全

信息检索范例

作者: 爱可网 时间:2024年04月10日 来源:www.ik35.com

信息检索范例篇1

  关键词:互联网;信息检索;检索策略

  信息是现代社会的宝贵资源,随着社会的发展进步,信息的价值将不断飚升。正如世界著名未来学家阿尔温。托夫勒预言:“谁掌握了信息,控制了网络,谁就掌握了整个世界。”而互联网和计算机的的发展使得信息检索的软硬件环境有了很大改善,人们越来越多的利用网络信息资源来满足自身的信息需求,因此互联网信息检索日益发展成为信息检索的主流。

  1.互联网专题信息检索的特点

  互联网专题信息检索是一种基于超文本方式的信息查询工具,主要特点如下:

  (1)系统为分布式存在

  网络信息检索以节点为单位,节点间交叉相联,复杂的信息连接结构能够按照不同的查询条件链接节点信息。信息资源在物理上分散在多个网络节点上,确保网络节点互联互通和快速可达,是在分布的网络环境中提供相关信息服务的首要条件。

  (2)检索用户数量多

  信息资源服务对象是多用户的,针对不同用户开展不同的信息检索服务,首要是区分和管理检索用户的个性化信息需求,让有效信息能够正确汇总到用户面。

  (3)海量的信息内容

  互联网信息源众多,数据量巨大,信息丰富,但是同时也标志着无效数据成爆炸性增长,高效率的信息检索方式和方法就成为沙里淘金的要素,此外由于极大的信息量,相应的处理分析时间也将大大延长。

  (4)信息检索的非专业化

  互联网环境下多数用户不具有专业的信息检索技能,虽然搜索引擎也支持逻辑组合,但是非专业用户更加需求灵活的问答式的信息检索、个性化推送更更加便捷和智能的信息检索服务。

  2.互联网专题信息检索的策略

  2.1选定特定的主题,并确定关键词

  以陈述句或疑问句形式写下你要检索的主题,并确定关键词或词组。把你认为最重要的概念定为检索关键词。注意检索词的同义词、单复数、拼写变异、单词结尾的不同等。确定包涵检索主题的较广的类别,这对于应用分类方法检索信息很有用。选定可能包涵检索主题的组织或机构。应用搜索引擎得到这个地址,然后浏览或检索这个网址。

  2.2选定适合的搜索引擎

  搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。它主要是用于检索网站、网址、文献信息等内容。随着网络技术的发展各种搜索引擎层出不穷,目前被大家广泛运用的主要是帮助大家搜索表层信息,如Google、百度、雅虎等。而搜索引擎按检索方式可分为目录搜索引擎、全文搜索引擎和多元搜索引擎三种。检索界面是否允许应用布尔符、截词、自然语言或仅能用单个词检索?检索返回的结果仅仅是标题和URL?还是包括整个网页、部分网页及或新闻讨论组地址?这些都是影响选择搜索引擎的重要因素,引擎的大小、速度、帮助性能及检索结果显示的方式也将影响你的选择。另外根据查询信息类别不同可选用相应类型的站点,如查询网址可选用HotBot,查询人名选用WhoWhere?等。

  2.3选用适当的检索方法

  确定搜索引擎后,接下来就是具体用哪种方法来实施检索过程。下面推荐几种不错的检索方法,以便能成功地检索出你所需的文档。多元引擎检索:是检索信息的首选。它同时搜索几个独立的引擎,并把结果显示在同一页面上,是通过关键词和一些常用的运算符完成检索过程的。应用多元引擎加快了检索的全过程,且返回相对较少无关站点是其优点。缺点是当进行复杂检索时有时不能有效地执行,可能产生一些奇怪的结果。关键词检索:当你要查找的一个特定信息或所用的引擎数据库容量很大时, 应用关键词查询数据库,可得到较满意的结果。由于这类搜索引擎是应用机器人(即计算机程序)时刻在网际中巡视,并取回符合条件的网页存放在它的数据库中,因此数据库更新快,检索的结果新。缺点是给数据库中内容所做的索引有时不精确,常常给查找所需信息带来困难。分类目录检索:适用于分类明确的信息查找。它是一种可供检索和查询的等级式主题目录,以超文本链接的方式将不同学科、专业、行业和区域的信息按照分类或主题的方式组织起来。这些主题目录一般在大类下面分成若干小类,类目之间按等级系统排列,然后用人工的方法把搜集的网页连接起来,用户通过逐层点击主题目录,直到找出需要的信息为止。由于经过了人工的筛选和系统组织,检索的结果质量较高,条理性较强。缺点是采集信息的速度远远跟不上网络资源增长的速度,数据库往往较小,检索到的文献数有限。分类目录加关键词联合检索:当你对究竟用是分类检索好还是关键词检索好摇摆不定时,应用分类目录加关键词联合检索是你的最佳选择。一般先找到所需信息所处的范围较窄类别,再在该目录下应用关键词检索。该方法的优点是检索范围更窄,结果更精确有效。但对于较难的检索不易选择适合的关键词是其缺点。

  2.4如何对待检索结果

  有时检索结果并不满意,要么太多,要么太少或未能找到相关信息,遇到这些问题,你可试用下面的对策。可只阅读搜寻结果的前面几条信息。因为大多数搜索引擎都将最符合要求的网页列在前面,虽然返回的搜索结果成千上万,但经常是需要的网页地址就在最前面的一页。缩小搜索的范围。当返回的网页太多,而需要的网页不在最前面的几页时,可通过改变关键词、改变搜索范围、使用逻辑符AND及引号等方法缩小查询范围。找不到网页的对策。首先检查是否有拼写错误,接着看搜索关键词之间有没有自相矛盾的地方,如果仍不能成功地搜索,可换一种搜索引擎,也许会得到你所期望的结果。因为每个搜索工具功能虽大体相同,但检索方式和拥有资料的侧重点不同。如果用以上策略仍不能找到所需网页,也不必太失望。你可链接相近的网页,也许能找到理想目的地的链接,或直接与已搜索到的主页管理者写E-MAIL寻求帮助。

  2.5互联网信息检索的发展趋势

  随着互联网的发展,网络信息资源迅速多样化,并且在不停的发展更新,使得信息检索系统更为丰富、全面和系统。网络信息检索的发展强调“以人为本”的理念。另外,多媒体信息检索技术也已经成为信息检索研究的热点。

  2.6网路信息检索的发展趋势

  信息检索的多样化,其具体趋势表现为:网络检索信息的形态多样化,多媒体信息检索开始普及,网上检索工 具开始向其他服务范畴扩展,以各种形式满足大众信息需求。

  信息检索的可视化,一个可视化的信息检索过程使得检索更加有效,可以为用户提供更丰富的信息。帮助用户更好的掌握检索信息的过程。

  信息检索的智能化。智能化信息检索是当今的信息检索技术研究的热点问题之一,也是未来信息检索的发展方向,可以使得用户得到能够直接加以利用的信息,他是建立在一个或者多个专家系统基础上的信息检索系统。

  信息检索的个性化。个性化主要体现在两个方面:一个是允许用户的个性化定制检索功能,另一个方面是利用推送技术主动的向特定用户提供所需要的互联网信息检索结果

信息检索范例篇2

  【关键词】高校图书馆;网络信息;检索服务

  21世纪是网络化和信息化的时代,各行各业的发展数据在网络中汇集和传播,在这一背景下就需要强大的信息检索服务来支撑数据工作。高校图书馆随着网络信息化的快速发展成为新时期信息汇聚的一个重要地点,因此高校图书馆信息检索服务成为图书馆发展和实践的主要方向之一。高校图书馆由于自身特点,汇集的是各学科研究研究成果和经典书目,因此,高校图书馆网络信息检索服务成为师生的关注点。

  一、高校图书馆网络信息检索特征

  高校图书馆作为高校师生主要的信息来源之一成为师生教学科研和学习的重要途径,图书馆网络信息检索服务随着网络化和技术的发展不断获得师生的认可和喜爱,并且在发展中逐渐朝着简单化、智能化、个性化的方向发展。(一)高校图书馆网络信息检索服务日益简单化。由于高校图书馆是信息和资料汇聚的地方,因此师生对于信息检索服务要求很高。当前高校图书馆网络信息检索服务整体呈现出了简易化的发展趋势,并且在信息检索系统方面不断地提高和升级,力求做到操作简单和快捷,保证师生能够在庞大的信息面前快速地寻找到自己想要的资源和信息。高校图书馆网络信息检索系统在人与机器对话方面呈现出良好的沟通和交流,可以保证对话界面顺畅,在信息检索操作系统中,通过完善专业的检索原理和技术,实现了优良的后台操作,只要师生在检索过程中能够按照系统提示的步骤进行操作就能够在短时间内寻找到自己需要的信息。(二)高校图书馆网络信息检索服务日益多样化。高校图书馆网络信息检索服务在当前网络不断发展的情况下日益呈现出多样化的特征,主要表现为在网络信息检索的过程中多角度和多载体检索师生所需要的信息和资源。在高校图书馆信息检索服务中师生可以通过不同的关键词、题目以及自身需求检索国内或者国外的相关资源和信息。不仅如此,高校在网络日益发展的情况下不断完善自身网络信息数据库,以方便高校师生进行日常的信息检索。另外,国内各高校间的资源互享已经成为高校网络信息检索服务的重要途径,来满足高校师生对于信息的需求。(三)高校图书馆网络信息检索服务日益智能化。当前,高校图书馆网络信息检索服务已经在朝着智能化的方向发展。通常对于智能化的理解是在正常检索的基础上通过检索使用到的关键词和题目进行智能分析然后在资源库中进行搜索。当前图书馆网络信息技术在模拟和借鉴了人类大脑运行规律的基础上根据用户的实际需求进行自我分析和鉴别,并通过网络信息检索系统进行检索并反馈给用户。这样用户在检索的过程中能够有选择地进行甄别和检索,寻找到更加合适的资源和信息。(四)高校图书馆网络信息检索服务日益个性化。当前高校图书馆网络信息检索服务另一个特点就是具有个性化。这一特征是在智能化的基础上进行延伸的。高校图书馆网络信息检索通过智能化的对比和分析,在确实用户需求的基础上提供个性化的服务,这是以用户日常检索的习惯和行为方式为依据的,并通过不同的检索内容提供不同的服务。由于高校图书馆网络信息检索体系主要对面的用户群是高校师生,因此,在此基础上要根据科研人员和师生的实际需求为依据进行系统开发和完善,不断地提高系统的性能和服务水平。

  二、高校图书馆的网络信息检索服务问题及对策

  (一)重视信息服务的广度和深度。在高校图书馆网络信息检索服务中,首先要注重信息服务的深度和广度,这是有高校自身特点所决定的。一方面,图书馆网络信息检索服务的广度要覆盖到高校师生所需要的范围,包括学校开设学科、最新的科学研究、不同类型信息资源、不同年限的信息资源不同程度和适用范围的资源。另一方面,图书馆网络信息检索服务的深度要涉及各个领域资源和信息的详细程度。而且能够通过不同的分类进行检索,这样能够为师生在检索资源时节省时间,更好地进行科研和学习。(二)加强检索服务的宣传。当前随着高等教育和社会的发展,高校学生呈现出逐年增长的趋势,高校图书馆的用户越来越多。因此,高校图书馆网络信息检索服务要在新生入学之时就做好培训工作,以此来提高用户的检索能力。这就要求高校图书馆负责检索教学的教师能够首先熟练本校的检索系统,提高自身的业务水平,并不断地进行学习。其次,要通过教师的讲解和示范,为学生建立良好的网络信息检索思想,重视网络信息技术的学习和应用。(三)提高网络信息检索服务质量。当前网络信息成为一个大的网络,其中包含着多种多样的搜索引擎,并且提供着不同程度和类型的搜索。在高校图书馆网络信息检索中主要包含这初级检索、高级检索和分类检索这几种主要的检索模式。但是,在高校图书馆中由于学生学习程度有限往往采用最多的是初级检索。因此,在高校网络信息检索服务中要根据用户的检索质量和层次来提高自身检索质量建设,减少不必要的检索方式建设,避免给检索系统造成不必要的负担。

  三、总结

  当前随着社会和科技的发展,高校网络信息检索服务也在不断地建设和发展。在发展过程中,高校网络信息检索服务要以用户实际需求为基础来提高自身建设和服务能力,不断丰富自身数据库和信息网络,为高校师生的教学科研工作和学习提供良好的保证。

  【参考文献】

  [1]王艳军。高校图书馆的网络信息检索服务实践研究[J]。河南图书馆学刊,2016(9):47.

  [2]王彩虹。高校数字图书馆网络信息服务体系及评估模式[J]。图书馆学研究,2016(5):28.

信息检索范例篇3

  关键词:信息检索;爬行器;主题

  中图分类号:TP393.094 文献标识码:A DOI:10.3969/j。issn。1003-6970.2013.06.046

  0 引言

  随着互联网的发展,网上的信息越来越丰富,互联网成为人们获取相关信息的主要途径之一。但是,随着应用的深入,一些问题也暴露出来,当前的搜索引擎都是通用的搜索引擎,就是说基本上都是面向所有用户的。无法满足用户的个性化需求,面向主题的搜索应运而生,逐渐成为信息检索的研究重点领域。

  主题爬行最早由De。Bra[1]提出的,研究者通过分类的方法来判断网页的相关性。M。Hersovici等人[2]在此方法的基础上进行了扩展,综合计算网页以及锚文本的相关度。同时,对页面中的URLs依据优先权进行排序,然后乘上一个系数以平衡上级页面的相关性。与De。Bra的研究相比,这个方面通过SVM模型实现,向量的分量的取值在0和1之间,同时,在计算相关度是考虑了锚文本和上下文的信息。J。Cho[3]等人在爬行策略宽度优先算法上进行了优化,虽然改进不大,但是这个研究在度量URLs的分值时引入了PageRank[4]方法。

  1 实验系统的结构

  实验系统主要功能是提供网页信息的采集、解析、检索功能。该系统对解析后的文本信息进行处理,建立文本信息的主题概念索引用于检索,实验系统的总体功能框架是建立在主题网络爬虫从网络上采集并进行初步分类的网页数据库基础上。

  2 验结果与分析

  本研究采用检索结果与百度的搜索结果来进行比较。把查询输入到百度中来检索,把百度的检索结果的前50个链接下载下来,以此作为系统的数据集。然后把本系统的检索结果与百度的前10个结果或前20个结果进行比较。由于这里是进行实验分析,在结果显示中url用网页的DocId表示。

  从图1的检索结果看,检索花费了16毫秒。在百度的检索结果中,排在第4和第6的结果与主题关联性不好。由于本研究引入了主题信息,因此在检索结果中与主题高度相关的链接都排在了前面。

  通过对实验结果的分析表明通过引入主题信息的爬行器与通用爬行器相比,相关网页的数量有了显著的提高,从而提高的检索的效果。

  3 结束语

  本章介绍了面向主题的信息检索系统的检索部分的设计和实现。在实验中以通用搜索引擎作为对比。通过实验结果可以看出,面向主题的检索系统能够得到更相关的检索结果。

  参考文献

  [1] P。 D。 Bra, G。 Houben, Y。 Kornatzky, et al。 Information Retrieval in Distributed Hypertexts。 In Procs。 of the 4th RIAO Conference。 New York, 1994:481-491

  [2] M。 Hersovici, M。 Jacovi, Y。 S。Maarek, et al。 The Shark-search Algorithm。 an Application: Tailored Web Site Mapping。 Proceedings of the 7th International World-wide Web Conference。 1998:317-326

信息检索范例篇4

  Abstract: Information Retrieval is also called Intelligence Retrieval,originating from reference work and literature search of library。 It became a terminology in 1950s。The text researches into the notion and content of information retrieval,and points out the researching hot points and analyses the function of Information Retrieval。

  关键词:信息检索;情报检索;检索理论

  Key words: message retrieval;intelligence retrieval;retrieval theories

  中图分类号:G25 文献标识码:A文章编号:1006-4311(2010)18-0140-01

  0引言

  信息检索(Information Retrieval)又称为情报检索,起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。20世纪50年代,信息检索成为一条专用术语。

  1信息检索的概念

  穆尔斯在1948年提出信息检索的概念时,把它定义为一种“延时性通讯形式”。其特点是:发信者在某一时刻发出信息,而接收者可以在晚一些时刻才收到该信息;发信者必须发出一切可能的信息,而接受者必须有某种检索装置以便从大量发送的信息中筛选出适合自己需要的信息。

  当前关于信息检索的概念,可谓百花齐放,百家争鸣。其中代表性的定义有四种:信息检索过程说、全息检索说、概念信息检索说和大量相关信息检索说。①信息检索过程说。《图书馆学百科全书》认为:信息检索是“知识的有序化识别和查找的过程,……广义的情报检索包括情报的检索与存储,而狭义的情报检索仅指后者”。②全息检索说。上海交通大学信息检索专家王永成教授认为:全息检索就是“可以从任意角度从存储的多种形式的信息中高速准确地查找,并可以任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切相关信息的电脑活动”。③概念信息检索说。Chank等专家认为,概念信息检索是基于自然语言处理中队只是在语义层次上的析取,并由此形成知识库,再根据对用户提问的理解来检索其中的相关信息。它用概念而不是关键词来组织信息。④大量相关信息检索说。叶继元等教授认为,信息检索是从大量相关信息中利用人―机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。

  2信息检索的研究

  2.1 信息检索的研究内容信息检索的研究内容,首先在于检索理论的研究,还包括检索语言研究、数据库研究、著录法研究、标引和组织法研究等。

  检索理论是检索活动中总结出来的系统化的知识,研究内容包括信息与信息资源定义、信息检索的定义、类型、特点、作用、研究对象、方法、内容、理论基础、术语规范、原理与原则、相关学科等的研究。当前较为重视信息检索知识体系化、整合化的研究。

  检索语言研究原指从自然语言中精选出来,并以简练形式表示文献、信息的受控语言的集合。现指受控语言和自然语言(未规范的书面语言)。研究内容包括关键词、主题词、词表编制、分类表编制、概念分析、规范档、代码标识等。

  数据库是多个互相关联的数据的集合,是信息检索系统必不可少的组成部分。研究内容包括数据库建设规划与协调共享、收录信息与文献的筛选、文档结构、维护与更新、版权、市场、效果评价、数据库跨库检索、Z39.50标准等的研究。当前的研究热点:加强异构数据库系统信息资源一体化整合和检索、知识库、数据仓库的研究。

  著录法是对信息与文献形式特征和内容特征进行分析、选择和记录的方法。研究内容包括国内外著录标准与规则、格式、各种信息与文献著录方法、CN-MARC、UNI-MARC、US-MARC、Dublin Cor(都柏林核心)元数据、XML等的研究,目前较重视电子型文献及网络信息的著录研究。

  标引是通过对信息资源的分析,选用确切的检索标识反映资源内容的过程。组织法即排检法,是指按一定次序将标引标识(如主题词、分类号)排列起来的反方法。

  检索服务是根据用户需求,由专门人员帮助查找信息,并将结果提供给用户的工作,研究内容:服务手段、服务方式、用户培训、检索效果(查准率、查全率)等。目前应加强个性化信息服务研究。

  2.2 信息检索的研究方法信息检索的研究从属于图书馆学与情报学。涉及到自然科学、社会科学、人文科学的许多学科和领域。通用的方法有:观察法、实验法、调查法、模拟法、归纳与演绎法、分析与比较法等;还使用文献计量学法、信息计量学法、目录学、分类学、主题法、著录法、排序法、咨询法等独特的研究方法。

  2.3 信息检索的作用信息检索的作用是多方面的。首先,通过信息检索,能较全面地掌握有关的必要信息。信息检索可以有目的、较系统地获得某一主题的必要信息。其次,通过信息检索,能提高信息利用的效率,节省时间与费用。一般公信度高的,较准确的信息才会被收集、组织或存储在检索工具或数据库中,有目的地查检检索工具所获得的必要信息比直接泛阅信息要快数十倍。第三,通过信息检索的锻炼,能提高信息素质,加速成才。信息素质(InformationLliteracy)是指具有获取信息的强烈意识,掌握信息检索的技术和方法,拥有信息鉴别和利用的能力。信息素质的概念最早是由美国信息产业协会主席Paul Zurkowski 1974年在给美国政府的报告中提出来的。20世纪 90年代之前只有为数不多的国家在研究、开展信息素质教育,20世纪90年代之后,引起了各国的广泛关注。以美国为例,目前信息素质教育已成为美国学者特别是美国图书馆界学者研究的一大热点并取得了一定的成果,其中代表性的研究成果是:美国ACRL2001年初批准并在2004年初由全美大学图书馆协会正式通过《高等教育中信息素质能力标准》,并把它作为评估学生信息素质能力的一个指南。而中国的高等教育法则明确要求大学生要具备信息素质。

信息检索范例篇5

  关键词:信息检索模型;相关性;查询;搜索引擎

  abstract:this article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in common usages,which is to calculate the model of information retrieval。and in this article,the advantages and disadvantages were analyzed,the problems that is still existing have been researched。in addition,the current situation of this research and the development tendency of the model of information retrieval were deeply summarizad in this article。

  keywords:information retrieval models;relativity;inquiry;search engine

  当前,随着互联网的普及和网上信息的爆炸式增长,信息检索系统及其核心技术搜索引擎的性能和效率问题已成为人们研究和关注的焦点。WWW。133229.COM影响一个搜索引擎系统的性能有很多因素,但最主要的是信息检索模型,其研究内容包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。本文从研究文档与用户查询“相关性”匹配的角度出发,对信息检索模型研究的主要内容和构建策略进行了详细的描述,并给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点及存在的问题,总结了当前信息检索模型的研究现状和发展趋势,其目的在于提高信息检索、查询的性能和效率。

  一、构建信息检索模型的策略

  当前,构建信息检索模型的主要策略有以下两个:

  (一)通用的信息检索模型

  构建一个通用的信息检索模型,研究优化的匹配算法,提高查询速度、查全率和查准率,最大程度地满足一般用户的查询需求。

  (二)用户兴趣模型

  根据特定用户查询兴趣要求构建用户兴趣模型或共同兴趣模型,能够尽可能地满足特殊用户查询的需求。它可以构建一个适合行业或专业应用语义要求信息获取模型。如google就能推断用户的使用意图,提供动态的、即时的用户“个性化定制”信息,帮助用户快速、准确地定位到所需要的信息。

  二、常用的信息检索相关性算法

  (一)布尔模型

  布尔模型是基于特征项的严格匹配模型,文本查询的匹配规则遵循布尔运算的法则。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎则根据事先建立的倒排文件结构,确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果一般不进行相关性排序。

  在布尔模型中,一个文档通过一个关键词条的集合来表示,这些词条都来自一个词典。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询条件。布尔模型用文档的检索状态值作为一种评价查询和文档相似性的一种方法。这里,首先定义关键词集合s,关键词为t1,t2,…,tn。

  这些关键词可以和逻辑操作符and,or和not形成不同的条件查询。如果得到条件表达式的值为true,该文档相对于此条查询的检索状态值为1;如果若干文档相对于此条查询的检索状态值都为1,则可以认为,这些文档与此用户的查询是相关的。

  布尔模型的主要优点有两点:一是实现起来比较容易,速度快,计算的代价相对较少。二是查询语言表达简单,用户可以使用任意复杂的查询表达式,易于表示同义关系(如:聋教育or特殊教育)和词组(如:计算机and基础and课程改革)。它的缺点是,由于所有检索到的与用户查询条件相关的文档具有相同的检索状态值,则不能对查询结果按照相关性进行排序;另外关键词也没有考虑权重的影响,缺乏定量分析和灵活性以及不能表述模糊匹配。而为了克服布尔型信息获取模型查询结果的无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。

  (二)向量空间模型

  向量空间模型把信息库中的文本以及用户的查询都表示成向量空间中的点(向量),用它们之间夹角的余弦作为相似性度量。向量空间模型是现在的文本检索系统以及网络搜索引擎的基础。

  在向量空间模型中,信息检索系统如果涉及n个关键词term,则建立n维的向量空间,每一维都代表不同的关键词term。首先要建立文本和用户查询的向量,一个n元组的文档向量di的每个坐标都通过对应关键字的权重来表示,查询向量中的权重表示对应关键词对于用户来说的重要程度。然后进行查询向量和文本向量的相似性计算。并可以在匹配结果的基础上进行相关反馈,优化用户的查询。在知道了文档向量与查询向量后,查询与文档的相似性就可以通过公式(2)求解。

  (2)

  在公式(2)中,文档di可以用n维的向量表示,其中每个分量表示某一term在整篇文档中的权重。q = (q1,q2,…,qn)中ql表示terml在q中的权重。

  向量空间模型的优点在于:1.检索词加权改进了检索效果。2.部分匹配策略允许检索出与查询条件相近的文献。3.可以根据相似度对文献进行排序。

  它的缺点是,在这种模型中的基本假设,关键词term向量之间被假设为相互无关的,而实际是有时它们之间大多是依赖关系,如在自然语言中,词或短语之间存在着十分密切的联系。所以这一假设对计算结果的可靠性造成一定的影响。另外,在查询中,也不能像布尔模型一样使用关键词之间的逻辑运算关系。

  (三)概率模型 概率模型主要是基于概率排序原则:即如果文档按照与查询的概率相关性的大小排序,那么排在最前面的是最有可能被获取的文档。它主要针对信息检索中相关性判断的不确定性以及查询信息表示的模糊性。

  在前面的向量模型中,我们假定关键词term向量是正交的,不考虑term向量之间的依赖关系。而在概率模型中,可以通过概率计算表达关键词term之间,以及关键词term和文档之间的依赖关系,预测文档与用户查询的相关概率,并可以对获取的结果按照相关度概率的大小进行排序(简称prp)。

  概率模型有两个主要的参数:一个文档和用户查询的相关概率pr(rel)及不相关概率pr(nonrel),并且pr(rel)=1-pr(nonrel)。即

  pr[term t in document|document is relevant]=rt/r (3)

  pr[term t in document | document is irrelevant]= (ft-rt)/(n- rt) (4)

  其中:r表示与用户查询相关的文档数;rt表示在相关r中出现关键词term t的文档数;n表示文档数;ft表示在n个文档中出现关键词term t的文档数。由式(3)和(4),可以

  得到:

  pr[term t is not in document| document is relevant]= (r- rt)/r (5)

  pr[term t is not in document | document is irrelevant]=(n-ft-(r- rt))/(n- rt) (6)

  根据上面所给的“条件概率”,可以计算出关键词term t的权重:

  (7)

  在公式(7)中,如果wt>0,表明词term t出现的文档与用户查询相关;如果wt<0,出现term t的文档与用户查询无关。

  概率模型的主要缺点是对文本集的依赖性过强,而且条件概率值很难估计。概率模型的一个特例是贝叶斯网络,该网络以概率的方式定义了关键词的权重随着与其相关的关键词的权重的改变而改变方式。由于该模型适用于超文本信息系统,因而该模型的应用越来越广泛。但是该模型的缺点是,计算复杂度很大,因而该模型不适合很大的网络。

  三、结束语

  目前,大多数信息检索模型都依赖于布尔模型,而在实验环境中用的最多并居于主导地位的是传统的向量空间模型。信息检索模型还有许多其他变种,如基于布尔模型的变种有:模糊集合模型、扩展布尔模型;基于矢量空间模型的变种有:通用矢量空间模型、潜在语义索引模型、神经网络模型;基于概率模型的变种有:推理网模型、可信网模型。而总体上来看,这些模型及其变种都是“语法”层次的信息检索模型,没有具有“语义”特征的规范的词汇集。今后,进一步研究基于“概念语义空间”的文本信息组织与检索,建立基于本体的信息检索模型,则能有效地代表文档和用户信息需求,使信息检索更加精确、有效。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和最大限度地满足用户个性化的要求。

  参考文献:

爱可网分享地址:http://www.ik35.com/wm/86273.html

猜您感兴趣

相关文章

上一篇:湖心亭看雪
下一篇:沟通培训心得体会


Copyright © 2023-2024 www.ik35.com

All right reserved. 爱可网 版权所有

鲁ICP备15008254号

返回顶部重选