答案家

 找回密码
 立即注册
查看: 329|回复: 0

2018商业主题搜索引擎的研究

[复制链接]

1

主题

1

帖子

41

积分

幼儿园

Rank: 1

积分
41
发表于 2018-7-11 22:07:45 | 显示全部楼层 |阅读模式
   一、引言
  互联网对商业发展产生了巨大的推动作用,我国商业信息网站已经发展到成千上万家,在传播商业政策和信息方面发挥了显著作用。随着网络信息数量的迅猛增长,“信息过载”、“信息超载”现象引起了人们的重视。 如何高效、准确的获得包含用户所需的信息的网页,日益成为需要迫切解决的问题。
  垂直搜索引擎是解决这一问题的一个有效方法。面向商业的中文专题垂直搜索引擎有针对性的搜索网上商业专题信息,从而使商务人员高效检索所需的信息。而随着万维网上的信息数量呈指数增长, 大量信息垃圾也混杂其中。如何向商业用户提供质量好且数量适当的检索结果成为垂直搜索引擎关注的方向之一。
  二、国内外现状与发展趋势
  垂直搜索引擎大都处于研究和试验阶段,利用其搜索的结果再加上专业人士的加工而形成的面向某一学科、领域的垂直门户网站也已经出现。目前在国外,对有关主题搜索引擎的研究已经成为一大热点,我国主题搜索引擎的研究则刚刚起步。
  目前面向主题的网络搜索主要有两种技术:
  一是基于内容的搜索,这种搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。
  二是基于链接分析的搜索。网页之间的链接指引关系与传统的引文索引非常相似,通过对链接进行分析,可以找出各个网页之间的引用关系。由于引用网页与被引用网页之间内容上一般都比较相关,所以就可以很容易地按照引用关系对大量网页分类。
  三、技术关键
  基于面向商业的垂直搜索引擎服务具有其自身的特性,下面列举出实现商业信息垂直搜索引擎的四大关键技术。
  1.针对性、实时性和易于管理的网页采集技术:面向商业的垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中,但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术应能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加针对性、实时性和易于管理,并且网页信息更新周期也更短,获取信息更及时。
  2.结构化数据的网页解析技术:由于面向商业的垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页中特定内容的提取。在商业垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。
  3.全文索引和联合检索技术:面向商业的垂直搜索由于在信息的专业性和使用价值方面有更高的要求,因此能够支持全文检索和精确检索,并按需提供多种结果排序方式。另外,还要求按需支持结构化和非结构化数据联合检索,比如结合作者、内容、分类进行组合检索等。
  4.智能化的文本挖掘技术:面向商业的垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求,垂直搜索还能够按需提供智能化处理功能,比如自动分类、自动聚类、自动标引、自动重排,文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

CopyRight(c)2016 www.daanjia.com All Rights Reserved. 本站部份资源由网友发布上传提供,如果侵犯了您的版权,请来信告知,我们将在5个工作日内处理。
快速回复 返回顶部 返回列表