`
kanthongh
  • 浏览: 66622 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

企业级搜索引擎公司巨头 Autonomy

阅读更多

 

Autonomy 是基于语义计算 (MBC) 这一快速发展领域公认的领导者。1996 年成立的 Autonomy 是建立在经剑桥大学研究而产生的独特技术组合之上。公司的迅速发展使得其市值达到了 22 亿美元,并且在全球各地都设有办事机构。

 

基本简介

  近年来,非结构化信息的使用范围发生了大幅度的增长,这些信息的形式包括文档、电子邮件、电话录音以及多媒体内容。企业中现在有超过 85% 的信息都是非结构化信息,这些“人性化”的信息对于计算机而言非常难于理解和使用。而基于语义的计算能够解决这一问题。   基于语义计算技术使计算机能够理解各段信息之间的联系,进而执行复杂的分析操作,而这一切都是自动且实时进行的。

技术特点

  基于语义计算技术与包括关键词搜索在内的传统方法有何不同?   基于语义计算技术的能力远远超出了诸如关键词搜索这些只能进行数据查找与检索的传统方法。举例而言,关键词搜索引擎不能理解信息的含义,因此这些产品只能用于找出带某个字词的文档。然而由于无法理解含义,所以那些使用了不同字词但主题却相同(即有相关性)的文档将被忽略。而那些主题与用户期望搜索的内容完全不同的文档却经常被返回,从而使得用户必须修改查询方式来适应这种搜索引擎。   除此之外,基于语义的计算还能提供关键词搜索引擎无法提供的许多功能,例如自动形成超链接以及聚类。举例而言,自动形成超链接可以向用户提供众多在语境上与原有的文档相互联系的文档、服务和产品,这就要求计算机能够完全理解原有文档的含义。与此类似,要使计算机能够自动收集、分析并组织信息,就必须赋予其提取语义的能力。只有拥有基于语义计算技术的系统才能做到这一点。

 

 

现有搜索技术很难满足类似这样的搜索需求,如“最便宜的笔记本电脑是什么”、“中国队能否赢得世界杯”、“本月最热门的IT新闻事件有哪些”等等。   上述搜索需求暴露了现有搜索技术的软肋:建立在关键词全文检索理论基础上的搜索技术,在许多方面并不能满足人们的一些“模糊需求”,而这些“模糊需求”的数量则远远大于“精确需求”。   Autonomy正是为给这个软肋补钙而生。Autonomy既是一种搜索新理论的代名词,又是一个公司的名称,同时还是一个产品的名字。从Autonomy目前的蔓延态势看,它很可能成为几大传统搜索门派的终结者。   可以负责任地说,今年元旦之后的一个传言将与去年年中的一条消息一样,将引起Google、雅虎、微软等搜索巨头们的严重警惕。

 

 

 

贝叶斯概率论与香农信息论的混血儿   Autonomy的创始人是剑桥大学的迈克·林克(Mike Lynch)教授。1991年,林克教授创立了Autonomy的前身Nurodynamic公司,后者是林克从一个乐队老板融资3000多美元创建的,该公司主要致力于剑桥大学模式识别研究成果的产业化工作。  

 

 到1996 年时,林克教授已经积累了足够多的客户资源。于是,他向风险投资商借贷了1500万美元,创立了Autonomy。同年,Autonomy推出了世界上第一套智能个性化信息系统,同时发布了它的拳头产品DRE(Dynamic Reasoning Engine,动态推理引擎)和Portal产品系列。  

 Autonomy产品的核心算法是两种数学理论的独特结合:贝叶斯概率理论和香农信息论。  

 18 世纪,英国牧师托马斯·贝叶斯曾经试图利用概率论证明上帝的存在,但他未能如愿,不过,他所创立的贝叶斯定律却奠定了现代概率论的基础。两个多世纪以后,这个定律成了Autonomy发家致富的敲门砖。不少数学家认为,贝叶斯定律描述的逻辑是一种跟人类思维模式最接近的数学逻辑,它通过一个概念出现频率的多少和与其他概念之间的关系来决定其成分的重要性。   

 

香农信息论则提供一种方法来提取一篇文章诸多概念之中最有意义的部分。香农信息论最基本的理论是:一个词重复频率越高,其内容越不具有概括性,反之,一个词重复频率越低,其内容越丰富。

 

  Autonomy 中含有一个动态推理引擎(Dynamic Reasoning Engine,DRE),它是一个扩展性很强的、多线程的核心引擎。信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都由动态推理引擎来完成。它是一个跨平台的引擎,可以在多种硬件和操作系统环境下优化运行,支持从Intel PC使用的Windows

 

NT到多处理器小型机运行的UNIX等系统环境。它可以与各种不同信息源相连,如互联网、数据库、内部网和本机数据库、文件系统等。当用户发出搜索指令后,它可以通过概念分析、模式识别、相关度计算等方法,从不同的数据源中找到与用户要求最匹配的信息。

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics