0

The Search for Quality on the Web

纽约-在不太遥远的将来,从未碰过一本书的学生就能从高中毕业。 20年前,从没有使用过计算机的学生也可以从高中毕业。区区几十年里,计算机技术和因特网已经改变了信息、知识和教育的核心准则。

事实上,如今你的笔记本电脑硬盘上就可以存上比一家出售6万本不同书籍的书店更多的书籍。在互联网上的网页数量据说已超过5000亿页,这些信息用来印刷成每本500页重1磅的书籍,可足以装满10艘现代化航空母舰。

这种类比可以帮助我们想象出信息爆炸幅度之巨大,并证明随之引发的担忧是并不是空穴来风。搜索引擎是浏览这种如海洋般的信息量的唯一的机制,因此这些搜索引擎不应该被误认为仅是一个可有可无东西,一个随便玩玩的按钮,或仅是一种能找出最近的比萨饼店在哪里的工具。搜索引擎是知识、财富,是的,还有错误的信息的最强大的扩散中心。

我们提到网络搜索引擎时,脑海中浮现出的第一个名字当然是谷歌。如果说是谷歌造就了互联网的今天,这样的说法也并不夸张。谷歌也造就了一代与父母辈全然不同的新人。婴儿潮时代出生的人可能是最能体会这一点的了,因为他们在孩提时代经历了摇滚乐,也在他们为人父母时又经历了谷歌。

谷歌的设计是基于统计算法之上的。但是,基于统计算法的搜索技术是没有能力处理信息的质量的,这是因为高质量的信息并不总是受欢迎的,而受欢迎的信息并不总是高质量的。我们永远可以收集统计数字,但却不能指望统计数字产生的影响超出其本身的统计作用。

此外,统计数据收集系统是往后看的。他们需要一段时间让人推介并收集它们。因此,新的发表内容和动态网页,由于它们的内容经常改变且已超出流行的使用方法的范围,搜索这种资料很容易受到基本操作技术的误导。

例如,如今效率低下的搜索引擎引带来了一个称之为搜索引擎优化的新产业,它专门使某些网页排名在用谷歌搜索引擎的流行度的标准所搜索出来的结果之上。这是一个数十亿美元的产业。如果你有足够的钱,你的网页排名可以高于许多更可信的或更高的质量的网页。自从出现了谷歌,高质量的信息从未在商业威力面前如此脆弱过。

信息的质量将决定人类的未来,而这样的质量是在网络搜索的阴影下塑造起来的。但确保质量需要一种革命性的方法,一种超越统计的技术突破。这场革命正在进行之中,并被称之为语义技术。

语义技术的基本概念是教导计算机这个世界是如何运作的。例如,当计算机遇到“bill” 一词时,它会知道, “bill” 在英文中有15个不同的含义。当计算机遇到“ killed the bill” 这一词组时,它会推断, “ bill”只能是一个提交给立法会的法律草案,而“kill”仅可能是“停止”的意思 。

而与上述相比, “ kill bill”只会是一部电影的名字。最后,一系列的这样的推断会处理整个句子或段落,然后产生在上下文中的准确的含义。

为了达到如此级别的由计算机算法来处理的语言的灵巧性,必须建立一种本体论。本体论既不是一本字典,也不是一本词汇分类集。它是一张相互关联的概念和字意之间的地图,它反映了诸如 存在于“bill”和“kill” 之间的概念。

建立一个囊括世界上所有知识的本体可能是一项艰巨的任务,这需要编撰一部大百科全书这样的精力和专业知识,但它还是可行的。世界各地的一些创业公司如Hakia公司、认知搜索公司、 Lexxe公司 等,已经在挑战这项艰巨的任务了。这些努力的结果还有待观察。

但是,语义搜索引擎将如何解决信息质量的问题呢?答案很简单:精确度。一旦计算机能够以语义精确度来处理自然语言,高质量的信息将不再需要在流行以后才能到达最终用户那儿,这就不同于如今的搜索引擎所需要的条件了。

通过检测某一文本中所遇到的概念的丰富性和连贯性,语义技术还承诺了保证质量其它手段。如果一段文字中包含一个短语,比如“布什否决了参议院的最后一个议案”,这段文字的其余部分是否包含了连贯的概念?还是说此网页仅是个垃圾网页其中并包括了许多流行的包含广告的单句?语义技术可以辨别出来。

鉴于人类有限的阅读速度(每分钟200-300字)和现有的巨大的信息量,当今有效的决策在知识精密化的每一个方面都需要语义技术。如果未来的知识只能为流行度和金钱所奴役,这个代价我们将负担不起。