发新话题
打印

中国--Google搜索空间

中国--Google搜索空间


Google的IPO会激起人们对搜索引擎的兴趣,还会有新式的Web搜索。
2 g& E9 }9 y, i) `& O  t  ^% _0 m: m$ D+ t9 T$ k& {) R

9 g! m' J# p3 T* f3 a% A! w  O; F. A) l( W
    毫无疑问,今年是搜索引擎年。Google的IPO将聚敛起巨大的资金,并产生许多纸面富贵的富翁。尽管投资界并不认为这次IPO标志着一次新繁荣的开端,但它显然会吸引足够多的眼球,引发一场新的搜索引擎热。总之,Google不仅使很多人一夜致富,而且它已经是一家在挣大钱的公司了。! I1 A: `  d2 W$ `* E

- U0 }) Z: b: D/ X4 V& d* N8 z2 `% x4 B7 h5 Z

6 Q$ o, [5 L+ I( g) _. O    AltaVista是第一家知名的纯粹搜索引擎公司,但自从它的所有者Digital Equipment公司被Compaq收购后,它就逐步无力支撑下去了。因为Compaq公司把它置于次要地位,采取完全自生自灭的态度。就这样丢掉了一只会下金蛋的鸡,真是遗憾。
" l5 m5 v) H) C$ ^( G4 m1 ^3 O6 @/ b7 d- Z7 N
9 H  ]3 o% E! `" D0 `# l4 T

7 R8 U9 |: z1 p( E9 \, y    再来看Google。它花了四年时间确立了在搜索引擎世界的统治地位。Google独特的网页分级(page-ranking)系统一直工作得非常好,但最近这套技术不灵光了。网页分级的概念是采用蛮力分析方法寻找网页中的参考链接。比如你要找一个关于屋顶瓦的网页,输入“屋顶瓦”,Google会查看哪个网页被其它网页指向得多,即互相链接,由此确定最恰当的网页。在头几年里,Google搜出结果的适用性令人惊异,但在以后的一两年里,Google不得不放弃网页分级系统。观察家相信这是由于5百万个博客网页建立了互相的链接,于是搜索引擎被这些博客网页堵塞了。在用户的搜索结果表里,博客网页排名居前,而真正想要的东西却排在五页以后。8 @# {/ y( B4 Y$ P8 B9 t: ?* E2 P' b# W
0 ~$ S* Y6 Y* d$ V8 H) S, K
  k8 p! F' {% D0 p
# @/ R$ J& V! U2 ?; v8 g
    随着所谓“Google清洗”(Google washing)的进行,问题越来越糟。这一过程可以使博客们聚集起来互相链接,于是查询的结果稀奇古怪。例如,如果输入“miserable failure”(不幸的失败),返回结果第一位的是乔治布什的传记。Google并没有修正这个问题,可能为了宣传目的而默认这种行为。
0 l" v- ?/ h4 E1 L) ~6 G! F& i" h3 B1 J  t
0 F  L* M' l8 D, C% L6 A% G" y' ~2 {

" d' c8 U5 y* K. e' L. r, i  g- v    Google抛弃了促使其成为最佳的网页分级系统,于是竞争就出现了,现在涌现出了十几个新的搜索引擎。但是,有哪个能真正赶上Google吗?看来不那么容易。我认为,即使Google停步不前,要赶上它至少也要花五年时间。- s1 E9 c: }" o0 V2 k
( }/ i* I% O  r" E; h

8 z) q1 U2 L7 f4 L/ L$ k
: o( t, Q6 y8 Q. L5 a4 a  O1 H" c; Q    Google最大的优势在于它拥有一个巨大的服务器场。实际上,整个Web搜索都保存在本地的Google服务器里。因此,当你在查询结果里发现一个有用链接时,可以直接链接到该页,或者到Google的缓存里。当原始页面由于当机、繁忙或更改而无法连接时,缓存可以作为替代。任何缺乏这种能力的挑战者要与Google竞争都会遇到麻烦。$ d  n) Y- B+ m1 `- R
* P" ^" b5 h# C; c

" C: X4 x" w0 u0 |% I5 O3 N6 F
% w* H5 j# j5 O: s寻找更好的搜索引擎
- s# {3 r: o* q) Q0 }) S1 U
( {7 u& W' U; X6 K: ~
1 J7 i! |7 W8 z& I/ P8 j$ [) V+ f+ x( O
    但是否还有更新的搜索方式可以提供更准确的搜索结果呢?总有些像Ask Jeeves这样骗人的玩艺儿,它号称能理解简单的英语。微软正在尝试建立这样一个引擎。但实际上语法分析后还是要进行搜索。- n, {4 a8 y! S, \3 e" p
9 h. I. c2 I" v( p, r( ]# g# T

8 l) F8 N- |/ O; G
  y8 P" ?8 ]' ?2 i7 Y$ p! J    还有一种可能性是将人工智能用于搜索而重现往日风采。虽然搞AI的专家们把人工智能讲得头头是道,但却从来没派上什么大用场。我最喜欢举的一个例子是一种能读文章并产生摘要的自动系统。我听说这东西已经开发了20多年,但一直没有什么结果。# @0 a4 A6 w$ O; m# J8 e2 ?
. I: v7 S, h0 h& k# T' ~

+ D3 ~* K5 r% w3 ~6 \, P, R. q' T' t$ d, D7 l. ^$ e; [
    有些人认为,可以改变搜索结果的表达方式,从而提高搜索质量。他们相信简单的搜索列表过于线性化了。我看到的第一个非线性搜索引擎是Kartoo(www.kartoo.com)。虽然它采用了Flash,但活干得并不好。还有一个比较新而且不那么花哨的虚拟引擎是Mooter(www.mooter.com)。两个都值得一试。) _% w) {. O8 s

1 i2 ^; J% o9 G  R. u1 s" I5 h1 v/ B

8 o0 X7 w& K: ^$ b    有一些Web语言专家称整个搜索过程都应该推倒重来,应该模仿图书馆使用的杜威十进分类法,采用网页自我分类方法。但实际上多年以前这种自我分类法就暴露出了问题。因为它的分类机制是采用Meta标记,而不诚实的网站会在页面的标记描述里做手脚。这些标记很快就成了鸡肋,现在几乎没有哪个搜索引擎还会注意它们。7 A4 {& J  \5 V- n5 q( w8 |

& Q; D* |* a5 x  Q- y
$ a  ^2 j$ E; i0 t/ L2 q" P3 @* L2 I4 d6 j
    很难说搜索引擎技术的下一个飞跃将是什么。但今年搜索引擎获得了如此广泛的关注,涌现一些新东西应该不足为奇。



点击图标进入精品网摘收藏 欢迎大家加入网络收藏夹

TOP

发新话题