Archive for February, 2007

不得不看–搜索引擎优化的基本要素

作者:Philipp Lenssen
文章:The Basics of Search Engine Optimization
翻译:wkcow

搜索引擎优化的基本要素

 

 

 

我在科隆的阿姨和叔叔电话问我,如何让他们的新站获取google上的成功,我就将自己的一些秘诀告诉他们-如果你已经了解了SEO(搜索引擎优化),那 么你可以不看;如果没有,有3个步骤会让你在搜索引擎获得好的排名。第一,创建好的内容。第二,让内容更方便阅读。第三,将你的内容告诉给别人。

Read the rest of this entry »

Comments

很有用的文章– Flash视频的SEO优化

依我看来,Flash总是备受斥责、不受欢迎而且对于搜索引擎的可视性有害的。什么是搜索引擎从业者关注Flash的原因?如何优化Flash内容 呢?对于Flash来讲,搜索引擎无法读取是最关键的问题,而且近期也不会改善。 Flash具有逻辑性、虽然用户可视,但搜索引擎天生就被设计为读取静态内容的工具;另外,确切说Flash是一个动态的程序,所以对于静态的HTML编 码来说它太难分析了。

网络工具的龙头,Adobe Dreamweaver,在网页中嵌入了Flash代码,但没有提供用户或者搜索引擎处理Flash的快捷通道。除了使用缺省的代码,我更推荐使用基本的 HTML组件来手动处理Flash网页、采用在导入电影控件前自动监测其是否支持Flash的方法。当Flash内容不能在进而优化基本的HTML代码, 虽然Flash对于具有播放器的用户来说带来了更强的用户体验。 Read the rest of this entry »

Comments

百度产品2006回顾

百度2006年产品系发展比较稳健,无论新产品发布还是老产品升级逐步走出了自己的路子。2006年1月12日,百度推出国学搜索
2006年3月,百度推出实用生活搜索之邮编搜索;
2006年4月20日,百度百科互动平台,人们可以在这个平台上共享知识智慧;
2006年5月,百度推出教育搜索系列,少儿搜索大学搜索和教育搜索;
2006年7月13日,百度发布blog托管服务,百度空间,以及硬盘搜索的服务器版;
2006年8月4日,百度推出法律搜索;
2006年8月,百度推出wap天气预报,词典翻译,股票搜索等;
2006年9月28日,百度无线产品推出了:百度知道WAP版、百度新闻WAP版 ;
2006年10月17日,百度与国内外主要杀毒厂商合作推出杀毒频道;
2006年10月27日,百度消息提供分组功能,可以很方便区分好友\系统和陌生人消息;
2006年11月11日,百度发起个人档案优化项目,优化用户个人资料,提供找人服务;
2006年11月28日,百度搜藏正式发布,提供网址、网页全文收藏,搜索,分享;
2006年12月5日,百度空间提供空间搜索,用户可以搜索自己的空间,全部空间和互联网;
2006年12月7日,百度发布博客搜索,提供全网中文博客搜索;
2006年12月19日,百度音乐盒今日正式上线 体验智能化在线听歌;
2006年12月30日,空间增加圈子功能;

看这些产品的相继有序推出,层层叠叠不断在强化社区服务/优化搜索体验方面起到其必然作用.总结有如下5个特点: Read the rest of this entry »

Comments

[转贴]认识搜索引擎 by 搜索引擎9238–不得不推荐的文章

搜索研究院

认识搜索引擎

搜索引擎9238 2003.2更新

第一部分:搜索引擎发展史

第二部分:搜索引擎原理

第三部分:常用中英文搜索引擎指南


第一部分:搜索引擎发展史

1990年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生
Alan
Emtage
、Peter Deutsch、Bill Wheelan发明的Archie(Archie
FAQ
)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan
Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但 它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以 下载该文件。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher
FAQ
)搜索工具Veronica(Veronica
FAQ
)。Jughead是后来另一个Gopher搜索工具。
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬 来爬去,因此,搜索引擎的Robot程序被称为spider(Spider
FAQ
)程序。世界上第一个Spider程序,是MIT Matthew
Gray
的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
与Wanderer相对应,1993年10月Martijn
Koster
创建了ALIWEBMartijn
Koster Annouces the Availability of Aliweb
),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了 些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底, 一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado
大学Oliver McBryan的The World Wide Web Worm(First
Mention of McBryan’s World Wide Web Worm
)、NASA的Repository-Based Software
Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个索引Html文件正文的搜索引擎,也 是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
Excite 的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中, 这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite
for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile
1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave
Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。

1994年4月,Stanford University的两名博士生,美籍华人Jerry
Yang
(杨致远)和David Filo共同创办了YahooJerry
Yang Alerts a Usenet group to the Yahoo Database
1996年的Yahoo)。 随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是 一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。Yahoo!中收录的网站,因为 都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年 10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。并于2002年12月23日收购 inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture)
1994年初,Washington大学CS学生Brian
Pinkerton
开始了他的小项目WebCrawlerBrian
Pinkerton Announces the Availability of Webcrawler
)。 1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的 全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。(注:后来webcrawler陆续被 AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)
LycosCarnegie
Mellon University Center for Machine Translation Announces Lycos
)是搜索引擎史上又一个重要的进步。Carnegie
Mellon University的Michael
Mauldin
将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性 排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量: 1994年8月--394,000
documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)
InfoseekSteve
Kirsch Announces Free Demos Of the Infoseek Search Engine
) 是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它 沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初是否第一个登台并不总是很重要。 Infoseek的友善用户界面、大量附加服务(such
as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出 Infoseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己 的搜索引擎,开始改用Overture的搜索结果)

1995年,一种新的搜索引擎形式出现了——元搜索引擎(A
Meta Search Engine Roundup
)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生
Eric
Selberg
Oren
Etzioni
Metacrawler。(注:元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。)

DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista
Public Beta Press Release

)。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC
Alpha芯片的强大运算能力)。

而Altavista的另一些新功能,则永远改变了搜索引擎的定义。

AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索 Titles、搜索Java
applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有 趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮 助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引 擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。(2003年2月 18日,Altavista被Overture收购。)

然后到来的是Inktomi。1995年9月26日,加州伯克利分校CS助教Eric
Brewer
、博士生Paul Gauthier创立了Inktomi(UC
Berkeley Announces Inktomi
),1996年5月20日,Inktomi公司成立,强大的HotBot出 现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。 (注:Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购;inktomi于2002年12月23日被Yahoo收购)
Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop
Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。(注:2002年1月16日,Northernlight公共搜索 引擎关闭,随后被divine收购,但在Nlresearch,选中”World
Wide Web only”,仍可使用Northernlight搜索引擎)
1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry
Page
开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey
Brin
Scott
Hassan
Alan
Steremberg
的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。

Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。

在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)
Teoma 起源于1998年Rutgers大学的一个项目。Apostolos
Gerasoulis
教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask
Jeeves
收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine;同时提供专业链接目录的Resources。
Wisenut 由韩裔Yeogirl Yun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。
Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供网页快 照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索(注:这个spammers的肉包子功能暂已关闭)。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30
Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
北大天网 是国家”九五”重点科技攻关项目”中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正 式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教 育网优势,有强大的ftp搜索功能。

Baidu 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加 州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户 网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快 照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen
Project)开始后,技术升级明显加快。


第二部分:搜索引擎原理

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。

真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当 用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的 相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文字,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“
恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

  1. 从互联网上抓取网页

    利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

  2. 建立索引数据库

    由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大 小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用 这些相关信息建立网页索引数据库。

  3. 在索引数据库中搜索排序

    当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

    最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更 新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况 就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序 算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的 索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它 们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的网页文字信息。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。

第三部分:常用中英文搜索引擎指南

常用中文搜索引擎

Baidu www.baidu.com 约1.24亿中文网页,平均2周更新一遍,对部分网页每天更新。提供百度快照、网页预览/预览全部结果、相关搜索词、错别字纠正提示、Flash搜索信息快递百度搜霸搜索援助中心,推荐使用MP3搜索Baidu搜索技巧
Google中文 www.google.com/intl/zh-CN/ 中文网页数不详,按比例推算约8500万。平均1月更新一遍,对部分网页每日更新,由 BasisTechnology
提供中文处理技术,搜索相关性高,高级搜索语法丰富。提供Google工具条、网页快照、图像搜索(4.25亿图片)、新闻组搜索。Google搜索帮助
Alltheweb

(Fast)

www.alltheweb.com 4480万简体中文网页,1401万繁体中文网页,需单选中简体中文语言搜索,否则效果不好。
Openfind中文 www.openfind.com/cn.web.php?u=cn 中文网页数不详,从检索效果上看与Google相近。更新较慢,提供按网页大小或日期排序。Openfind查询秘诀
北大天网 http://e.pku.edu.cn/ 约6000万网页,更新略慢,搜索相关性较低。提供天网搜霸、历史网页。推荐使用ftp搜索天网使用帮助
Inktomi/MSN

Altavista

www.msn.com

www.av.com

Inktomi和Altavita收录中文网页也以千万计,但因为它们没作中文特殊处理,所以用简单的中文关键词可以搜到一些内容,但用稍长一点或组合关键词查询时,搜索效果就很差。其它如WisenutGigablast等,也能搜索一点点中文,但因为没做中文特殊处理,一样没有搜索价值。

常用英文搜索引擎

Google www.google.com 30亿网页(约1/4非全文索引),用户界面出色,有新闻组、图像、新闻等搜索,以搜索相关性高闻名。
Alltheweb

(Fast)

www.alltheweb.com 21亿网页,高级检索强大,有新闻、图片、MP3、Video、ftp,利用ODP对搜索结果简单分类。
Altavista www.av.com 约7亿网页,有图像(5.4亿图片)、音频、视频文件、新闻搜索,高级语法强大,有prisma辅助检索。(部分网友需通过p-roxy访问,无p-roxy可用
qbseach 单选altavista搜索。)
Inktomi search.positiontech.com 自称30亿网页(搜索效果上看不出这么多),技术设置和参数可调性高,支持的门户搜索数据库和排序多不同,可到
Hotbot 使用Inktomi的高级搜索。
Northernlight nlresearch.northernlight.com 约7亿网页+7100出版物数据,需选中”World Wide Web only”搜索。速度略慢,杂志数据有独特搜索价值,能对结果作简单自动分类,翻页数不限,支持通配符。
Wisenut www.wisenut.com 约14亿网页,网页索引数据库偏老,提供类似简单自动分类和相关检索词的WiseGuide,及预览搜索结果的Sneak-a-Peek。
Openfind www.openfind.com 自称35亿网页(搜索效果上看不出这么多),旧网页死链接多,支持按网页大小或日期排序。
Teoma www.teoma.com 约3亿网页,速度略慢,支持类似自动分类的Refine;同时提供专业链接目录的Resources。
Gigablast www.gigablast.com 1.5亿网页,提供网页快照。

目前,有自己网页索引数据库的英文搜索引擎,一共只有上边9个。其它的如Yahoo,AOL,LYCOS,MSN,Looksmart等虽然名为搜索 引擎,都没有自己的网页索引数据库,其实都是用的以上搜索引擎的网页索引数据库。另外,门户网站的搜索引擎多半默认为分类目录搜索,累赘又多,无法提供专 业搜索引擎一样的丰富功能和统一丰富的搜索语法,所以在搜索的速度、相关性、数量、易用性上往往与专业搜索引擎差距甚远,缺乏使用价值,就不一一介绍了。 但以下三个搜索引擎,虽然也没有自己的网页索引数据库,却都有其特色和使用价值,值得搜索引擎9238一提:

Askjeeves www.ask.com 有超过700万的大型问题库,支持自然语言提问搜索,适合搜索常识性的问题答案。
Vivisimo www.vivisimo.com 元搜索引擎,有目前最好的搜索结果自动分类技术。下拉菜单还支持各新闻、购物、独立搜索引擎等的自动分类搜索。
Faganfind www.faganfind.com 我们经常会遇到普通网页搜索以外的各种特殊搜索需求。Faganfind象一个书签,它为几十种特殊搜索需求都挑选了多个优秀搜索工具,你可以点击子分类进入挑选使用,也可以很方便的直接用它默认的搜索工具(通常它默认推荐的都很好)。

鸣谢以下参考文献:

A History of Search Engines

http://www.wiley.com/legacy/compbooks/sonnenreich/history.html
Search Engine wars

http://www.thesearchenginewars.com/archives.html
A Short History of Search Engines

http://www.scils.rutgers.edu/~ssaba/550/Week05/History.html
A History of Search Engines and some Similar Systems

http://emhain.wit.ie/~p00csd12/firstreport/similar.htm
A Brief History of Search Engines and Search Engine Optimization

http://www.iprospect.com/search_engine_placement/seo_history.htm
SearchEngineShowdown

http://www.searchengineshowdown.com/
SearchEngineWatch

http://www.searchenginewatch.com
Webmasterworld

http://www.webmasterworld.com
Archive.com

http://archive.com
搜索引擎发展史(特别感谢搜索引擎直通车的译文)

http://www.se-express.com/about/about.htm
Web Search–History resourceshelf Saturday, December 15, 2001

http://resourceshelf.freepint.com/archives/2001_12_01_resourceshelf_archive.html
Web Search–Google resourceshelf Sunday, September 29, 2002


http://resourceshelf.freepint.com/archives/2002_09_01_resourceshelf_archive.html

Larry Page Asks a Technical Question About a Java Web Robot on 1/7/1996

http://groups.google.com/groups?selm=page-0701962007020001%40qwerty.stanford.edu&oe=UTF-8&output=gplain
The Backrub Home Page Captured in 1997


http://web.archive.org/web/19971210065425/backrub.stanford.edu/backrub.html

The Teoma Development Team

http://static.wc.teoma.com/docs/teoma/about/developmentTeamHistory.html
Is this the rival to Google?

http://www.theregister.co.uk/content/6/20614.html
About Fast Search & Transfer

http://www.fastsearch.com/about/
About Northernlight

http://www.northernlight.com/docs/about_company_mission.html
About Gigablast

http://gigablast.com/about.html
百度创建人

http://www.baidu.com/about/02.html
关于Openfind

http://www.openfind.com/aboutus/cn/
搜索引擎技术及趋势

http://media.ccidnet.com/media/ccu/406/02701.htm
The Anatomy of a Large-Scale Hypertextual Web Search Engine

http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm
Interview with Google’s Sergey Brin

http://www.linuxgazette.com/issue59/correa.html

Comments

我们要吃自己的狗粮

2006 年下旬, 公司老大 Eric 发出一封邮件给所有 Googlers, 宣布我们要带头“吃自己的狗食” — Google 自己将成为 Google 应用服务网站版的第一个企业用户,公司内部的邮件、即时通讯、日历系统将全部移植到这套面向企业的免费应用解决方案上来。 Read the rest of this entry »

Comments

[转载]不推荐使用的Google服务

第一个是blog服务,第二个是 page creator服务。不建议使用这两项服务,共同的主要原因是考虑到规避GFW风险的因素。blogger.com的访问多数情况下是正常的,也就是说,登录blog管理的后台,进行设置、发表文章都不成问题。但是,blogspot.com 的访问就不稳定,也就是你,你发表的文章,国内的读者,甚至包括你自己,都无法从blog页面上读取。blogspot.com曾有很长一段时间无法访问,然后是通了又断。目前处于正常阶段,可不知能持续多久。最近,月光博客那里验证出google blog绑定域名的功能已经拜GFW所赐而失效,可见,google的blog服务是很难让人踏实下来的。至于page creator,已经很长一段时间以来连接不畅,前两天仿照 williamlong验证域名绑定的tracert法子试了试,显然,和blogger域名绑定所卡壳的地方是一样的。对于普通用户来说,在线的、所见即所得的网页编辑器,在个人网站—个人主页已经过气的今天,能做些什么呢?有位叫大肚皮的家伙 一年前已经发出过类似的疑问。我的判断是,普通用户对page creator的需求不会很强烈,事实上,这项功能似乎至今也没有单独公开发布。不过,如果读一读tinyfool的文字,或许我们的视野会有所不同。况且,google的应用,很多是整合在一起发挥作用的,就我所知,page creator是 google apps(google应用服务网站版)的重要组成部分——后文将提及,这一重要组成部分被GFW掉了,所以google apps也属于不建议使用的一项服务。

不建议使用google的blog服务,实在是非常不情愿的一件事。新版的blog服务,即所谓的new blogger,给我的感觉相当不错。对普通用户来说,进行相关的设定时已经有非常直观的界面可用,上手变得很容易,当然,如果想玩玩更多的小把戏,blogger.com也提供了进阶的空间。可惜,鉴于GFW的风险因素,选择BSP时还是另作考虑为好。

第3个不建议使用的google服务,就是前一篇文字提到过的google apps(google应用服务网站版)。其原因,一是GFW因素 造成的服务残缺不全(创建网页的功能不能正常使用),二是这项服务尚未完全开放,申请不方便,三是从普通用户的角度看,这项服务实用性不强。对普通用户来 说,第三点可以视为主要原因。况且,“玩”apps,是需要成本的,包括独立域名的成本,对相关网络技术常识的掌握、至少是照猫画虎的学习成本等。其实, google的这项服务,应该也并不是针对多数普通用户的。

曾有人把这项服务等同于企业邮局,事实上,google apps的功能要丰富得多,除了可以做企业邮局外,web pages、calendar、chat,都是可以整合运用的工具。以google的整合式思路和能力,也不排除apps不断扩展、增强的可能。我想,小 企业、小团体,或一个具有IT背景的小圈子,似乎是使用这项服务的适宜人群。如果延伸一下思路,不拘泥于商企范畴,对于个人或小团体而言,google apps实在是应用扩展性不错的内容发布工具,可以通过网页、邮件账户与列表等,建构一个粘度较强的、可以协同工作的小社群。申请google apps的“攻略”,可以参见这篇文章,我就是照葫芦画瓢而成功了的。

如果你是个像我一样的科盲级网络用户,而且愿意尝试一下google apps,我的建议是浅尝则止。我的心理预期很“小人”——我们所在的时空里,内容就意味着风险。一个可以被用作内容发布的、或以内容为中心的互联网工具,始终处于被掐掉的高危状态。

第4个不建议使用的,是google groups。 对google groups的“使用”,主要可以有两方面的含义。一是参与并获取内容,二是发起创建。粗粗浏览下来,可以发现多数groups,尤其是中文的讨论板块, 活跃度都很成问题。你可能出于兴趣参加了不少论坛小组,但会发现内容的更新频率不高,有阅读价值的内容不多,尽管成员相当地不老少。如果你想运作一个讨论 组,只有三分钟热度是不行的,能把一个讨论组搅动得热络起来,不是一件容易的事。如今的网络,社区泛滥,我们有精力掺和或运作几个真正符合个人需求的、能 挑动参与激情的、具有相当内容价值的小空间呢?

从服务本身来看,google groups为用户整合了非常实用、有效的工具。我更喜欢beta版的新groups, 它提供的基本应用包括讨论(discussions)、网页(pages)和文件(files),可以进行主题讨论,资料库建设和一定数量的文档上传。用 户可以选择多种参与方式或信息接收方式,如访问Web页面或通过maillinglist,管理员也可以很方便地对用户权限和参与方式做相应的个性化设 定。如果对elearning感兴趣,不妨参观一下邹景平老师搭的金红小筑,这里处于建设初期,但具备了大模样,也有简炼的工具介绍和旨趣说明。

需要着重提示的是,google groups还是个开放式的论坛信息集结地,因为这里不仅可以使用google提供的论坛组服务,而且可以查阅、参与数量庞大的新闻组(usenet)。 我不知道这算不算是一种准无缝式的整合。对多数普通用户来说,不参与、不创建groups,但大可以充分利用这里的搜索功能,进行特定group内的、或 全局的搜索——“全局”搜索意味着基于google的讨论组和全球新闻组的范围内的资源。

当然,groups的核心也是内容,而且是海量的百花、百家式的内容。我诚挚地祈祷这一百花齐放、百家争鸣的格局能始终顺畅地呈现在我的屏幕上。

Comments

[转载]Google Docs的Email功能有改进

不久前,在“google有多少攻略”一文中,我曾经对Google Docs & Spreadsheets的email功能提出批评。其中谈到,通过email发送,其实只是给了别人一个链接,想看到文档,还必须登录doc&s,当然,非注册用户就必须首先注册。我认为,这个”门槛”是不合理的。

今天偶然发现,doc&s的email功能有了可喜的变化。

Email发送现在细化为三种类型,即Email collaborators/viewers,Send published link,和Send document as attachment。不错吧?可以将文档作为附件,通过邮件发送出去。这无疑使doc&s的共享形式得到了很大的扩展。

还有一个微妙的变化:在通过email邀请协同工作者或阅读者(Email collaborators/viewers)的时候,系统提供了一个附加的选项:Paste the document itself into the email message。也就是说,你正在编辑的文本,可以贴在邮件的正文中发送给协作者或阅读者。

我简单试了试,好像必须是doc&s的注册用户(或者说,必须接受文档创建人的邀请,并注册为doc&s的用户),才能够接收到贴在邮件正文中的文本。在有的邮件系统中,正文区的文本,还遇到过出现乱码的情形。

通过email发出文档附件,接收者没有限制,不必是google或doc&s的用户。这种设计,还是很令人高兴的。此外,发出附件时,还可以进行文件格式的选择,可选的格式包括.doc/.odt/.pdf/.rtf。

应该提出表扬。

Comments

邵亦波总结ebay中国失败 认为淘宝搞砸电子商务

蛰居美国三年之后,易趣网创始人邵亦波再度现身中国互联网。

1月30日,在北京建国门附近的一幢月租只需5000元的商住两用楼内,邵亦波正与去年底从Google亚太区市场总监任上离职的王怀南,共同商讨双方的新创业公司BabyTree的网站功能。

“在美国的这三年,我大部分时间都在带小孩。”邵亦波自2003年底将易趣以2.2亿美金出售给eBay后,逐步淡出公众视野,并在美国安家。

谈及eBay于2006年12月将易趣交给TOM在线运营,邵坦承“自己的感情非常复杂”。

淘宝免费模式砸场

“当年决定将易趣卖给eBay的时候,已经努力让自己做到不后悔了。”对于易趣的再度易手,邵亦波颇有感触。

当年的市场老大,如今却颠沛流离。邵认为,易趣的遭遇与当年eBay将易趣用户全部转到美国,有着很大的关系。

“eBay将易趣的平台整合到一起,用户也迁移到美国,我觉得这可能给用户造成的影响比较大。”邵亦波认为,由于服务器并没有放在中国,网站的速度以及适合本地用户的功能化设计等,都因此受到影响,“这让对手寻找到了机会”。

邵认为,由于eBay平台的复杂性,使得原本在中国9个星期就可以做出的系统和功能调整,被拉长到9个月,“这也是许多其他国际互联网公司在中国被本土对手打败的原因”。

“电子商务有点可惜,我觉得有点被淘宝做砸了。”邵亦波认为,电子商务市场在中国已经发展了近十年,却没有出现一个成功的上市企业,而淘宝的免费模式,更是使得电子商务公司面临盈利模式的难题。

邵亦波对记者表示,在上世纪末全球互联网泡沫破灭之前,包括eBay在内的许多电子商务网站都是免费的,但是自2001年之后,收费成为一个潮流,“那时易趣收费做得很好,电子商务收费已经成为一个正常的现象了”。

但是,2003年,淘宝正式推出,并且对买卖双方完全免费,这使得淘宝在短短两年时间内做到了市场份额第一。

“通过不收费拿到的用户,就是不想交钱的人,而且他们已经把免费当成一个天经地义的事情。”邵亦波表示,这使得电子商务的竞争不是表现在服务上,而是体现在价格上,“现在这个市场从可持续发展来说,有点进入不健康的循环”。

“我不知道怎么走出这个怪圈,希望腾讯、Tom在线,或淘宝能找出一个方法,走出这个怪圈。”邵亦波表示,淘宝网在去年要收钱却收不到,就表明中国电子商务水平还是处在初级阶段,还需要培养。

三次创业

事实上,无论是蛰居美国,还是再度涉足国内互联网市场,邵亦波均没有离开电子商务。

在美国,邵抽空和朋友一起成立了一个名为Go2Asia的网站。

这家网站的主要功能,就是为那些希望从事慈善事业但是却没有寻找到合适对象的组织或者个人,搭建一个网络化的沟通桥梁。

“这跟电子商务平台的功能差不多,也就是为了解决信息两端的不对称性,为各自的需求寻找合适的对象。”邵亦波表示。

“经过这个平台达成的慈善交易,去年是1000万美元,今年将翻一倍达到2000万美元。”邵说。

2006年年中,邵亦波又同一个朋友Mark Lotte成立了一个生物医药公司,主要的产品是治疗糖尿病、癌症等方面的药品。Mark Lotte此前是一家跨国生物医药企业的中国区副总。

2006年12月,邵再度出资成立了一家网络视频购物的网站。这家网站的主要模式是,在美国的用户通过收看在线的网络视频,就可以直接指挥视频那一头的人员代为采购商品,而且可以实时讨价还价。

同王怀南的合作,则完全是一个想法的共同碰撞。据邵亦波介绍,当时,他和王怀南在美国见面时,王向邵逐一介绍离开Google创业的点子,其中一个就是关于儿童成长的网站社区。

这种想法,与即将成为第三个孩子爸爸的邵亦波,一拍即合。根据在美国照顾孩子的经历,邵发现其实有很多年轻的父母都不知道怎么带小孩,也不知道具体怎么培养小孩。

事实上,邵的妻子就几乎每天花两个小时呆在一个设立在中国台湾的亲子网站,“在社区中查找照顾孩子的资讯,发布孩子的成长照片等等”。

“这让我感觉做一个针对年轻父母的网络社区是有需求的,加上同王怀南有着共同的想法,我们在一天时间内就定下了做BabyTree.”邵说。

BabyTree第一个功能就是提问。“今天小孩没吃饭要不要紧?两天没吃蔬菜要不要紧?三天没大便了要不要紧?”据邵介绍,有很多这种问题需要人来解答。

第二个就是要找到一些有同样兴趣的父母,包括住在同样一个地方,包括这个小孩我们都觉得有点数学天才,是不是要培养一下等等,有很多需要沟通的需求。

第三个就是许多人有小孩,希望跟别人分享自己的乐趣。

创业者背后的创业者

目前,BabyTree正在处于系统开发的过程中,而整个团队也只有15人,王怀南是整个团队的核心,而邵主要是这家公司的天使投资人。

“我也会花很多时间来帮助这家公司成长。”邵亦波对记者表示,自己希望能够成为介乎创业者和风险投资人之间的角色,“在现有的三个公司中,我所承担的角色并非是创业者,而是创业者背后的教练”。

“现在中国最缺的不是钱,所以我不想做VC;我觉得自己创业的确不是那么容易的事情,那么我觉得同样有意义的就是我能够帮助几个公司成长,因为中国需要创业者之后的创业者。”邵亦波说。

实际上,在硅谷,成功地创业者成为投资人,并指导新的创业公司成功,已经成为硅谷不断创新和发展的原动力。邵称,中国也即将发展到这一时代。

Comments