很早之前听说过,“百谷虎”搜索,把三大搜索引擎恶搞了一把儿。只有开始接触“元搜索”的概念,没想到国外元搜索已经发展了好几年了,垂直搜索也发展的比较早。等都国人来搞元搜索的时候,就变成了肆无忌惮的“偷”了,有时简直是“疯狂的抓取”,不但“盗窃”了其他网站的内容,更是让对方的服务器“不堪重负”,就连google这么巨大总是十分慷慨的大户,也开始限制其他爬虫对google搜索结果的抓取。
之前了解一下,“爬虫界”的发展情况,大致分这么几类,有脚本爬虫php,asp,asp.net,jsp,python,ruby的,也有客户端exe爬虫基本上采用httpclient类的C++ Qt,或者Java客户端,或者linux下的curl客户端,linux下python,ruby客户端等等。本来也想往爬虫方向插一脚,但真要做好需要很多物理支持,比如庞大的计算机集群,浩大的数据库,高效的采集分析整理程序,一个人很难胜任。
于是才有了“九合搜索”的仿“百谷虎”版,远离的抓取行为,不会给其他搜索引擎造成抓取压力,也不需要爬虫参与。但是我只是奇怪,为什么之前看到的仿“百谷虎”的网站,都采用了动态脚本如asp,或者php,实际上根本无需动态页参与,静态的html+js足以搞定!
九合搜索,呵呵!叫的挺响亮的,实际上对和我一样喜欢在多个搜索引擎间切换的人来说是有用的,方便的。一般情况下,人们出于习惯,只需要掌握一种搜索引擎就好了。所以,上周末在家里搞了一下,把它扔到我博客空间里了,sou.9he.info 就是访问入口,希望对感兴趣的人有用!:)
最新评论