debian install solr3.6.1 with tomcat7

os:  debian 6 x86_64

install:

#apt-get install apt-spy

#apt-spy -d unstable -a asia -t 5     选择unstable是为了提高软件包版本

#apt-get update

#apt-get install tomcat7

浏览 http://www.apache.org/dyn/closer.cgi/lucene/solr/3.6.1

#wget  http://www.us.apache.org/dist/lucene/solr/3.6.1/apache-solr-3.6.1.tgz

#tar xzf  apache-solr-3.6.1.tgz

配置solr:

#cd apache-solr-3.6.1/example

#cp  -rf  solr/*   /solr_home   建立solr home文件夹

#cp webapp/solr.war  /var/lib/tomcat7/webapps/     部署到tomcat webapps

#cp -rf  multicore  /etc/tomcat7/           . . . → Read More: debian install solr3.6.1 with tomcat7

新上线九合搜索

很早之前听说过,“百谷虎”搜索,把三大搜索引擎恶搞了一把儿。只有开始接触“元搜索”的概念,没想到国外元搜索已经发展了好几年了,垂直搜索也发展的比较早。等都国人来搞元搜索的时候,就变成了肆无忌惮的“偷”了,有时简直是“疯狂的抓取”,不但“盗窃”了其他网站的内容,更是让对方的服务器“不堪重负”,就连google这么巨大总是十分慷慨的大户,也开始限制其他爬虫对google搜索结果的抓取。

之前了解一下,“爬虫界”的发展情况,大致分这么几类,有脚本爬虫php,asp,asp.net,jsp,python,ruby的,也有客户端exe爬虫基本上采用httpclient类的C++ Qt,或者Java客户端,或者linux下的curl客户端,linux下python,ruby客户端等等。本来也想往爬虫方向插一脚,但真要做好需要很多物理支持,比如庞大的计算机集群,浩大的数据库,高效的采集分析整理程序,一个人很难胜任。

于是才有了“九合搜索”的仿“百谷虎”版,远离的抓取行为,不会给其他搜索引擎造成抓取压力,也不需要爬虫参与。但是我只是奇怪,为什么之前看到的仿“百谷虎”的网站,都采用了动态脚本如asp,或者php,实际上根本无需动态页参与,静态的html+js足以搞定!

九合搜索,呵呵!叫的挺响亮的,实际上对和我一样喜欢在多个搜索引擎间切换的人来说是有用的,方便的。一般情况下,人们出于习惯,只需要掌握一种搜索引擎就好了。所以,上周末在家里搞了一下,把它扔到我博客空间里了,sou.9he.info 就是访问入口,希望对感兴趣的人有用!:)