热门关键词专题: 百度 Google 谷歌 雅虎 搜狗 中搜 爱问 msn 奇虎 搜索技巧 搜索引擎 博客 广告 营销 关键字
当前位置:搜索引擎-搜索快报 >> 搜索技巧 >> 让搜索引擎不收录你的网站

让搜索引擎不收录你的网站

作者: Debugger 来源: 日期: 2007-01-12,16:19


有人说,当今世界最伟大的技术是什么?搜索引擎!无论什么行业,我们每个人时时刻刻都在用搜索引擎,它帮助我们筛选最关心的信息,足不出户就了解更广阔的世界。可是,也有人会担心自己的隐私会在强大的搜索引擎面前无所遁形,想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研究一下“如何让搜索引擎不收录我们的网站”,也许我们同样也用的到。

1.搜索引擎如何工作的?
简单的说,搜索引擎实际上依靠的庞大的网页数据库。按搜索方式可以分为 全文搜索 和 目录搜索 两种。

所谓全文搜索,是搜索引擎通过从网页自动提取信息来建立数据库的过程。至于提取的原理,就是SEO狂热者们所研究的算法,在他们的理想情况下,网页应该是针对搜索引擎设计的,具有最好的收录效果。当然,不是本文的话题。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信 息存入数据库,以备用户查询。

与全文搜索引擎相比,目录索引有许多不同之处。目录索引完全是手工操作的。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而 且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。

2.如何拒绝搜索引擎?
从原理上可以看出,想让搜索引擎快速收录网站的确不那么容易。有趣的是,想要完全拒绝搜索引擎使用通常的SEO的反方法也并不奏效。收到提问时,我的回答就是这样的:

1.不在任何场合提供自己的链接(有的bsp提供博客手拉手,也是不行的)
2.不向任何人告知自己的blog地址(包括口头)。
3.不提交链接到搜索引擎,哪怕一个页面。 不做任何友情链接。
4.向搜索引擎提交请求,去掉链接(不是所有的搜索都提供接口)。
5.直接作弊,加入到搜索引擎的黑名单。呵呵



我想到的就是反seo的思路,不过这些措施一看就有点不可靠,因为前面原理中提到了,搜索引擎是会定期搜索的,而且,反seo与seo一样难以实现。事实上,搜索引擎也不是那么霸道的,我们来认识一下Robots.txt。

3.Robots.txt文件的作用?
a)什么是Robots.txt?
一个文本文件,名字叫Robots.txt.(是不是废话?) 其实关键是这个文件所在的位置:应该是在网站的根目录下。

b)Robots.txt如何起作用?
前面提到过搜索引擎的自动提取信息会遵循一定的算法,但是,无论算法如何,第一步都是在寻找这个文件。其含义是,“贵站对我们这些Robots有什么限制?”所谓的Robots就是搜索引擎派出的蜘蛛或者机器人。如果没有得到回应(没有找到这个文件),代表没有什么限制,尽管来抓取吧。如果真的有这个文件,机器人会读来看看,如果自己被拒绝就会停止抓取过程了。是不是很好理解?

c)怎么写Robots.txt文件?
遵循一定的语法的Robots.txt才可能被机器人识别,至于语法,介绍起来很繁琐,但是通过后面的例子会很容易懂。

d)几个例子看看Robots.txt如何起作用?
1)禁止所有搜索引擎访问网站的任何部分。

User-agent: *
Disallow: /


2)允许所有的robot访问。

User-agent: *
Disallow:


3)禁止某个搜索引擎的访问。

User-agent: badbot
Disallow: /


4)允许某个搜索引擎的访问。

User-agent: baiduspider
Disallow:
User-agent: *
Disallow: /


5)禁止搜索引擎访问某些目录。

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /joe/

很简单,将代码部分存为一个文本文件,命名为Robots.txt置于网页根目录即可实现相应作用。注意,所有语句都是单规则的,即每行仅声明一条规则,比如例五中三个目录必须分三行列出来。更多关于Robots的资料在:http://www.robotstxt.org/wc/robots.html 。关于各个搜索引擎的机器人蜘蛛名称可到搜索引擎中搜索 :-)


相关图片
让搜索引擎不收录你的网站

[ 365KEY ] [ 新浪ViVi ] [ Poco网摘 ] [ YouNote ] [ 雅虎收藏+ ] [ 天极网摘 ] [ 和讯网摘 ] [ del.icio.us ]



责任编辑: 文章录入: dowell 参与评论