20

今日得解惑

遇到几次情况,网站中内部资料被搜索网站抓取,很是郁闷。

今日才知道,原来有这么个东西,是防止搜索拍照的,引用如下:


robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。


于是,看了看,果然正规的网站都有这个。。。以前是孤陋寡闻了。。。不全文转,详细的点这里

更有意思的是翻到google的,竟然在robots.txt里面发现了这么一个词……

拼音真的是无所不在。哈哈


没有评论

第一个在本文留言。

发表评论

名字(必须)
邮箱(不会被公布)(必须)
网址

字体为 粗体 是必填项目,邮箱地址 永远不会 公布。

允许部分 HTML 代码:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
URLs(网站链接)必须完整有效 (比如: http://www.obaicai.com),所有标签都必须完整的关闭。

超出部分系统将会自动分段及换行。

请保证评论内容是与日志或 Blog 内容相关的,灌水、攻击性或不恰当的评论 可能 会被编辑或删除。

    订阅

      其他

      RSS 黑板报专用通道

      近期评论

      RSS 女人时尚

      功能

     

    菜园子 is Stephen Fry proof thanks to caching by WP Super Cache