温州seo群里很多在讨论rebots和noindex到底啥区别,必须要写吗?写了有啥好处,不写又有啥坏处!
robots和noindex运用和差异有哪些?很多人对这个的认知比较含糊、今日温州seo搜索引擎优化小编就来为我们剖析下,一同来看看吧!
robots和noindex使用和区别
robots介绍
robots协议(也称为爬虫协议、爬虫规矩、机器人协议等)也就是robots.txt,网站经过robots协议通知搜索引擎哪些页面能够抓取,哪些页面不能抓取.
Robots协议是网站国际互联网界通行的道德规范,其意图是维护网站数据和敏感信息、保证用户个人信息和隐私不被侵略.
因其不是命令,故需要搜索引擎自觉遵守.一些病毒如malware(马威尔病毒)常常经过疏忽robots协议的方法,获取网站后台数据和个人信息.
robots.txt文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录).
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件.
Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL.
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
noindex介绍
noindex是谷歌创造的一个HTML标签,其效果是向搜索引擎声明该网页制止被索引录入.
在做网站内部优化的时分可能会用到这个标签,有利于url的标准化.在实践的网站建设中,某些网站尤其是资讯类网站或许博客等,为了便利用户体会而把文章进行归类,
用户能够直接通过分类的目录下的url进行拜访,在这个时分为了集中权重,也为了防止防止高度重复内容,能够在这种页面加上noindex这个标签,
这个时分noindex关于搜索引擎来说就起着一个内部301转向的效果,可是关于用户不会被转向,仍然停留在不变的网址上,而搜索引擎会把页面的链接权重指定到代码所标准的url上.
noindex的写法
要避免所有搜索蜘蛛将网站中的网页编入索引,请将以下元符号增加到网页的index头标签部分:
要答应其他搜索蜘蛛将该网页编入索引而只阻止 Google 的搜索蜘蛛,请将以下元符号置入其index头标签部分部分:
假如 Google 看到某一页上有 noindex 元符号,就会将此页从咱们的查找成果中彻底丢掉,而不论是否还有其他页链接到此页.
可是,其他seo搜索引起可能会以不同的方法解译此指令.因而,指向相关网页的链接可能仍会显现在查找成果中.
请注意,因为咱们有必要抓取您的网页才干看到 noindex 元符号,因而在极少数情况下 Googlebot 可能会看不到和不遵从 noindex 元符号.
假如您的网页仍显现在查找成果中,可能是因为在您增加符号后咱们没有抓取过您的网站.(此外,假如您使用了robots.txt 文件阻拦此网页,咱们也无法看到此符号.)
robots和noindex的区别
1.noindex文件的作用是页面头信息中放上meta noindex标签是告诉搜索引擎不要索引这个URL,也就是用户搜索时找不到这个URL的信息,这个URL不会返回在搜索结果列表中
2.robots文件是告诉搜索引擎,某些URL不要抓取.注意,这里说的是不要抓取,没说不要索引.和noindex是正相反的.
温州seo小编晚上就整理到这了,大家看了之后觉得有疑问请加QQ群 有问必答!