说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732
全网监测海量数据按需发布监测预警
实时把握舆情动态精准追溯信息源头
来源于:steven的博客“优于词”
标题为”奥义”,那么阅读前必须先要读者对于sitemap的有一定的了解,传送门百度的sitemap工具帮助,对于基本这里是不做特别说明的。至于sitemap的制作方法,请各位自己研究。
这会有一系列的文章?篇主讲百度wiki(是上面那个传送门链接)值得注意的地方,希望能帮到大家。
百度wiki
1、sitemap中链接的顺序对于排名没有逻辑关系,所以故意的将要排名的页面放在前面是没有用的;所以不用去试验了。
2、百度目前支持的三种格式:文本格式、xml格式、Sitemap索引格式;而谷歌可以支持xml格式,Sitemap索引格式,RSS2.0 档案,Atom 0.3 或 1.0,或纯文本档案,但RSS和Atom提供的资讯有限,只能帮助搜索引擎去找到其他的网页。
3、上述的3种的格式,纯文本文件多可包含 50,000 个网址,但不管怎样,即使压缩也要保证未压缩的sitemap小于10MB(10,485,760字节)。
4、XML格式的参考案例:以下红色的注解可是百度wiki中没有的
<?xml version=”1.0″ encoding=”UTF-8″?>;XML文件需以utf-8编码
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>;必填,给搜索引擎参照-”的通讯协定标准”。
<url>;必填,每个URL链接的母标记
<loc>http://www.example.com/</loc>;必填,以通讯协定开头(例如http),如果服务器有需求,以尾端的斜杠结束
<lastmod>2005-01-01</lastmod>;选填
<changefreq>monthly</changefreq>;选填,这个是可能变更的频率,可填以下属性:always;hourly;daily;weekly;monthly;yearly;never,其中always用来描述”会随着每次存取改变的文件”,而never用来描述”封存的URL”。这些属性是提示而非指令,通讯协定里说可能,标记为hourly的网页被索引相交之下会偏低,而yearly则可能较高,不是很有趣吗?
<priority>0.8</priority>;选填,有效值为0.0-1.0,只是用来让搜索引擎给高值的网页更多建立索引的可能性,如果xml中的URL都为高优先性,那对于搜索引擎来说所有这些链接的重要性没有了意义,无法做判断。
</url>;必填
</urlset>;必填
5、Sitemap 列出的所有网址必须和 Sitemap 位于同一个主机上。例如,如果 Sitemap 位于 http://www.example.com/sitemap.xml,不能包含 http://subdomain.example.com 中的网址(跨域名)。如果 Sitemap 位于 http://www.example.com/myfolder/sitemap.xml,不能包含 http://www.example.com 中的网址(低层级跨高层级)。
5、同时有“http”和“https”格式的网址,只列出一种格式的网址,包含多种格式的网址可能会导致抓取工具无法完整地抓取网站。
6、包含会话 ID的网址建议删除,不然ID号可能会导致网站抓取不完整以及重复抓取。
7、百度建议的是把sitemap放在根目录下,当然搜索引擎也建议放在HTML服务器的根目录中,即 http://example.com/sitemap.xml。但在某些情况下,网站上针对不同的路径可以创建不同的sitemap,比如某些公司有目录的层级划分。
针对第7个情况,下一篇文章讲2部分,sitemap档案的位置和如何做交叉提交。
说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732