站点地图是一个网站所有链接的容器。很多网站的连接层次比较深,爬虫很难抓取到,站点地图可以方便爬虫抓取网站页面,通过抓取网站页面,清晰了解网站的架构,网站地图一般存放在根目录下并命名sitemap,为爬虫指路,增加网站重要内容页面的收录。站点地图就是根据网站的结构、框架、内容,生成的导航网页文件。站点地图对于提高用户体验有好处,它们为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面。
定义
站点地图,是一种指明信息资源方位与联系,并且具有导航功能的可视化工具。其关键在于信息的获取、信息的检索、信息的表示和信息的关联四个方面。简而言之,就是以类似地图的形式,将主页的信息按照类日罗列起来,并提供相应的链接,它可以为用户提供主页的整体信息,是用户准确找到自己所需信息的快速入口 。
分类
1、sitemap(sitemap.xml,sitemap.txt)这一类站点地图包含了该网站的所有连接,一般提交给爬虫去爬。让搜索引擎去收录网站内容。
2、站点导航,主要是面向访问网站的用户。将网站连接分类,整理后展现在用户面前。
特点
可枧化
这是站点地图所应具备的一个重要特点。因为对于图形的理解要比文字更迅速与准确。虽然我们这里所说的站点地图的内容是文字表达的,但是它却是以地图的形式出现的,并列出了各栏目的相关类目及下属子栏目.明确地表示出了它们彼此间的相互关系。它具有很强的可视性.是用户找到自己所需信息资源的便捷方式。
快速化
这一特点在站点地图上体现的尤为明显。网页内容都明确显示在"地图"上,用户对主页信息一目了然。在站点地图上,对所示类目还同时提供超链接,用户以点击超级链接,直接进入自己所需的栏目。从而使用户准确快速地找到自己所需的信息。
同步更新
站点地图是利用主页信息的辅助工具,它必须随着主页信息内容的变化而变化设立的站点地图。会随着主页信息的变动,及时调整自己的内容,与主页信息保持高度的一致。
构建技巧
重要页面
如果站点地图包含太多链接,人们浏览的时候就会迷失。因此如果网站页面总数超过了100个的话,就需要挑选出最重要的页面。建议挑选下面这些页面放到网站地图中去:产品分类页面;主要产品页面;FAQ和帮助页面;位于转化路径上的所有关键页面,访问者将从着陆页面出发,然后沿着这些页面实现转化;访问量最大的前10个页面;如果有站内搜索引擎的话,就挑选出从该搜索引擎出发点击次数最高的那些页面。
地图布局
站点地图布局一定要简洁,所有的链接都是标准的HTML文本,并且要尽可能多的包含关键字,不要使用图片来做站点地图里的链接,这样爬虫就不能抓取了。一定要使用标准的HTML文本来做链接,链接中要包括尽可能多的目标关键字。比如:可以使用"无公害除草剂、杀虫剂和杀菌剂"来代替"我们的产品"为标题。
用户习惯
用户一般会期望每个页面的底部都有一个指向站点地图的链接,可以充分利用人们的这一习惯。如果网站有一个搜索栏的话,那么可以在这个搜索栏的附近增加一个指向网站地图的链接,甚至可以在搜索结果页面的某个固定位置放置站点地图的链接。
把sitemap写进robots.txt里
在引擎爬虫进来抓取网页的时候,会首先查看robots.txt,如果首先把sitemap写进robots.txt里那么在效率上会大大提高,从而获得搜索引擎的好感。
生成
网上有很多站点地图生成的方法,比如在线生成、软件生成等,sitemap地图可以提交给各大搜索引擎,从而使搜索引擎更好的对网站页面进行 收录,我们也可以通过robots.txt来告诉搜索引擎地图的位置。将制作好的网站地图上传至网站根目录下,最关键是把网站地图链接地址加入在 robots文件中以及做好网站地图在页面方便蜘蛛抓取的位置,一般把网站地图放在页眉和页脚位置。
1、普通html格式的网站地图
它的目的是帮助用户对站点的整体有个把握。Html格式的网站地图根据网站结构特征制定,尽量把网站的功能结构和服务内容富有条理地列出来。一般来说,网站首页有一个链接指向该格式的网站地图。
2、XML Sitemap 通常称为Sitemap(首字母大写 S)
简单来讲,Sitemap 就是网站上链接的列表。制作Sitemap,并提交给搜索引擎可以使网站的内容完全被收录,包括那些隐藏比较深的页面。这是一种网站与搜索引擎对话的好方式。
3、搜索引擎识别的地图
因为每个搜索引擎主要识别地图格式效果不同,建议分别采用以下格式:
百度:建议使用Html格式的网站地图
Google:建议使用Xml格式的网站地图
Yahoo:建议使用txt格式的网站地图
重要性
1、搜索引擎每天都是让爬虫在互联网爬行来抓取页面,站点地图的作用就是给爬虫爬行构造了一个方便快捷的通道,因为网站页面是一层一层的链接的,其中可能会存在死链接的情况,如果没有站点地图,爬虫爬行在某个页面就因死链接爬行不了,那么就不能收录那些断链接的页面。
2、站点地图的存在不仅是满足搜索引擎爬虫的查看,更多是方便网站访客来浏览网站,特别是例如门户型网站由于信息量太多很多访客都是通过站点地图来寻找到自己需要的信息页面,这也能很好的提高用户体验度 。
3、站点地图可以提高链接页面的权重,因为站点地图是指向其他页面的链接,此时站点地图就给页面增加了导入链接,大家知道导入链接的增加会影响到页面的权重,从而提高页面的权重,页面权重的提高同时会提高页面的收录率。
注意要点
真实有效
站点地图的主要目的是方便搜索抓取的,如果地图存在死链或坏链,会影响网站在搜索引擎中网站权重的,所以要仔细检查有无错误的链接地址,提交前通过站长工具,检查网站的链接是否有效。
简化
站点地图不要出现重复的链接,要采用标准W3C格式的地图文件,布局要简洁,清晰,如果地图是内容式地图,每页不要超过100内容个链接,采用分页的形式,逐一开来。
更新
建议经常更新站点地图,便于培养搜索爬虫爬行的频率。经常有新的地图内容生成,这样的网站内容能更快的被搜索引擎抓取收录,网站内容也可以早日被搜索引擎检索。
多样性
站点地图不仅仅是给搜索引擎来看的,根本目的也是方便浏览者,所以网站地图最好兼顾搜索引擎的同时也要兼顾浏览者。我们通常为一个网站建三个站点地图。sitemap.html 页面精美,简洁大方,让浏览者方便找到目标页面的同时也心情愉悦。XML 认真研究自己的网站,把重要的页面标注出来,把不需要纳入的页面加上NO FOLLOW 这样更有利于搜索引擎辨别。URLLIST.TXT 或者ROBOTS.TXT 如果方便最好做一下,yahoo等搜索引擎比较认可,谷歌也有这个项目。另外在robots文本里要写好网站地图位置即格式。