电脑计算机论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 1782|回复: 0

SEO大全

[复制链接]
admin 发表于 2010-8-13 15:52:36 | 显示全部楼层 |阅读模式
3月9日
SEO 控制搜索引擎续
在了解了以上这些基础的语法之后,对于robots.txt的写法各位已经有了一个大概的概念了,不过在学习写作robots.txt文件时,我们还必须要了解一些大型搜索引擎的蜘蛛名称,这样可以便于我们写做robots.txt文件。 蜘蛛名称
作用

Googlebot
Google对一般网页的索引蜘蛛

Googlebot-Mobile
Google对于移动设备,如手机网页的索引蜘蛛

Googlebot-Image
Google专门用来抓取图片的蜘蛛

Mediapartners-Google
这是Google专门为放置了Google Adsense广告联盟代码的网站使用的专用蜘蛛,只有网站放置了Google Adsense代码的情况下,Google才会使用这个蜘蛛。这个蜘蛛的作用是专门抓取Adsense广告内容

Adsbot-Google
这是Google专门为Google Adwords客户设计的蜘蛛,如果你使用了Google的Adwords服务,那么这个蜘蛛就会派出这个蜘蛛来衡量放置了你广告的网站的质量。

百度蜘蛛Baiduspider
百度的综合索引蜘蛛

雅虎蜘蛛:Yahoo! Slurp
雅虎的综合索引蜘蛛

雅虎搜索引擎广告蜘蛛Yahoo!-AdCrawler
雅虎专门为Yahoo!搜索引擎广告开发的专用蜘蛛

网易有道蜘蛛YodaoBot
网易有道搜索引擎综合索引蜘蛛

腾讯SOSO蜘蛛Sosospider
腾讯SOSO综合索引蜘蛛

搜狗蜘蛛sogou spider
搜狗综合索引蜘蛛

MSNBot
Live综合索引蜘蛛



注意:以上蜘蛛名称请按照图表区分大小写

在上面这些搜索引擎蜘蛛中,我们最常用的就是Googlebot和Baiduspider,因此对这两个蜘蛛的用法要特别注意。

  

以上的robots.txt文件可以帮助我们对于搜索引擎的访问做一个限制,这里需要注意的有几个方面。

1、  robots.txt文件必须处于网站根目录下,而且必须命名为robots.txt

2、  robots.txt文件的文件名全部是小写字母,没有大写字母。

3、  如果对于robots.txt文件的写法把握不准,那么可以直接放一个空的文本文档,命名为robots.txt即可。

  

好了,以上我们介绍了robots.txt的写法。这时候有一个问题,有些时候我们会遇到一些实际的特殊情况,那么遇到特殊情况我们应当怎样处理呢?一下就对限制搜索引擎的原标签(META)做一个介绍。

  

第一种情况:限制网页快照

  

很多搜索引擎都提供一个网页快照的功能。但是网页快照功能却有很多的弊端,例如事实内容在网页快照中更新不及时、索引网页快照浪费大量的服务器资源等。因此,我们有些时候可能并不需要搜索引擎来索引我们某个页面的网页快照。

解决这样问题的办法很简单,只需要在你的网页元标记中(<head>和</head>之间)放置如下的一段代码。

<meta name="robots" content="noarchive">

以上的一段代码限制了所有的搜索引擎建立你的网页快照。如果我们需要仅仅限制一个搜索引擎建立快照的话,就可以像如下这样去写

<meta name="Baiduspider" content="noarchive">

需要注意的是,这样的标记仅仅是禁止搜索引擎为你的网站建立快照,如果你要禁止搜索引擎索引你的这个页面的话,请参照后面的办法。

  

第二种情况:禁止搜索引擎抓取本页面。

在SEO中,禁止搜索引擎抓取本页面或者是允许搜索引擎抓取本页面是经常会用到的。因此我们需要对这一部分重点做一次讨论。

为了让搜索引擎禁止抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

在这里,META NAME="ROBOTS"是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如META NAME="Googlebot"、META NAME="Baiduspide"等。content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。

INDEX命令:告诉搜索引擎抓取这个页面

FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。

NOINDEX命令:告诉搜索引擎不允许抓取这个页面

NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

  

根据以上的命令,我们就有了一下的四种组合

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接

  

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接

  

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接

  

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。

  

这里需要注意的是,不可把两个对立的反义词写到一起,例如

<META NAME="ROBOTS" CONTENT="INDEX,NOINDEX">

或者直接同时写上两句

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

  

这里有一个简便的写法,如果是

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">的形式的话,可以写成:

<META NAME="ROBOTS" CONTENT="ALL">

  

如果是

  

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">的形式的话,可以写成:

<META NAME="ROBOTS" CONTENT="NONE">

  

当然,我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。从上面的文章中我们得知,禁止建立网页快照的命令是noarchive,那么我们就可以写成如下的形式:<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW,noarchive">

如果是对于单独的某个搜索引擎不允许建立快照,例如百度,我们就可以写成:

<META NAME=" Baiduspider" CONTENT="INDEX,FOLLOW,noarchive">

  

如果在元标记中不屑关于蜘蛛的命令,那么默认的命令即为如下

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW, archive">

  

因此,如果我们对于这一部分把握不准的话,可以直接写上上面的这一行命令,或者是直接留空。

在SEO中,对于蜘蛛的控制是非常重要的一部分内容,所以希望各位看官准确把握这部分的内容


















































18:11 | 添加评论 | 固定链接 | 写入日志SEO 控制搜索引擎 
有些时候我们会遇到这样的困难:我们原本不想被搜索引擎收录的网站后台地址却被搜索引擎“无情”的收录,这样只要在Google里输入一个“后台、管理site:www.***.com”,自己的后台地址就会显露无疑,因此网站安全性也无从谈起。遇到这样的情况时,我们如何阻止搜索引擎收录我们不想被收录的文件呢?

一般在这个时候,我们常用的办法有两个,一个是编辑robots.txt文件,另外一个是在不想被收录的页面头部放置META NAME="ROBOTS"标签。

所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。

在很多网站中,站长们都忽略了使用robots.txt文件。因为很多站长都认为,自己的网站没有什么秘密可言,而且自己也不太会使用robots.txt的语法,因此一旦写错了会带来更多的麻烦,还不如干脆不用。

其实这样的做法是不对的。在前面的文章中我们知道,如果一个网站有大量文件找不到的时候(404),搜索引擎就会降低网站的权重。而robots.txt作为蜘蛛访问网站的第一个文件,一旦搜索引擎要是找不到这个文件,也会在他的索引服务器上记录下一条404信息。

虽然在百度的帮助文件中,有这样的一句话“请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。”但是我个人还是认为建立robots.txt还是必须的,哪怕这个robots.txt文件是一个空白的文本文档都可以。因为我们的网站毕竟不是仅仅会被百度收录,同时也会被其他搜索引擎收录的,所以,上传一个robots.txt文件还是没有什么坏处的。

  

如何写一个合理的robots.txt文件?

首先我们需要了解robots.txt文件的一些基本语法。 语法作用
写法

允许所有搜索引擎访问网站的所有部分

或者建立一个空白的文本文档,命名为robots.txt
User-agent: *

Disallow:

或者

User-agent: *

Allow: /

禁止所有搜索引擎访问网站的所有部分
User-agent: *

Disallow: /

禁止百度索引你的网站
User-agent: Baiduspider

Disallow: /

禁止Google索引你的网站
User-agent: Googlebot

Disallow: /

禁止除Google外的一切搜索引擎索引你的网站
User-agent: Googlebot

Disallow:

  

User-agent: *

Disallow: /

禁止除百度外的一切搜索引擎索引你的网站
User-agent: Baiduspider

Disallow:

  

User-agent: *

Disallow: /

禁止蜘蛛访问某个目录

(例如禁止admin\css\images被索引)
User-agent: *

Disallow: /css/

Disallow: /admin/

Disallow: /images/

允许访问某个目录中的某些特定网址
User-agent: *

Allow: /css/my

Allow: /admin/html

Allow: /images/index

Disallow: /css/

Disallow: /admin/

Disallow: /images/

使用“*”,限制访问某个后缀的域名

例如索引访问admin目录下所有ASP的文件
User-agent: *

Disallow: /admin/*.htm

使用“$”仅允许访问某目录下某个后缀的文件
User-agent: *

Allow: .asp$

Disallow: /

禁止索引网站中所有的动态页面

(这里限制的是有“?”的域名,例如index.asp?id=1)
User-agent: *

Disallow: /*?*



  

有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还可以采取直接屏蔽图片后缀名的方式。具体办法如下。 语法作用
写法

禁止Google搜索引擎抓取你网站上的所有图片

(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)
User-agent: Googlebot

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

禁止百度搜索引擎抓取你网站上的所有图片
User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

除了百度之外和Google之外,禁止其他搜索引擎抓取你网站的图片

  

(注意,在这里为了让各位看的更明白,因此使用一个比较笨的办法——对于单个搜索引擎单独定义。)
User-agent: Baiduspider

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

  

User-agent: Googlebot

Allow: .jpeg$

Allow: .gif$

Allow: .png$

Allow: .bmp$

  

User-agent: *

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

仅仅允许百度抓取网站上的“JPG”格式文件

  

(其他搜索引擎的办法也和这个一样,只是修改一下搜索引擎的蜘蛛名称即可)
User-agent: Baiduspider

Allow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

仅仅禁止百度抓取网站上的“JPG”格式文件
User-agent: Baiduspider

Disallow: .jpg$


































18:11 | 添加评论 | 固定链接 | 写入日志SEO 网页规范化设计
避免使用Javascript作URL链接。

  

有些时候,为了让页面上的URL链接变的更加美观,或者为了后台操作的便利,有些网站的URL是用形如下面的形式来表现的。

<a href="javascript:window.location.href='2';" class="navText STYLE6">SEO优化</a>

事实上,搜索引擎在索引这个页面的时候,他根本就不会知道这个location.href='2';是什么意思,这样一来,这个被location.href='2';代表的页面也不会被搜索引擎所发现并收录。因此,在任何时候的任何URL链接,都应该准确的有一个形如下的URL链接

<a href="http://www.***.com/***/***.html">SEO优化</a>

如果确实必须使用Javascript的话,那么就在网站设置一个HTML格式的SiteMap,包含全站所有URL链接,这样会让搜索引擎更轻松的抓取你的网站链接。当然,你也可以制作一个XML格式的SiteMap,直接通过Google的网站管理员工具提交给Google。

下面提供一个XML格式Sitemap的在线生成工具,便于大家使用。

XML格式SiteMap生成工具:http://www.xml-sitemaps.com/

Google网站管理员工具:http://www.google.com/webmasters/tools/?hl=zh_CN

  

拥有一个sitemap,不但会让你网站中一些目录层次比较深的页面和一些因为使用了Javascript作URL链接的链接统统被搜索引擎抓取,对于使用者来说,这也是非常好的一个工具。

这里有一个细节性的问题。有很多网站中,一些URL链接是使用相对地址的,形如下面的例子:

<a href="SEO/youhua.html">SEO优化</a>

其实对于SEO来说,我个人认为使用绝对链接的优势要明显大于使用相对地址链接,形如下面的例子。

<a href="http://www.***.com/SEO/youhua.html">SEO优化</a>

这是因为,在有些情况下,我们的链接锚文字(所谓的锚文字就是指一个完整URL链接中,包含了URL链接的文字,例如上面例子的“SEO”优化几个字)一般是可以被认为是链接的目标页面(例如上面例子中的http://www.***.com/SEO/youhua.html)的一个内容的概括或者是链接目标页面的关键词。这样一来,如果我们使用绝对地址的话,就可以给搜索引擎一个明确的信号:这个关于“SEO优化”的链接,它的网址是http://www.***.com/,因此在索引的时候不可忽视。这样一来,我们就可以为我们的网站扩展更多的长尾关键词,以供搜索引擎索引。但是如果是相对链接的话,因为没有网站的URL,有些时候就可能导致搜索引擎爬虫对于情况搞不清楚,从而降低目标页面的关注度。因此,SEO过程中,强烈建议所有链接都使用绝对链接地址。

避免使用Flash作为Url导航。

有很多的网站为了页面更加美观,就使用FLASH作为网站的导航。甚至有一些网站干脆全站没有一个文字字符出现,全部都是FLASH。这对于SEO是非常不利的,因为我们必须要注意的一点是:搜索引擎爬虫不会像我们人类一样,通过视觉获取到网页的信息,它们是通过对于网页代码的抓取,才了解到网页内容的。因此,如果我们防治了FLASH作为网站导航的时候,搜索引擎蜘蛛根本不知道你的FLASH是什么内容,因此也会放弃抓取。

因此,我们在制作FLASH网站的时候,无论如何,请在页面下角或者上部加一个文字的链接,形如:<a href="http://www.***.com/sitemap.html">网站地图 </a>,然后把你网站flash包含的所有文字、内容都单独以文本的形式做一个网站地图,这样既不会影响搜索引擎的抓取,也不会影响到你整个网站的美观。

  

合理的使用图片作为URL导航

  

为什么说要合理的利用图片?原因和上面是一样的,搜索引擎爬虫除了看不懂FLASH之外,也不会认识你的图片上写的是什么内容。因此,我们现在已经很少可以看到直接用图片作为导航的。CSS会更加美观使用。当然,如果非要用图片不可的话,那么就一定要在这张图片上加上形如下面的ALT标签。

<a href="http://www.***.com"><img src="Images/about_nav.jpg" alt="关于我们" /></a>

这样一来,我们就给搜索引擎一个指引:这张图片上的文字是“关于我们”,而其引向的页面是“关于我们”这个内容的

  

  

让你的URL更快的到达目标页面。

  

曾经我在为一个压力锅厂家做SEO全站优化时,发现了这样的一个问题。我在首页看到了一个压力锅,正好和我自己家使用的压力锅型号是一样的,因此想查看这个压力锅的一些参数。结果我至少点击了六次,这才看到了这个压力锅的详细资料。对于用户体验来说,很少有人会耐着性子点击N次鼠标来看到你的网页内容,对于搜索引擎也是一样的,你的URL跳来跳去,就是不到最终结果页面,搜索引擎也会反感的。

因此,最佳的做法就是,一次点击,马上到达最终页。最多不要超过三次。

  

简单的频道导航是必要的

  

看下面这幅图



  

  

  

  

  

图1-11

  

我们可以看到,在这样一幅图上,有一个腾讯首页 > 新闻中心 > 时政新闻 > 正文的链接字样。而这些文字中,除了对于“正文”二字和“您所在的位置”几个字没有链接之外,其他的文字都是链接到相关页面的。

这样的做法,对于用户体验首先有着极大的好处,因为用户可以随时的点击他感兴趣的一个话题分类,进而查看最新的信息。而对于SEO来说,这是一个搭建内部链接的重要过程,也是不可或缺的。

要注意的是:互联网之所以被称为是“互联”,就是因为不管在每个网站内部,还是在各个网站之间,每个网站的构成因素——网页之间都是相互达成链接的。因此,一个网站在做SEO优化的过程中,首先要做好自己网站的内部链接,之后要做好网站的外部链接。对于内链和外链会在之后的文章中详细讲述。

  

避免使用框架网页

框架网页的确有着导航方便、设计便捷的好处。但是问题在于,由于在框架网页中,搜索引擎蜘蛛看到的只有一个页面,那就是框架页,因此,在这样的网页里,搜索引擎势必无法索引到更多的内容。因此,在这里强烈建议避免使用框架网页。

从下面的代码,我们就可以知道为什么说搜索引擎只能看到一个页面了。



view plaincopy to clipboardprint?
<frameset rows="80,*" cols="*" frameborder="no" border="0" framespacing="0">   
   
  <frame src="top.html" mce_src="top.html" name="topFrame" scrolling="No" noresize="noresize" id="topFrame" />  
   
  <frameset cols="80,*" frameborder="no" border="0" framespacing="0">   
   
    <frame src="left.html" mce_src="left.html" name="leftFrame" scrolling="No" noresize="noresize" id="leftFrame" />   
   
    <frame src="main.html" mce_src="main.html" name="mainFrame" id="mainFrame" />   
   
  </frameset>   
   
</frameset>  <frameset rows="80,*" cols="*" frameborder="no" border="0" framespacing="0"> <frame src="top.html" mce_src="top.html" name="topFrame" scrolling="No" noresize="noresize" id="topFrame" /> <frameset cols="80,*" frameborder="no" border="0" framespacing="0"> <frame src="left.html" mce_src="left.html" name="leftFrame" scrolling="No" noresize="noresize" id="leftFrame" /> <frame src="main.html" mce_src="main.html" name="mainFrame" id="mainFrame" /> </frameset> </frameset>   

我们可以看到,我们的导航部分大部分是集中在top.html和left.html,内容全部显示在main.html中,如此一来,搜索引擎看到的内容,永远是上面的几行代码。

那么如果非要使用框架网页的时候,该如何去SEO优化呢?

我们知道,在框架网页中有一个< noframes >的标签,也就是说,如果没有框架显示功能的话怎么版,因此,我们就可以合理的利用这一部分。完整的代码如下



view plaincopy to clipboardprint?
<frameset rows="80,*" cols="*" frameborder="no" border="0" framespacing="0">   
   
  <frame src="top.html" mce_src="top.html" name="topFrame" scrolling="No" noresize="noresize" id="topFrame" />  
   
  <frameset cols="80,*" frameborder="no" border="0" framespacing="0">   
   
    <frame src="left.html" mce_src="left.html" name="leftFrame" scrolling="No" noresize="noresize" id="leftFrame" />   
   
    <frame src="main.html" mce_src="main.html" name="mainFrame" id="mainFrame" />   
   
  </frameset>   
   
</frameset>   
   
<noframes><body>浏览器不支持框架,点击这里查看<a href="sitemap.html" mce_href="sitemap.html">网站所有内容(网站地图)</a>   
   
</body>   
   
</noframes></html>  <frameset rows="80,*" cols="*" frameborder="no" border="0" framespacing="0"> <frame src="top.html" mce_src="top.html" name="topFrame" scrolling="No" noresize="noresize" id="topFrame" /> <frameset cols="80,*" frameborder="no" border="0" framespacing="0"> <frame src="left.html" mce_src="left.html" name="leftFrame" scrolling="No" noresize="noresize" id="leftFrame" /> <frame src="main.html" mce_src="main.html" name="mainFrame" id="mainFrame" /> </frameset> </frameset> <noframes><body>浏览器不支持框架,点击这里查看<a href="sitemap.html" mce_href="sitemap.html">网站所有内容(网站地图)</a> </body> </noframes></html>   

做一个实用的404页面

在请求中,一旦返回的值是404页面,那就说明这个网页是不存在的。一般大型网站中,我们难免会留下空链接、死链接。这样就会导致404页面的出现。一般的404页面显示如下:

  



  

  

图1-12

如果一个站的404页面过多的话,那么网站本身的权重就会被降低。因此,自定义404页面对我们来说是非常有必要的。

如何自定义404页面呢?首先,我们需要自己制作一个网页,如notfound.html,在这个页面上,放上一些网站导航的链接,放一个网站地图的链接之类,当然,这样的页面最好是做的美观一些,人性化一些(美观和SEO无关,只是让用户更舒服)

对于404页面的设置,如果是Apache下,只需在.htaccess 文件中加入如下内容即可:

ErrorDocument 404 /notfound.html

而在IIS中,只需要在IIS管理器中修改即可。






















18:08 | 添加评论 | 固定链接 | 写入日志SEO 网页关键词分布
我们在确定了一个页面的关键词后,就必须要开始控制网页的关键词密度了,关键词密度是指关键词在整个网页内容中出现的频率。如果关键词密度过低,那么对于优化起不到重要的作用。而如果密度过高的话,又会被搜索引擎认为是作弊。一般来说,关键词密度控制在2%-7%比较合适,而我个人在操作的时候,基本是在6%上下,正负不超过0.5,个人认为这是一个最佳值。

现在有很多关键词密度检测工具可以供我们使用,例如

http://tool.chinaz.com/Tools/Density.aspx

  

关键词的准确分布对于SEO也有着举足轻重的作用,一般的做法是,让关键词占据网页大部分重要的位置,但是侧重有所不同。

关键词出现的第一个地方应该是网页的title、keywords,Description部分。我们以一个实例来说明关键词的写法。

例如我们现在要做一个网页,其内容是形容姚明在最新的NBA和开拓者的比赛中获得了15分,而火箭队也获得了赛季的最长连胜记录。

在这个网页中,首先我们来选取页面优化关键词。我们知道,无论是对于“NBA”、“姚明”“开拓者”这几个关键词来说,都是非常热门的,因此我们要是单独优化这几个关键词就会有很大的竞争性。这是我们可以采取长尾原则,把关键词定为“火箭连胜”和“火箭对开拓者”这两个关键词,相关的竞争就会小很多。

接下来,我们要对页面本身进行优化,首先,我们的标题应该按照如下的形式去写。

“火箭胜开拓者,获得赛季最长连胜记录”。可能有朋友会问,这个标题中没有一个和我们刚才确定的关键词完全一致的内容。是的,这里确实没有完全相同的关键词存在,但是在SEO中有一个相关关键词的概念。首先我们来看这个标题的第一句话“火箭胜开拓者”而我们的主关键词是“火箭对开拓者”,对于这两个词本身的意义来说,其实是有相同和相联系的地方的。或许对于我们人类来说,火箭对开拓者这个关键词,不知道是赢还是输,因此会有很多网友在搜索的时候会直接搜索火箭对开拓者。但是对于搜索引擎来说,无论是火箭对开拓者还是火箭胜开拓者,都是一个意义,就是把火箭和开拓者两个关键词联系在了一起。因此,在程序处理的时候,如果搜索“火箭对开拓者”那么无论是“火箭胜开拓者”还是“火箭败开拓者”都会出现在搜索的结果中。为了使页面的关键词布局平衡,我们使用这个标题的前半部分。

再来看“火箭连胜”这个关键词,在整个标题中,还是没有出现“火箭连胜”这个关键词,但是根据前文的“火箭”和后文的“获得赛季最长连胜记录”我们完全可以组合出“火箭连胜”这个关键词。

这是SEO中一个“关键词组合优化”的技巧,对于一个关键词组,如果keyword中显示的是一个词组形如“火箭连胜”和“火箭对开拓者”,那么我们就可以在标题中把这个关键词拆分显示,这也是SEO对各大搜索引擎中文分词算法的一个利用。请各位一定记住这个技巧,因为这个技巧在网页排序中有非常重要的作用。对于中文分词在网页优化中的重要作用,会在之后的章节中讲到。

接下来我们来写网页的Description。Description是对一个网页内容的描述,也是很关键的一个部分。根据关键词平衡原则,我们在这里这样写Description

“本文描述火箭对开拓者的比赛,姚明获得15分,火箭连胜的记录又一次被刷新。”

在这一部分中,就出现了精准关键词,这是对标题的一个补充,也是对内容的一个梗概。请记住,Description是网页的内容描述,不可放置和标题、关键词一样的内容,这就和我们小学时学习写作文一样,Description就是作文的中心思想。

  

接下来是网页页面显示部分的优化,也就是网页代码中<body>和</ body >中的用法,对于这一部分不了解的,请各位去查看一下HTML代码的名称定义。

http://www.gzsums.edu.cn/webclass/html/html_design.html

  

  

首先,要显示的是标题,这个标题和tiitle中显示的可以一致,也可以不一致。不过这里,我们一般是使用HTML代码中的H1标签来着重显示。例如

<h1>火箭胜开拓者,获得赛季最长连胜记录</h1>,在搜索引擎优化中,搜索引擎对<h1>之间的文字给予很高的权重,因此这一块一定要合理利用。

文章标题之后,我们可以在文章正文中分布一些关键词,这个不用多说,只是在文章内容中合理的加入关键词即可。有些SEO教程上让操作者对于文章正文中的关键词加粗显示,例如<b>火箭连胜</b>,我个人很不建议这样去做,因为这样优化的痕迹太明显,反倒会被搜索引擎惩罚。

  

如果说网页中有图片,那么我们可以使用图片的alt属性来增加关键词的比例。

  

另外,在页脚部分,也就是平时我们看到网站版权的部分,也可以增加一个关键词的显示,而且可以在这个关键词上加上本网页的链接。不过这个做法一定要把握好页面本身已经有的关键词密度,一旦密度已经超过了5%,那么千万不要使用,否则会被认为是作弊。

  

在关键词分布中,请记住一个原则,搜索引擎对于网页的顶部、左侧以及下角给的权重是很高的,所以应该充分利用这些优势。我们在一些大的门户网站看到“相关新闻”都在网页的右侧,也是因为需要吧最高权重留给网页本身内容。
18:06 | 添加评论 | 固定链接 | 写入日志SEO URL优化
如果有这样的几个网址,你更容易记住哪一个?

A:www.****.com/2009/02/19/news/edu/seo/2009201900343432.html

B; www.****.com/news/new.asp?id=342&class=12&page=1&other=12&date=2009-2-19

C: www.****.com/SEO/title.html

  

我相信你一定会选择C,因为C网址不但简短,没有任何参数,而且还包含了网页内容的关键词。

搜索引擎也是一样的,如果你的URL过于冗长,那么蜘蛛也会觉得累。一般来说,在SEO的URL结构中,三层目录是最为合适的。所谓的三层目录就是指形如C网址那样的结构。

一般来说,蜘蛛在某个网站爬行的过程是通过每一个URL之间的链接来构成爬行路线的。对于三层以上的目录,目录层次越深越会导致蜘蛛爬行的不顺利,这也就构成搜索引擎索引页面的死角。

另外,在Google网站管理员帮助中提到:简化域名后“?”后面的参数,如果可以采取伪静态或者直接生成静态,对于搜索引擎索引会有很大的帮助。

简单来说,对于URL的优化,一般包括两个方面,一个是对于域名的选择,另外一个是对于目录和网页文件本身URL的优化。

  

对于域名的优化和服务器IP的选择

  

如果我们新建立一个网站打算去做SEO优化,那么在选择域名和服务器时需要注意几个很重要的方面。

·选择怎样的域名?

有很多SEOer在操作SEO的时候,会尽量寻找包含有关键词的域名,例如flashgame.net 这样的形式。这样的做法对于用户体验、搜索引擎索引、关键词排序都有巨大的好处。不过现在域名资源匮乏,想要寻找一个包含有关键词的域名简直是不可能的任务。因此,我们在选择域名的时候一般会采用中间加一个横杠的方式,例如flash-game.net,不过对于中文关键词来说,这个横杠的使用如果不慎,就会让域名本身失去原有的SEO意义,这一部分的内容会在以后的中文分词内容中和大家讨论。

·域名选择需要注意的方面

有时候我们可能会不经意间发现一个极好的域名,不过不要高兴的太早。在注册这个域名之前,我们首先要查查这个域名曾经有没有被别人注册过,如果注册过的话,有没有被搜索引擎惩罚过。如果不幸注册了一个被惩罚过的页面,那么我们的SEO工作将会非常的困难。

·尽量少用二级域名

我看到过一些个人网站的站长,把自己网站的每一个频道都做上了一个二级域名,尽管这样的做法可能会给你的主站带来大规模的外链,但是要知道的是,每一个二级域名和主域名的权重是一样的,实际上www本身也是一个二级域名。这样的做法无异于分散SEO精力,让每个二级域名下的网页排名都不会很好。一般大型网站会这么做,是因为大型网站具有海量的内容,因此可以用每个二级域名都会有很好的权重,而个人网站,我个人建议还是不要这样去做。另外,还有一个需要了解的问题是,如果你的某个二级域名被搜索引擎处罚,那么你的主域名也会受到牵连。

这里有一点需要重点解释。有些博客网对于个人博客都会提供二级域名,有些朋友会问,假如这些二级域名中的任何一个域名被惩罚,那么我的主域名会不会被处罚?这个大可不必担心,因为搜索引擎也会去区分用户行为和网站管理员行为的,假如你的一个用户自己建立了一个博客,使用了大规模的SEO作弊手段在自己的博客,那么搜索引擎顶多会处罚这一个博客而已,而不会牵连你的整个网站。

·选择服务器需要注意的方面

现在有很多中小企业网站都在使用一个虚拟主机。这里就出现了一个问题,或许你正在使用的这个服务器上有着大规模的垃圾网站或者垃圾邮件源,一旦搜索引擎发现了这个服务器上有这样的网站,那么就会连IP都封杀掉,于是你的网站也受到了“连坐”。因此,选择服务器也是个很重要的方面。

另外,假如你要做国内的网站,就使用国内DNS解析你的域名,并使用国内IP的服务器,如果你是要做面向海外的网站,那么千万不要为了省钱,也使用国内的DNS和服务器。那样的话你的网站在海外Google中根本就不会有排名的。

OK,絮絮叨叨的说了这么多,下面就说一下关于URL优化需要注意的一些方面吧。

URL优化手段1——URL中带有关键词。

形如前文中提到的C网址,不但会让使用者更快的记住你的网址,而且会让搜索引擎一下子就知道这个页面的内容。假如再在其他的页面加上一个这样的链接代码:

<a href=" www.****.com/SEO/title.html " target="_blank">SEO中的title优化</a>

再加上合理的网页结构和外链策略,那么这样的网页想不排名靠前都很难了。不过这里要注意的是,URL虽然说结构变短了,但是本身长度也不可过于冗长。例如有些朋友为了让搜索引擎更清楚的知道网页的内容,就放了一大堆关键词在URL中,例如如下的URL

www.****.com/NBA/huojian-yaoming-nba-bifen-shipin-zhibo.html

实际上,这样的做法对于搜索引擎索引来说是百害而无一益的。搜索引擎中的反SPAM机制,会将冗长的URL给消重。因此,精简的URL才是最好的方式。

URL优化手段2——页面静态化:这一点的好处和前条一样,都可以改善冗长的URL。

URL优化手段3——避免使用系统自动生成的URL。例如page1.html、newpage1.HTML等。

URL优化手段4——使用与内容分类相符的目录名。使用三层结构,然后把某个分类的内容放在一个文件夹里,以分类的名称或者关键词作为目录名称。

URL优化手段5——只用一个URL访问你的网页:我看到过许多的网站会有两三个域名地址可以访问同一个页面,这样的做法只能减小搜索引擎给你URL的权重,没有其他任何好处。

URL优化手段6——只用小写字母:这一点是Google搜索引擎优化的一个小技巧,具体原因和算法有关,暂时不提,只要明白用小写字母不要用大写字母就可以了。
18:05 | 添加评论 | 固定链接 | 写入日志SEO网页元素优化
这一节我们来一起讨论一下关于元标记和网页描述的优化。所谓的元标记,其实就是网页代码头部<head>和</head>之间的META内容。下面我们首先来看一段比较全面的META标签代码


META内容都有不同的意义,主要的用途如下表所属。

注:下表中的META标题,就是指META NAME=,例如META NAME="Title",那么META标题就是title META标题
代表含义
使用方法

Title
网页主题
通常这里的值是网页的内容标题

Author
内容作者
这里是指网页上的内容作者,例如本篇文章的作者是我,那么该值就为土著游民。

Subject
内容的主题
主要是指这篇文章的主题是什么,核心内容是什么。

Description
网页内容描述
用一句话(不超过255个字符)来描述本篇网页的大致内容。

Keywords
网页关键词
内容的主要关键词,最好不超过三个

Generator
网页编辑设计软件
主要是指你是用什么编辑器做这个网页的,例如Dreamweaver

Language
网页所使用的语言
一般中文网页,就是zh-CN,注意,这里是指语言,而不是网页编码

Expires
网页有效期
这里是对时效性很强的网页的一个时间限制,如果到了在这里写的期限,则必须重新传输。这里的时间格式采取格林威治时间(GMT)

Abstract
网页摘要
指这个网页文件本身内容的摘要

Copyright
网页版权
指本网页的版权归属

Designer
网页设计者
制作网页的人名

Publisher
出版者
这个内容是指网页内容的出版或者发行机构名称

Revisit-After
重访时间
一般大型网站,蜘蛛爬行频率相当频繁,导致服务器重压。因此做这样的限制是让蜘蛛在限定日期内重访,例如7 days就是七天访问一次

Distribution
网站发布范围
是指网站都在哪些地区范围出现,一般设置为Global即为全球范围。

Robots
搜索引擎机器人向导
这一点比较重要,主要是对搜索引擎蜘蛛的引导,后面文章详细说明



  

  

通过这张表,我们基本上可以了解一些META的大致知识,以上的这张表所填写的内容都是给搜索引擎蜘蛛“看”的东西,另外还有很多页面规则使用的META,在这里不做详细的讨论。

这里要特别强调一下META NAME="Robots"的写法,因为如果这行代码一旦使用错误或者是使用不当,将会直接把搜索引擎蜘蛛拒之门外,你的网站也很有可能不被搜索引擎收录。

在META NAME="Robots"的写法中,一般有一下几个关键语法。

ALL-不拒绝任何搜索引擎蜘蛛的索引,不拒绝任何搜索引擎的行为

NOINDEX -不索引当前页面

INDEX -索引当前页面

NOFOLLOW -不跟踪当前页面中所有的链接

FOLLOW -跟踪当前页面中所有的链接

NOARCHIVE -在搜索结果中不保存当前页面的快照

ARCHIVE -在搜索结果中不保存当前页面的快照

NOSNIPPET - 在搜索结果中不采用当前页面的头部描述信息,且不保存当前页面的快照

NOODP -搜索结果中不使用DMOZ中的描述信息,Yahoo、MSN也支持此类标签

NONE -不索引当前页面以及其中的所有链接,跟“NOINDEX, NOFOLLOW” 含义相同。

在实际使用中,我们一般是用如下的办法。

<meta name="robots" content="index,follow">

如果要包含多个属性,我们需要在中间以英文的逗号分割。有一点需要注意的是,不可以将两个反义词同时使用,比如index和noindex。另外,实际使用时,如下代码:

<meta name="robots" content="index,follow">

可以直接写成

<meta name="robots" content="all">

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

可以写成

<META NAME="ROBOTS" CONTENT="NONE">

  

以上的META信息是对页面本身给搜索引擎的一个说明。而有些时候,我们可能需要拒绝搜索引擎来访问我们网站的某个文件夹(例如后台文件夹),或者是要屏蔽一些搜索引擎的索引,我们就可以采取使用robots.txt文件来限制一些权限。本章内容主要将META信息的优化,因此不做讨论。

在我们日常SEO优化时,最多、也是最长使用的META信息只有Keywords、Description这些简单的META信息。因为之前我们简单讨论过关键词的选取,因此对于元标签的优化,我们重点来分析Description。

在SEO的过程中,我们可以发现一个很有趣的现象,如果一张网页中的Description写法不规范,或者是没有Description的时候,搜索引擎索引并显示的内容是整个网页前面的一些字符。而如果Description非常标准的话,就显示的是Description的内容。也正因为此,Description在网页排序中有着很重要的作用。有些时候title和keywords里是对整个网页的几个关键词或者一句话,而在Description中,我们就可以用长达255个字符的一段话来形容这个网页的内容了。只要Description的写法规范,而且其中的关键词布局优秀的话,那么取得一个好的排名也不是很难的事。当然了,其实这里以Description作为索引并不仅仅是因为Description写的规范,还有一个方面是,如果你的网页内容更能匹配用户的查询的话,那么在索引中就会显示你网页上的一些内容。一般来说,Description最大的作用,就是如果搜索引擎一旦找不到你网页中的实际内容的话,就以Description的内容作为显示的索引内容。

在Google网站管理员工具中,有个非常有用的工具——网页内容分析。它可以对你网站中所有的Description做出一个准确的判断和建议,例如哪些Description是重复的,哪些Description太短或者太长,哪些Description是和网页内容无关的等等问题。(Google网站管理员工具:http://www.google.com/webmasters/tools?hl=zh_CN)


Description标签的优化写法

在很多的网页中,我看到站长们总是会把Description的内容和keywords的内容写的一模一样,有些甚至是干脆把内容中的一段或者全部的内容复制到Description中,这样的做法是很不利于网页在搜索引擎中的排名的。另外,还有一些站长会在整个一个网站的所有网页中都使用相同的Description,这也是SEO中的大忌,需要避免。

因此,正确的优化写法应该如下

·Description是描述网页内容的,因此最好是可以用一句话来概括本网页的主题内容,这个有点类似于我们小时候写作文,写中心思想的形式。

·Description不要超过255个字符,搜索引擎索引一般都会索引Description的前255个字符,因此,这255个字符是做搜索引擎优化的关键。

·这里有一个小技巧:如果你使用的网页编码是UTF-8,那么在Description中的标点符号最好都使用英文,例如英文的逗号、句号等。如果是中文的话,那么就使用中文的标点符号即可。  

一个正确的Description格式:以本篇文章为例,Description的基本写法如下(UTF-8):  

<META NAME="Description" CONTENT="本文描述SEO优化中对于元标签和网页描述的优化,另外对于网页META标签做简单的介绍."/>

注意看,上面的描述结束后,最后部分有一个“/”,在标准的网页代码写法中,这个/是不可或缺的。有一点需要记住:同样内容的两个不同网站的网页,如果A网站的网页代码编写规范、完全符合W3C标准,那么就会比B网站不符合网页编码规范的排名要高。












18:02 | 添加评论 | 固定链接 | 写入日志SEO网页关键词选取
在SEO的过程中,对于一个网页的关键词选取和元标签META的写法是非常重要的。在本章内容中,会分为两个部分,第一个部分是对关键词的选取,第二是对META的写法做一个讨论。

关于关键词的选取。

在SEO工作中,关键词的选取对于整个SEO工作是否有效有着很大的影响,如果关键词选取不当,就会导致关键词排名虽高,但是没有太多实际流量、竞争激烈,很难排到各大搜索引擎前列等问题。因此,这一节主要和大家一起讨论如何选取一个适合的关键词。

首先需要介绍一个工具,百度关键词搜索指数:http://index.baidu.com/,在这个工具里,我们可以看到一些常用关键词的每日搜索指数。当然,如果你有百度的指数邀请码,就可以随意添加自己想要知道的关键词每日搜索指数了。这个指数邀请码现在比较难得到,不过在淘宝、拍拍等一些网站上都有卖,大概在十块钱左右,有兴趣的朋友可以买一个试试看。

言归正传。关键词的选取对于每个网页,甚至是一个网站的搜索引擎排名有很重要的作用。举个简单的例子,如果你是在做一个新闻网站,那么如果你所定义的精准关键词为“新闻”的话,那么一定没有可能和现在处于Google第一页的新浪、搜狐等相比。因此,选取一个小竞争力、大流量的关键词,是SEO中一个重要的关键步骤。

·综合资讯类网站的关键词选取

例如我们现在要做一个热门词汇以吸引流量,那么我们首先可以查看百度热词榜,http://top.baidu.com/index2.html?c=0&s=3,在这个列表里,我们选取“小沈阳”这个关键词作为我们的优化基本词。我们可以看到,关键词“小沈阳”每日的平均搜索量为197909次,因此,如果我们可以从这么大的流量中分一杯羹,效果是非常不错的。我们来看一下关于“小沈阳”的搜索量明细表。

  

  



图1-8

  

从图1-8中,我们可以看到,在春晚结束后小沈阳的人气直线上升,从一个季度的八万多,一下子增长到了二十万之多。因此,我们确定要以关键词“小沈阳”来作为我们的选词基础。

但是查看一下百度和Google的搜索结果页,我们可以发现这个关键词的竞争是非常激烈的。百度的显示为:“百度一下,找到相关网页约35,500,000篇”,Google的显示为“约有35,400,000项符合小沈阳的查询结果”因此,在三千多万张网页之中,而且还有那么多高权重的网页作为竞争对手,如果我们是要以 “小沈阳”作为主关键词的话,排名难度是非常大的。因此,在这里我们需要采取“曲线救国”的策略,既采取使用长尾关键词的办法,步骤如下。

第一步:我们首先查看Google和百度在搜索关键词“小沈阳”时,页面下角出现的相关搜索词:

百度:

小沈阳专辑   小沈阳博客   小沈阳北京春晚   小沈阳不差钱   小沈阳的奋斗

小沈阳 韩红   韩红采访小沈阳   小沈阳超级大明星   小沈阳大海   小沈阳资料

  

Google

小沈阳专集在线观看 小沈阳专辑 小沈阳小品 小沈阳二人转 小沈阳视频

二人转小沈阳搞笑专集 小沈阳搞笑二人转 小沈阳二人转视频 小沈阳专集 东北二人转小沈阳

  

第二步:将每个词在百度和Google的收录量做对比,选出收录最少的关键词。由此,可以挑选出“韩红采访小沈阳”这个关键词。我们可以通过百度工具,来查询一下相关的搜索指数。

  

  

  

图1-9

我们可以看到,这个关键词每日的搜索量在3806次,而且排在Google和百度首页的,都没有刻意优化过的网站,因此这个关键词属于SEO中的“黄金词”,也就是竞争小,搜索多的关键词。

  

关键词选取需要注意的方面:

在做关键词选取之前,一定要明白一个问题:关键词都是由网民搜索出来的。因此,网民的搜索行为和关键词搜索有着很重要的关系。例如我们是要为一个行业门户的内容页面或者是专题页面做关键词选取,首先我们要知道这个行业的一些特点,选取一些可能会被更多搜索的关键词。另外,除了我刚才提到的百度和Google的相关关键词搜索之外,我们还可以根据一些其他同行业网站所做的关键词作为一个参考,延伸出更多的长尾关键词。

另外,我们还可以通过一些搜索引擎提供的竞价排名工具来查询某个关键词的竞争力有多大。例如百度的竞价排名、Google的Google Adwords等,查询某个关键词的竞价排名费用。一般来说,价格越低的关键词竞争性就越小,反之越高。

  

关键词选取 “旁门左道”TOP 5

第五位:用户的错误

假如我们是使用拼音输入法打字的时候,经常会出现一些错别字。例如把“郭德纲”打成“郭德钢”,或者是对于“艾滋病”和“爱滋病”混淆不清,甚至把不会打的字用“X”“?”代替,例如张筱雨打成“张X雨”“张什么雨”等,这些错别字的关键词虽然看起来有些搞笑,但是绝对是会能带来不少流量的优秀关键词。

适用对象:个人网站、行业网站的专题页面、内容页面等。

  

第四位:相关关键词的组合

适用这个手段做的最成功的案例,就是优酷。我们来看一下优酷的页面代码和title图片。

<title>第一滴血 - 视频 - 优酷视频 - 在线观看 - 史特龙 第一滴血 </title>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

<meta name="title" content="第一滴血">

<meta name="keywords" content="史特龙 第一滴血 ,电影">

<meta name="description" content="第一滴血 -  史特龙">

  

  

  

  

图1-10

原图连接:http://v.youku.com/v_show/id_XNzM1OTI4ODQ=.htm

  

在这里,优酷把史泰龙、在线观看、视频等关键词都和“第一滴血”这个视频做成了组合,而实际上这个视频的主标题只有四个字“第一滴血”。这种组合长尾关键词和相关关键词的办法,让优酷在屏蔽搜索引擎之前获得了不少流量

适用对象:个人网站、门户级网站内容页、企业网站服务页面等

  

第三位:添加语气停顿词

举个例子,假如有一张网页的关键词本来是“公牛、火箭队、比赛录像”。结果经过语气停顿词的修饰后,就变成了“公牛队和火箭队的比赛录像”,这样的精准关键词虽然很长,但是如果将它反映在title和keywords 上,那么不但会减小竞争,而且会让很多使用搜索引擎搜索“句子”的用户很快找到你的网站。

适用对象:企业网站、行业网站等

  

第二位:查看别的网站的流量分析报告

这个办法有点BT。因为现在我们很少可以看到别的网站的流量分析报告,但是也有一些途径可以让我们看到这个不可夺得的宝贵资料,例如51.la 的流量排行榜,有些统计报告是完全公开的。看看别人用的什么关键词,你就知道该做什么了。

适用对象:个人网站

  

第一位:选取关键词的极致——神算子

当你平时在听到某个新闻之后,会不会想到这个新闻有可能会火爆?2007年中旬,我第一次在娱乐频道听到了小沈阳这个名字,而且第一次从新闻上看到赵本山可能会带着小沈阳上春晚。于是赶紧注册域名,做了几个简单的页面,标题就是:“小沈阳2008年春节联欢晚会视频”,后来过年之前忽然发现央视把小沈阳的节目给枪毙了,于是马上修改标题为“2008年元宵晚会小沈阳视频”,结果还是没有上。但是就是这样的一个页面,却在2008年一整年不断的给我或多或少的IP。今年过年,我又把标题修改为“小沈阳2009年春节晚会视频。”直到现在,这个简单的页面还在吸引着很多搜索者。

呵呵,这里只是一个例子,我个人属于超级“宅男”,对于这些突发时间还是把握不足的,不过我想各位看官应该在这方面有更强的预知力。

我们可以想一下,每天会有多少这样的新闻事件发生?这样的一个事件发生后,接下来会引起什么效应?多做一些思考,那么获取流量也回事很难的事。

适用对象:个人网站

  

·软件或产品服务类网站的关键词选取

之前有一些技术型创业者问过我如何去做软件产品发布网站的SEO优化,其实这里需要明白一个问题。如果你的产品有一个特别的名字,假如说像“酷我”这样的东西,那么我相信这样的网站只要被收录,搜索“酷我”网站一定排名在第一位(这是由于你自己创造了一个关键词,而这个关键词的发布源就是你的网站),因此对于这样的网站我个人认为需要更多的不是SEO,而是对产品本身品牌的一个推广。

不过既然说到这里,还是要说明一下软件产品发布网站的SEO优化。对于软件发布网站的SEO优化,首先我们要理解自己开发产品最大的特色是什么。举个例子,假如我们自己研发的产品是一款音乐播放器,我们首先要看一下我们这款软件中的某些特色功能是不是网友有最大需求的。这个我们可以从百度、Google等一些搜索引擎中获得答案,当我们搜索“音乐播放器”这个关键词时,查看与此相关的搜索是什么,网友对于音乐播放器最关注的内容是什么。

在收集到一个关键词列表后,我们二次对这个列表的关键词进行竞争分析(方法和前面讲过的相同。)有时候,我们可以发现一些黄金关键词,这样我们就可以直接使用。而如果没有黄金关键词的存在,我们就可以通过一些关键词分词、关键词合理布局等办法,让网页的关键词增多,以便被更多的网友所搜索到。














































18:00 | 添加评论 | 固定链接 | 写入日志SEO之title优化

一、             基本网页的SEO手段

网页是一个网站构成的基本元素,因此,对于网页本身的优化在整个SEO优化过程中有举足轻重的作用。下面分为两个部分来讨论页面SEO优化的一些办法,A部分是对于页面本身结构的优化,使得搜索引擎蜘蛛(Spider)更顺利的抓取页面,B部分是在页面优化中的一些小技巧。对于B部分的技巧,请勿在初学SEO的时候就使用,因为初学SEO的朋友们往往对于技巧把握的“度”掌握不足,所以最好是在大量的实验之后再去使用。

  

A、  页面本身结构的优化。

·title优化

对于页面本身的优化,首先要从网页的 Title做起。因为在搜索引擎蜘蛛爬行的过程中,<title>与</title>之间的内容往往是蜘蛛们第一个获取到网页的文字内容(这里需要注意的是,蜘蛛对于网页中的HTML代码是不会索引的,但是如果HTML代码太过繁杂,也会对蜘蛛的爬行造成阻碍和影响)。

Title是形容一个网页的最直观的部分。因此,网页本身是什么内容,蜘蛛首先会去从title中发现。我们首先来看一个合理的title。

  

  

图1-1

  

上述图片的代码显示为<title>我国个税起征点年内或调至2500元_即时报道_财经_腾讯网</title>。

我们可以看到,在这个title里,网站的名称“腾讯网”是在整个标题的最后面的,而之前分别是频道名称、新闻分类、最前面的则是本篇新闻的名称。那么为什么要这样去排列呢?

在搜索引擎优化中,搜索引擎蜘蛛一般会对title前的14个字节(七个汉字)给予很高的权重。这样一来,假如我们将这个title的顺序倒过来,变成如下的形式:

  

  



图1-2

即,将HTML代码中的title部分修改为<title>腾讯网_财经_即时报道_我国个税起征点年内或调至2500元</title>,那么在搜索引擎蜘蛛爬行和抓取的时候,在整个网站都会抓取到“腾讯网_频道_”这些相同的字样,如果量大的话,蜘蛛甚至可能会认为你网站的大部分页面都是相同的内容,因此,“第一印象”就会有误导,蜘蛛也会因此而不去深度抓取页面内容。因此,创建一个完全符合网页内容的,不重复的title是页面SEO优化的第一步。

而对于网站首页的title,更是一些搜索引擎优化中的重中之重。有时候我们可以看到有很多网站,为了让自己的网站排名高,或者具有更高的曝光率,就把关键词全部堆积在title中,例如下图

  

  



  

图1-3

以上这幅图因为篇幅原因没有显示全,但是整个title的关键词早已超出了搜索引擎爬虫所能接受的极限255字节。对于这样的做法,在SEO界一直是非常有争议的。有一部分人说这样确实是对于网站优化有好处,这部分人也确实能拿出相关成功的案例,也有一部分人对于这样堆积关键词的做法嗤之以鼻,认为这样的做法是属于搜索引擎界定作弊与否的临界点,如果页面其他元素操作稍有不慎,就会被搜索引擎惩罚,甚至删除索引。每一种说法各有各的道理,不过自Google官方的SEO操作指南指出:“用简练但具有描述性质的title——title可以既简短又饱含信息。如果title太长,Google就会在搜索结果里只显示title的一部分。需要避免。”我个人也是比较倾向于精简的短title,因为在各个搜索引擎中都有一个相同的概念——相关关键词。图1-3中的标题虽然写了不少东西,但是其相关的关键词都是“计算机维修培训”,而剩下的一些关键词完全可以在页面内容中所显示出来,因此,如果是我来操作这个案例,就会在首页title中这样写“计算机维修培训_XX计算机维修学校”,而在其他内容页面中,再写例如“显示器维修培训_计算机维修培训_XX计算机维修学校”的方式。

这里提到了一个“相关词”的概念,需要简单阐述一下,因为这个概念会在之后文章的很多部分中所提到。

我们在搜索百度、Google的时候,都会看到页面的下角有一个“相关搜索”的内容,其实这个内容在一定程度上就是相关关键词。但是,由于搜索引擎的发展,Google和百度“相关搜索”所显示的内容并不一定都全部都是真正的相关关键词,而也有一部分是通过网民搜索行为所得出的结论。

举个简单的相关关键词的例子:SEO。所谓的SEO的意义,其实就是“搜索引擎优化”,而这里的搜索引擎优化的相关关键词的就是SEO。对于相关关键词的算法,各个搜索引擎都是不相同的,但是大致思路却有着异曲同工之妙。在这一章,暂时不做相关度的讨论。

言归正题,在搜索引擎优化的过程中,title尽管要去做的尽量简短,但是却一定要把网页中的内容尽量的表述出来。例如图1-4

  

  

  



图1-4

  

这里我们可以看到,“奥巴马称四年后美国财政赤字将减半”是整个这个网页的主要内容,而其中的“北美市场”是本篇文章所描述的内容发生区域,“财经”是这篇文章的所属频道。这样一来,整个网页的内容都被毫无遗漏的描述在title中,达到了便于搜索引擎蜘蛛索引的目的。

另外,为了考虑到整个网页的关键词密度,页面的关键词一般只在title中出现一次即可,否则会导致有关键词堆砌的作弊嫌疑。我们来看看如下的代码:

  

  


view plaincopy to clipboardprint?
<title>计算机维修培训_XX市电脑培训学校</title>   
   
<meta name="keywords" content="计算机维修培训">  
   
<meta name="Description" content="XX市电脑培训学校提供完善的计算机维修培训。">  


























<title>计算机维修培训_XX市电脑培训学校</title> <meta name="keywords" content="计算机维修培训"> <meta name="Description" content="XX市电脑培训学校提供完善的计算机维修培训。">

  

这里的页面关键词(keywords)是“计算机维修培训”,所以,我们在标题上只是出现一次计算机维修培训字样,如果在标题中多次出现精准关键词的话,就会造成关键词堆砌作弊。例如:<title>计算机维修培训_计算机维修培训_计算机维修培训_XX市电脑培训学校</title>。

关于页面关键词密度,在后面的文章中陆续和大家讨论,在这里暂时不多说。

  

【title优化的一些细节问题】

在SEO的title优化中,有一些小问题一直是很多SEOer们争论的焦点。

问题一、到底使用下划线作为关键词分割好,还是使用横杠作为关键词分割好?

这一点来说,我个人的认为是这样的:因为程序都是由一个个的英文单词所构成的,而在英文中,横杠“- ”确实是一些词汇之间的分隔符。但是在实际操作中,一些大的网站比如百度、腾讯等,都是以下划线“_”作为分割,而在Google中,则是使用横杠分割。因此,我个人在操作SEO优化时的一般办法是:如果我要单独优化百度或者其他国内搜索引擎,那么我就会使用下划线来分割title词句,而如果操作Google或者其他国外技术的搜索引擎,我会采取用横杠作为分割线。当然,如果想要在Google和百度都有良好表现的话,我个人建议还是使用下划线,因为毕竟很多门户网站都在这么做,我们效仿一下也是没有坏处的。另外,还有很多网站是使用“|”这样的标示来分割关键词,个人不建议使用。

  

问题二、title中有多少字符会被搜索引擎认为是SPAM而被消除?

有很多站长为了让搜索引擎更清楚的了解自己网页或者网站的内容,会在title中写上很多的字,而作为搜索引擎的反SPAM(这里的SPAM不是垃圾邮件,而是搜索引擎垃圾)机制来说,如果太多的文字,就会被搜索引擎认为是SPAM而被消除,那么到底最多多少字才可以不被消除呢?

前文中我们提到过,搜索引擎对于title索引的最大字符数是255个字符,因此,有很多SEO操作者提出不超过255个字符即可。但是一般在Google和百度所显示的标题字符,都有一个长度极限,如果长度超过了搜索引擎显示的极限,那么就会被省略号所代替,例如图1-5.

  

  



图1-5

因此,我个人的做法是,只在title中反映当前网页的标题和关键词以及网站名称,因为再多的话,对于在搜索引擎显示结果的页面上也是没有什么优势的。

  

问题三:一般的title优化是否会被视为作弊?

一般的title优化,包括对标题结构的优化和内容形容更准确的优化,这样的做法是不会被判断成为作弊的。但是,如果添加无关的关键词作为优化,或者是频繁的修改title,这就会被认为是作弊了。

  

【一定要避免的问题】

  

问题一、有一些不太了解搜索引擎反SPAM的朋友,为了提高自己的网页访问率,就在title中加上一些和页面毫无关系的关键词。例如现在“小沈阳”“不差钱”这些关键词很火爆,这些朋友就在自己的一个跟这两个关键词毫无关系的技术类页面的标题上写上如图1-6的东西。

  

  

  



  

图1-6

  

这个页面本来是要写linux中的ARM体系结构,但是又无端的加上了毫无内容的小沈阳、不差钱、刘亦菲、NBA等内容,这是千万要避免的,对于各大搜索引擎的反作弊机制来说,这是“首当其杀”的问题。

  

问题二、我时常会看到一些网页的标题是如同图1-7一样的

  

  

  



  

图1-7

  

这些页面的标题都是制作页面时的默认标题,例如Untitled、 New Page 1等,这是一定要避免的,因为就算你的页面优化做的再好,如果没有一个合理的标题,那么这个页面的搜索引擎排名就会相当、非常以及特别的低,低到你甚至找不到网页在搜索引擎的什么位置。

  

问题三、全站所有页面前面十几个字都是相同的。

这个在前文中提到过,有些时候我们在Google用“site:”命令查看一个网站所有的收录页面时,可以发现这些页面title前半部分的内容都是一样的,有些是网站名称,有些是网站主关键词,这个一定要避免。因为搜索引擎会以为你的网站中的所有页面都是同样的内容。要注意的是:搜索引擎看网页的习惯不是和我们人类一样,而是直接看代码,因此,当他看到代码中第一行文字出现的title都一样,那么他就会对网页本身失去兴趣。

  

问题四、万不可频繁更换title

网页的title如果时常频繁的改变,那么搜索引擎会认为你是在作弊,或者你的网站在频繁的更换内容,这时候,搜索引擎就会对你的网站失去兴趣,从而采取不索引的原则。在门户级SEO优化的过程中,一般的做法是对已经生成的HTML不再优化,而是对新的页面优化,如果是使用伪静态的页面,也是对于标题的一次性小改动。千万不可频繁的修改网页的title。

  

关于title优化的基础操作就这么多,希望大家一同讨论。下一篇文章我们集中讨论关关键词的选取和网页描述的写法。

另外,这里要特别说一点和title优化无关的问题:有很多网站站长为了能让自己的网站尽快被搜索引擎收录,就多次的向搜索引擎主动提交自己的网站。千万不要这样做,因为这样的做法在你看来是收录心切,而对于搜索引擎,这是一个不成文的严重作弊手段,所以切不可心急。
















































17:58 | 添加评论 | 固定链接 | 写入日志SEO优化 中文分词
浅谈SEO的关键:中文分词(上)

在搜索引擎技术中,中文分词对于影响搜索引擎结果排序有着至关重要的作用。我们在实际的搜索引擎优化中,为了避免很多主关键词的大量竞争,也会使用到中文分词技术来做SEO优化。举个简单的例子,假如我们需要优化一个内容是“轴承”的网页,那么想要这个关键词在搜索引擎中排名更好,那就是很难的一件事了。因为“轴承”这个关键词热度太高,所以想要通过SEO手段去将其优化到搜索结果的首页是一件非常难的事。在这个时候我们经常会使用长尾关键词去优化这样的高热度关键词,也就是说,我们经常会优化一些例如“北京轴承销售商”、“北京进口轴承”等这样的关键词。而想要把这样的关键词做到搜索结果的前列,对于中文分词技术的把握和对于关键词的布局,有很大的重要性。

中文分词在中国已经是有很久的历史了,明朝末年有一位画家叫做徐渭(文长),据说因为他家过于贫困,根本没有粮食可吃,因此只好跑到亲戚朋友家“蹭饭”。一次两次亲戚朋友不觉得什么,但是时间长了,就感觉很厌恶徐渭。终于有一天,亲戚忍无可忍,不顾外面下着春雨就想把徐渭赶出去,于是在墙上写了一行字,委婉的下了逐客令:

  

“下雨天留客天留人不留”

  

徐渭看到那行字以后,心里自然明白亲戚的意思。但是到了晚上亲戚回到家一看,徐渭居然又在饭桌前等候。主人很奇怪,就问徐渭:“你看到墙上的字了吗?”徐渭笑笑:“看到了,但是没想到你这么好客,既然这样,我也不客气了,就继续住下去吧!免得你自责招待不周。”说完,指指墙上的字,主人一看,差点气晕过去,原来,徐渭在这行字上加了几个标点符号,主人无奈,只好让徐渭继续留下。徐渭是这么写的:

  

“下雨天,留客天。留人不?留。”

  

中国的文字博大精深,不同的标点符号,不同的断句就代表着不同的意思。所以,曾经有一位Google的科学家说:“如果可以做好中文搜索引擎,那么我们就不怕任何语种的搜索引擎研究了。”

  

那么中文分词在搜索引擎优化中到底具有怎样的意义呢?分词对SEO的影响是多方面的,最重要的就是对长尾流量的影响。例如说我们常常见到很多很想做的长尾关键词,例如广州进口轴承销售,上海进口轴承销售等等,但我们通过前文对于SEO的了解可以知道,一个页面做关键词不要超过三个,因为超过三个就会分散了每个关键词的权重,反而一个都做不好。但如果我们想超过三个又不影响呢?那么我们这时候就需要利用中文分词来对关键词进行组合了,例如<title>进口轴承销售-上海-广州<title>。这样分出来的结果可能没有广州进口轴承销售或上海进口轴承销售的关键词来的直接,但用这样分词的办法却使到很多词都获得不错的效果。多个词排名在搜索引擎结果页的首位,总是要比一个关键词排名在第一位的覆盖面要广。久而久之,因为 广州+进口轴承销售、上海+进口轴承销售这些页面让搜索引擎知道你的页面和“进口轴承销售”这个关键词相关度很高,因此进口轴承销售这个主关键词的排名也会相对提高。

当然,我们上面举得例子是还没有完全对于关键词进行完全的拆分。下面我们就对中文分词做一个粗略的讨论。

最早的中文分词办法是由北京航天航空大学的梁南元教授提出的,一种基于“查字典”的分词办法。例如这个句子:“著名导演张艺谋说国庆节晚上将安排十万人到天安门联欢。”

用 “查字典” 的分词方法,我们要做的就是把整个句子读一遍,然后把字典里有的词都单独标示出来,当遇到复合词的时候(例如北京大学),就找到最长的词匹配。遇到不认识的字符串就分割成单个文字。根据这样的办法,我们以上的文字可以切分为:

“著名 | 导演 | 张艺谋 | 说  |  国庆节 | 晚上 | 将 | 安排 | 十万人 | 到 | 天安门  | 联欢”

这样的分词办法虽然说可以应付很多的句子,但是由于细分的太多,在真正搜索引擎使用的过程中,到底哪一个词才是重点就无法表述,从而搜索引擎搜索出的结果也不能达到最大的相关度。于是在80年代,哈尔滨工业大学计算机博士生导师王晓龙博士提出了“最少词数”的分词理论,即为,一句话应该是分词最少的字符串,这样会更多的让搜索引擎更明白这句话到底是什么意思。但是这样的办法虽然更好,新的问题却也显现了出来。例如,我们在做“二义性”关键词组的时候,就不能说最长的分割就是最好的结果。举个例子,“吉利大学城书店”这个关键词正确的分词应该是“吉利 |  大学城  |  书店”而不是词典中的“吉利大学 | 城 | 书店 ”

  

目前,主流的分词办法有两种,一种是基于统计模型的文字处理,另外一种是基于字符串匹配的逆向最大匹配法。

  

基于统计模型的文字处理

  

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。(上文引自SEO专家论坛)

基于统计模型的文字处理,因为技术性比较高,而且只是使用在搜索引擎分词算法的过程中,如果学会,对于SEO的帮助会更大,各位可以加入我的SEO培训班进行深入讨论。这里更多的说一下基于字符串匹配的逆向最大匹配法。

一般来说,我们在SEO中使用最多的分词办法就是基于字符串匹配的逆向最大匹配法。这个办法其实很简单。我们以一个简单的例子来说明。

“瑞星一直以质量和服务开拓安全市场”。

如果这个句子我们以“查字典”的办法正向切分的话,就会切分成下面的句子。

“瑞\星\一直\以\质量\和服\务\开拓\安全\市场”

我们可以看到,正向切分出现了一个重大的错误“和服”,而“和服”这个关键词是日本的传统服饰,和这句话的意思根本没有任何关系,如果真的这样去分词的话,那么在真正搜索引擎索引的过程中,我们搜索“和服”也会出现这样的错误结果。

因此我们开始做逆向最大匹配法。从这句话的后面往前读(从右向左)

“瑞\星\一直\以\质量\和\服务\开拓\安全\市场”。

这个分词办法才是正确的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则


QQ|手机版|小黑屋|电脑计算机论坛 ( 京ICP备2022023538号-1 )

GMT+8, 2024-5-8 04:26 , Processed in 0.075409 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表