机器人放牧和蜘蛛争吵的终极指南 - 第3部分 2016-11-10 10:07:29

$888.88
所属分类 :基金

在本系列的第一部分和第二部分中,我们了解了机器人是什么以及为什么爬行预算很重要在第三部分和最后一部分中,我们将回顾机器人在让搜索引擎知道的过程中可能遇到的常见编码,移动和本地化问题什么对您的网站很重要如果您想要有机排名,那么好的,干净的代码很重要不幸的是,小错误可能会混淆爬虫并导致搜索结果出现严重障碍以下是一些需要注意的基本内容:1无限空间(也称为蜘蛛)陷阱)编码不好有时会无意中导致“无限空间”或“蜘蛛陷阱”某些问题可能导致蜘蛛卡在一个可能快速耗尽爬行预算的循环中这些包括指向同一个循环的无尽统一资源定位符(URL)内容;具有相同信息的页面以多种方式呈现(例如,对产品列表进行排序的几十种方式);或包含无限日期的日历错误地在404错误页面的超文本传输​​协议(HTTP)标题中提供200状态代码是向机器人呈现没有有限边界的另一种方式依靠Googlebot正确确定所有“软404”是一个危险的游戏,可以用你的抓取预算当一个机器人遇到大量的精简或重复的内容时,它最终会放弃,这可能意味着它永远不会得到你最好的内容,你结束了索引中的无用页面堆栈查找蜘蛛陷阱有时可能很困难,但使用上述日志分析程序或像Deep Crawl这样的第三方爬虫是一个很好的起点您正在寻找的机器人访问不应该是发生,不应存在的URL或没有任何意义的子串另一条线索可能是具有无限重复元素的URL,例如:examplecom / shop / shop / shop / shop / shop / shop / shop / shop / shop / ... 2嵌入式内容nt如果您希望有效地抓取您的网站,最好保持简单Bots经常遇到Javascript,框架,Flash和异步JavaScript和XML(AJAX)的问题尽管Google在抓取Javascript和AJAX等格式方面做得越来越好,但最安全的是坚持使用老式超文本标记语言(HTML)您可以使用无限滚动的一个常见示例虽然它可能会提高您的可用性,但它可能会使搜索引擎难以正确地抓取您的内容并将其编入索引确保每个你的文章或产品页面有一个独特的URL,并通过传统的链接结构连接,即使它是以滚动格式呈现谷歌的2016年11月的移动优先索引公告通过搜索引擎优化(SEO)社区发送冲击波它是当你想到它时并不奇怪,因为大多数搜索是从移动设备进行的,而移动是计算Googl的未来在分析和排名时,e主要关注移动版本的页面而不是桌面版本这意味着机器人在查看您的桌面页面之前会查看您的移动页面1首先针对移动用户进行优化已经过去了移动网站可能是您桌面网站的简化版本而是首先考虑移动用户(和搜索引擎机器人),然后向后工作2移动/桌面一致性虽然大多数移动网站现在都有响应,但如果您有单独的移动设备您的网站版本,确保它具有相同的内部链接结构,并使用rel = alternate和rel = canonical链接元素在两个站点之间双向链接使用rel = canonical指向移动站点的桌面版本并指向来自桌面站点的移动站点使用rel = alternate请注意,这是一个临时解决方案,直到您转向响应式设计,这是首选方法,根据Google 3 Accelerate d移动页面加速移动页面(AMP)是谷歌更具争议性的发明之一,许多网站管理员仍然对使用它们犹豫不决,因为这意味着让谷歌在自己的域名上托管你网页的缓存版本谷歌的理由是加速移动页面允许他们更快地向用户提供内容,这对移动设备至关重要虽然目前尚不清楚Google是否在搜索结果中优先考虑加速移动网页优先于其他类型的移动网页,但加载时间越快,排名越高 使用rel = amphtml指向页面的AMP版本并使用rel = canonical指向AMP页面中的规范网址请注意,即使加速移动网页托管在Google网址上,它们仍然会占用您的抓取预算,但不幸的是,它不仅仅是使用机器人的搜索引擎它们有各种形状和大小...以及用途,包括那些旨在破解,间谍,垃圾邮件以及通常会对您的网站做些讨厌的东西不像友好的搜索引擎机器人,这些蜘蛛更可能忽略所有你的指示并直接进入颈部仍然有一些黑客你可以用来防止坏机器人被警告,这些黑客可能很耗时,所以如果你真的是真的值得咨询你的托管公司他们的安全解决方案苦苦挣扎1使用htaccess阻止互联网协议(IP)地址阻止坏机器人就像为你想要阻止的每个机器人的htaccess文件添加一个“拒绝”规则一样简单当然这里的棘手部分是ac确定机器人正在使用什么IP地址有些机器人甚至可能使用几个不同的IP,这意味着您需要阻止一系列地址您还要确保不阻止合法IP地址除非您获得已知IP列表要阻止受信任的来源或您知道机器人访问了哪个页面,以及服务器的大致时间或地理位置,您可能需要花费数小时搜索日志文件2使用htaccess来阻止用户代理字符串另一个选项是为特定用户代理字符串设置“拒绝”规则同样,您需要来自受信任来源的列表,或者您将对日志文件进行排序以识别特定机器人,然后将信息添加到您的htaccess文件由于机器人需要了解您希望页面出现在哪个国家/地区版本的搜索引擎,因此您需要确保您的代码和内容提供有关您的网站应该被编入索引的位置的一致提示1 Hreflang h reflang标签(实际上是一种rel = alternate link元素)告诉机器人你的页面所针对的语言和区域(例如,en-ca或en-au)这听起来很简单,但它可能会引起一些令人头疼的问题

你有不同语言的同一页面的两个版本,你需要为每个版本提供一个hreflang标签这两个hreflang标签需要包含在两个页面中如果你搞砸了,你的语言定位可能被认为是无效的,你的页面可能会触发重复的内容过滤器,或者不会在正确的国家/地区版本的Google 2本地拼写中编入索引虽然hreflang标签很重要,但是机器人也在寻找其他线索来指导他们如何索引您的网站有一点需要注意是本地拼写如果您的网页定位到美国受众,但您使用英国拼写,则可能会导致列入错误的国家/地区版本的Google 3顶级域名,子域名或不同位置的子目录如果您想要如果您的内容定位到特定区域的机器人更清楚,您可以使用国家/地区代码顶级域名(ccTLD),子域名或子目录例如,以下是指示针对加拿大用户的内容的各种方式:exampleca /类别/小部件或caexamplecom /类别/小部件或examplecom / ca /​​ category / widget虽然许多网站所有者甚至一些SEO可能认为他们可以单独使用良好的内容和质量反向链接,但我想强调许多这些小调整可以对您的排名产生重大影响如果您的网站未被抓取 - 或者抓取不当 - 您的排名,流量和销售将最终受到影响本文中表达的观点是来宾作者的观点,而不一定是搜索引擎土地工作人员作者列在这里