Google 向网站管理员提供的信息

2006-01-16 23:25:43

Google 非常重视搜索结果的全面性。我们致力于为用户提供全面公平的搜索结果,为此我们不能参与审查行为。只有应责网页的网站管理员的申请,或在网页恶意损坏我们的索引或法律要求的情况下,我们才停止为某个网站的网页建立索引。此项 规定能有效确保网页不会从索引中被不恰当地删除。 删除选项 有关删除的操作说明,请选择以下选项。删除会在 Google 下次抓取您的网站时生效。 删除整个网站 删除网站的一部分 删除网页摘要 删除存储的网页 删除过期(“失效”)链接 从 Google 图片搜索中删除图片 删除转换代码网页 删除整个网站 如果希望从 Google 索引中删除整个网站,您可在服务器的根目录中置入一个名为 robots.txt 的文件。这是大多数 Web 抓取工具在从索引中排除 Web 服务器或目录时要遵守的标准协议。有关 robots.txt 的详细信息,可查看此处:http://www.robotstxt.org/wc/norobots.html. 请注意,Googlebot 不会对 robots.txt 提取器所做的 401/403 回复(“未授权”/“禁止”)解释为不抓取该网站上任意页面。 从搜索引擎中删除您的网站,并防止将来所有漫游器抓取您的网站,请将以下 robots.txt 文件置入您服务器的根目录: User-agent: * Disallow: / 要只从 Google 中删除您的网站,并只防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件置入您服务器的根目录: User-agent:Googlebot Disallow:/ 每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。 让 Googlebot 只为所有 http 网页而不为 https 网页建立索引,您应使用下面的 robots.txt 文件。 对于 http 协议(http://yourserver.com/robots.txt): User-agent: * Allow: / 对于 https 协议(https://yourserver.com/robots.txt): User-agent: * Disallow: / 说明:如果确信自己的申请为紧急申请,而不能等到 Google 下次抓取您的网站,可使用我们的自动网站删除系统。 为了使此自动过程能够进行,网站管理员需首先在所涉及网站中建立 robots.txt 文件。 如果该 Web 服务器根目录中存在此 robots.txt 文件,Google 会继续在以后的抓取中排除您的网站或目录。如果您无法进入您服务器的根级目录,可在与要删除文件同级的目录中置入 robots.txt 文件。 此操作以及通过自动网址删除系统提交会将您的网站从 Google 索引中暂时删除 180 天,无论您是否在申请后删除该 robots.txt 文件。 (如果要将 robots.txt 文件置于同级目录,您需要每 180 天返回一次网址删除系统以重新发出删除要求。) 删除网站的一部分 选项 1: Robots.txt 要删除您网站的目录或个别网页,可在服务器的根目录中置入一个 robots.txt 文件。有关如何创建 robots.txt 文件,请参阅漫游器排除标准。在创建robots.txt 文件时,请记住以下几点:在决定抓取某个特定主机上的哪些网页时,Googlebot 会遵循 robots.txt 文件中以“Googlebot”开始的 User-agent 的第一条记录。如果不存在这样的条目,则遵循含有“*”的 User-agent 的第一个条目。另外,Google 已通过使用星号提高了 robots.txt 文件标准的灵活性。Disallow 格式中可包含 “ * ” 与任意字符序列相匹配,而以“$”结尾的格式可表示名称的结尾。 删除某特定目录下的所有网页(例如:lemurs),应使用以下 robots.txt 条目: User-agent: Googlebot Disallow: /lemurs 删除某特定文件类型的所有文件(例如:.gif),应使用以下 robots.txt 条目: User-agent: Googlebot Disallow: /*.gif$ 删除动态生成网页,应使用此 robots.txt 条目: User-agent: Googlebot Disallow: /*? 选项 2:元标记 另一种标准,逐页使用起来更方便,它需要在 HTML 页添加 <META> 标记以告诉漫游器不要为该页建立索引。有关此标准的说明,请参阅http://www.robotstxt.org/wc/exclusion.html#meta。 防止所有漫游器将您网站中的网页列入索引,应将以下元标记置入您网页的 <HEAD> 部分: <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 要允许其他漫游器将您网站中的页面列入索引,而只防止 Google 的漫游器将您网站中页面列入索引,应使用以下标记: <META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"> 允许漫游器将您网站中的页面列入索引,但要指示它不跟踪外向链接,应使用以下标记: <META NAME="ROBOTS" CONTENT="NOFOLLOW"> 说明:如果确信自己的申请为紧急申请,而不能等到 Google 下次抓取您的网站,可使用我们的自动网站删除系统。 为了使此自动过程能够进行,网站管理员需首先在该页的 HTML 代码中插入相应的元标记。此操作以及通过自动网址删除系统提交会将这些网页从 Google 索引中暂时删除 180 天,无论您是否在申请后删除 robots.txt 文件或元标记。 删除网页摘要 网站摘要是显示在搜索结果中网页标题下的片断或节录,用来说明网页的内容。 防止 Google 显示您的网页摘要,可将此标记置入您网页的 <HEAD> 部分: <META NAME="GOOGLEBOT" CONTENT="NOSNIPPET"> 说明:删除网页摘要的同时也会删除存储的网页。 说明:如果确信自己的申请为紧急申请,而不能等到 Google 下次抓取您的网站,可使用我们的自动网站删除系统。 为了使此自动过程能够进行,网站管理员需首先在该页的 HTML 代码中插入相应的元标记。 删除存储的网页 Google 对所抓取的网页自动进行“屏幕截取”,并将之存档。 如果原始网页不可用(由于网页的 Web 服务器暂时出现故障),用户则可收到此 “ 存储 ” 版本。存储的页面与 Google 上次抓取时的显示一模一样,而且我们会在其页面的顶端显示一条说明它是存储版本的信息。用户可以通过选择搜索结果页上的 “ 存储 ” 链接来访问存储的版本。 要防止所有搜索引擎为您的网站显示“存储”链接,将此元标记置入您网页的 <HEAD> 部分: <META NAME="ROBOTS" CONTENT="NOARCHIVE"> 允许其他搜索引擎为您的网站显示“存储”链接,而只防止 Google 这样做,可使用以下标记: <META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"> 说明:此标记只删除网页的“存储”链接。Google 会继续为网页建立索引,并显示网页摘要。 说明:如果确信自己的申请为紧急申请,不能等到 Google 下次抓取您的网站,可使用我们的自动网站删除系统。 为了使此自动过程能够进行,网站管理员需首先在该页的 HTML 代码中插入相应的元标记。 删除过期(“失效”)链接 Google 定期自动更新所有索引。在抓取 Web 时,我们查找新的网页,删除失效的链接,并自动更新链接。现在已过期的链接很可能在我们下次抓取时“淡出”我们的索引。 说明:如果确信自己的申请为紧急申请,不能等到 Google 下次抓取您的网站,可使用我们的自动网站删除系统。只有当该网页通过 HTTP 头返回真正的 404 错误时,我们才会接受您的删除申请。请确保返回真正的 404 错误,哪怕您决定为访问者显示更加友好的 HTML 页面。如果 HTTP 头返回的状态码还是 200(即正常状态),那么即便返回的页面显示“未找到文件”也无助于事。 从 Google 图片搜索中删除图片? 要从 Google 的图片索引中删除图片,可在服务器的根目录中添加 robots.txt 文件。(如果无法将此文件放置到服务器的根目录,可以将它放置在目录一级。) 示例:如果希望 Google 从 www.yoursite.com/images/dogs.jpg 中删除出现在您网站上的 dogs.jpg 图片,可在 www.yoursite.com/robots.txt 创建一个网页并加入以下内容: User-agent: Googlebot-Image Disallow: /images/dogs.jpg 要从我们的索引中删除您网站的所有图片,请将以下 robots.txt 文件置入您服务器的根目录: User-agent:Googlebot-Image Disallow:/ 这是大多数 Web 抓取工具在从索引中排除 Web 服务器或目录时要遵守的标准协议。有关 robots.txt 的详细信息,可查看此处:http://www.robotstxt.org/wc/norobots.html. 另外,Google 已通过使用星号提高了 robots.txt 文件标准的灵活性。Disallow 格式中可包含 “ * ” 与任意字符序列相匹配,而以“$”结尾的格式可表示名称的结尾。要删除某特定文件类型的所有文件(例如:包含.jpg 而不包含.gif),可使用以下 robots.txt 条目: User-agent: Googlebot-Image Disallow: /*.gif$ 说明:如果确信自己的申请为紧急申请且,不能等到 Google 下次抓取您的网站,可使用我们的自动网站删除系统。 为了使此自动过程能够进行,网站管理员需首先在所涉及网站中建立 robots.txt 文件。 如果该 Web 服务器根目录中存在此 robots.txt 文件,Google 会继续在以后的抓取中排除您的网站或目录。如果您无法进入您服务器的根级目录,可在与要删除文件同级的目录中置入 robots.txt 文件。此操作以及通过自动网址删除系统提交会将您在 robots.txt 文件中所指定的目录从 Google 索引中暂时删除 180 天,无论您是否在申请后删除该 robots.txt 文件。(将 robots.txt 文件置于同级目录,您需要每 180 天返回一次网址删除系统以重新发出删除要求。) 删除转换代码网页 Google 移动电话 Web 搜索可以让用户搜索 Google 索引中所有桌面 Web 浏览器的内容。因为该内容并非专门为移动电话和设备设计,所以可能会出现显示异常;Google 会通过分析原始 HTML 代码并将其转换为移动设备可用格式来自动转换(或“代码转换”)这些网页。为了确保以最佳质量在您的移动电话和设备上显示最便于使用的网页,Google 可能会对图片、文字格式和/或网页功能的某些方面进行调整(包括尺寸)或转换。 要阻止对您的网页转换代码,请向 mobile-zh-cn@google.com 发送删除申请