了解重复内容的指南……并在 WordPress 上消除它
已发表: 2021-12-16在生活中,某些事情如何让我们发疯是很疯狂的。 我在想那些在超市排队时无耻地欺骗你的人。
那些不做有嚼劲的意大利面的人,当他们把它放在沸水里时把它切开……或者那些清晨的闹钟响起,响起,再响起,让你从一张温暖的床上醒来。

然后你会发现重复的内容。 您知道,当您在另一个网站上逐字逐句地找到全部或部分内容时,那个不愉快的时刻。
或者,当那个老旧的Ctrl+C Ctrl+V (或Cmd+C Cmd+V用于支持 Mac 的人群)再次造成严重破坏时。 正如他们所说,它真的让你发疯。
当您在其他人的网站上发现重复内容时,它是一个真正的问题,但它也可以在您自己的 WordPress 网站上弹出,而您甚至都不知道它。
这同样令人讨厌,尤其是因为它会对您的 SEO 产生负面影响。
为了避免这种情况,跟我来!
在这篇文章中,您将了解有关这个该死的重复内容的所有信息,尤其是摆脱它的具体解决方案。 我保证,它保证不会大惊小怪。
概述
- 什么是重复内容?
- 如何查找和识别重复内容?
- 是什么导致 WordPress 内部重复内容(以及如何解决)?
- 摆脱重复的外部内容的 3 个步骤
什么是重复内容?
重复内容是同时在多个网址 (URL) 上相似的内容,无论是在同一网站的不同页面上,还是在其他网站上。
这使 Google 等搜索引擎的工作变得复杂,它们可能会选择在其 SERP(搜索引擎结果页面)中将重复页面排名较低。
为了清楚起见,重复内容主要有两种类型:
- 内部重复,发生在您的网站上,大多数时候您都不知道。 假设它们是在您不知情的情况下制造的。
- 外部重复,当其他网站在其页面上复制您的全部或部分内容时。
描图纸的图像
现在,为了说明什么是重复内容,让我们退后几年(漫长):回到小学的长椅和艺术课。
你还记得著名的描图纸,它可以让你复制一模一样的手写画吗? 嗯,重复的内容有点像这样。
假设基本绘图表示您的内容的原始 URL,例如https:// yourwebsite.com/your-awesome-post/ 。https:// yourwebsite.com/your-awesome-post/
使用描图纸相同(或部分)复制的绘图说明了重复的 URL: https://yourwebsite.com/your-awesome-post-bis/ ://yourwebsite.com/your-awesome-post-bis/。
你清楚吗? 然后回到未来,我的意思是现在。

超过四分之一的网络被复制
2013 年,前谷歌工程师马特·卡茨 (Matt Cutts) 表示,网络上发布的 25% 到 30% 的内容将是重复的。
即使这个统计数据倒退了一点,它也给了你一个非常有说服力的数量级。
幸运的是,正如谷歌所说, “大多数情况下,这不是欺骗性的”。
这意味着重复内容的原因通常是技术性的和无意的:您所在的网站管理员不会故意创建重复的内容。
因此,如果您的目标不是“欺骗和操纵”其搜索结果,那么世界上最常用的搜索引擎谷歌就不会惩罚您。
但是,请注意:如果 Google 不认为这种做法是垃圾邮件,那么它也不真正喜欢重复。
为什么? 因为最终,它必须付出额外的努力来索引和“显示包含不同信息的页面” 。
在 SEO 中,索引阶段对应于搜索引擎机器人扫描整个网络上的页面的时刻,以便将它们分类到索引(一种巨大的数据库)中。
正是在这个索引中,像谷歌这样的搜索引擎能够在其结果页面 (SERP) 中显示最相关的结果。
Google 如何处理重复内容?
好吧,我说谷歌时说“它”,但实际上我应该说“谷歌的机器人”,也称为蜘蛛或谷歌机器人。
以下是它们在发现重复项时如何操作的示意图:
- 他们通过从一个链接导航到另一个链接来浏览网络以查找新内容(请记住,网络是巨大的)。
- 当他们遇到重复的内容时,他们会将它们分组到一个集群中。
- 然后根据他们的说法,他们显示该集群中存在的内容的最佳结果。

人气加成,而不是资历加成
问题是这个最佳结果并不总是对应于原始内容(不重复的内容) 。
在这一点上,很难责怪谷歌:想象一下它的任务是多么艰巨,它必须在数千个相同的内容中找到原始内容!
正如 Daniel Roch 所说,谷歌并不依赖于内容的发布日期。
这太简单了,因为您可以“在管理中随意修改每个内容的日期” 。
谷歌依靠“URL 和域的流行度来确定谁是内容的来源以及谁是可能的抄袭者”, Daniel Roch 补充道。 “换句话说,如果一个更受欢迎的网站从你那里窃取内容,你就输掉了与搜索引擎的战斗”。
如果您有兴趣,同样的 Matt Cutts 在此视频中对此进行了详细说明:
我们可以记住这个演示的两个主要内容:
- 严格来说,谷歌不会惩罚重复的内容,除非在“极少数情况下”创建它是为了“操纵我们的排名和欺骗我们的用户” 。 如果发生这种情况,相关网站“将不再出现在其搜索结果中” 。
- 其余的时间,重复的内容不会受到惩罚,但它是一样的。 如果您是重复内容的受害者,并且 Google 决定不显示您内容的原始版本,您将在其搜索结果页面中变得不可见。
因此,您的搜索引擎优化 (SEO) 操作可能会遭受重大后果。

SEO中重复内容的影响是什么?
重复的内容会对您的内容的 SEO (搜索引擎优化)产生负面影响。
换句话说,您可能会看到您网站上的流量减少,并在搜索结果页面上失去位置,原因如下:
- Google 并不确切知道哪个是重复内容的原始版本,因此它只会显示一个,因此会在其搜索结果中“隐藏”所有其他相同的结果。
- 其他用户对您的重复内容的反向链接将不太有效。 链接将分布在几个重复的出版物中,因此权力较小。 但是,内容的相关反向链接越多,它获得更好排名的机会就越大。
- 您将消耗更多的抓取预算(Google 可以在您的 WordPress 网站上抓取的最大页面数),因为搜索引擎将不得不花费更多时间来抓取您的重复内容,并且存在索引新“原始”内容的速度较慢的风险,或者根本不索引它。
由于重复的内容经常潜伏在阴影中,并且不能总是被识别和驯服,因此在下面的部分中找出几种揭露它的方法。

如何查找和识别重复内容?
用你的眼睛:视觉方法
您将它们关闭以睡觉,然后在醒来后立即将它们打开,并阅读本文:您的眼睛是检测可能存在的重复内容痕迹的第一武器,尤其是外部重复。
想象一下:几个月前,您发表了一篇文章,其中提炼了有关如何制作美味巧克力布朗尼的技巧。
现在您遇到了一个出版物,它逐字复制了原始源代码中的多个段落。 “没门! 这是我写的,你这个小偷!”
是的,是你,你被抄袭了。 现在,整篇文章都没有被复制和粘贴,但您可能想知道我们是否处于重复内容的情况? 好点子。
在这件事上,没有确切的规则。 也就是说,没有一个搜索引擎定义了一个不能被超越的限制,比如: “如果你复制了 40% 的内容,你就是一个糟糕的复制者! “
为了帮助你,假设如果整个句子都被复制了——记住,谷歌谈论的是“大块内容” ——你可以认为内容被复制了。
你的眼睛要哭了,但要知道也有可能的补救措施来擦干你的眼泪。 我稍后会在这篇文章中讨论这个问题。
在眼睛之后,您可以使用第二个武器:检测重复内容的工具。
使用专用工具:第三方方法
市场上有几种检测内部和外部重复的解决方案。 推介会。
杀死重复

Kill Duplicate 是一款重要的高级工具,可帮助识别外部重复,尤其是通过扫描您的内容。
完整,它还可以通过直接在仪表板上提出解决方案来帮助您处理剽窃(例如联系主机、站点或提出投诉)。
价格:每月 19 欧元起( 不包括增值税),即 ± 21 美元。
文案

Copyscape 是一种免费增值解决方案,可帮助您在 Web 上找到页面的副本。 要使用它,只需在搜索栏中输入您选择的 URL。

然后交叉你的手指,没有人复制你。
然后,您可以检查 Copyscape 已识别的出版物,以查看内容是否重复。
Copyscape 还提供具有更多高级功能的高级版本(每次搜索 3 美分起)。
重复检查器

DupliChecker 将自己定位为“反抄袭软件” 。 在其免费版本中,每次搜索限制为 1,000 个单词,它允许您通过输入文本的 URL、一段文本或下载文件来检查文本的原创性。
因此,您可以在发布内容之前和之后使用它。 如果我们可以对许多广告的存在感到遗憾,DupliChecker 仍然很有趣,因为它通过每次向您显示相似率来显示多个结果:

专业版也可从 10 美元购买,最多可使用 30,000 个单词。
定位器

Siteliner 将非常适合“探索您的站点” ,因为它可以识别内部重复。
它以图表的形式呈现其结果。 免费版允许您每 30 天扫描一次网站,最多 250 页。
使用 Pro 产品,您最多可以处理 25,000 个页面,并选择要从识别过程中排除的页面。
尖叫的青蛙

Screaming Frog 不是专门用于识别重复内容的工具。 但寻找内部重复仍然很重要。
它是一个爬虫,一种分析您的页面 SEO 的工具:它提取并扫描您网站的 URL 以查找问题(例如损坏的链接、 title和meta description标签分析、服务器错误等)。
因此,它将能够通知您某些重复元素,例如您的页面的h1标题和title和meta description标签。
免费版最多可以分析 500 个 URL。 专业版的费用为每年 149 英镑(即 ± 197 美元)。
谷歌搜索控制台

我们用一把必不可少的瑞士军刀来结束这个工具列表:谷歌搜索控制台。
这个免费工具可以让您更好地管理您的网站并跟踪您的 SEO。 它提供了很多信息:您网站上的错误、搜索分析、链接、索引状态、抓取错误等。
与上面提到的小伙伴不同,Google Search Console 将无法告诉您哪些 URL 已在内部重复。
但是,它可以帮助您找出答案。 为此,只需转到“索引” >“覆盖”菜单。 你可以:
- 检查索引 URL 的数量。 如果您知道您已经在您的网站上创建了 206 个页面,并且 Google 已将其中的 674 个编入索引,那么您就知道周围肯定有一些重复的内容……
- 检查排除的 URL,以了解它们是否适合重复的内容框。

另请注意,许多 SEO 工具(例如 Semrush 或 Ahrefs)也具有帮助您识别网站上重复内容的功能。
使用来自 Google 的特定命令:手动方法
在这一轮工具之后,您可以激活最后一个杠杆来查找重复内容:谷歌。
为此,著名的搜索引擎提供了运算符,即您可以在其搜索栏中指定的命令以更精确地过滤其结果。
其中一些可以有效地搜索重复内容,例如站点搜索运算符( site: )。 要搜索外部重复,请通过键入以下查询从搜索结果中排除您的域名:
-site:yourdomainname.com "title of your publication" 。 在以下 WPMarmite 文章的示例中,这将给出: -site:wpmarmite.com/en/ "test of 6 must-have SEO plugins on WordPress"

嗯,那是你刚刚吞下的一大块。 现在您知道什么是重复内容以及如何识别它。
现在你必须摆脱它。 这篇文章的其余部分将重点介绍如何停止的详细说明:
- 内部重复
- 外部重复
我建议您从您在 WordPress 网站上可能遇到的问题开始。
是什么导致 WordPress 内部重复内容(以及如何解决)?
网址
URL 是网页的地址。 例如,可以在以下 URL 找到 WPMarmite 主页: https://wpmarmite.com/en/ ://wpmarmite.com/en/。
可以想象,您的 WordPress 网站拥有的内容越多,您拥有的 URL 就越多。 例如,在大型电子商务网站的情况下,如果您销售大量产品,您可以非常快速地访问数千个 URL。
到现在为止还挺好。 但是,在某些情况下,我们著名的 URL 会开始困扰您:
- 当它们包含跟踪对特定页面的访问的指示时。 然后,新参数会自动添加到 URL 的末尾。 例如,初始 URL 为
https://yourpost.com,重复 URL 为https://yourpost.com?utm_source=facebook。 您可能看不到差异,但搜索引擎会。 - 当它们包含用于过滤导航的参数时。 在使用多面搜索的 WooCommerce 商店中经常出现这种情况。 这对用户来说非常方便,他们可以按尺寸、颜色、价格等对产品进行分类。令人担忧的是,这会创建许多重复页面,内容几乎一字不差,请参阅:
-
https://yourstore.com/pants-black-size-m -
https://yourstore.com/pants-black-size-l
-
- 当他们无差别地使用斜线时。 例如:
https://yourstore.com/pants-black-size-m://yourstore.com/pants-black-size-m 和https://yourstore.com/pants-black-size-l被 Google 视为两个不同的 URL,因此是重复内容。
如何解决重复 URL 问题?
解决重复 URL 问题的最简单方法是执行所谓的 301 重定向。
重定向允许您自动将希望访问 URL A(例如https://mygreatwebsite.com )的访问者重定向到 URL B(例如https://myawesomewebsite.com )。
您可以使用重定向插件轻松完成此操作。
例如, Google 并没有阻止爬虫访问您网站上的重复内容,而是使用 robots.txt 文件,它还声明您可以使用所谓的规范 URL 。
通过在 URL 中使用特定属性,您可以告诉搜索引擎哪个是重复页面的原始版本。
这样,您可以确保在结果页面中显示的是这个原始版本(而不是重复版本)。
供您参考,规范 URL 使用了一段额外的 HTML 代码,称为rel="canonical" 。 它看起来像这样,在实践中:
<link rel="canonical" href="https://wpmarmite.com/en/astra-theme/" />
如果您使用的是 Yoast SEO 插件,您可以通过插件的编辑界面填写规范 URL:

请注意,默认情况下,Yoast SEO 将发布的 URL 添加为规范 URL。 在大多数情况下,您不必做任何事情。
要了解如何像专业人士一样设置 Yoast SEO,请访问我们关于该主题的专门指南!
评论的分页
在 URL 之后,让我们谈谈 WordPress 上重复内容的第二个原因:评论分页。
WordPress允许您将读者在帖子上留下的评论分成几个页面。
在纸面上,这对于有很多评论的网站/博客来说似乎很方便。
读者可以先查看最新的评论,然后通过转到另一个页面来选择阅读较旧的评论。
这就是问题所在。 每次都会为每个页面自动创建新的 URL,其中包含您的帖子内容。
如何解决评论分页问题?
您可以做的主要事情就是不启用此选项。
默认情况下,安装 WordPress 时不会勾选。 但是,我邀请您通过以下菜单进行检查:设置>讨论。
确保未选中“将评论分成页面,每页有 50 条顶级评论,默认显示最后一页”框。

标签
由于您在 WordPress 管理界面上,所以请待在那里,温暖而温馨。
现在让我们谈谈标签,它用于对您的帖子进行分类(有点像您的类别,只是标签是可选的)。
同样,如果我们从用户的角度来看,基本意图是好的。 标签将允许他检查您与特定主题(例如电影)相关的所有帖子。

对于您的 SEO,这更烦人,因为WordPress 会为每个标签生成新的存档页面,这意味着您的帖子最终会出现在其他页面上。
换句话说,如果你为同一个帖子创建 10 个标签,你最终会得到 10 个重复的帖子……
如何防止重复类别?
最好的解决方案是不使用标签。 如果您真的想这样做,请仔细考虑这可能产生的后果。
域名变体
最后,您的域名也可以通过多种变体(HTTPS、HTTP、www 和不带 www)访问:
-
https://example.com -
https://www.example.com -
http://example.com -
http://www.example.com
结果? 您的网站可以通过多种方式访问,或者换句话说,它将被复制 4 次。
例如,如果您刚刚切换到 HTTPS 而没有重定向 HTTP 版本,就会发生这种情况。
要了解您是否属于这种情况,请在您喜欢的浏览器中手动输入您的域名的每个变体。
如果没有重定向到您网站的可访问版本(即 HTTPS 中的版本),您将不得不开始工作。

如何为您的域名定义一个变体?
在 2019 年切换到新的 Google Search Console 之前,可以在免费的 Google 工具上选择最喜欢的域。
现在,最简单的方法是执行 301 重定向。 为此,例如,如果您的托管公司使用它,您可以使用您的 cPanel 界面。 请参阅我们关于该主题的详细说明。
说到域名,我们只能建议您阅读我们的完整域名选择指南。
好吧,对于内部重复,我们会说我们还不错。 现在,让我们谈谈如果您必须处理外部重复内容时要应用的措施。
你会看到,我们会干掉重炮!
摆脱重复的外部内容的 3 个步骤
红色警报。 您确定,您的内容已被复制。 一旦您通过了调用违规站点名称的阶段,就该采取行动了。
在这种情况下,你会怎么做? 你发怒了吗? 报警还是消防? 如果抄袭者是美国人,你会联系联邦调查局,甚至中央情报局吗?
相反,只需深呼吸并按照以下步骤操作即可解决您的问题。
第 1 步:联系网站所有者
在使用硬方法之前,请放轻松。 首先,尝试找到解决这个烦人的重复内容问题的和平方法。
首先,联系您所困扰的内容的所有者,以了解发生了什么。
您可以在以下几个地方找到有关他们是谁以及如何联系他们的信息:
- 他们网站的联系页面。
- 服务条款页面。
- 在他们的出版物末尾插入“作者”。
- 他们的社交网络。
- 你最喜欢的搜索引擎。 例如,输入此人的名字和姓氏以查看出现的情况。
- 域名数据库,WHOIS。
Whois 为您提供有关所有者和主机的信息以及技术细节。 您也可以使用 Gandi 和 Whois.net 搜索 Whois 域名。

经过调查,您发现了一封电子邮件? 是时候写出你最好的信息了,既礼貌又坚定,详细说明情况。
向对方解释您发现了重复的内容,为什么不添加屏幕截图和其他有形证据。
继续指出这是侵犯版权 (未经许可,任何人都无权复制或分发内容)。 最后要求此人删除抄袭内容。
尽管你尽了最大的努力,但你失败了吗? 转到第 2 步。
第二步:联系抄袭者的宿主
所以你认定为侵权者的人就不会让步吗? 联系他的网络主机可能会让他屈服。
为此,您有多种选择:
- 主持人的联系方式通常应该在复制您的内容的人的网站上的法律声明页面上。
- 如果没有,您可以通过 Whois 找到它们。
找到您要查找的信息后,发送与您在第 1 步中编写的相同类型的电子邮件,只是将其调整为适合您的收件人。
Web 主机通常对重复内容非常敏感,应该可以帮助您。 WPMarmite 曾多次出现此问题,它帮助 Alex 删除了复制和粘贴的帖子。
如果您仍然没有按照自己的方式进行操作,那么是时候采取艰难的方式了:在第 3 步中找出答案。
第 3 步:向 Google 报告该页面
拿出你套牌中的最后一张牌,作为最后的手段:向谷歌报告。
要要求 Google 从其搜索结果中删除“侵犯您版权的页面” ,著名的搜索引擎表明您必须向其发送 DMCA (数字千年版权法案)请求。
供您参考,这是一项旨在打击侵犯版权的美国法律。
详细地,这里是如何进行的,按顺序:
- 进入这个页面,选择相关的谷歌服务(通常是“谷歌搜索”)。
- 勾选“知识产权问题”复选框。
- 选择“侵犯版权”。
- 勾选“是的,我是版权所有者或被授权代表版权所有者行事”。
- 当被问及被侵权的内容类型时,选择“其他”。
- 单击蓝色按钮“创建请求”。
- 填写表格、日期、签名并提交。

正如您在这些行中看到的那样,迟早您将不得不处理重复的内容,无论是内部的还是外部的。
如果 Google 不直接惩罚这种做法,重复的内容可能会对您的 SEO 策略产生有害后果,导致流量下降以及您在搜索引擎结果页面中的位置。
想了解有关#WordPress 上重复内容的所有信息吗? 了解我们的技巧和最佳实践,以摆脱外部和内部#duplicatecontent,而不是惩罚您的#SEO 行为!
为了直接解决这个问题,这篇文章详细介绍了如何使用工具和最佳实践以具体的方式摆脱这种瘟疫。
你如何处理重复的内容? 通过发表评论与我们分享您的提示和反馈。


