Руководство по пониманию дублированного контента… и его устранению в WordPress
Опубликовано: 2021-12-16В жизни безумие, как некоторые вещи могут свести нас с ума. Я думаю о людях, которые бессовестно обманывают вас в очереди в супермаркете.
Люди, которые не варят макароны al dente, а режут их, кладя в кипящую воду… Или те ранние утренние будильники, которые звонят, звонят и снова звонят, чтобы вытащить вас из приятной теплой постели.

И тогда вы обнаружите дублированный контент . Вы знаете, тот неприятный момент, когда вы находите весь или часть вашего контента слово в слово на другом сайте.
Или когда старый добрый Ctrl+C Ctrl+V (или Cmd+C Cmd+V для сторонников Mac) снова сеет хаос. Как говорится, это действительно сводит с ума.
Дублированный контент — это настоящая проблема, когда вы находите его на сайтах других людей, но он также может появиться на вашем собственном сайте WordPress, даже если вы об этом не знаете.
Это так же раздражает, особенно потому, что это может иметь негативные последствия для вашего SEO .
Чтобы избежать этого, следуйте за мной!
В этом посте вы узнаете все об этом проклятом дублирующемся контенте и особенно о конкретных решениях, как от него избавиться . И я обещаю, это гарантированно будет без суеты.
Обзор
- Что такое дублированный контент?
- Как найти и распознать дублированный контент?
- Что вызывает внутреннее дублирование контента в WordPress (и как это решить)?
- 3 шага, чтобы избавиться от дублированного внешнего контента
Что такое дублированный контент?
Дублированный контент — это контент, который похож на несколько веб-адресов (URL) одновременно, будь то на разных страницах одного и того же веб-сайта или на других веб-сайтах.
Это усложняет работу поисковых систем, таких как Google, которые могут предпочесть ранжировать повторяющиеся страницы ниже в своей поисковой выдаче (страницы результатов поисковой системы).
Чтобы было понятно, существует два основных типа дублированного контента:
- Внутреннее дублирование , которое происходит на вашем сайте в большинстве случаев без вашего ведома. Допустим, они сделаны без вашего ведома.
- Внешнее дублирование , когда другие сайты копируют весь или часть вашего контента на свои страницы.
Изображение кальки
Теперь, чтобы проиллюстрировать, что такое дублированный контент, давайте вернемся на несколько (долгих) лет назад: к партам начальной школы и уроку рисования.
Помните знаменитую кальку, позволяющую воспроизвести идентичный рукописный рисунок? Ну, дублированный контент немного похож на это.
Предположим, что базовый рисунок представляет исходный URL-адрес вашего контента, например https:// yourwebsite.com/your-awesome-post/ .https:// yourwebsite.com/your-awesome-post/
Рисунок воспроизведен идентично (или частично) с помощью кальки, иллюстрирует дублированный URL: https://yourwebsite.com/your-awesome-post-bis/ .
Вам ясно? Затем вернитесь в будущее, я имею в виду в настоящее.

Более четверти сети дублируется
В 2013 году Мэтт Каттс, бывший инженер Google, заявил, что от 25% до 30% контента, публикуемого в Интернете, будет дублироваться .
Даже если эта статистика немного уходит в прошлое, она дает вам довольно красноречивый порядок величин.
К счастью, как заявляет Google, «в основном это не обманчивое происхождение ».
Это означает, что причины дублирования контента часто технические и непреднамеренные: веб-мастер, которым вы являетесь, не создает дублированный контент намеренно.
Таким образом, Google, самая используемая поисковая система в мире, не будет наказывать вас, если ваша цель не состоит в том, чтобы «обмануть и манипулировать» результатами поиска.
Однако будьте осторожны: Google если и не считает такую практику спамом, то дубликаты он тоже не очень любит .
Почему? Потому что, в конце концов, ему приходится прилагать дополнительные усилия для индексации и «отображения страниц, содержащих различную информацию» .
В SEO этап индексации соответствует моменту, когда роботы поисковых систем сканируют страницы во всей сети, чтобы классифицировать их в индексе (своего рода гигантской базе данных).
Именно этот индекс использует поисковая система, такая как Google, чтобы иметь возможность отображать наиболее релевантные результаты на своих страницах результатов (SERP).
Как Google справляется с дублирующимся контентом?
Ну, я говорю «это», когда говорю о Google, но на самом деле я должен был сказать «роботы Google», также называемые пауками или роботами Google .
Вот схема того, как они работают, когда обнаруживают дубликаты:
- Они просматривают Интернет в поисках нового контента , переходя от ссылки к ссылке (помните, что Интернет огромен).
- Когда они сталкиваются с дублирующимся контентом, они группируют его в кластер .
- Затем они отображают наилучший результат , по их мнению, из содержимого, присутствующего в этом кластере.

Бонус за популярность, а не за выслугу лет
Проблема в том, что этот лучший результат не всегда соответствует оригинальному контенту (тому, что не дублируется) .
В этом вопросе трудно упрекнуть Google: представьте себе, насколько сложна для него задача, когда среди тысяч одинаковых материалов нужно найти оригинал!
Чтобы продолжить, Google не полагается на дату публикации контента , как говорит Дэниел Рох.
Это было бы слишком просто, так как вы можете «модифицировать по своему желанию в администрации дату каждого вашего контента» .
Google полагается на «популярность URL-адреса и домена, чтобы определить, кто является источником контента и кто является возможными плагиаторами», — добавляет Дэниел Рох. «Другими словами, если сайт с большей популярностью ворует у вас контент, вы проигрываете битву с поисковой системой».
Тот же Мэтт Каттс подробно рассказывает об этом в этом видео, если вам интересно:
Из этой демонстрации мы можем помнить две важные вещи:
- Строго говоря, Google не наказывает за дублированный контент , за исключением «редких случаев» , когда он был создан «для манипулирования нашим рейтингом и обмана наших пользователей» . Если это произойдет, соответствующий сайт «больше не будет отображаться в результатах поиска» .
- В остальных случаях дублированный контент не наказывается, но это то же самое . Если вы стали жертвой дублированного контента и Google решил не отображать исходную версию вашего контента, вы становитесь невидимым на страницах результатов поиска.
В результате ваши действия по поисковой оптимизации (SEO) могут иметь серьезные последствия.

Каково влияние дублированного контента на SEO?
Дублированный контент может негативно повлиять на SEO (поисковую оптимизацию ) вашего контента.
Другими словами, вы можете увидеть снижение посещаемости вашего сайта и потерять позиции на страницах результатов поиска по нескольким причинам:
- Google не знает точно, какая версия дублированного контента является исходной, поэтому он будет отображать только одну и, следовательно, «скрывать» все другие идентичные результаты в своих результатах поиска .
- Обратные ссылки , которые другие пользователи сделают на ваш дублированный контент, будут менее эффективными . Ссылки будут распределены между несколькими дублирующими публикациями и поэтому будут иметь меньшую силу. Однако чем больше релевантных обратных ссылок имеет контент, тем выше его шансы на более высокий рейтинг.
- Вы будете потреблять больше краулингового бюджета (максимальное количество страниц, которые Google может просканировать на вашем веб-сайте WordPress), потому что поисковой системе придется тратить больше времени на сканирование вашего дублированного контента с риском менее быстрой индексации нового «оригинального» контента. или вообще не индексировать.
Поскольку дублированный контент часто скрывается в тени и не всегда может быть идентифицирован и приручен, в следующей части вы найдете несколько способов разоблачить его.

Как найти и распознать дублированный контент?
Своими глазами: визуальный метод
Вы закрываете их, чтобы заснуть, затем открываете их широко, как только просыпаетесь, и читаете эту статью: ваши глаза — ваше первое оружие для обнаружения возможных следов дублированного контента , особенно внешних дубликатов.
Представьте: несколько месяцев назад вы опубликовали пост, в котором излагаете советы о том, как приготовить вкусный шоколадный брауни.
Теперь вы столкнулись с публикацией, которая слово в слово дублирует несколько отрывков из первоисточника. "Ни за что! Я написал это, вор!
Да, это вы, и вы подверглись плагиату. Теперь вся статья не была скопирована и вставлена, но вы можете задаться вопросом, не дублируем ли мы контент? Хорошая точка зрения.
В этом вопросе нет четкого правила. То есть ни одна поисковая система не определяет предел, за который нельзя переходить, например: «Если вы копируете 40% контента, вы плохой копировщик! “
Чтобы помочь вам, предположим, что если копируются целые предложения — помните, Google говорит о «больших блоках контента» , — вы можете считать, что контент дублируется.
Вы остаетесь со своими глазами, чтобы плакать, но знайте, что есть также возможные средства, чтобы высушить слезы. Я вернусь к этому позже в этом посте.
После глаз в вашем распоряжении есть второе оружие: инструмент для обнаружения дублированного контента.
С помощью специального инструмента: сторонний метод
На рынке существует несколько решений для обнаружения внутренних и внешних дубликатов. Презентация.
Убить дубликат

Kill Duplicate — это важный инструмент премиум-класса, который помогает выявлять внешние дубликаты, особенно путем сканирования содержимого .
Полный, он также помогает вам бороться с плагиатом, предлагая решения прямо на вашей панели инструментов (например, свяжитесь с хостом, сайтом или подайте жалобу).
Цена: от €19/месяц ( искл. НДС), т.е. ± 21 доллар США.
Копискейп

Copyscape — это бесплатное решение, которое помогает вам находить копии вашей страницы в Интернете . Чтобы использовать его, просто введите URL-адрес по вашему выбору в строке поиска.
Тогда скрестите пальцы, чтобы вас никто не скопировал.
Затем вы можете проверить, какие публикации были идентифицированы Copyscape, чтобы увидеть, дублируется ли контент или нет.
Copyscape также доступен в премиум-версии с гораздо более продвинутыми функциями (от 3 центов за поиск).
DupliChecker

DupliChecker позиционирует себя как «программное обеспечение для борьбы с плагиатом» . Ограниченный 1000 словами на поиск в бесплатной версии, он позволяет вам проверить оригинальность текста, введя его URL-адрес, фрагмент текста или загрузив файл.
Поэтому вы можете использовать его до и после публикации контента. Если мы можем пожалеть о наличии большого количества рекламы, DupliChecker остается интересным, потому что он отображает несколько результатов, каждый раз представляя вам показатель сходства:

Версия Pro также доступна по цене от 10 долларов за использование до 30 000 слов.
Siteliner

Siteliner идеально подойдет для «исследования вашего сайта» , т.е. для выявления внутренних дубликатов .

Он представляет свои результаты в виде графиков. Бесплатная версия позволяет сканировать сайт раз в 30 дней, до 250 страниц.
С предложением Pro вы можете обрабатывать до 25 000 страниц и выбирать те, которые хотите исключить из процесса идентификации.
Кричащая лягушка

Screaming Frog не является инструментом, специально предназначенным для выявления дублированного контента. Но остается актуальным поиск внутренних дубликатов.
Это сканер, инструмент для анализа вашего SEO на странице: он извлекает и сканирует URL-адреса вашего сайта на наличие проблем (например, неработающие ссылки, анализ тегов title и meta description , ошибки сервера и т. д.).
Таким образом, он сможет информировать вас об определенных повторяющихся элементах, таких как заголовки h1 и теги title и meta description ваших страниц.
В бесплатной версии вы можете анализировать до 500 URL-адресов. Версия Pro стоит 149 фунтов стерлингов в год (то есть ± 197 долларов США).
Консоль поиска Google

Мы заканчиваем этот список инструментов важным швейцарским армейским ножом: Google Search Console.
Этот бесплатный инструмент позволяет вам лучше управлять своим сайтом и отслеживать SEO. Он предоставляет много информации : ошибки на вашем сайте, анализ поиска, ссылки, статус индексации, ошибки сканирования и т. д.
В отличие от своих маленьких друзей, упомянутых выше, Google Search Console не сможет сообщить вам, какие URL-адреса были дублированы внутри.
Тем не менее, это может помочь вам узнать. Для этого просто перейдите в меню Индекс > Покрытие . Ты сможешь:
- Проверьте количество проиндексированных URL . Если вы знаете, что создали 206 страниц на своем сайте, и что Google проиндексировал 674 из них, вы знаете, что наверняка есть какой-то дублированный контент…
- Проверьте исключенные URL-адреса, чтобы узнать, могут ли они поместиться в поле с повторяющимся содержимым .

Также обратите внимание, что многие инструменты SEO, такие как Semrush или Ahrefs, также имеют функции, которые помогут вам идентифицировать дублированный контент на вашем сайте.
С определенной командой от Google: ручной метод
После этого раунда инструментов есть еще один рычаг, который вы можете активировать для поиска дублирующегося контента: Google.
Для этого известная поисковая система предлагает операторы , то есть команды, которые вы можете указать в строке поиска для более точной фильтрации результатов.
Некоторые из них могут быть эффективны для поиска дублирующегося контента, например оператор поиска по сайту ( site: ). Чтобы найти внешнее дублирование, исключите свое доменное имя из результатов поиска, введя следующий запрос:
-site:yourdomainname.com "title of your publication" . В примере из следующей статьи WPMarmite это даст -site:wpmarmite.com/en/ "test of 6 must-have SEO plugins on WordPress"

Ну, это большой кусок, который ты только что проглотил. Теперь вы знаете, что такое дублированный контент и как его идентифицировать.
Теперь вы должны избавиться от него. Остальная часть этого поста будет посвящена подробным инструкциям о том, как остановить:
- Внутренние дубликаты
- Внешнее дублирование
Я предлагаю вам начать с возможных проблем, которые могут возникнуть на вашем сайте WordPress.
Что вызывает внутреннее дублирование контента в WordPress (и как это решить)?
URL-адреса
URL — это адрес веб-страницы. Например, домашнюю страницу WPMarmite можно найти по следующему URL-адресу: https://wpmarmite.com/en/ .
Как вы понимаете, чем больше контента на вашем веб-сайте WordPress, тем больше у вас будет URL-адресов . Например, в случае большого веб-сайта электронной коммерции вы можете очень быстро охватить тысячи URL-адресов, если продаете много продуктов.
Все идет нормально. Однако в некоторых случаях наши известные URL-адреса начнут вас беспокоить:
- Когда они содержат указания для отслеживания посещений определенной страницы . Затем новые параметры автоматически добавляются в конце ваших URL-адресов. Например, первоначальный URL-адрес будет
https://yourpost.com, а повторяющийся URL-адрес —https://yourpost.com?utm_source=facebook. Вы можете не увидеть разницы, но поисковая система ее увидит. - Когда они содержат параметры для фильтрации навигации . Это часто имеет место в магазинах WooCommerce, которые используют фасетный поиск. Это очень удобно для пользователя, который может сортировать товары по размеру, цвету, цене и т. д. Проблема в том, что при этом создается много дублирующихся страниц с почти дословно идентичным содержимым, см.:
-
https://yourstore.com/pants-black-size-m -
https://yourstore.com/pants-black-size-l
-
- Когда они недифференцированно используют косые черты . Например:
https://yourstore.com/pants-black-size-mиhttps://yourstore.com/pants-black-size-lрассматриваются Google как два разных URL-адреса, поэтому контент дублируется.
Как решить проблему дублирования URL-адресов?
Самый простой способ решить проблему дублирования URL-адресов — это сделать так называемую переадресацию 301 .
Перенаправление позволяет автоматически перенаправить посетителя, желающего получить доступ к URL-адресу A (например, https://mygreatwebsite.com ), на URL-адрес B (например, https://myawesomewebsite.com ).
Вы можете легко сделать это с помощью плагина Redirection.
Вместо того, чтобы блокировать сканерам доступ к дублирующемуся контенту на вашем веб-сайте, используя, например, файл robots.txt, Google также заявляет, что вы можете использовать так называемый канонический URL-адрес .
Используя определенный атрибут в своем URL-адресе, вы сообщаете поисковым системам, что является исходной версией дублирующейся страницы.
Таким образом, вы гарантируете, что именно эта исходная версия будет учитываться для отображения на страницах результатов (а не копия версии).
К вашему сведению, канонический URL-адрес использует небольшой дополнительный фрагмент HTML-кода, который называется rel="canonical" . На практике это выглядит так:
<link rel="canonical" href="https://wpmarmite.com/en/astra-theme/" />
Если вы используете плагин Yoast SEO, вы можете ввести канонический URL-адрес через интерфейс редактирования плагина:

Обратите внимание, что по умолчанию Yoast SEO добавляет URL-адрес публикации в качестве канонического URL-адреса. В большинстве случаев вам не придется ничего делать.
Чтобы узнать, как настроить Yoast SEO как профессионал, перейдите к нашему специальному руководству по этому вопросу!
Пагинация комментариев
После URL-адресов давайте поговорим о второй причине дублирования контента в WordPress: нумерации комментариев .
WordPress позволяет разделить комментарии, оставленные вашими читателями к посту, на несколько страниц.
На бумаге это кажется удобным для сайтов/блогов с большим количеством комментариев.
Читатель может сначала просмотреть самые последние комментарии, а затем выбрать чтение более старых комментариев, перейдя на другую страницу.
Вот в чем проблема. Новые URL-адреса будут автоматически создаваться для каждой страницы, каждый раз с содержанием вашего сообщения .
Как решить проблему пагинации комментариев?
Главное, что вы можете сделать, это просто не включать эту опцию.
По умолчанию он не будет проверяться при установке WordPress. Тем не менее, я предлагаю вам проверить это, перейдя в следующее меню: Настройки > Обсуждение .
Убедитесь, что флажок «Разбивать комментарии на страницы с 50 комментариями верхнего уровня на странице и отображением последней страницы по умолчанию» снят.

Теги
Поскольку вы находитесь в интерфейсе администратора WordPress, оставайтесь там, приятно и тепло.
Теперь давайте поговорим о тегах, которые используются для классификации ваших сообщений (немного похоже на ваши категории, за исключением того, что теги необязательны).
Здесь снова основное намерение хорошее, если мы посмотрим на него с точки зрения пользователя. Тег позволит ему проверять все ваши сообщения, связанные с определенной темой (например, кино) .

Для вашего SEO это гораздо более раздражает, так как WordPress генерирует новые страницы архива для каждого тега , а это означает, что ваш пост попадет на дополнительные страницы.
Другими словами, если вы создадите 10 тегов для одного и того же поста, вы получите 10 дубликатов постов…
Как предотвратить дублирование категорий?
Лучшее решение — не использовать теги . Если вы действительно хотите это сделать, хорошо подумайте о последствиях, которые это может иметь.
Варианты доменного имени
Наконец, также возможно, что к вашему доменному имени можно получить доступ в нескольких вариантах (HTTPS, HTTP, www и без www):
-
https://example.com -
https://www.example.com -
http://example.com -
http://www.example.com
Последствие? Ваш сайт будет доступен несколькими способами, или иначе говоря, будет продублирован 4 раза.
Это может произойти, например, если вы только что перешли на HTTPS, не перенаправив HTTP-версию .
Чтобы узнать, относится ли это к вам, вручную введите каждый вариант вашего доменного имени в своем любимом браузере.
Если нет перенаправления на доступную версию вашего сайта (т.е. на HTTPS), вам придется приступить к работе.

Как определить единственный вариант для вашего доменного имени?
До перехода на новую консоль поиска Google в 2019 году можно было выбрать любимый домен в бесплатном инструменте Google.
Теперь самый простой способ — выполнить переадресацию 301. Для этого вы можете, например, использовать свой интерфейс cPanel, если его использует ваша хостинговая компания. Смотрите наши подробные инструкции по этому вопросу.
Говоря о доменных именах, мы можем только порекомендовать вам прочитать наше полное руководство по выбору доменного имени.
Ну а по внутреннему дублированию скажем, что у нас не так уж и плохо. Теперь давайте поговорим о мерах, которые необходимо применять, если вам когда-нибудь придется иметь дело с внешним дублирующимся контентом.
Вот увидишь, мы уничтожим тяжелую артиллерию!
3 шага, чтобы избавиться от дублированного внешнего контента
Красная тревога. Вы уверены в этом, ваш контент был продублирован. Как только вы преодолели стадию обращения к сайтам-нарушителям, пришло время действовать.
В этом случае, что вы делаете? Вы кричите свою ярость? Вызывать полицию или пожарных? Обращаетесь ли вы в ФБР или даже в ЦРУ, если плагиатор — американец?
Вместо этого просто сделайте глубокий вдох и выполните следующие шаги, которые должны решить вашу проблему.
Шаг 1. Свяжитесь с владельцем сайта.
Прежде чем использовать трудный путь, успокойтесь. Во-первых, попытайтесь найти мирный выход из этой надоедливой проблемы дублирования контента.
Прежде всего, свяжитесь с владельцем контента, который вас беспокоит, чтобы узнать, что происходит.
Вы можете найти информацию о том, кто они и как с ними связаться, в нескольких местах, например:
- Страница контактов их сайта.
- Страница условий обслуживания.
- Вставка «Автор» в конце своих публикаций.
- Их социальные сети.
- Ваш любимый поисковик. Например, введите имя и фамилию человека, чтобы увидеть, что появится.
- База данных доменных имен WHOIS.
Whois предоставляет вам информацию о владельце и хосте, а также технические подробности. Вы также можете искать домены Whois с помощью Gandi и Whois.net.

После расследования вы нашли электронное письмо? Пришло время написать ваше лучшее сообщение, одновременно вежливое и твердое, с подробным описанием ситуации.
Объясните человеку, что вы нашли дублирование вашего контента, почему бы не добавить скриншоты и другие вещественные доказательства.
Продолжите, указав, что это нарушение авторских прав (никто не имеет права воспроизводить или распространять контент без разрешения). Закончите, попросив человека удалить плагиат.
Вы потерпели неудачу, несмотря на все ваши усилия? Перейти к шагу 2.
Шаг 2. Свяжитесь с хостом плагиатора
Значит, человек, которого вы назвали нарушителем, просто не сдвинется с места? Связь с его веб-хостом может заставить его согнуться.
Для этого у вас есть несколько вариантов:
- Контактная информация хоста обычно должна быть на странице официального уведомления на веб-сайте человека, который продублировал ваш контент.
- Если нет, вы можете найти их благодаря Whois .
Когда вы найдете информацию, которую искали, отправьте электронное письмо того же типа, которое вы написали на шаге 1, просто адаптировав его к получателю.
Веб-хостинги обычно очень чувствительны к дублированию контента и должны помочь вам. Эта проблема случалась с WPMarmite несколько раз, и это помогло Алексу удалить копии и вставки сообщений.
Если вы все еще не добились своего, пришло время сделать это трудным путем: узнать на шаге 3.
Шаг 3. Сообщите о странице в Google
Выньте последнюю карту из своей колоды, чтобы использовать ее в крайнем случае: сообщить в Google.
Чтобы попросить Google удалить из результатов поиска «страницу, нарушающую ваши авторские права» , известная поисковая система указывает, что вы должны отправить ей запрос DMCA (Digital Millennium Copyright Act) .
К вашему сведению, это американский закон, целью которого является борьба с нарушением авторских прав.
Подробно, вот как действовать, по порядку:
- Перейдите на эту страницу и выберите соответствующую службу Google (обычно это будет «Поиск Google»).
- Установите флажок «Проблема интеллектуальной собственности».
- Выберите «Нарушение авторских прав».
- Отметьте «Да, я являюсь владельцем авторских прав или уполномочен действовать от имени владельца авторских прав».
- Выберите «другое», когда вас спросят о типе контента, который нарушает авторские права.
- Нажмите на синюю кнопку «Создать запрос».
- Заполните форму, поставьте дату, подпишите и отправьте ее.

Как вы видели в этих строках, рано или поздно вам придется иметь дело с дублирующимся контентом, будь то внутренний или внешний.
Если Google прямо не накажет эту практику, дублированный контент может иметь пагубные последствия для вашей стратегии SEO, с падением трафика и ваших позиций на страницах результатов поисковой системы.
Хотите знать все о дублирующемся контенте в #WordPress? Ознакомьтесь с нашими советами и рекомендациями, чтобы избавиться от внешнего и внутреннего #дублированного контента и не наказывать за свои действия #SEO!
Чтобы решить эту проблему, в этом посте подробно описано, как избавиться от этой чумы конкретным способом, используя инструменты и лучшие практики.
Как вы справляетесь с дублированным контентом? Поделитесь своими советами и отзывами с нами, опубликовав комментарий.


