НОВОСТИ

Парсинг Sitemap.xml с помощью Spider SEO Screaming Frog

Парсинг sitemap.xml в Screaming Frog

В данной статье я поделюсь инструкцией как спарсить Sitemap XML-карту сайта и провести ее SEO-аудит, используя популярную программу-краулер Sreaming Frog SEO Spider. Sitemap XML – это файл, в котором вы предоставляете информацию о веб-страницах сайта, а также о взаимосвязях между ними. Поисковые системы, такие как Google, читают этот файл, чтобы более разумно сканировать ваш сайт. Карта сайта сообщает поисковику какие страницы и файлы, по вашему мнению, важны для сайта, а также предоставляет ценную информацию об этих файлах: например, как часто обновляется сайт, с какой частотой рекомендуется индексировать те или иные страницы, а также любые их версии на других языках. 

Как спарсить карту сайта в SEO Screaming Frog: руководство

Задача сеошника – проанализировать Sitemap на наличие ошибок и оптимизировать под поисковые системы, чтобы в карте сайте были только качественные веб-страницы, открыты для поиска. И именно эти страницы потом должны появляться в результатах поисковой выдачи (SERP). Особенностью программы SEO Screaming Frog является то, что она позволит просканировать даже все внутренние xml-файлы, чего иногда не удается сделать в разных онлайн-сервисах.

Скачать Spider SEO Screaming Frog 14.1 на официальном сайте>>

Итак, теперь перейдем к руководству.

1. Запустите программу Screaming Frog и перейдите в меню Confuguration -> Spider. Затем на вкладке Crawl перейдите вниз к разделу XML Sitemaps и поставьте чекбокс “Crawl Linked XML Sitemaps” и “Crawl These Sitemaps” (“Auto Discover XML Sitemap” – отключаем). Станет доступным текстовое поле, вставьте в него URL-адрес Sitemap карты сайта и нажмите ОК:

Как спарсить Sitemap xml в Screaming Frog

2. Вставьте URL-адрес основного домена в поле для поиска “Enter URL to spider” и нажмите “Start” – запустится автоматическое сканирование:

Start Sitemap XML crawling

3. Теперь перейдите в меню Crawl Analysis и выберите пункт Configure. В открывшемся окне оставьте включенным только чекбокс “Sitemaps”. Нажмите ОК, чтобы сохранить изменения и перейдите еще раз в Crawl Amalysis и нажмите Start – программа Screaming Frog выполнит аудит XML-карты сайта:

Crawl Analysis - опции

Также, спарсить XML-карту сайта можно более простым способом: отдельно через меню Mode -> List и потом нажать на кнопку Upload -> Download XML Sitemap. В появившимся окне ввести URL карты сайта и нажать ОК.

Crawl sitemap

Screaming Frog покажет сколько спарсил веб-страниц, нажмите ОК:

Parse sitemap

Аудит XML Sitemap в Spider SEO Screaming Frog

Справа на вкладке Overviews, в разделе Sitemaps вы получите исчерпывающие данные о XML-карте сайта:

Sitemap XML overview in Screaming Frog

В результате мы получим данные по следующим фильтрам:

  • URLs in Sitemap – веб-страницы, которые находятся на сайте и добавлены в XML-карту сайта. Сюда должны входить только оптимизированные канонические веб-страницы, открыты для индексации;
  • URLs Not in Sitemap – веб-страницы, которые доступны на сайте, но не добавлены в XML-карту сайта. Например, скрытые от поиска страницы тегов и авторов в CMS WordPress;
  • Orphan URLs – веб-страницы, которые доступны только в XML-карте сайта, но не проиндексированы поисковым ботом. Является ошибкой поисковой оптимизации;
  • Non-Indexable URLs in Sitemap – веб-страницы, которые доступны в XML-карте сайта, но закрыты для поиска. Аналогично является ошибкой, т.к. карта сайта Sitemap не должна содержать страниц, закрытых от индекса;
  • URLs In Multiple Sitemaps – веб-страницы, которые доступны в нескольких XML-картах одновременно. Как правило, веб-страница должна находится только в одной карте сайта;
  • XML Sitemap With Over 50k URLs – показывает наличие крупніх XML-карт сайта с более 50 тыс. страниц;
  • XML Sitemap With Over 50mb – аналогично, только с размером 50 Мб.

Приведенные выше фильтры помогут убедиться, что в XML Sitemap включены только качественные индексируемые канонические URL. Поисковые системы плохо переносят «грязь» в XML-файлах Sitemap, например, в тех, которые содержат ошибки, перенаправления или неиндексируемые URL-адреса. Таким сайтам поисковики доверяют при сканировании и индексировании. Поэтому важно поддерживать работоспособность всех веб-страниц, которые попадают в XML-файл.

Также есть возможность просмотреть XML-карту сайта в режиме списка со множеством фильтров и показателей:

View Sitemap in Screaming Frog

Список можете выгрузить с помощью кнопки “Export” в формате .xls. Присутствует режим просмотра в виде дерева каталогов:

XML Sitemap audit

Если выбрать из списка URL, то с помощью вкладки Inlinks можно посмотреть страницу донор и анкор:

View inlinks in Sitemap XML

Экспортировать все Inlinks в Excel можно с помощью меню Bulk Export -> Sitemaps:

Bulk Exports of Sitemaps

Рекомендации по составлению и оптимизации Sitemap.xml

  1. Включайте в Sitemap только канонические версии страниц;
  2. Проверяйте, чтобы все страницы в Sitemap имели все нужные префиксы и открывались по https протоколу;
  3. Исключайте из Sitemap страницы с дублированными контентом (дубликаты страниц), с динамическими параметрами, служебные и конфиденциальные страницы, страницы с ошибками сервера и 404 страницы;
  4. Исключайте из Sitemap страницы с редиректами;
  5. Сделайте свою карту сайта доступной для поисковиков, добавив директиву Sitemap в файл robots.txt;
  6. Добавьте Sitemap.xml на индексацию с помощью панелей вебмастеров, например Google Search Console или Bing Webmaster Tool;
  7. Одна XML-карта не должна весить более 50 Мб и содержать более 50 тысяч URLs – поэтому рекомендуется разбивать большие Sitemap на части, если у вас имеется большое количество страниц;
  8. Если у вас есть несколько XML-карт, допускается использовать Sitemapindex, который будет открываться по URL-адресу: example.com/sitemap.xml, но содержать в себе другие сайтмапы;
  9. Не используйте в Sitemap карте лишних атрибутов. К примеру, Google заявил, что больше не учитывает приоритетность (атрибут <priority>);
  10. Проверяйте Sitemap XML на валидность перед отправкой в поисковые системы (кодировка, синтаксис);
  11. Также в файлах Sitemap должны быть правильные заголовки (версия, тип XML).

Полезные ссылки

Оценка:
( 2 оценки, среднее 5 из 5 )
Подписка на KRASHENININ.TECH

Получайте регулярные обновления на почту!


Виталий Крашенинин/ автор статьи
Основатель блога, публицист, IT-специалист. Предоставляю услуги по администрированию, техническому обслуживанию, поисковой оптимизации и продвижению веб-сайтов.
Не забудьте поделиться материалом в соцсетях:
KRASHENININ.TECH - блог о веб-технологиях, и не только
Подписаться
Уведомление о
guest
0 Комментарий
Встроенные отзывы
Просмотреть все комментарии
0
Есть мысли? Прокомментируй!x
()
x
Читайте ранее:
Руководство Google для асессоров
Руководство для асессоров Google (2020)

Ценный документ, который позволяет понять, как же на самом деле Google оценивает сайты. Асессоры - это специалисты, которые модерируют результаты...

Закрыть