Перейти к содержимому
desing Дневник веб-инноваций и поиска

Gemini помог собрать hreflang XML-sitemap для тысяч URL вместо ручной работы

AI для создания hreflang XML sitemap

AI снова оказался полезен не там, где от него ждут магии, а там, где обычно начинается скучная и дорогая рутина. SEO-специалист Elmer Boutin описал проект, в котором Google Gemini, Python и Google Colab помогли собрать кастомный скрипт для создания hreflang XML-sitemap на большом мультиязычном массиве сайтов.

Задача была не маленькая: более десятка сайтов, три отдельных бизнеса, восемь региональных доменов и несколько языков, включая три английских диалекта, итальянский, японский, испанский, тайский, французский и корейский. Нужно было сопоставить тысячи URL между версиями страниц и собрать корректную карту hreflang. Вручную это обычно превращается в дни работы с таблицами или требует отдельного специализированного ПО.

Вместо этого автор начал не с просьбы «напиши скрипт», а с обсуждения подхода. Gemini предложил собрать данные через crawler, обработать их в Google Colab, сначала найти точные совпадения, а затем использовать семантическое сопоставление для страниц с переведёнными или изменёнными адресами. В CSV попали live URL, коды статусов, title и H1, а перед запуском скрипта данные очистили от неиндексируемых страниц.

Это важный момент для всех, кто работает с международным SEO и hreflang: AI не спасает плохие исходные данные. Если в выгрузке лежат 404, редиректы или мусорные URL, скрипт будет уверенно автоматизировать именно этот мусор.

Первый вариант кода не был идеальным. Дальше началась самая полезная часть — итерации. Скрипт дорабатывали под реальные странности сайтов: разные структуры блогов в США, Мексике и Италии, слишком жёсткие семантические ограничения, переведённые slug и акронимы вроде SEO и SEM, которые нельзя было смешивать. Для одного из кейсов Gemini добавил функцию «выравнивания» URL, чтобы скрытые тематические папки не мешали сопоставлению страниц.

Самый интересный прорыв случился с переведёнными адресами. Например, испанский slug вида /detras-de-escenas-historias... оказался прямым аналогом английского /behind-the-scenes-stories.... После такого примера Gemini обновил логику и добавил так называемую Combined Semantic Signature — механизм, который помог сопоставлять страницы не только по буквальному URL, но и по смыслу переведённых фраз.

В итоге кастомный Python-скрипт смог обрабатывать большой CSV и генерировать перекрёстную hreflang XML-sitemap за минуты. Но главный вывод здесь не в том, что Gemini «сделал SEO за человека». Скорее наоборот: история хорошо ложится в более широкий разговор про SEO в эпоху AI, где специалист остаётся архитектором, а модель помогает быстрее писать код, проверять гипотезы и закрывать рутинные технические задачи.

Для SEO-команд это хороший практический пример: AI может быть не генератором красивых обещаний, а нормальным рабочим инструментом. Особенно когда речь идёт о задачах, где много однотипных данных, исключений, языковых версий и человеческих ошибок. В такой роли Gemini ближе не к «замене SEO», а к младшему разработчику, которому нужно подробно объяснять задачу и постоянно проверять результат.

И да, это не универсальная кнопка для всех сайтов. В источнике не раскрыты названия компаний, точное количество URL, итоговая точность сопоставлений и полный код скрипта. Но как кейс для технического SEO он показательный: когда SEO-инструменты, Python и AI собираются в один процесс, часть работы, которая раньше упиралась в таблицы и ручную сверку, действительно можно сильно ускорить.

Источник: Search Engine Land

Добавить комментарий