Подготовка сайта к публикации

Теперь, когда ваш сайт полностью оптимизирован, осталось совершить последние шаги перед его размещением в сети. Задача этих действий – сделать сайт более привлекательным для поисковых систем и улучшить его продвижение в выдаче. К этим завершающим штрихам относятся внутренняя перелинковка сайта, создание файла robots.txt и разработка карты сайта. По сути все эти три момента тесно перекликаются с процессом внутренней оптимизации, поскольку не зависят от внешних факторов и не требуют дополнительных вложений, но в то же время являются достаточно самостоятельными мероприятиями. Рассмотрим их последовательно.

 

Внутренняя перелинковка представляет собой процесс простановки ссылок на страницах ресурса, которые ведут на другие страницы этого же ресурса. Иначе говоря, это ссылки на самого себя, на свой же сайт. Внутренняя перелинковка решает одновременно три основные задачи:

  1. Помогает увеличить статический вес страниц и соответственно способствует повышению pagerank сайта;
  2. Способствует улучшению позиции сайта в выдаче по поисковым запросам, особенно низкочастотным;
  3. Повышает удобство пользования сайтом для посетителей и стимулирует их на просмотр большего количества страниц.

 

Наиболее эффективна внутренняя перелинковка для крупных сайтов с большим количеством страниц. К примеру, для интернет-магазинов, содержащих описание многочисленных товаров. Но и для молодых развивающихся сайтов внутренняя перелинковка так же имеет большое значение, поскольку помогает пользователю легче ориентироваться в структуре сайта и быстрее находить интересующие его разделы.

 

Во многом это объясняется тем, что ссылки, размещенные в самом контенте, удобнее и эффективнее для посетителя, чем общее меню. Поисковые роботы так же любят ходить по контекстным ссылкам, а соответственно лучше индексируют подобный контент. К тому же в текст проще и удобнее вписать требуемый анкор с ключевым словом.

 

Грамотная внутренняя перелинковка не только заметно увеличивает PR сайта, но так же помогает равномерно перераспределить статический вес между всеми страницами сайта. Тем самым вместо высоких позиций одной главной страницы в поисковых запросах статический вес распределяется между внутренними страницами, оптимизированными под конкретные низкочастотные запросы. Соответственно это повышает позиции страниц сайта с узконаправленной тематикой.

 

Файл robots.txt предназначен для определения зон, разрешенных и запрещенных к индексированию. Любой поисковый робот, зашедший на сайт, первым делом обращается к этому файлу. Если robots.txt отсутствует или просто пустой, поисковый робот расценивает это как разрешение индексировать все страницы без исключения. На первый взгляд ничего страшного в этом и нет. Вроде бы чем больше страницы в индексе, тем лучше для сайта. Но здесь есть одно большое НО. Если впоследствии взглянуть, на проиндексированный полностью открытый сайт, то видно, что  наряду с полезным контентом робот занес в свою базу так же и страницы входа и регистрации пользователей, листы стилей, файлы сценариев и тому подобные вещи. Понятно, что на пользу процессу оптимизации такое индексирование не пойдет. Вот тут на помощь оптимизатору и приходит файл robots.txt, который четко укажет поисковому роботу, что на данном сайте можно индексировать, а что следует обойти стороной.

 

Что же из себя представляет этот файл? Robots.txt – это обычный текстовый файл, который создается в программе «Блокнот» и располагается в корневом каталоге сайта. Он содержит две основные директивы: «User-agent» и «Disallow». Директива «User-agent» указывает, к какому именно поисковому роботу относятся нижеследующие инструкции. К примеру, если требуется обратиться к роботу Яндекса, то эта директива будет иметь вид «User-agent: Yandex». Если же указание относится ко всем роботам сразу, то непосредственное обращение заменяется звездочкой: User-agent: *.

 

Директива «Disallow» показывает, какие именно файлы и папки на этом сайте закрыты для индексации. К примеру, требуется запретить индексировать папку с файлами сценариев cgi-bin. В этом случае директива будет иметь вид: Disallow: /cgi-bin/. Если на сайте нет закрытых для индексации разделов и файлов, то пишется просто строка Disallow: /

В большинстве случаев ограничивают индексацию страниц с технической информацией, версиями для печати, часто файлы с графикой, контактные данные – телефонные адреса, а так же ссылки.

 

Составление карты сайта (Sitemap) – заключительный шаг внутренней оптимизации сайта и подготовки его к размещению в сети. Изначально подобные карты представляли собой просто html страницу, содержащую ссылки на все страницы сайта. Карты предназначались как для посетителей, чтобы им легче было ориентироваться в структуре, так и для поисковых роботов, которые попав на карту сайта начинали последовательно перемещаться с нее по указанным ссылкам и методично заносить их в свою базу.

 

Но с течением времени и с появлением больших динамических порталов карты сайтов старого образца утратили свои возможности. Ссылок становилось все больше, они уже не вмещались на одну страницу и создавали только неудобства как для людей, так и для поисковых роботов. Проблема была решена с помощью компании Google, которая разработала новый удобный сервис для описания страниц сайта и улучшения их индексации. Сегодня карта сайта (Sitemap) – это файл в формате xml, в котором содержаться все url-адреса данного сайта в сочетании с метаданными. Подробную информацию и о самих картах и о процессе их составления можно получить на сайте http://www.sitemaps.org/ru/.

 

После того, как составлена карта сайта и прописан файл robots.txt сайт полностью готов к публикации в сети. Остается только добавить в панели веб-мастера поисковых систем. Для Яндекса это http://webmaster.yandex.ru/, а панель Google находится по адресу https://www.google.com/webmasters/tools/home?hl=ru.

 

Для более полного контроля за сайтом желательно установить на его страницы счетчики посещений, чтобы можно было отследить, сколько людей и откуда приходят на ваш сайт. Так же как и многие сервисы, счетчики могут быть как платные, так и бесплатные. Платные счетчики выбирает каждый веб-мастер самостоятельно по своему вкусу, а из бесплатных одним из лучших является LiveInternet (http://www.liveinternet.ru/add).

 

Разместив сайт в сети и установив счетчики посещений, можно переходить к методам внешней оптимизации для большего привлечения посетителей.

Настройка веб-сервер

Ни для кого сегодня не является секретом, что для успешного продвижения в сети Интернет любой сайт нуждается в правильной внутренней и внешней оптимизации. И если внешняя веб оптимизация во многом обусловлена особенностями работы поисковых систем и онлайновых сервисов, то внутренняя оптимизация целиком и полностью зависит от усилий веб-мастера. Большинство оптимизаторов понимают, что решающую роль в процессе раскрутки играет контент сайта и тщательно учитывают такие незыблемые требования к нему как уникальность, соответствующий объем, правильное вхождение ключевых запросов. Однако далеко не все веб-мастера придают значение правильной настройке веб-сервера, хотя в действительности это важный момент с точки зрения seo-оптимизации.  В частности, правильно выставленные настройки веб-сервера позволяют обнаружить существующие дубли в индексах поисковых систем, а это одна из самых важных проблем внутренней оптимизации. Но точно и без погрешностей прописать все требуемые коды в файле  .htaccess умеет далеко не каждый веб-мастер.

 

Современные веб-серверы бывают разными, но наиболее распространенными на сегодняшний день является Apache, широко применяемый для средних и небольших сайтов. Каковых, собственно, в сети большинство. Поэтому имеет смысл рассмотреть особенности сео-настройки веб-сервера именно под Apache. При этом важно помнить, что каждая CMS так же имеет свои особенности и прежде, чем переходить непосредственно к настройкам, необходимо удостовериться, что управляющая система не добавляет в файл .htacces никаких конфликтующих выражений в коде. Избежать лишних конфликтов можно в первую очередь при помощи настроек самой CMS. Если же никаких проблем с кодом не выявлено, можно переходить к настройке самого веб-сервера.

 

Но в начале требуются некоторые уточнения. В данном случае под термином «веб-сервер» понимается программа, установленная на компьютере хостинг-провайдера (который так же называют сервером, хотя это разные вещи) в дата-центре. Основное назначение этой программы прием и обработка входящих HTTP-запросов и отправка запрошенных данных. Основой правильной работы веб-сервера является файл .htaccess. По своей структуре это обычный текстовый файл, который можно создать в любой текстовой программе типа «Блокнот». Файл .htaccessвсегда размещается в корневом каталоге сайта, который расположен на сервере хостинг-провайдера в виде обыкновенной папки с файлами. В корневом каталоге так же находится файл robots.txt.

 

В большинстве случаев файл .htaccess по умолчанию уже находится в корневом каталоге сайта, поэтому его можно просто открыть в «Блокноте» или в строенном редакторе FTP-клиента. Если же по какой-то причине этого файла в папке сайта нет, его придется предварительно создать и затем уже редактировать.

 

Что включает в себя .htaccess

 

В файле .htaccess хранятся коды, описывающие правила работы для ядра Apache и модулей, подключаемых дополнительно. Для внутренней оптимизации важен модуль mod_rewrit. В наши дни он подключается хостером по умолчанию, но все же будет не лишним предварительно проверить его наличие. Описание настроек модуля mod_rewrite можно посмотреть по адресу http://www.egoroff.spb.ru/portfolio/apache/mod_rewrite.html. Полный же перечень функций доступных настроек изложен здесь [ http://httpd.apache.org/docs/2.2/howto/htaccess.html ]. Все основные настройки веб-сервера Apache хранятся в файле httpd.conf.

 

Для создания комментариев в начале строки следует вписать символ решетки #, тогда ее веб-сервер обрабатывать не будет. Подробные комментарии полезны тем, что позволяют в любое время легко вспомнить назначение всех настроек. Итак, что же должно содержаться в коде .htaccess с точки зрения внутренней оптимизации.

 

В первую очередь надо позаботиться об отсутствии дублей главной страницы. Сам код главной старницы обычно находится в файле /index.html (или index.php. Это справедливо для большинства динамических стилей. При этом сайт может открываться по любому из четырех запросов: yoursite.ru, yoursite.ru/index.html, www.yoursite.ru и www.yoursite.ru/index.html. Однако проблема в том, что для поисковой системы это четыре разных, самостоятельных адреса. И если не прописать настройки .htaccess правильно, то поисковый робот проиндексирует эти адреса как четыре разные страницы с одинаковым содержанием, что будет им расценено как некачественный контент.  Устранить эту проблему помогает следующий код, прописанный в .htaccess:

 

Options +FollowSymLinks
RewriteEngine on
RewriteCond %{HTTP_HOST} ^yoursite.ru
RewriteRule (.*) http://www.yoursite.ru/$1 [R=301,L]
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.html\ HTTP/
RewriteRule ^index\.html$ http://www.yoursite.ru/ [R=301,L]

 

В результате все дублирующиеся страницы будут «склеены» с главной страницей редиректом с кодом 301 («постоянное перемещение»). Только необходимо предварительно проверить, как именно поисковик проиндексировал сайт – с wwwв адресе или нет. Дополнительно надо прописать в файле robots.txt совпадающее основное зеркало.

 

Следующим шагом будет настройка строгого URLстраницы 404. Чтобы удостовериться, что будет выдаваться именно заранее подготовленная страница 404, а не стандартная по умолчанию, надо добавить в синтаксис строку: 

 

ErrorDocument 404 http://www.yousite.ru/404.php

 

Аналогичным образом создаются ссылки на страницы для иных ошибок.

 

Для того, чтобы обеспечить групповой и постраничный переход можно использовать директиву Redirect:

 

Redirect 301 /old.html http://www.yoursite.com/new.html

Для создания группового редиректа используется RedirectMatch – т.е.  команда маски URL и имен файлов. 

 

Еще одна важная настройка: сохранение файлов вместо их открытия. Вероятно все сталкивались с малоприятной ситуацией, когда при попытке скачать заархивированный файл, браузер открывает его в виде html-страницы с кучей непонятных символов.  Появление такой страницы говорит о том,  что на сервере не настроено принудительное сохранение типов файлов, которым запрещено открываться в браузере.  Запретить браузеру открывать rar-файлы (и не только их) можно при помощи строки:

 

AddType application/octet-stream .rar .doc .mov .avi .pdf .xls .mp4

Расширения подставляются веб-мастером самостоятельно и могут меняться.

 

Желательно настроить так же понятные для человека URL. В данном случае предпочтительнее пользоваться настройками, предлагаемыми самой CMS, поскольку длинные, непонятные URL создаются только ею.  Настраивать ЧПУ (человекопонятные URL) при помощи одного только .htaccessд остаточно сложно и кропотливо. Прежде всего в  .htaccess должна присутствовать строка RewriteEngine On (включение mod_rewrite).  И чтобы корректно настроить ЧПУ при помощи .htaccess придется освоить весь синтаксис его кода. К примеру, чтобы преобразовать URL вида www.yoursite.ru/script.php?tv=123 в более приемлемый для человека  www.site.ru/samsung/tv/123/, придется написать строки:

 

RewriteEngine on
RewriteRule samsung/(.*)/(.*)/$ /script.php?$1=$2

Поэтому намного удобнее и проще использовать встроенные средства имеющейся CMS.

 

Кроме всего перечисленного важно позаботиться о предотвращении появления дублей страниц без слэша на конце URL. Для этого в .htaccess прописывается код:

 

RewriteCond%{REQUEST_FILENAME} !-f
RewriteCond%{REQUEST_URI} !(.*)/$
RewriteRule ^(.*)$ /$1/ [R=301,L]

В результате обработки которого, веб-сервером  со страниц , не содержащих слэш в адресе, будет поставлен редирект на слэшевые.

 

В качестве итога сказанному можно дать несколько общих рекомендаций:

 

  1. Прежде чем начинать редактировать файл .htaccess необходимо сделать его копию;
  2. Не стоит сразу механически копировать приведенные примеры в свой код. Сначала желательно выяснить, имеется ли вообще описанная проблема на сайте и можно ли ее решать при помощи данного выражения;
  3. Прежде чем приступать к редактированию настроек, имеет смысл поискать в Интернете описание оптимальных настроек .htaccess для конкретной CMS, посколкьу для большинства распространенных систем управления контентом существуют уже готовые правила для .htaccess.

 

Идем к уроку №8