Что такое страничные теги и журнальные файлы для веб-анализа

Страничные теги собирают данные посредством веб-браузера посетителя и отправляют эту информацию удаленным серверам сбора данных. Пользователь сервиса аналитики просматривает отчеты с удаленного сервера (рис. 2.1). Обычно эта информация перехватывается кодом JavaScript (называемым тегами или веб-маяками), помешенным на каждой странице сайта. Некоторые компании-разработчики также добавляют несколько нестандартных тегов для сбора дополнительных данных. Этот метод называется сбором данных на стороне клиента и применяется, в основном, во внешних сетевых решениях поставщика (software as a service (программное обеспечение как услуга) — SaaS).

Рис. 2.1. Схематическое представление методологии применения тегов страниц: страничные теги транслируют информацию удаленным серверам сбора данных, тем самым предоставляя клиенту сервиса аналитики возможность просматривать соответствующие отчеты

Рис. 2.1. Схематическое представление методологии применения тегов страниц: страничные теги транслируют информацию удаленным серверам сбора данных, тем самым предоставляя клиенту сервиса аналитики возможность просматривать соответствующие отчеты

Журнальные файлы содержат данные, собранные веб-сервером независимо от браузера посетителя. Веб-сервер записывает все свои операции в текстовый файл, который обычно является локальным, т.е. находится в той же сети или даже на том же компьютере, что и веб-сервер. Пользователь сервиса аналитики просматривает отчеты с локального сервера, как показано на рис. 2.2. Этот метод, который называется сбором данных на стороне сервера, фиксирует все запросы к веб-серверу, включая страницы, изображения и PDF-файлы; чаще всего данный метод применяется разработчиками самостоятельного лицензионного программного обеспечения.

Раньше благодаря доступности журнальных файлов веб-сервера этот метод чаще всего использовался для изучения поведения посетителей сайта. По сути, большинство поставщиков услуг Интернета (ISP) предоставляют бесплатный анализатор журнальных файлов вместе с аккаунтами веб-хостинга (к таким программами-анализаторам относятся, например, Analog, Webalizer и AWStats). Хотя, вероятно, именно так происходит первое знакомство с веб-аналитикой у большинства пользователей, эти бесплатные инструменты слишком просты для изучения поведения посетителей, поэтому мы не будем их рассматривать в данной статье.

Рис. 2.2. Схематическое представление методологии применения журнальных файлов: веб-сервер записывает все свои операции в локальный текстовый файл, тем самым предоставляя клиенту сервиса аналитики возможность просматривать отчеты с локального сервера

Рис. 2.2. Схематическое представление методологии применения журнальных файлов: веб-сервер записывает все свои операции в локальный текстовый файл, тем самым предоставляя клиенту сервиса аналитики возможность просматривать отчеты с локального сервера

В последние годы более популярным и фактически стандартным методом сбора информации о посетителях стали теги, размещаемые на веб-страницах. Реализация метода страничных тегов не только проще с технической точки зрения, но и сопряжена со значительно меньшими требованиями к управлению данными, поскольку данные собираются и обрабатываются внешними SaaS-серверами (поставщика услуг), избавляя владельца сайта от расходов и забот по поддержанию лицензионного программного обеспечения для сбора, хранения и архивирования информации про коктейли для похудения.

Нужно отметить, что оба метода, если рассматривать их по отдельности, имеют свои ограничения. Различия между ними приведены в таблице ниже. Существует распространенный миф о том, что с технической точки зрения метод с применением страничных тегов превосходит другие методы, но, как показано в таблице ниже, все зависит от того, какие цели вы преследуете. Но при сочетании обоих методов преимущества одного компенсируют недостатки другого. Такой метод называется гибридным, и его предлагают некоторые поставщики.

Сравнение методов применения страничных тегов и журнальных файлов

Метод Преимущества Недостатки
Страничные теги Позволяют разграничить прокси- и кеширующие серверы — обеспечивается более точное отслеживание сеанса.
Отслеживание событий на стороне клиента — например, JavaScript, Flash,Web 2.0 (Ajax).
Фиксирование данных электронной торговли на стороне клиента — доступ на стороне сервера бывает проблематичным.
Сбор и обработка данных о посетителях почти в реальном времени.
Позволяет поставщику проводить обновления программы.
Позволяет поставщику сохранять и архивировать данные.
Требуется больше изменений в веб-страницах. Чтобы собирать данные, приходится вносить изменения в страницы веб-сайта (добавлять теги).
Ошибки настройки ведут к потере данных. Ошибки в тегах ведут к потере данных без возможности возврата и повторного анализа.
Брандмауэры могут исказить или ограничить теги.
Невозможность отслеживания пропускной способности или совершенных загрузок — теги вьшолняются при запросе страницы или файла, а не при завершении загрузки.
Невозможность отслеживания «пауков» поисковых систем — роботы игнорируют теги.
Программа анализа журнальных файлов Автоматический сбор данных.
Никакие изменения веб-страниц не требуются.
Легкость обработки данных об истории посещенных страниц.
Отсутствие необходимости беспокоиться о проблемах, связанных с брандмауэром.
Возможность отслеживания пропускной способности и завершенных загрузок, а также различения полностью и частично завершенных загрузок.
Выполнение по умолчанию отслеживания «пауков» и роботов поисковых систем.
Выполнение по умолчанию отслеживания посетителей, использующих мобильные устройства с доступом в Интернет.
Погрешности, вызванные применением прокси- и кеширующих серверов. Если страница кешируется, никакая запись не заносится в журнал веб-сервера.
Отсутствие отслеживания собьггий — например, JavaScript, Flash, Web 2.0 (Ajax).
Необходимость выполнения обновлений программы собственными силами.
Необходимость сохранения и архивирования данных собственными силами.
Роботы увеличивают количество посещений, и это увеличение может быть значительным.

Как видите, преимущества одного метода сбора данных компенсируют недостатки другого. Но, если не принимать во внимание бесплатные инструменты, пока что метод тегов страниц SaaS находит наиболее широкое применение по причине простоты реализации и низких накладных расходов в плане IT и стоимости поддержки.

Другие методы сбора данных

Хотя в настоящее время анализ журнальных файлов и снабжение страниц тегами — наиболее широко используемые методы сбора данных о посетителях веб-сайта, они далеко не единственные. Устройства сбора сетевых данных (анализаторы пакетов) собирают данные о веб-трафике с маршрутизаторов в аппаратные «черные ящики».

Еще один метод — использование программного интерфейса приложений (API) веб-сервера или загружаемого модуля (также называемого программным расширением, хотя этот термин и совсем корректен). Это программы, которые расширяют возможности веб-сервера — например, записывают в журнал дополнительные данные. Обычно затем собранные данные в реальном времени направляются на сервер, генерирующий отчеты.

Top