Факторы, влияющие на точность данных о посетителях, полученных методом журнальных файлов и страничных тегов
Как правило, отслеживание посредством журнальных файлов по умолчанию включено на веб-серверах. Вероятно, поэтому системные администраторы редко сталкиваются с какими-либо дополнительными осложнениями при отслеживании.
Динамически назначаемые IP-адреса
Обычно метод журнальных файлов отслеживает сеансы посетителей, приписывая все просмотры с одного IP-адреса и сигнатуры веб-браузера одному человеку. Этот подход порождает проблему, когда поставщик Интернет-услуг во время сеанса назначают различные IP-адреса. Исследование американской компании comScore показало, что в среднем на типичный домашний ПК приходится 10,5 различных IP-адресов в месяц.
Программа-анализатор журнальных файлов засчитает эти посещения как 10 уникальных посетителей. Проблема еще больше обостряется вследствие того, что теперь пользователям значительно проще получать последние обновления своих браузеров, что существенно затрудняет дифференциацию сигнатур браузеров. В результате количество посетителей оказывается сильно завышенным. Это ограничение можно преодолеть с помощью файлов cookie.
Страницы, кешированные на стороне клиента
Кеширование на стороне клиента означает, что ранее посещенная страница сохранена на компьютере посетителя. В этом случае посещение той же страницы снова приведет к тому, что страница будет загружена локально с компьютера посетителя, и, следовательно, посещение не будет зарегистрировано на веб-сервере. Кеширование на стороне сервера выполняется с помощью какой-либо технологии ускорения, при которой копия веб-сайта помещается в кеш-память и вьдается из серверов для ускорения загрузки веб-страниц.
Это означает, что все последующие запросы к сайту поступают из кеш-памяти, а не от самого сайта, что ведет к потерям данных при отслеживании. Сегодня большинство веб-сайтов тем или иным образом кешируется для повышения эффективности. Например, просмотрите описание кеширования в Википедии.
Учет роботов
Роботы, также называемые «пауками» или поисковыми агентами, чаще всего используются поисковыми системами для загрузки индексированных страниц. Но существуют и другие роботы. Одни проверяют эффективность сервера — период безотказной работы, скорость загрузки и т.д., другие собирают информацию со страниц, такую как цены на шлакоблок, адреса электронной почты и т.п. Это также повлияет на данные веб-аналитики, поскольку анализатор журнальных файлов отобразит все данные по активности роботов на данном веб-сайте, хотя они и не являются реальными посетителями.
При подсчете количества посетителей роботы могут составлять значительную долю трафика просмотра страниц. К сожалению, их трудно отфильтровать полностью вследствие существования тысяч доморощенных и безымянных роботов. Поэтому анализатор журнальных файлов, скорее всего, будет выдавать завышенные значения количества посетителей, причем в большинстве случаев это завышение может быть очень большим.
Факторы, влияющие на данные о посетителях, полученные методом использования страничных тегов
Размещение страничных тегов на каждой отдельной странице — процесс, который во многих случаях можно автоматизировать. Однако для крупных сайтов совершенно правильного размещения удается достичь редко. То ли потому, что страничный тег скрыт от человеческого взгляда, или вследствие того, что имеется слишком много других данных, но часто эти ошибки остаются незамеченными в течение длительных периодов времени. Обеспечение полного охвата тегами — важнейшее условие достижения точности и достоверности данных, собранных этим методом.