Как работает Google Analytics?

Применительно к отслеживанию и сообщению данных о посетителях веб-сайта Google Analytics играет роль как широкого штапеля, так и скальпеля. Кроме того, благодаря простоте своей реализации, этот инструмент и чрезвычайно гибок. Последующие разделы помогут понять принципы работы Google Analytics.

Код отслеживания Google Analytics

Ранее были описаны методики сбора данных и роль, которую файлы cookie играют в веб-аналитике. Google Analytics — это решение на основе страничных тегов, в котором применяются основные файлы cookie. При использовании этого метода весь сбор данных, обработка, обслуживание и модернизация программ выполняется Google в форме предоставляемой службы, называемой также «программное обеспечение как служба» (SaaS). Но какие именно процессы и потоки данных выполняют эту работу? Лучше всего это иллюстрируется трехступенчатой схемой, представленной на рис. 3.2.

Рис. 3.2. Схематическая диаграмма работы Google Analytics

Рис. 3.2. Схематическая диаграмма работы Google Analytics

Ниже перечислены эти шаги.

  1. Ничего не происходит до тех пор, пока посетитель не прибывает на ваш веб-сайт. При этом может использоваться множество различных путей, включая поисковые системы, социальные сети, маркетинг посредством электронной почты, ссылки перехода и т.д. Какой бы путь не использовался, когда посетитель просматривает одну из ваших страниц, содержащих код отслеживания Google Analytics (Google Analytics Tracking Code — GATC), выполняется автоматический запрос файла http://www.google-analytics.com/ga.js. Это — основной файл Google Analytics, файл размером 18 Кбайт, который загружается только один раз на протяжении сеанса посетителя. Дальнейшие запросы этого файла будут обслуживаться из кеша браузера посетителя. После того как файл ga.js загружен, осуществляется сбор информации ссылающегося сайта и других данных посетителя (например, URL-адрес страницы, временная метка, уникальный идентификатор, разрешение экрана, цветовая глубина) и создаются основные файлы cookie для идентификации посетителя, которого интересует чистка диванов на дому, — или обновления сведений о нем, если он является возвратившимся посетителем.
  2. Для каждого просмотра страницы GATC отправляет эту информацию серверам сбора данных Google посредством обращения к прозрачному GIF-изображению размером 1×1 пикселей (с именем utm.gif) в Google-analytics.com. Таким способом также могут отслеживаться внутристраничные действия пользователя (события), например, клик для запуска анимации Flash. Весь процесс передачи данных занимает доли секунды.
  3. Google обрабатьшает собранные данные через регулярные интервалы и обновляет отчеты Google Analytics. Однако, вследствие применяемой методологии и огромного объема данных, как правило, отчеты отображаются с трех- или четырехчасовым, а иногда и большим запаздыванием, хотя оно и не должно превышать 24 часа.

Длительность обработки и актуальность данных

В большинстве случаев сбор данных с множества серверов сбора данных — бесперебойный процесс, но иногда что-то может пойти не так, как должно. Например, передача журнального файла может быть прервана. В связи с этим Google Analytics собирает и вновь обрабатывает все данные за 24-часовой период в конце дня. Поэтому не паникуйте, если не обнаружите данные за текущий день. Если же эта ситуация длится дольше 24 часов, свяжитесь с командой поддержки Google Analytics: www.google.com/support/googleanalytics/bin/request.py.

Степень актуальности данных Google Analytics (иными словами то, в какой степени данные отчета соответствуют текущему моменту) зависит от ряда факторов. Наибольшее значение имеет объем данных, отправляемых серверам сбора данных Google Analytics. Для большинства веб-сайтов данные, скорее всего, будут отставать на 3-4 часа. Это отставание может быть значительно меньшим, если сайт принимает менее 10 000 посещений в день. Дополнительная информация приведена в разделе «Ограничения Google Analytics» далее.

Google Analytics использует один и тот же кодовый фрагмент ga.js для всех посетителей и для всех владельцев веб-сайтов. Это означает, что он кешируется очень большой частью пользователей Интернета — т.е. инструмент располагает базой, состоящей из миллионов веб-сайтов, обладающих некоторыми очень популярными веб-свойствами. Это очень отрадно, поскольку означает, что если посетитель вашего веб-сайта ранее посетил другой веб-сайт, который также использует Google Analytics, файл ga.js вообще не придется загружать — он уже будет кеширован. В результате Google Analytics оказывает минимальное влияние на продолжительность загрузки страниц.

Как правило, кешированная информация сохраняется в течение семи дней, хотя это значение и может настраиваться в конфигурации браузера. Как, вероятно, стало ясно из описания рис. 3.2, если посетитель блокирует выполнение кода JavaScript или установку основных файлов cookie, если код GATC не был добавлен к странице либо веб-сервер не допускает выполнения GATC (т.е. находится позади брандмауэра), Google Analytics не будет работать, и никакие данные не будут собраны. В случае потери данных возврат назад и их повторная обработка невозможны, поэтому регулярные проверки сети GATC должны быть частью вашего плана реализации веб-аналитики.

Top