Резервное копирование: хранение локальной копии данных Google Analytics

Хранение локальной копии данных Google Analytics может оказаться весьма полезным для организации. Например, в настоящее время компания Google согласна хранить данные в течение до 25 месяцев, что позволяет сравнивать ежемесячные отчеты за трехлетний период. Этого вполне достаточно для большинства пользователей, но как быть, если желательно хранить данные дольше? Кроме того, поскольку Google не передает необработанные данные про щипцы для завивки волос третьим сторонам, в случае проведения аудита данных о веб-посетителях может потребоваться альтернативный способ хранения данных. Публикующие сайты часто требуют этого, поскольку аудит третьей стороной — это независимый способ подтверждения их прейскурантов для потенциальных рекламодателей.

Технология заключается в изменении кода GATC так, чтобы он одновременно отправлял данные о посетителях в журнальные файлы веб-сервер и на серверы сбора данных Google Analytics. Это изменение сводится к изменению всего одной строки кода GATC, выделенной в следующем примере полужирным:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<script tуре="text/javascript">
var _gaq = _gaq || [] ;_
_gaq.push(['_setAccount', 'UA-12345-1']);
<strong>_gaq.push(['_setLocalRemoteSGrverMode']);</strong>
_gaq.push(['_trackPageview']) ;
(function () {
var ga = document.createElement('script'); ga.type =
'text/javascript'; ga.async = true; ga.src = ('https:' ==
document.location.protocol ? 'https://ssl' : 'http://www')
+ '.google-analytics.com/ga.js';
var s = document.getElementsByTagName('script')[0];
s.parentNode.insertBefore(ga, s) ;
}) () ;
&lt;/script&gt;

Результат этого изменения — дополнительный запрос файла utm.gif с вашего веб-сервера при загрузке кода GATC. Этот файл представляет собой прозрачное изображение размером 1х1 пиксель, которое Google Analytics использует для добавления этой информации в конец журнальных файлов веб-сервера. Самостоятельно создайте файл и загрузите его в корневой каталог документов — т.е. каталог, в котором находится ваша домашняя страница. Поскольку все веб-серверы записывают свою активность по умолчанию, обычно в формате обычного текста, присутствие дополнительных записей utm.gif в журнальном файле должно проявиться практически немедленно после внесения этого изменения. Они соответствуют данным посещений, как они видятся Google Analytics. Кроме того, веб-сервер должен записывать в журнал информацию файлов cookie. Если значения файлов cookie отсутствуют в журнальных файлах, проверьте указанный формат журнала своего веб-сервера. Правильно работающая строковая запись журнального файла Apache должна выглядеть примерно так:

1
2
3
4
5
6
7
8
9
79.79.125.174 advanced-web-metrics.com- [03/Jan/2010:00:17:01 +0000] "GET
/images/book-cover.jpg HTTP/1.1" 200 27905 "http://www.advancedwebmetrics.
com/blog/2008/02/16/accuracy-whitepaper/"
"Mozilla/5.0 (Windows; U; Windows NT 6.0; en-GB; rv:1.9.0.15)
Gecko/2009101601 Firefox/3.0.15 (.NET CLR 3.5.30729)"
" utma=202 414657.217961957.1257207 415.1257207 415.1257207415.1;
utmb=202414657.1.10.1257207415; utmc=202414 657;
utmz=202414 657.1257207415.1.1.utmcsr=google.со.uk|utmccn=(referral) |
utmcmd=referral|utmcct=/imgres; session_start_time=1257207419839"

Обратите внимание, что в журнальном файле это — единая строка, начинающаяся с IP-адреса и заканчивающаяся значениями cookie GATC. Для Microsoft IIS формат может быть таким:

1
2
3
4
5
6
7
8
2010-01-01 01:56:56 68.222.73.77 GET / utm.gif
utmn=1395285084&utmsr=1280xl024&utmsa=1280x960 &utmsc=32-
bit&utmbs=1280x80 9&utmul=en-us&utmje=l&utmce=l&utmtz=-0500&utmjv=l.3&
utmcn=l&utmr=http://www.yoursite.com/s/s.dll?spage=search%2Fresultshome
1.htm&startdate=01%2F01%2F2010&man=l&num=10&SearchType=web&string=looking
+for+mysite.com&imageField.x=12&imageField.y=6&utmp=/ 200 878 853 93 - -
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+ .NET+CLR+1.0.3705;
+Media4-Center+PC+3.1;+.NET+CLR+1.1.4322) - http://www.yoursite.com/

В этом примере запись журнала начинается с временной метки посетителя и заканчивается именем хоста веб-сайта.

В обоих примерах дополнительная информация, добавленная кодом GATC — дополнительные пары utm* имя/значение. Этот метод носит название метода сбора гибридных данных. Обратите внимание, что хранение локальной копии данных о посетителях сопряжено с дополнительными накладными расходами. Поскольку журнальные файлы веб-сервера могут очень быстро становиться довольно большими и переполнять пространство жесткого диска, в общем случае я не рекомендую хранить локальные копии своих данных, если только это не обусловлено особыми причинами. После всего сказанного отмечу, что хранение локальной копии данных Google Analytics делает возможным выполнение следующих работ.

  • Поддержка более высокого уровня управления данными — например, в целях аудита.
  • Отыскание и устранение проблем реализации Google Analytics.
  • Обработка сколь угодно давних исторических данных — с помощью программного обеспечения Urchin.
  • Повторная обработка данных в любое время — с помощью программного обеспечения Urchin.

Поддержка более высокого уровня управления данными. Некоторые организации чувствуют себя более комфортно, когда их данные физически размещаются внутри занимаемых ими зданий, и готовы вкладывать денежные средства в IT-ресурсы для обеспечения этого. Эти данные нельзя обработать инструментом веб-аналитики другого поставщика, поскольку информация страничных тегов GATC будет лишена смысла для любого постороннего. Однако данные можно передать в службу независимого аудита. Некоторые владельцы веб-сайтов привлекают компании независимого аудита для подтверждения числовых значений своих посетителей — это весьма полезно для сайтов контента и публикации, которые продают рекламные площади и, следовательно, нуждаются в обосновании своих прейскурантов.

Отыскание и устранение проблем реализации Google Analytics. Локальная копия данных о посещениях очень полезна для обнаружения и устранения проблем в сложных системах Google Analytics. Это возможно, поскольку записи журнальных файлов отражают все просмотры страниц, зарегистрированные в реальном времени. Поэтому можно контролировать, правильно ли реализовано отслеживание — в частности, отслеживание загрузок таких типов файлов, как PDF, EXE и других, и ссылок выхода за пределы сайта.

Обработка сколь угодно давних исторических данных — с помощью программного обеспечения Urchin. Как уже упоминалось, в настоящее время Google Analytics гарантирует хранение отчетов в течение периода длительностью до 25 месяцев (хотя до сих пор Google не предпринимала никаких действий по удалению более старых данных). Если желаете хранить свои отчеты дольше, следует приобрести программное обеспечение Urchin и обрабатывать свои локальные данные за прошедший период любой длительности. Загружаемая версия программы действует на локальном сервере и обрабатывает журнальные файлы веб-сервера. Кроме того, Urchin предоставляет отчеты, которые дополняют Google Analytics.

Отчеты, сгенерированные программным обеспечением Urchin, не будут полностью соответствовать отчетам Google Analytics, поскольку они используют различные технологии сбора данных. Например, решение на основе журнальных файлов отслеживает, завершается ли загрузка, в то время как решение на основе страничных тегов отслеживает только событие клика — а это не всегда одно и то же.

Повторная обработка данных в любое время — с помощью программного обеспечения Urchin. Управляя данными и инструментами веб-аналитики, можно ретроактивно применять фильтры и выполнять обработку данных. Например, предположим, что желательно создать отдельный профиль специально для получения отчета о посетителях блога. Как правило, это выполняется посредством применения фильтра на уровне страницы — включая все данные просмотра страницы из каталога /blog. Отчеты Google Analytics заполняются, как только применяется этот фильтр профиля — т.е., с того момента времени вперед. При использовании программы Urchin можно также повторно обрабатывать более старые данные для просмотра отчетов блога в исторической последовательности.

Top