Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Откуда берутся данные для анализа





Все системы статистики берут свои данные из событий, происходящих при обра-
щении браузера пользователя к веб-серверу, который обслуживает ваш сайт.

События эти записываются в журнал сайта, так называемый лог.

Логи сайта

При обращении пользователя к сайту происходит сразу несколько событий.

1. Запрос страницы. Клиент (браузер) передает на WWW-сервер запрос на выдачу
страницы, при этом на сервере становятся известны:

а) обязательные параметры. IP-адрес клиента, запрашиваемый URL, дата и
время запроса (по IP-адресу можно определить географическое положение
клиента);

б) дополнительные параметры (необязательные, но обычно передаваемые):
используемый пользователем браузер, адрес (URL) предыдущей страницы,
с которой произошел переход, имя пользователя и пароль для защищенных
страниц и т. д.

2. Выдача страницы. Сервер возвращает клиенту запрошенный документ (HTML
или картинку).

3. Запись в лог. Веб-сервер записывает данные о произошедшей транзакции в жур-
нальный файл (лог-файл).

Как правило, веб-страницы (в этой главе будем называть их документами) явля-
ются составными, то есть они состоят из HTML-текста страницы и некоторого
количества вставленных в текст изображений. Все они передаются в браузер поль-
зователя по отдельности — на самом деле при запросе страницы между браузером
пользователя и веб-сервером происходит несколько транзакций, записываемых
в лог по отдельности. Необходимо упомянуть также особенности составных до-
кументов.

□ Для каждого вложенного документа (изображения, текста во фрейме, стилевого
файла и т. п.) пользовательский браузер делает отдельный запрос.

□ Элементы составного документа могут извлекаться не с одного, а с нескольких
разных сайтов (веб-серверов). В этом случае адреса (URL) вложенных элемен-
тов описываются в основном, внешнем документе. При этом запись о запросе
страницы появится не только в логах вашего сайта, но и в журнальных файлах
этих третьих серверов.

Вот пример нескольких записей журнального файла:

62.205.178.34 [17/Jun/2005:00:06: 52 +0400]

"/apache-talk/msg05126.html http/1.1" 12854 "http://www.yandex.ru/
yandsearch?rpt=rad&text=RFCl945"

"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SVl; Maxthon;.NET
CLR 1.1.4322)"

"ruid=0000000142BlDAE9000092EA03030F02"
62.205.178.34 [17/Jun/2005:00:06: 52 +0400]
"image/color_logo.gif http/1.1" 2649
"http://www.1exa.ru/apache-talk/msg05126.html"


Здесь первая запись фиксирует получение HTML-страницы, а вторая — вло-
женной в нее картинки. Следует уточнить, что в этом примере оставлены только
существенные для изложения поля данных (в порядке следования: IP-адрес, дата,
URL, размер документа, URL ссылающейся страницы, название пользователь-
ского ПО и идентификатор пользователя). Журнальные файлы представляют
собой сырые данные, которые необходимо обработать. Качество их обработки
(глубина анализа) и определяет качество той системы статистики, которую вы
будете использовать. Заметим, что в логах сайта содержится вся необходимая
информация, и никаких других данных о посещаемости сайта в большинстве
случаев не существует.

Подсчет посетителей

По IP-адресам невозможно точно подсчитать количество посетителей сайта. Это
связано с тем, что многие пользователи пользуются корпоративным доступом в
Интернет и при выходе в Сеть получают один и тот же IP-адрес (адрес корпора-
тивного «прокси», то есть сервера-посредника). То же самое верно для пользова-
телей некоторых публичных систем доступа в Интернет (домашних сетей, систем
телефонного дозвона) — пользователям каждый раз назначаются разные 1Р-адреса
или один на всех.

Для более точного подсчета посетителей и для распознавания того же посетителя
в его следующих заходах на ваш сайт в Интернете используется технология Cookie
(в переводе с англ. печенье; читается как «куки»), которая заключается в следую-
щем.

□ При первом посещении сайта браузеру пользователя присваивается уникаль-
ный Cookie-идентификатор — по сути простая текстовая строчка с данными
веб-сервера. Этот идентификатор записывается на компьютер пользователя
в специальный каталог. Браузер позволяет это сделать, если только поль-
зователь специально не запретил записывать и отдавать куки в настройках
браузера.

□ При последующих просмотрах страниц сайта браузер, наоборот, сообщает этот
идентификатор выдавшему его сайту (и только ему). Таким образом, можно
отследить как нескольких пользователей, приходящих с одного IP-адреса, так
и одного пользователя, приходящего с разных 1Р-адресов.


На сегодняшний день для большинства сайтов этот метод является единственным
способом отследить поведение посетителей (без их регистрации и последующего
ввода имени и пароля).

В то же время, согласно современным оценкам, от 10 до 30% пользователей в те-
чение месяца очищают (или теряют) записи Cookie. Как уже упоминалось выше,
это приводит к тому, что оценка количества новых пользователей оказывается
завышенной.

Точность подсчетов

Реальная жизнь несколько сложнее описанной выше простой схемы. Аккуратный
подсчет статистики сайта затрудняется по нескольким причинам.

□ Часть пользователей выходит в Интернет с разделением одного IP-адреса ме-
жду многими пользователями. Это происходит при разделе одного домашнего


ADSL-соединения между несколькими жителями одной квартиры, при выдаче
провайдером временных адресов при каждом выходе в Сеть, при использова-
нии корпоративных «серверов-посредников» (прокси-серверов), зачастую при
мобильном доступе и т. п.

□ Часть пользователей меняет свой IP-адрес в процессе работы (например, после
обрыва телефонного или мобильного соединения восстановление может про-
исходить с заменой IP-адреса).

□ В компаниях и у частных пользователей часто используются персональные и
корпоративные брандмауэры, или «файрволлы» (firewall), и анонимизаторы,
не позволяющие передавать браузеру пользователя записи Cookie и другие
необязательные данные запроса.

□ Часть обращений пользователей к веб-страницам не фиксируется в логах, так
как страница на самом деле берется браузером не с самого сайта, а с локального
диска пользователя (если она была скачана ранее) или из веб-акселератора про-
вайдера (для ускорения доступа к сайтам некоторые провайдеры хранят часто
запрашиваемые страницы в специальном буфере — кэше).

По этим причинам полученные статистическими сервисами данные отличаются от
реальных. Не существует каких-то корректных способов оценить величину откло-
нения «реальности» от измеренных характеристик, однако принято считать, что эти
отклонения в среднем не превышают 5-10%. В то же время, если аудитория сайта
достаточно велика и нет оснований полагать, что она резко изменится (например,
после активной рекламы на ресурсах с большой посещаемостью), то можно считать
ошибку измерения постоянной и успешно сравнивать между собой данные по дням,
неделям, месяцам.







Date: 2015-09-25; view: 624; Нарушение авторских прав



mydocx.ru - 2015-2024 year. (0.007 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию