| О нас Услуги Клиенты Платим Полезное Цены Помощь | |||
| Улыбнитесь Статьи Ссылки |
Когда тело движется, оно приводит в движение не тело, а тень. Когда раздается звук, он рождает не звук, а эхо. Когда Небытие претерпевает перемену, оно рождает не Небытие, а нечто наличествующее |
СтатьиКривые Зипфа и популярность веб-сайтовКривые Зипфа выглядят как прямые линии, если их нарисовать на двойной логарифмической шкале. На рисунках, представленных ниже, изображен набор из 300 элементов, подчиняющийся распределению Зипфа. Обратите внимание, что на правой диаграмме линия, соединяющая все точки, образует прямую (на графике обе шкалы - логарифмические). Большинство графиков, которыми мы пользуемся в жизни, имеют линейную шкалу, поэтому в качестве сравнения на левой диаграмме представлены те же самые данные, но на графике с линейной шкалой по осям.
Линейная и логарифмическая шкалы по обеим осям. Одни и те же данные, изображенные на линейной и логарифмической шкале. Оба графика изображают распределение Зипфа на примере 300 точек. Из вышеприведенных графиков понятно, что кривые Зипфа при изображении на линейных шкалах имеют тенденцию очень плотно прилегать к осям графиков. Именно поэтому мы обычно рисуем эти кривые на логарифмической шкале, даже несмотря на то, что большинство людей не привыкло с ними работать. Простое описание данных, подчиняющихся распределению Зипфа, таково:
Как показывает практика, распределения Зипфа можно использовать для описания употребления слов в человеческом языке (например, английском) и популярности книг в библиотеке. Так, например:
Множество данных свидетельствуют, что и Web следует распределению Зипфа. На следующем рисунке показано распределение входящих запросов к страницам сайта www.sub.com в течение одного месяца прошлого года (1996 год). Каждая точка соответствует одной странице. По оси X страницы отсортированы по популярности: первая страница - самая популярная (это главная страница сайта), вторая страница - вторая по популярности за месяц, и так далее, пока мы не достигнем 10.000-ой страницы, которую запросили в течение месяца лишь один раз. Жирная линия показывает реальное распределение популярности страниц, а тонкая красная линия - теоретическую популярность в соответствии с распределением Зипфа. Можно увидеть, что совпадение практически полное за исключением правого "рога". Это отклонение связано с различными причинами, например, с тем фактом, что сайт был еще не достаточно "старым", чтобы накопить достаточное количество запросов к наименее интересным страницам.
Сравнение фактических данных веб-сайта Sun с теоретическими данными распределения Зифпа. Обратите внимание, график использует логарифмическую шкалу по обеим осям. Вышеприведенный рисунок отображает входящие запросы, поступающие на сайт.Другие исследования показывают, что кривой Зипфа можно представить иисходящие запросыработников организации (небольшое количество ссылок, которые посещаются работником чаще всего, и большое количество ссылок, посещенное только один раз). Оказывается, что распределение гипертекстовых ссылок в Web-е также подчиняется распределению Зипфа:
Участие в конференциях Usenet также следует распределению Зипфа: большую часть сообщению пишет лишь небольшая группа людей, а огромная оставшаяся часть пишет в конференции очень редко. Источник информации : SmartResponder.ru, www.interproms.ru |
|
|