Горячая десятка и Кривая Ципфа

— Посмотрел твой блог, интересный!

— А, это был ты…

Всем привет, удачники!

Раз уж заговорили о стартапах, то стоит сказать несколько слов о факторах их подъёма, продвижения и провала: о Кривой Ципфа, положительной обратной связи, горячей десятке и Правиле Парето.

По какой-то внутренней причине устройства Вселенной очень многие процессы на массовых рынках и в обществе ведут себя согласно так называемой Кривой Ципфа:

Это касается процессов, где есть несколько или много явлений, у каждого из которых есть тот или иной вес. Например, это касается практически всех рейтингов, «горячих десяток», чартов и т. п.

Кроме того, это практически основной закон в лингвистике, статистике словоупотреблений, частотности слов, словосочетаний, предложений.

Эта кривая помогает понимать процессы, связанные с ранжированием почти чего угодно.

Кривая устроена так: на графике выше по оси иксов отложены номера явлений, а по оси игреков — их вес.

Ближе к нулю — самые весомые (например, частотные/популярные, а дальше — менее популярные).

Я нарисовал здесь для красоты непрерывную и плавную кривую, хотя в реальности картина, конечно, ступенчатая — состоит из столбиков, потому что у нас дискретная ситуация, участников рейтинга — конечное количество.

Но когда явлений очень много — например, слов в текстах, то кривая — и сама практически непрерывная и гладкая.

Так, например, выглядит распределение слов языка по частотности. Так выглядит посещаемость интернет-ресурсов: на первом месте — например, Яндекс, потом, скажем, Ютуб и т. п. Значения популярности всё время понижаются при движении вправо.Так выглядят рейтинги звёзд шоу-бизнеса, блогеров, сборы кино и т. п.

Этот факт расположения позиций именно по такой кривой — эмпирический, но данная модель действительно встречается очень часто во многих описанных выше случаях.

Кстати: Правило Парето

— Сколько у вас в конторе народу работает?

— Ну, процентов 15-20…

Легко понять, что ставшее распространённым мемасиком Правило Парето, которое проще всего формулируется как «20% участников вечеринки выпивают 80% всего пива» или «10% продавцов приносят 90% продаж» — это просто словесная интерпретация Кривой Ципфа:

Здесь по оси иксов — работники, по игрекам — полезность/трудолюбие работника.

Площадь под кривой — суммарное количество работы, её результаты.

Тут наглядно видно, что пресловутое деление 80/20 — это именно мемасик: на самом деле «границу отсечения лентяев» можно по желанию двигать вправо-влево — от 5:95 до 60:40 и так далее. Главное, чтобы реальный процесс вёл себя именно таким образом, описывался именно такой кривой.

Понятно также, что и Кривая Ципфа, и Правило Парето — это модели. То есть грубые, необязательно верные, но удобные описания каких-то процессов, позволяющие упростить понимание и делать какие-то поверхностные, упрощённые выводы — о которых далее.

Про силу и слабость, блеск и нищету моделей я уже писал здесь на Спонсоре.

Формула гиперболы

При взгляде на кривую Ципфа, в общем, понятно, что это классическая гипербола, которую все проходили в школе. Это функция типа Y = 1/X (возможный коэффициент в знаменателе опустим для наглядности).

Мы, конечно, имеем дело, как я говорил уже, не с непрерывной функцией, а с рядом — потому что у нас число участников конечно. Но графики проще и нагляднее рисовать непрерывными.

Формула гиперболы означает, что первый участник ряда (например, СМИ № 1 в рейтинге посещаемости или лучший автор в рейтинге бестселлеров) получает, скажем, Y ништяков, второй — вдвое меньше, Y/2, третий — втрое меньше, Y/3, четвёртый — вчетверо и так далее (сумма всех, конечно, не обязана равняться единице или 100%, посетители СМИ, например, могут ходить и туда, и сюда).

Правда, гипербола Ципфа может описываться и формулой Y = 1/X**2, где знаменатель — в квадрате. Тогда рейтинг будет более жестоким: победитель будет получать почти всё, второй участник — уже в четыре раза меньше, третий — в девять раз меньше и т. п.

Знаменатель может быть не в квадрате, а в кубе или степени n, например. Тогда падение количества ништяков для неудачников будет ещё круче.

Показатель степени зависит от самого изучаемого процесса. Но график на глаз будет выглядеть примерно так же, гиперболой. Может быть, чуть более «прижатым» к осям.

Если процесс таков, что при приближении влево к началу координат значение функции растёт очень сильно, а в «хвосте», на стремлении вправо к бесконечности — быстро прижимается к оси иксов, то там, скорее всего, степенной показатель у икса — не единица, а больше — не 1/Х, а 1/X**2, или 1/Х**3, и так далее.

А вот от показателя степени, в свою очередь, зависит поведение процесса.

Тяжёлый и лёгкий хвост

Для рядов вида y=1/х**n есть довольно простой алгебраический факт: сумма ряда со степенью знаменателя n меньше или равной единице (например, для функции 1/х, с которой мы начали) — стремится к бесконечности.

То есть хотя индивидуальные значения членов ряда при движении вправо заметно падают, их сумма — бесконечно растёт, ряд расходится.

А вот для всех остальных степеней больше единицы этот ряд — сходится. То есть сумма всех неудачников справа — конечна, ограниченна.

Ни доказывать это, ни подробно объяснять здесь не нужно; скажем лишь, что это означает, что для некоторых рейтингов с быстро убывающей кривой Ципфа, прижавшейся к осям, хвост неудачников — лёгкий, то есть всё забирают себе немногие удачники в начале рейтинга, а для некоторых рейтингов с медленной убывающей гиперболой — хвост тяжёлый, то есть основная масса ништяков оседает именно в длинном хвосте мелких участников.

Второе верно, видимо, для сильно фрагментированных рынков и аудиторий. Первое — для сформированных рынков.

Кстати:

Про сформированные рынки есть «правило Гориллы» (конечно, также фактически выглядящее, как Кривая Ципфа):

На сложившемся рынке есть одна горилла, два шимпанзе и много макак. Горилла забирает 40-60% рынка, шимпанзе по 10-15%, макакам остаётся на всех 5-10%, хорошо, если 15%.

Например, так всегда вели себя ИТ-рынки с их гориллами Гуглом, Микрософтом, Ораклом.

То есть известный в маркетинге, интернет-бизнесе и социологии мемасик про «тяжёлый хвост» происходит тоже из Кривой Ципфа.

Что важно про него знать: прежде чем придумывать способы рекламы, пропаганды, электоральных сообщений, продаж, сегментирования рынка, хорошо бы понимать, какой у вас имеется хвост в данной ситуации — тяжёлый или лёгкий. На кого рассчитывать в смысле продаж, например — на горилл или на макак.

Как это понять в своём конкретном случае — другая история. Возможно, на цифры рынка, конкурентов, своих продаж посмотреть внимательно. Загрузить их в MS Excel.

Зачем это нужно знать? Байка о Спутнике

Зачастую взгляд на графики позволяет понять устройство Вселенной в данном месте. Вот пример из жизни.

Гладкость раздачи трафика

Однажды, в августе 2008 года, к заместителю главы Администрации Президента РФ Владиславу Суркову пришли Вадим Горшенин из «Правды.ру» и Герман Клименко из LIveInternet.

Они показали Суркову графики раздачи трафика с новостных агрегаторов Гугла, Рамблера и Яндекса на главные СМИ Рунета.

Счётчик Liveinternet был тогда расставлен на большинстве СМИ Рунета и позволял видеть, с каких поисковиков и новостных агрегаторов приходят читатели. Этот конкретный отчёт счётчика про новостные агрегаторы не был публичным, Герман его сделал специально к случаю.

Вот так примерно выглядели графики Гугла и Рамблера:

Графики условные, но главное, что видно на них — это классический Ципф. Как и положено по теории: популярное СМИ получает с поисковика больше трафика. Лента.ру тогда была самой популярной, дальше шли Газета, РБК и пр.

А вот так (очень примерно выглядел) график раздачи трафика с Новостей Яндекса:

График был принципиально негладкий, имел пики исключительно на либеральных СМИ.

Что это значит? Понятно, что.

Инфовойна иноагентов или иновойна инфоагентов

В середине августа 2008 все либеральные СМИ Рунета яростно нападали на российское правительство за Грузинскую войну 08.08.08, защищали и воспевали Саакашвили, Грузию, «у которой получилось», рассказывали про зверства русских и негодяйство осетин, продвигали движение «ЯГрузин», в общем старательно отрабатывали повестку USAID.

Этим занимались Лента, Газета, РБК, Эхо Москвы, Коммерсант, Ведомости, Эхо Москвы в Екатеринбурге, питерская Фонтанка и другие.

И Яндекс целенаправленно и сознательно подливал им трафика, что было ясно видно на графике — антироссийские либеральные СМИ получали с Яндекса значительно больше трафика, чем им «полагалось» согласно их местам в рейтинге.

Оргвыводы

Всё это было настолько очевидно, что знать именно про закон Ципфа ни Клименко, ни Суркову было необязательно. Счёт был на табло, кагрицца.

Далее Сурков отнёс эти графики Президенту РФ Дмитрию Анатольевичу Медведеву. Тот, натурально, раздражился, стукнул кулаком по столу и велел прекратить шедшие тогда переговоры о покупке доли в Яндексе Мильнером и Усмановым и вместо этого создать национальный поисковик.

Процесс запустился, через полтора-два года привёл к созданию Спутника, дальше вы знаете. Частично про это есть мои комментарии на Роеме.

Интересно, что такая манипуляция трафиком в политических целях могла бы быть незаметной — если бы Гера не записал все ходы.

Каким образом можно манипулировать?

Положительная обратная связь «горячей десятки»

Любой публичный (или не очень публичный, но влиятельный) рейтинг имеет положительную обратную связь, которую проще всего описать сентенцией «богатые богатеют, а бедные беднеют».

Мы это воочию наблюдали в Рамблере в 200-2001 года на примере рамблеровского рейтинга Тор100. Стоило сайту попасть «в десятку» своей категории, пусть даже эпизодически или случайно, как пользователи начинали на него активно ходить, упрочивая его место в рейтинге и улучшая его.

Место в рейтинге обладает устойчивостью и собственной энергией. Попасть в десятку трудно — но выпасть ещё труднее.

Это то, почему все, кто принципиально, жизнью и карманом, зависит от рейтингов, чартов, популярности, медийности, узнаваемости бренда — шоумены, писатели, артисты, актёры, продюсеры, политики, блогеры — стараются попасть в «десятку» всеми правдами и неправдами.

Один раз ты попал туда — всё, дело сделано, дальше вторичное зрительское внимание, подогретое самой «десяткой» — вытащит, нужно только не совершать ошибок и подогревать слегка на медленном огне.

Это отлито в американской поговорке fake till you make it, которая не просто учит понтоваться и притворяться, но и говорит, что притворство в форме узнаваемости само по себе даёт эффект, чисто физически.

Манипуляция местом

Так вот, если у тебя есть свой рейтинг — в целом честный — но ты хотел бы немножко и незаметно им манипулировать — за деньги или по политическим соображениям — то на тебя будет работать эта положительная связь. Ты принудительно и незаметно впихиваешь какого-то участника рейтинга на высокое место, а затем довольно быстро он становится его достоин. Потому что стал заметен и привлёк популярность. И всё, какие претензии.

Такая история была с тем же Яндексом, когда он году примерно в 2005-2007 к Празднику Победы 9 Мая опубликовал на верху своего рейтинга блог-постов ссылку на текст какого-то негодяя про то, что русская армия была армия насильников, изнасиловала в Берлине 2 миллиона немок и т. п.

Потом Волож (и, к сожалению, Сегалович) отмазывались тем, что «у нас работают роботы», что они просто честно показывают популярные записи.

Мол, да, запись — нехорошая, но популярная же, а нам-то что делать. У нас роботы. Граждане читают же, им интересно, вот мы и показываем в рейтинге.

Особенности этой отмазки и ситуации в целом были том, что:

На момент показа этой гнусной записи в пяти верхних записях в рейтинге у неё практически не было ни перепостов, ни прочтений, ни подписчиков, то есть она не имела оснований быть в пятёрке — её всунули в верхнюю пятёрку руками, принудительно (я тогда это проверил лично);
К моменту разборок и негодования общественности запись уже набрала актуальных просмотров за счёт продвижения пятёркой Яндекса и за счёт разгоревшегося скандала, а ретроспектива данных посещений была уже недоступна (это же внутренний счётчик Яндекса) — то есть и предъявить толком «по цифрам» было нечего, только «по понятиям». Впрочем, скриншоты изначальных показателей записи тогда кое-кто сохранил.

Отмазавшись, Яндекс всё же по результатам этого скандала и аналогичных других перестал рейтинговать и записи, и блоги в целом. Это был результат пробивавшейся наружу борьбы политической ангажированности сотрудников и воли к заработкам Воложа.

То есть держатель рейтинга может им манипулировать, используя положительную обратную связь (это уж не говоря об изначально манипулятивной методике, если она закрыта или заморочена). Всунул, разогрел, проканало.

А при чём тут стартапы?

Ну, это просто:

Первое: если ты заходишь на рынок, где десятка не сформирована, то ты автоматически попадаешь в полупустую десятку, и место в ней начнёт работать на тебя. Первые получают огромное преимущество. Часто незаслуженное (и тогда их выбивают вторые-третье). Отсюда очередной маркетинговый мемасик про «Голубые океаны», в которых плавать лучше, чем в «Красных океанах». Сбербанк этот мемасик продвигает, как почти что свой.
Второе: заняв место в десятке на заре времён, его легче удерживать, оно устойчиво, работает на тебя. Какое-то время.
Третье: всё это не спасает от того, что стартаперу всё равно придётся набить все положенные шишки и пройти по всем граблям. И с большой вероятностью выпасть из верхушки рейтинга даже в «голубом океане». Но об этом в следующий раз.