СК в ЖЖ: степенные распределения и роль социального давления

В социальной сети livejournal существует такой параметр, как «социальный капитал» (СК), который приписывается каждому пользователю и характеризует степень социального влияния данного пользователя. Так как в подавляющем большинстве пользователь не отделен от своего журнала, то для дальнейшего совершенно не важно, что именно характеризует СК — блог или же самого блоггера. Так вот, в своей ленте я периодически встречаю посты, посвященные этому самому показателю: «СК опять упал!», «гадкий СУП срезал СК, что делать?», «а у меня +76 за сегодня!!!» и так далее. Мне же стало интересно посмотреть на картину в целом, то есть исследовать некую статистику. Помимо параметра СК имеется понятный параметр — рейтинг пользователя (РП), который принимает значения от 1 до N, где N — число пользователей соц. сети. То есть у каждый пользователь описывается двумя параметрами: РП и СК. Естественно, мне стало интересно то, как связаны эти параметры. Почему то я сначала решил, что зависимость будет экспоненциальная, как в законе распределения Больцмана. Однако, оказалось, что более точно зависимость СК от РП описывается комбинацией экспоненты и степенной функции. Я взял наугад 14 пользователей (СК которых лежит в основном в пределах от 100 до 1000) и построил зависимость СК(РП) (рис. 1 — линия из красных точек). Синяя линия на том же графике соответствует экстраполяционной формуле (P — место в рейтинге пользователей, C — значение социального капитала):


Формула расчета социального капитала (1)



Формула расчета социального капитала
Рис.1 — зависимость Социального капитала от рейтинга пользователя

Ландау говорил, что с помощью трех подгоночных параметров можно описать любую кривую, а здесь у меня четыре таких параметра и кривая описывается все равно приближенно. Не будем заострять на этом внимание, а посмотрим на график (Рис.2) той же зависимости — как позиция в рейтинге зависит от СК. График построен в двойных логарифмических координатах:

Формула расчета социального капитала
Рис.2 — зависимость рейтинга пользователя от Социального капитала

Зачем нужны логарифмические координаты? А затем, что в них степенная зависимость выгладит как прямая, а что может быть проще прямой? 🙂 Более того, зависимость позиции в рейтинге от СК можно трактовать как кумулятивную функцию распределения СК. А особенность степенных распределений в том, что если функция распределения СК имеет степенной характер, то и кумулятивная функция распределения также будет иметь степенной характер (с другим показателем степени). Как видно из Рис.2 на довольно продолжительном участке экспериментальные точки ложатся на прямую линию. А теперь, я приведу примеры графиков, по виду похожих на Рис.2 (и тоже в двойных логарифмических координатах), которые описывают распределения совершенно разных вещей в мире:

Степенные распределения

Степенные распределения

Степенные распределения

Степенные распределения


Приведенные выше картинки и знания о степенных функциях распределения я почерпнул из хорошей обзорной статьи про эти самые степенные распределения. Но вернемся к рисунку 2. Видно, что для больших значений СК (и первых мест в рейтинге) формула работает плохо, и вообще там не очень то и прямая. Во первых, это свойство степенных распределений как таковых — шумы на правом конце. А во вторых, как мне видится, распределение социального капитала среди пользователей из первой сотни рейтинга сильно зависит от социальной связности livejournal. Речь идет об эффекте, который исследовался в работе «Experimental Study of Inequality and Unpredictability in an Artificial Cultural Market » [SCIENCE VOL 311, 854-856, 2006], в которой показано, как социальное давление в виде опубликованного рейтинга влияет на предпочтения людей. Вот пара картинок оттуда:

Социальное давление и выбор людей
Рис. 3 Рост средней непредсказуемости (unpredictability) места в рейтинге из-за социальной связности
Социальное давление и выбор людей
Рис. 4 Рейтинг в социально связанном случае (вертикальная ось) и в индивидуальном оценивании (горизонтальная ось)

На рис.3 показано усредненное увеличение неопределенности в позициях рейтинга, связанное с тем, что человек, видя то, что выбирают другие, и сам в своем личном выборе руководствуется мнением большинства. На Рис.4 видно, как отличаются предпочтения людей в случае индивидуального выбора (горизонтальная ось) и выбора с социальной связностью (вертикальная ось) — точки распределены хаотично, хотя в идеале должны быть близко к прямой, выходящей из начала координат под углом в 45 градусов. Самое интересное в том, что в разных группах испытуемых ТОП песен был составлен людьми совершенно по разному. То есть наличие социальной связности может вывести в лидеры симпатий абсолютно случайное и посредственное явление, при этом расслоение в количестве симпатий из-за социальной связности усиливается (в работе применялся для подсчета индекс расслоения Джини). Именно это явление, как мне кажется, и лежит в основе рейтинга первой сотни блогов livejournal — наличие ТОПа, ljtimes и прочих инструментов связности усиливают тех, кто и так в ТОПе, и ослабляют позиции всех остальных. Именно это явление ответственно за коэффициент +100 в знаменателе первого слагаемого и экспоненциальному виду второго слагаемого в формуле (1).

Чем может быть полезно выражение (1)? Например, можно оценить значение своего социального капитала, если он меньше 10. Погрешность, конечно большая, но получить представление можно. Желающие это проделать приглашаются на эту страницу расчета: http://rotozeev.net/lj_stat.

Если вам понравился материал, пожалуйста, поделитесь им с друзьями: