Исследования текстов

Есть такие в мире – британские ученые. У них постоянно какие то интересные исследования проводятся, статистика, взаимосвязи, зависимости…
И я тоже решил попробовать себя в этом интересном деле. А объектом моего исследования стали литературные произведения разных авторов. Мне стало интересно: как выглядит функция распределения по длине предложения у разных авторов. Написав простенький PHP скрипт для анализа текстов, я скормил ему несколько авторов. Современных и не очень, “интеллектуальных” и опять таки – не очень. Результаты выкладываю ниже. По оси х на графиках расположено число символов в предложении, по оси y – относительная частота появления в тексте предложения с данной длиной. Я ограничился максимальной длиной в 300 символов для предложения. Ибо, как видно из приведенных графиков, максимум разыгрывается в районе 40 – 100 символов на предложение. Для анализа брались отрывки текста длиной не менее 200 000 символов.

Итак:
Лев Толстой
Лев Толстой

Continue reading