Этот пост – продолжение изысканий на тему статистического анализа текстов. В прошлый раз, я строил функцию распределения текста по длине предложений. В этот раз я исследую слова из которых состоит текст. Строится функция распределения по длине слов. Также находится среднее число букв в слове и дисперсия распределения.
Continue reading
Tag - литература
Есть такие в мире – британские ученые. У них постоянно какие то интересные исследования проводятся, статистика, взаимосвязи, зависимости…
И я тоже решил попробовать себя в этом интересном деле. А объектом моего исследования стали литературные произведения разных авторов. Мне стало интересно: как выглядит функция распределения по длине предложения у разных авторов. Написав простенький PHP скрипт для анализа текстов, я скормил ему несколько авторов. Современных и не очень, “интеллектуальных” и опять таки – не очень. Результаты выкладываю ниже. По оси х на графиках расположено число символов в предложении, по оси y – относительная частота появления в тексте предложения с данной длиной. Я ограничился максимальной длиной в 300 символов для предложения. Ибо, как видно из приведенных графиков, максимум разыгрывается в районе 40 – 100 символов на предложение. Для анализа брались отрывки текста длиной не менее 200 000 символов.
Итак:
Лев Толстой
Лето. Для многих жителей этой страны лето несет в себе помимо жары и повышенного потребления пива также и “отдых” на даче, или еще в какой нибудь сельской местности. Романтика в этом действе конечно имеется, и помимо созерцания природы, отдыха и труда на свежем воздухе, можно наткнуться на реликтовый советский журнал эпохи позднего застоя.
Если при этом так получилось, что Вы оторваны от быстрого интернета, телевидения и радио, то Вы имеете возможность окунуться в ту еще жизнь.
Ниже я выкладываю кусочек повести из такого журнала: “Укрощение мерзлоты”. Речь идет о двух журналистах, которые поехали на дальний север за материалами для статей.
Continue reading