Анализ текстов

Этот пост — продолжение изысканий на тему статистического анализа текстов. В прошлый раз, я строил функцию распределения текста по длине предложений. В этот раз я исследую слова из которых состоит текст. Строится функция распределения по длине слов. Также находится среднее число букв в слове и дисперсия распределения.
Читать далее

Исследования текстов

Есть такие в мире — британские ученые. У них постоянно какие то интересные исследования проводятся, статистика, взаимосвязи, зависимости…
И я тоже решил попробовать себя в этом интересном деле. А объектом моего исследования стали литературные произведения разных авторов. Мне стало интересно: как выглядит функция распределения по длине предложения у разных авторов. Написав простенький PHP скрипт для анализа текстов, я скормил ему несколько авторов. Современных и не очень, «интеллектуальных» и опять таки — не очень. Результаты выкладываю ниже. По оси х на графиках расположено число символов в предложении, по оси y — относительная частота появления в тексте предложения с данной длиной. Я ограничился максимальной длиной в 300 символов для предложения. Ибо, как видно из приведенных графиков, максимум разыгрывается в районе 40 — 100 символов на предложение. Для анализа брались отрывки текста длиной не менее 200 000 символов.

Итак:
Лев Толстой
Лев Толстой

Читать далее

Дачное чтение или назад в СССР

Лето. Для многих жителей этой страны лето несет в себе помимо жары и повышенного потребления пива также и «отдых» на даче, или еще в какой нибудь сельской местности. Романтика в этом действе конечно имеется, и помимо созерцания природы, отдыха и труда на свежем воздухе, можно наткнуться на реликтовый советский журнал эпохи позднего застоя.
Журнал Юность
Если при этом так получилось, что Вы оторваны от быстрого интернета, телевидения и радио, то Вы имеете возможность окунуться в ту еще жизнь.

Ниже я выкладываю кусочек повести из такого журнала: «Укрощение мерзлоты». Речь идет о двух журналистах, которые поехали на дальний север за материалами для статей.
Читать далее