Анализ текстов

Этот пост – продолжение изысканий на тему статистического анализа текстов. В прошлый раз, я строил функцию распределения текста по длине предложений. В этот раз я исследую слова из которых состоит текст. Строится функция распределения по длине слов. Также находится среднее число букв в слове и дисперсия распределения.

Вот например функции распределения по длинам слов для Чеховских рассказов. Было взято два куска текста (по нескольку рассказов в каждом) и вот что получилось:

Длина текста 1: 44041 символа

Длина текста 2: 42092 символа

Результаты (текст 1):
Среднее число букв в слове: 4.9152414106251
Дисперсия: 3.0963669515686

Результаты (текст 2):
Среднее число букв в слове: 4.957320971867
Дисперсия: 3.0301554718235

И график:
Анализ текста: Чехов

Сравнение текстов Чехова и Бунина (Жизнь Арсеньева):

Длина текста 1 (Чехов):42092

Длина текста 2 (Бунин):51693

Результаты (текст 1):
Среднее число букв в слове: 4.957320971867
Дисперсия: 3.0301554718235

Результаты (текст 2):
Среднее число букв в слове: 5.0579781353642
Дисперсия: 3.0793189863174

Графики:
Анализ текста: Чехов, Бунин

Потестировать анализатор текста можно:
тут , если нужно сравнивать два разных текста, и тут , если нужно проанализировать один текст.

Графики строятся с помощью AJAX API Google.

Поделиться:      twitter       facebook