▲ Наверх

Внимание: Я русскоязычный житель Харькова категорически против военного вмешательства России во внутренние дела Украины. Россияне, не верьте вашим руководителям-политикам. Я говорю на русском языке и никаких проблем из-за этого никогда не испытывал. Ни в Харькове, ни в Киеве, ни во Львове. Истерия нагнетается российскими СМИ/'русско-патриотическими блоггерами', будьте благоразумными. Главная опасность для меня лично - не бандеровцы-националисты, а ваш плешивый кремлевский фюрер - Путин.


Анализ текстов

30 июля 2010 | rotozeev

Этот пост — продолжение изысканий на тему статистического анализа текстов. В прошлый раз, я строил функцию распределения текста по длине предложений. В этот раз я исследую слова из которых состоит текст. Строится функция распределения по длине слов. Также находится среднее число букв в слове и дисперсия распределения.

Вот например функции распределения по длинам слов для Чеховских рассказов. Было взято два куска текста (по нескольку рассказов в каждом) и вот что получилось:

Длина текста 1: 44041 символа

Длина текста 2: 42092 символа

Результаты (текст 1):
Среднее число букв в слове: 4.9152414106251
Дисперсия: 3.0963669515686

Результаты (текст 2):
Среднее число букв в слове: 4.957320971867
Дисперсия: 3.0301554718235

И график:
Анализ текста: Чехов

Сравнение текстов Чехова и Бунина (Жизнь Арсеньева):

Длина текста 1 (Чехов):42092

Длина текста 2 (Бунин):51693

Результаты (текст 1):
Среднее число букв в слове: 4.957320971867
Дисперсия: 3.0301554718235

Результаты (текст 2):
Среднее число букв в слове: 5.0579781353642
Дисперсия: 3.0793189863174

Графики:
Анализ текста: Чехов, Бунин

Потестировать анализатор текста можно:
тут , если нужно сравнивать два разных текста, и тут , если нужно проанализировать один текст.

Графики строятся с помощью AJAX API Google.

Если вам понравился материал, пожалуйста, поделитесь им с друзьями:



Популярный блог Харькова, 2017 год
Тут была Яндекс-метрика