Анализ текстов

Этот пост – продолжение изысканий на тему статистического анализа текстов. В прошлый раз, я строил функцию распределения текста по длине предложений. В этот раз я исследую слова из которых состоит текст. Строится функция распределения по длине слов. Также находится среднее число букв в слове и дисперсия распределения.
Читать полностью…

Рубрика: Мысли, наука / 30 июля 2010 Ваш отзыв

В субботу вечером

Была такая телепередача в советское время – “В субботу вечером”. Заставка этой передачи – бодро шагающий колобок (на самом деле глобус), который проходит дни и ночи недели, а потом в субботу устает и садится в кресло перед телевизором. Заставка сделана студией “Экран”, которая подарила нам такие мультфильмы как “Следствие ведут колобки”, “Падал прошлогодний снег” и много других… Можно предположить, что в этой передаче детям нравилась только эта заставка. И для ностальгирующих по детству посетителей блога я выкладываю видео этой заставки:

Рубрика: Мысли / 29 июля 2010 Ваш отзыв

Исследования текстов

Есть такие в мире – британские ученые. У них постоянно какие то интересные исследования проводятся, статистика, взаимосвязи, зависимости…
И я тоже решил попробовать себя в этом интересном деле. А объектом моего исследования стали литературные произведения разных авторов. Мне стало интересно: как выглядит функция распределения по длине предложения у разных авторов. Написав простенький PHP скрипт для анализа текстов, я скормил ему несколько авторов. Современных и не очень, “интеллектуальных” и опять таки – не очень. Результаты выкладываю ниже. По оси х на графиках расположено число символов в предложении, по оси y – относительная частота появления в тексте предложения с данной длиной. Я ограничился максимальной длиной в 300 символов для предложения. Ибо, как видно из приведенных графиков, максимум разыгрывается в районе 40 – 100 символов на предложение. Для анализа брались отрывки текста длиной не менее 200 000 символов.

Итак:
Лев Толстой
Лев Толстой

Читать полностью…

Рубрика: Новости / 28 июля 2010 Ваш отзыв

Дачное чтение или назад в СССР

Лето. Для многих жителей этой страны лето несет в себе помимо жары и повышенного потребления пива также и “отдых” на даче, или еще в какой нибудь сельской местности. Романтика в этом действе конечно имеется, и помимо созерцания природы, отдыха и труда на свежем воздухе, можно наткнуться на реликтовый советский журнал эпохи позднего застоя.
Журнал Юность
Если при этом так получилось, что Вы оторваны от быстрого интернета, телевидения и радио, то Вы имеете возможность окунуться в ту еще жизнь.

Ниже я выкладываю кусочек повести из такого журнала: “Укрощение мерзлоты”. Речь идет о двух журналистах, которые поехали на дальний север за материалами для статей.
Читать полностью…

Рубрика: Мысли / 26 июля 2010 Ваш отзыв

О html тегах <noindex> и rel=”nofollow”

Утверждается, что заключенные в тег <noindex> ссылки никак не влияют на ранжирование сайта, на который ссылаются в Яндексе. И, аналогично, ссылка с атрибутом rel=”nofollow” никак не передает кусочек веса страницы на сайт акцептор. Мне кажется, что в этом есть доля лукавства.
Читать полностью…

Рубрика: Мысли, Софт / 21 июля 2010 Ваш отзыв

Парадокс Монти Холла (еще раз)

Этот известный парадокс обсуждался, наверное, на каждом более-менее популярном форуме. Вкратце напомню суть:

Вы участвуете в игре. Имеется три закрытых двери, при этом известно, что за одной из этих дверей – приз (например, машина). Имеется ведущий, который знает, за какой именно дверью находится приз. Вам дается право выбрать дверь. После этого, ведущий, которому Вы сообщили о своем выборе, и который знает, где на самом деле находится приз, открывает дверь без приза, и не ту, на которую Вы указали. Осталось две закрытых двери, за одной из которых – приз, и Вам дано право сменить свой первоначальный выбор.

Вопрос: нужно ли менять выбор для того, что бы возросла вероятность выигрыша или же вероятность будет одинакова 50/50 – хоть меняй, хоть нет?

Многие люди ошибочно полагают, что вероятность выигрыша будет одинаковой как в случае смены выбора, так и в случае неизменного решения. Две двери, одна машина – вероятность 50/50.
Читать полностью…

Рубрика: Мысли, наука / 20 июля 2010 Ваш отзыв

Сетевой маркетинг – пирамида? Да.

Религия – опиум для народа.
Сетевой маркетинг – это тоже опиум для некоторых граждан нашей Родины. Сценариев начала MLM-зависимости обычно два:

  1. Знакомый дилер
  2. Незнакомый дилер

В первом случае Вы встречаете старого знакомого, или же он сам вдруг звонит Вам и предлагает встретиться. Во всех случаях Вам обещают рассказать при встрече нечто, что изменит Вашу жизнь.
Во втором случае инициатором встречи с дилерами MLM-опиума являетесь Вы сами. В поисках работы натыкаетесь на заманчивое объявление: «Коммерческой структуре нужны сотрудники. Зарплата N$/мес», где N$ – довольно неплохая зарплата для Вашего региона проживания. При звонке по телефону Вам назначат место и время встречи, но от прямых ответов «что же должен делать сотрудник?» обычно уклонятся.

сетевой маркетинг: типичное объявление
Читать полностью…

Рубрика: Мысли / 15 июля 2010 Ваш отзыв

Google reader

Недавно открыл для себя Google Reader. Я считаю, что это незаменимая вещь для юзера, который отслеживает много блогов. Причем, если Вы участник ЖЖ, ведете свой ЖЖ блог и Вас интерисуют только ваша френдлента ЖЖ, то Вас Google Reader вряд ли заинтересует. Но если вы читаете много standalone блогов (как например этот), то советую присмотреться к данному сервису повнимательнее.

Google Reader – это продвинутый RSS агрегатор с дружественным веб интерфейсом. Читать полностью…

Рубрика: Софт / 09 июля 2010 Ваш отзыв

Некоторые особенности LaTeX

Добрый день!

Для тех, кто не в курсе, сразу сообщаю: LaTeX – это не сексуальные изделия из латекса, а мощная система для набора структурированных научных документов. Особенно хорошо в LaTeX дело обстоит с набором математических формул. В отличии от Word и его microsoft equation и mathtype, у которых часто встречаются глюки, особенно, если документ открывается не на том компьютере, на котором он создавался, в системе LaTeX таких проблем нет. Дело в том, что LaTeX документ – это простой текстовый файл, который после обработки системой на выходе получается или ps (постскрипт), или pdf, или dvi.
Читать полностью…

Рубрика: наука / 08 июля 2010 1 отзыв

Кое что про экспериментальную музыку

Мало осталось в медиа-потоке (я имею ввиду радио и телевидение) музыкально познавательных передач. Музыкальные новости есть, имеются и хит-парады – средства, которые стимулируют продажи музыки населению.

Возможно считается, что те, кто заинтересован в  своем музыкальном просвещении, воспользуется интернетом.

Результаты и находки своего музыкального просвещения я и буду выкладывать.

Итак: Philip Glass – американский композитор.

Читать полностью…

Рубрика: Музыка / 06 июля 2010 Отзывов (2)
Страница 2 из 3«123»