Анализ текстов

Этот пост – продолжение изысканий на тему статистического анализа текстов. В прошлый раз, я строил функцию распределения текста по длине предложений. В этот раз я исследую слова из которых состоит текст. Строится функция распределения по длине слов. Также находится среднее число букв в слове и дисперсия распределения.
Continue reading

В субботу вечером

Была такая телепередача в советское время – “В субботу вечером”. Заставка этой передачи – бодро шагающий колобок (на самом деле глобус), который проходит дни и ночи недели, а потом в субботу устает и садится в кресло перед телевизором. Заставка сделана студией “Экран”, которая подарила нам такие мультфильмы как “Следствие ведут колобки”, “Падал прошлогодний снег” и много других… Можно предположить, что в этой передаче детям нравилась только эта заставка. И для ностальгирующих по детству посетителей блога я выкладываю видео этой заставки:

Возможно, Вас также заинтересует заставка к советской телепередаче Будильник.

Исследования текстов

Есть такие в мире – британские ученые. У них постоянно какие то интересные исследования проводятся, статистика, взаимосвязи, зависимости…
И я тоже решил попробовать себя в этом интересном деле. А объектом моего исследования стали литературные произведения разных авторов. Мне стало интересно: как выглядит функция распределения по длине предложения у разных авторов. Написав простенький PHP скрипт для анализа текстов, я скормил ему несколько авторов. Современных и не очень, “интеллектуальных” и опять таки – не очень. Результаты выкладываю ниже. По оси х на графиках расположено число символов в предложении, по оси y – относительная частота появления в тексте предложения с данной длиной. Я ограничился максимальной длиной в 300 символов для предложения. Ибо, как видно из приведенных графиков, максимум разыгрывается в районе 40 – 100 символов на предложение. Для анализа брались отрывки текста длиной не менее 200 000 символов.

Итак:
Лев Толстой
Лев Толстой

Continue reading

Дачное чтение или назад в СССР

Лето. Для многих жителей этой страны лето несет в себе помимо жары и повышенного потребления пива также и “отдых” на даче, или еще в какой нибудь сельской местности. Романтика в этом действе конечно имеется, и помимо созерцания природы, отдыха и труда на свежем воздухе, можно наткнуться на реликтовый советский журнал эпохи позднего застоя.
Журнал Юность
Если при этом так получилось, что Вы оторваны от быстрого интернета, телевидения и радио, то Вы имеете возможность окунуться в ту еще жизнь.

Ниже я выкладываю кусочек повести из такого журнала: “Укрощение мерзлоты”. Речь идет о двух журналистах, которые поехали на дальний север за материалами для статей.
Continue reading

О html тегах и rel=»nofollow»

Утверждается, что заключенные в тег <noindex> ссылки никак не влияют на ранжирование сайта, на который ссылаются в Яндексе. И, аналогично, ссылка с атрибутом rel=”nofollow” никак не передает кусочек веса страницы на сайт акцептор. Мне кажется, что в этом есть доля лукавства.
Continue reading

Парадокс Монти Холла (еще раз)

Этот известный парадокс обсуждался, наверное, на каждом более-менее популярном форуме. Вкратце напомню суть:

Вы участвуете в игре. Имеется три закрытых двери, при этом известно, что за одной из этих дверей – приз (например, машина). Имеется ведущий, который знает, за какой именно дверью находится приз. Вам дается право выбрать дверь. После этого, ведущий, которому Вы сообщили о своем выборе, и который знает, где на самом деле находится приз, открывает дверь без приза, и не ту, на которую Вы указали. Осталось две закрытых двери, за одной из которых – приз, и Вам дано право сменить свой первоначальный выбор.

Вопрос: нужно ли менять выбор для того, что бы возросла вероятность выигрыша или же вероятность будет одинакова 50/50 – хоть меняй, хоть нет?

Многие люди ошибочно полагают, что вероятность выигрыша будет одинаковой как в случае смены выбора, так и в случае неизменного решения. Две двери, одна машина – вероятность 50/50.
Continue reading

Сетевой маркетинг – пирамида? Да.

Религия – опиум для народа.
Сетевой маркетинг – это тоже опиум для некоторых граждан нашей Родины. Сценариев начала MLM-зависимости обычно два:

  1. Знакомый дилер
  2. Незнакомый дилер

В первом случае Вы встречаете старого знакомого, или же он сам вдруг звонит Вам и предлагает встретиться. Во всех случаях Вам обещают рассказать при встрече нечто, что изменит Вашу жизнь.
Во втором случае инициатором встречи с дилерами MLM-опиума являетесь Вы сами. В поисках работы натыкаетесь на заманчивое объявление: «Коммерческой структуре нужны сотрудники. Зарплата N$/мес», где N$ – довольно неплохая зарплата для Вашего региона проживания. При звонке по телефону Вам назначат место и время встречи, но от прямых ответов «что же должен делать сотрудник?» обычно уклонятся.

сетевой маркетинг: типичное объявление
Continue reading

Google reader

Внимание! Текст ниже уже не актуален по причине закрытия Google Reader. Для тех, кто хотел почитать про использование Online RSS ридера рекомендую перейти по этой ссылке и почитать про FeedSpot (с картинками!).


Недавно открыл для себя Google Reader. Я считаю, что это незаменимая вещь для юзера, который отслеживает много блогов. Причем, если Вы участник ЖЖ, ведете свой ЖЖ блог и Вы заходя в интернет читаете только вашу френдленту ЖЖ, то Вас Google Reader вряд ли заинтересует. Но если вы читаете много standalone блогов (как например этот), новостных сайтов и просто сайтов, на которых часто появляется что то новенькое и Вы регулярно на них заходите, то советую присмотреться к данному сервису повнимательнее.

Google Reader – это продвинутый RSS агрегатор с дружественным веб интерфейсом. Continue reading

Некоторые особенности LaTeX

Добрый день!

Для тех, кто не в курсе, сразу сообщаю: LaTeX – это не сексуальные изделия из латекса, а мощная система для набора структурированных научных документов. Особенно хорошо в LaTeX дело обстоит с набором математических формул. В отличии от Word и его microsoft equation и mathtype, у которых часто встречаются глюки, особенно, если документ открывается не на том компьютере, на котором он создавался, в системе LaTeX таких проблем нет. Дело в том, что LaTeX документ – это простой текстовый файл, который после обработки системой на выходе получается или ps (постскрипт), или pdf, или dvi.
Continue reading

Кое что про экспериментальную музыку

Мало осталось в медиа-потоке (я имею ввиду радио и телевидение) музыкально познавательных передач. Музыкальные новости есть, имеются и хит-парады – средства, которые стимулируют продажи музыки населению.

Возможно считается, что те, кто заинтересован в  своем музыкальном просвещении, воспользуется интернетом.

Результаты и находки своего музыкального просвещения я и буду выкладывать.

Итак: Philip Glass – американский композитор.

Continue reading

Sony Ericsson Xperia X10

Говоря кратко: Sony Ericsson X10 – это супер телефон! Мы имеем смартфон с тачскрином под управлением операционной системы Google Android, взаимодействие с пользователем осуществляется через интерфейс, специально разработанный для этого компанией Sony Ericsson. Это богатое возможностями и в тоже время – простое в использовании решение. Телефон обладает большим 4х дюймовым экраном, 8.1 мегапиксельной камерой, GPS, HSPA, 1Гб памяти + картой памяти на 8 Гб и вместительным аккумулятором.
Continue reading

Охлаждение чипсета материнской платы ASUS K8N4-E

Что мы имеем: компьютер на базе уже устаревшей, но еще годной материнской платы ASUS K8N4-E, глюки, зависания компьютера, особенно при вычислительной нагрузке, завывания и шум в корпусе.

Виновник – стандартный кулер северного моста, который уже с трудом крутится и соответственно плохо охлаждает чипсет.

охлаждение материнки ASUS

Изначальное решение: заменить вентилятор. Оказывается, что в магазинах такие нестандартные вентиляторы не продаются.  

Continue reading

Западный стиль изложения в научной литературе

Все таки есть различие в мировосприятии западных научных работников и последователей советской школы. Можно конечно взять на вооружение избитую фразу Задорнова «Нууу туупыые!», и этим объяснять стиль изложения во многих западных учебниках. Но, тем не менее, дружелюбное отношение к читателю, которое наблюдается при чтении литературы западных авторов, мне нравится больше, чем навязываемый читателю комплекс умственной неполноценности, что есть традицией известного курса теоретической физики 🙂

Вот пример из книги Хакена «Квантовополевая теория твердого тела»:
Continue reading

Дешевые гостиницы в Харькове

Вот подумал, что в период летних каникул данная информация может быть полезна для многих. Итак:

Проверенная гостиница. Нормальные условия для обычного человека:
гостиница “Старт”
ул. Плехановская 18

размещение от 8 у.е.

Тел.: +380 (57) 732-9935, +380 (57) 717-7188
Сайт

Continue reading

Полтава: приятный город

Поезд “Столичный экспресс” отправляется из Харькова в 7-06 утра и уже в 9-00 пассажиры могут сойти на перрон вокзала Полтава-Киевская. Есть целый день что бы осмотреть и главное – побродить по улицам старого города.

Что удивляет харьковчанина – так это дешевые маршрутки. Проезд в них стоит 1 гр. 25 коп. (весна 2010 года!), а в некоторых – и вовсе 1 гривну. Причем в некоторых автобусах тетенька-кондуктор ходит по салону и обилечивает пассажиров.

Центральная улица – Октябрьская. За “круглой площадью” это вообще пешеходная зона, по бокам мостовой деревья, тротуары, невысокие, в 3-4 этажа дома приятные для того, что бы на них смотреть.

фотографии Полтавы

Полтавский Краеведческий музей:

фотографии Полтавы

Но наша цель – музей Котляревского (тот который Энеиду написал, про моторного парубка и т.д.).
Continue reading