Кто-нибудь помнит многостат?

  Вход на форум   логин       пароль   Забыли пароль? Регистрация
On-line:  

Раздел: 
Форум выпускников экономического факультета МГУ / Профессиональный / Кто-нибудь помнит многостат?

Страницы: 1  новая тема

Автор Сообщение

Четвертый курс
Группа: Почетный Админ
Сообщений: 1656
Добавлено: 21-04-2006 17:20
Вопрос:
При кластеризации методом К-средних зависит ли конечный результат от того, какие К элементов первоначально выбраны в качестве центров кластеров?

Третий курс
Группа: Админ
Сообщений: 1051
Добавлено: 21-04-2006 20:17
Не помню, но могу посмотреть

Третий курс
Группа: Админ
Сообщений: 1051
Добавлено: 24-04-2006 10:11
Судя по результатам программы Statistica - да, зависит

Четвертый курс
Группа: Почетный Админ
Сообщений: 1656
Добавлено: 24-04-2006 13:08
Спасибо. У меня тоже разные получились. Хотя на маленьких выборках разницы нет. А вам на многостате объясняли как выбрать первые К наблюдений?

Вопрос 2:
Сильно ли портится разбиение по кластерам (метод к-средних), если среди параметров есть сильно коррелирующие (r^2 примерно равен 0,7-0,8)? Например, для городов размер доходов населения (руб/чел) и размер потребительских расходов населения (руб/чел).

Третий курс
Группа: Админ
Сообщений: 1051
Добавлено: 24-04-2006 15:21
У меня в лекциях вообще написано, что первые К-наблюдений можно брать любые.
Вопрос 2 - нам про это ничего не говорили, но исходя из элементарной логики - ничего испортиться не должно

Четвертый курс
Группа: Почетный Админ
Сообщений: 1656
Добавлено: 24-04-2006 16:24
У меня в лекциях вообще написано, что первые К-наблюдений можно брать любые.

Брать-то можно любые, просто результаты будут разные.
Если б первые К-элементов можно было б брать любые, то в "Статистике" не было б аж трех вариантов выбора этих самых центров кластеров.
Знать бы еще алгоритм каждого варианта... Только один не вызывает сомнений: "выбор первых наблюдений по списку".

Вопрос 2 - нам про это ничего не говорили, но исходя из элементарной логики - ничего испортиться не должно

Вот и я так думал, но после выбора центров кластеров начал сомневаться. Алгоритм К-средних для меня загадка... пока еще. Проверял свое понимание алгоритма на выборках в 3-10 элементов - ни разу не угадал распределение объектов по кластерам. Значит, я неправильно понимаю. Надо открывать Айвазяна и читать, читать, читать...

Третий курс
Группа: Админ
Сообщений: 1051
Добавлено: 24-04-2006 20:11
Алгоритм простой - берется каждое наблюдение и измеряется расстояние от него до центра каждого кластера. До какого ближе - к том кластеру и относится. После этого центр кластера пересчитывается с учетом нового наблюдения.

Четвертый курс
Группа: Почетный Админ
Сообщений: 1656
Добавлено: 24-04-2006 22:13
Я тоже так думал. Вот в том то дело, что по этому алгоритму распределение должно быть одним (я вручную пересчитывал для выборки 5 наблюдений - делил на два кластера), а Statistica выдает другой результат. "Черный ящик" одним словом.

Страницы: 1  новая тема
Раздел: 
Форум выпускников экономического факультета МГУ / Профессиональный / Кто-нибудь помнит многостат?

Отвечать на темы могут только зарегистрированные пользователи

KXK.RU