Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Выборка из больших наборов данных





Несмотря на высокое быстродействие системы See5, конструирование классификаторов на полном наборе исходных данных при их большом количестве может занимать довольно много времени. Это становится особенно заметно при использовании дополнительных опций алгоритма, например опции для усиления решения (boosting).

See5 имеет возможность работы не с полным набором данных, а с некоторой выборкой из исходного набора. Для этого предусмотрена специальная опция Use sample of X % (рис. 9.2). При использовании указанной опции осуществляется две операции. Во‑первых, из исходного набора случайным образом извлекается X % объектов и на их основе конструируется классификатор. И, во‑вторых, производится тестирование построенного классификатора на другой непересекающейся выборке объема X % (если X < 50 %) либо на всех оставшихся объектах (если X ³ 50).

При очередном обращении к опции Use sample of X % будет сделана новая случайная выборка из исходных данных, построен и протестирован новый классификатор. Но в системе See5 имеется также возможность зафиксировать выборку. Для этого необходимо поставить флажок в поле Lock sample.

Рис. 9. 8. Результаты классификации данных ультразвуковой диагностики на обучающей и контрольной выборках

 

На рис. 9.8 приведен результат построения дерева решений на выборке половинного объема от исходных данных. На обучающей выборке достигнут неплохой эффект классификации – ошибка составляет всего 5,4 %. Вместе с тем, на контрольной выборке, объем которой равен половине объема исходных данных, процент правильной классификации резко падает до 35,1 %. Это заставляет задуматься о том, насколько построенное дерево решений и соответствующие if-then правила отражают объективную реальность, и, скорее всего, продолжить поиск более устойчивого варианта решения.

Date: 2015-07-22; view: 484; Нарушение авторских прав; Помощь в написании работы --> СЮДА...



mydocx.ru - 2015-2024 year. (0.005 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию