Выборка из больших наборов данных

⇐ ПредыдущаяСтр 5 из 7Следующая ⇒

Несмотря на высокое быстродействие системы See5, конструирование классификаторов на полном наборе исходных данных при их большом количестве может занимать довольно много времени. Это становится особенно заметно при использовании дополнительных опций алгоритма, например опции для усиления решения (boosting).

See5 имеет возможность работы не с полным набором данных, а с некоторой выборкой из исходного набора. Для этого предусмотрена специальная опция Use sample of X % (рис. 9.2). При использовании указанной опции осуществляется две операции. Во‑первых, из исходного набора случайным образом извлекается X % объектов и на их основе конструируется классификатор. И, во‑вторых, производится тестирование построенного классификатора на другой непересекающейся выборке объема X % (если X < 50 %) либо на всех оставшихся объектах (если X ³ 50).

При очередном обращении к опции Use sample of X % будет сделана новая случайная выборка из исходных данных, построен и протестирован новый классификатор. Но в системе See5 имеется также возможность зафиксировать выборку. Для этого необходимо поставить флажок в поле Lock sample.

Рис. 9. 8. Результаты классификации данных ультразвуковой диагностики на обучающей и контрольной выборках

На рис. 9.8 приведен результат построения дерева решений на выборке половинного объема от исходных данных. На обучающей выборке достигнут неплохой эффект классификации – ошибка составляет всего 5,4 %. Вместе с тем, на контрольной выборке, объем которой равен половине объема исходных данных, процент правильной классификации резко падает до 35,1 %. Это заставляет задуматься о том, насколько построенное дерево решений и соответствующие if-then правила отражают объективную реальность, и, скорее всего, продолжить поиск более устойчивого варианта решения.

⇐ Предыдущая 1 2 3 456 7 Следующая ⇒

Date: 2015-07-22; view: 484; Нарушение авторских прав; Помощь в написании работы --> СЮДА...

mydocx.ru - 2015-2024 year. (0.005 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию