Выбор подхода к построению модели классификации
Одним из главных этапов любого исследования является разделение рассматриваемой совокупности получаемых объектов на группы, объединённые по какому-либо признаку, либо отнесение каждого из анализируемой совокупности объектов к одной из групп, априорная информация о которых заранее известна, то есть этап проведения классификации.
На «входе» всех задач классификации лежит априорная информация, которая может быть представлена в форме объектов для классификации, а также в форме обучающих выборок, в которых все объекты принадлежат определённому классу. Решение данных задач позволяет получить на «выходе» результат в двух формах. При известном числе классов и их свойствах каждый из объектов классификации снабжается номером, который определяет его принадлежность к тому или иному классу. Если задача классификации сводится к выявлению числа классов и их свойств, то результат классификации представляет собой разделение объектов на определённые группы (классы) [65].
Все задачи классификации можно разделить по типу входных данных, по количеству классов, их пересечению, а также по наличию или отсутствию обучающих выборок [191].
В настоящее время в качестве входных данных в задачах классификации применяют признаковое описание, матрицу расстояний между объектами, временной ряд или сигнал, изображение или видеоряд. Наиболее распространённым типом входных данных является признаковое описание. При данном представлении объекту соответствуют признаки, которые описывают ту или иную его характеристику. Помимо собственных характеристик объекты могут описываться расстояниями до других объектов в выборке. Стоит отметить, что такое представление вход
ных данных накладывает ограничение на применяемые для классификации подходы, поскольку лишь небольшая часть методов позволяет решить задачи классификации с описанным типом данных на входе. В случае временных рядов входные данные являются последовательностью измерений во времени, при этом каждое измерение может быть представлено в числовом или вектором виде.
Задачи, в которых в качестве входных данных выступают сигналы или изображения, называются также задачами распознавания образов.В ряде задач классификации данные на входе могут иметь более сложное представление, а именно: графы, тексты, запросы к базам данных и др. При работе с такими данными осуществляется их предварительная обработка и извлечение признаков. Обработка входных данных и приведение их к признаковому описанию или матрице расстояний между объектами значительно упрощает решение задачи классификации.
По количеству классов все задачи классификации делятся на две группы:
- двухклассовая классификация - наиболее простой тип задач, является базисом в решении сложных задач;
- многоклассовая классификация - более сложные задачи, число классов может достигать 103.
С точки зрения пересечения классов выделяют:
- непересекающиеся классы - объект относится только к одному классу;
- пересекающиеся классы - объект относится сразу к нескольким классам;
- нечёткие классы - определяется степень принадлежности объекта к тому или иному классу.
Как было описано выше, априорная информация на входе решаемой задачи может быть представлена в форме объектов для классификации, а также в форме обучающих выборок. По наличию или отсутствию обучающей выборки все решаемые задачи делятся на группы обучения с учителем и без учителя, а также их комбинацию [191]. Основные типы задач по наличию обучающей выборки представлены на рисунке 3.1.
Рисунок 3.1 - Типы задач по наличию обучающей выборки
Наиболее распространёнными являются задачи обучения с учителем. В данных задачах помимо описания объектов даётся информация о конкретной группе (ответы), при этом определяется зависимость ответов от описания объектов. При обучении без учителя, так как ответы не задаются, решение заключается в поиске взаимосвязи между объектами. Задачи, в которых имеются ответы только для части объектов, относятся к задачам частичного обучения.
При трансдуктивном обучении задаётся обучающая выборка, с использованием которой необходимо сделать предположение относительно выборки, подвергающейся тестированию, при этом предсказания общей закономерности является необязательным. В обучении с подкреплением учитывается фактор времени, объектами является пара из ситуации и принятого решения, а ответами - значения функционала качества, характеризующие принятые решения и их правильность. При динамическом обучении требуется немедленное принятие решений по каждому из поступающих потоком анализируемых объектов, при этом осуществляется одновременное доучивание классификатора, принимая во внимание новые объекты. Во время активного обучения имеется возможность назначения объекта, который в дальнейшем станет известен, а при метаобучении осуществляется постоянное автоматическое улучшение алгоритма, поскольку в качестве объектов используются задачи, которые были уже решены ранее.Стоит отметить, что все задачи классификации относятся к задачам обучения с учителем и без учителя. Методы классификации при решении данных задач
127 можно условно разделить на следующие группы: методы статистической классификации, кластер-анализ, задачи группировки, нейронные сети. Целесообразность и эффективность применения конкретных методов классификации определяется математической постановкой задачи классификации, а также видом априорной информации [65].
При наличии некоторых самых общих предположений о законе распределения исследуемого вектора, например, о его гладкости, сосредоточенности, внутри- граничных областях, и при наличии обучающей выборки применяются непараметрические методы статистической классификации. В случае, если обучающая выборка отсутствует, применяются методы классификации без обучения: кластер- анализ, таксономия, распознавание образов «без учителя», иерархические классификации [65, 192].
Если априорная информация о генеральной совокупности задана в виде параметрического семейства законов распределения вероятностей, а предварительная выборочная информация представлена обучающей выборкой, применяются методы параметрической статистической классификации.
При отсутствии предварительной выборочной информации осуществляется интерпретация исследуемой генеральной совокупности как смеси генеральных совокупностей с последующим расщеплением данной смеси с помощью методов оценивания неизвестных параметров.В случае, если различные генеральные совокупности заданы однозначным описанием соответствующих законов, классификация осуществляется путём различения статистических гипотез. В применяемых в настоящее время для решения задач классификации нейронных сетях обучение может осуществляться как при наличии, так и при отсутствии обучающей выборки.
Поскольку информация на входе решаемой в рамках данной работы задачи классификации представлена в форме априорной информации о генеральной совокупности и обучающей выборкой для выбора наиболее оптимального подхода, на котором будет базироваться модель классификации, рассмотрим особенности методов, реализующих классификацию с учётом обучающей выборки.
Первым и наиболее часто применяемым подходом к решению задач классификации при наличии обучающей выборки является подход статистической классификации, данный подход также называют дискриминантным анализом. При реализации статистической классификации наиболее часто применяется байесовская теория классификации [193].
В основе байесовской теории классификации лежит оптимальный байесовский классификатор и оценка плотностей распределения классов по выборке, используемой для обучения. Байесовский классификатор базируется на принципе максимума вероятности наступления случайного события (апостериорная вероятность) при условии, что известны данные, полученные после проведения эксперимента (апостериорные данные) [192]. Реализация байесовского классификатора сводится к вычислению функции правдоподобия и апостериорной вероятности классов. Отнесение объектов к тому или иному классу определяется апостериорной вероятностью, при этом объект получит номер того класса, значение данной вероятности для которого будет больше.
В байесовской теории классификации построение алгоритма сводится к решению двух задач.
В случае, если плотности классов известны, решается задача построения оптимального классификатора, если же данная информация о плотности распределения классов отсутствует, решается задача восстановления плотностей по обучающей выборке [191].Результатом решения первой задачи построения классификатора при известных плотностях распределения классов является алгоритм, применение которого позволяет обеспечить минимальный уровень среднего риска отнесения объекта к другому классу. Данный алгоритм может быть представлен в форме [191]: где py- априорная вероятность, что появится объект класса у;
py(х) - плотность распределения классов;
λy- цена ошибки в случае отнесения объекта класса у в другой класс.
Значение PyPy(х) интерпретируется как апостериорная вероятность того, что объект xпринадлежит классу у. При равнозначности классов, то есть при λyPy— const(y), объект xбудет отнесён к классу с наибольшей плотностью распределения в точке x.
При восстановлении плотностей классов по обучающей выборке осуществляется обратная задача, которая заключается в построении эмпирических оценок Pyи py(х), при этом в качестве оценки Pyиспользуется доля объектов данного класса в обучающей выборке. Решение данной задачи составляет основную сложность байесовской теории классификации.
Для восстановления плотности распределения классов в настоящее время наибольшее распространение получили три подхода (рисунок 3.2) [191].
Рисунок 3.2 - Методы оценки плотности распределения классов
Первый подход основан на предположении, что плотность распределения известна с точностью до параметра. Непараметрическое оценивание плотности основывается на локальной аппроксимации плотности в окрестности классифицируемого объекта.
Оценивание плотности распределения классов как смеси параметри-130 ческих плотностей применяется, если функцию плотности не удаётся смоделировать параметрическим распределением, в этом случае она представляется как смесь нескольких распределений. Разнообразие подходов и методов оценки плотности распределения классов позволяет получить большое количество байесовских алгоритмов классификации [191, 192].
Ещё одним подходом при реализации статистической классификации является наивный байесовский классификатор. При применении данного классификатора делается предположение, что признаки, описывающие объекты, являются независимыми. Введение данного предположения упрощает задачу, это объясняется тем, что проведение оценки нескольких одномерных плотностей, по сравнению с одной многомерной, является более простым, однако вводимое предположение на практике является невыполнимым [191]. Данный подход может комбинироваться с одним их трёх методов оценки плотности распределения классов и в зависимости от применяемого метода может быть параметрическим и непараметрическим, при этом основным его недостатком является низкое качество классификации [65].
В отличие от наивного байесовского классификатора, основным достоинством методов, основанных на байесовском классификаторе, является их гибкость и возможность проведения обучения и определения аппроксимирующей функции для классов с небольшим количеством объектов. Байесовский классификатор легко реализуем, при этом его применение позволяет получить решение в аналитическом виде [193]. Данный подход удобен в применении в качестве эталонного при тестировании алгоритмов классификации на модельных данных. Недостаток данного подхода заключается в том, что среди применяемых методов оценки распределения плотностей классов нет лучшего, поэтому выбор метода оценки при решении практических задач осуществляется эмпирическим путём [192].
Ещё одним инструментом, в котором решение задачи классификации осуществляется при наличии обучающей выборки, являются нейронные сети (НС). На сегодняшний день НС - эффективный подход к решению задач классификации, по-
131 скольку генерируется большое число регрессионных моделей, как и в случае статистической классификации [194]. Данный подход применяется для соединения большого числа относительно простых элементов.
Организация и функционирование искусственной НС аналогично биологическим НС и представляет собой конструкцию, состоящую из нескольких слоёв, в каждом из которых располагается один или несколько нейронов. На рисунке 3.3 представлена структурная схема модели искусственного нейрона [194].
Рисунок 3.3 - Структурная схема модели искусственного нейрона
Нейрон осуществляет суммирование всех сигналов, поступающих на его вход с учётом веса связей (весовые коэффициенты) и применяет к полученной сумме некоторую функцию (активационная функция). Данная функция вычисляет сигнал на выходе искусственного нейрона, при этом в качестве аргумента на входе данной функции применяется сигнал с выхода сумматора. В качестве активационной функции применяется функция единичного скачка, сигмоидальная функция и гиперболический тангенс [195].
Стоит отметить, что при построении нейронных сетей могут применяться фиксированные связи, когда выбор весовых коэффициентов осуществляется до начала проведения обучения нейронной сети, и динамические - значения весовых коэффициентов определяются при обучении [196].
Поиск весовых коэффициентов между различными нейронами является результатом обучения НС, при этом НС делает возможным определение сложных
132 связей между данными на входе и выходе, а также их обобщение. Хорошо обученная НС делает возможным возвращение верного результата с учётом отсутствующих в обучающей выборке данных, а также при неполных и зашумлённых данных [195]. Таким образом, обучение при нейронных сетях сводится к построению оптимальной структуры и настройке параметров связей.
При решении задач классификации с применением нейронных сетей необходимо обеспечить соблюдение баланса между размерностью пространства признаков и количеством параметров. Если количество параметров мало, может возникнуть ситуация, когда один и тот же параметр относится к разным классам. Для решения данной проблемы необходимо увеличить размерность пространства признаков, при этом может возникнуть ситуация, что число параметров станет недостаточным для обучения. В связи с этим к подвергающимся обучению данным предъявляются требования обеспечения репрезентативности и их непротиворечивости, этап выбора и обработки данных является одним из сложнейших этапов решения задач с использованием НС [194].
В процессе проведения обучения осуществляется преобразование исходных данных к виду, в котором их можно подать на входы сети. При этом формируются обучающие пары (обучающие векторы), которые представляют собой пару из данных со входа и выхода НС. Обучающий вектор содержит по одному значению на каждый вход сети и, в зависимости от типа обучения (с учителем или без), по одному значению для каждого выхода сети. Нормировка, квантование и фильтрация применяются для улучшения восприятия НС. При этом нормировка позволяет привести данные, поступающие на вход НС, к одной размерности, квантование преобразует непрерывную величину в набор дискретных значений, а фильтрация применяется для обработки «зашумлённых» данных, для которых характерно наличие «выбросов» и пропуски.
Архитектура НС определяется слоем входных данных (нейроны, входящие первыми в реакцию с исходными данными), слоем скрытых нейронов, а также слоем выходных нейронов (определяют результат работы НС). В настоящее время
133 выделяют следующие модели НС: сети прямого распространения, реккурентные НС, радиально базисные функции, самоорганизующиеся карты или сети Кохонена [194].
Основные преимущества НС заключаются в эффективности решения задач по выборкам, которые являются неполными, а также имеют пропуски и выбросы, большое количество моделей нейронных сетей делает возможным решение различных задач. Основными недостатками данного подхода являются трудности в соблюдении баланса между размерностью пространства признаков и количеством параметров, высокая вычислительная сложность процесса обучения при решении задач, связанных с большими данными, а также наличием переобучения.
Также для классификации данных при наличии обучающей выборки могут применяться подходы на основе сходства и разделимости. Классификационный подход на основе сходства применяется в тех случаях, когда объекты заданы не описывающими их признаками, а попарным расстоянием между ними. Данный подход базируется на метрических алгоритмах классификации. В основе данного классификатора лежит предположение, что схожие объекты с большей частотой располагаются внутри одного класса, чем разных (гипотеза компактности) [65, 191]. Наиболее часто для реализации данного подхода применяются методы: ближайших соседей, при котором объект классификации получает номер того класса, к которому относятся ближайшие к нему объекты в обучающей выборке; парзенов- ского окна, основанный на предположении, что плотность выше в тех точках, рядом с которыми находится большое количество объектов выборки; потенциальных функций и др. Основным достоинством данного подхода решения задач классификации является простота реализации алгоритмов и возможность их модификации [191, 197]. Классификация на основе разделимости представляет собой большую группу методов классификации, которая основана на построении разделяющей поверхности в пространстве объектов. При этом наибольшее распространение среди методов на основе разделимости получили линейные классификаторы: линейный дискриминант Фишера, однослойный персептрон, логистическая регрессия и др.[191, 192]
Поскольку классы заданы небольшим количеством объектов и имеют признаковые описания, для построения модели классификации наличия или отсутствия микроциркуляторных нарушений, учитывая особенности рассмотренных подходов к решению задач классификации при наличии обучающей выборки, был выбран подход, основанный на статистической классификации (дискриминантный анализ), который обладает лёгкостью и простотой реализации.
3.2
Еще по теме Выбор подхода к построению модели классификации:
- Классификация управленческих ситуаций. Модель-классификатор и его практическая значимость
- ВИРТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ МОДЕЛИ СТАДИРОВАНИЯ ОПУХОЛЕЙ ПЕЧЕНИ
- ПОДХОД К КЛИНИЧЕСКИМ РАЗРАБОТКАМ
- Предотвращение потерь здоровья детского населения - концептуальные подходы
- Методы и модели четкого и нечеткого прогнозирования
- СОДЕРЖАНИЕ
- Выбор подхода к построению модели классификации
- Построение модели классификации с применениемдискриминантного анализа
- Верификация, оценка чувствительности и специфичности модели классификации
- ВВЕДЕНИЕ