1.3. Методы распознавания образов и нечеткая логика в задачах прогнозирования и медицинской диагностики
Большое количество задач принятия решений в медицине решается методами теории распознавания образов (ТРО). [24, 25, 31, 32, 39, 44, 127].
Среди множества методов ТРО широкое распространение получил так называемый геометрический подход, при котором многомерные объекты определяются векторами признаков Х=(х1,х2,_хп) многомерного пространства признаков N.
Классификация осуществляется с помощью разделяющих гиперповерхностей [24, 25, 39, 99, 153].В настоящее время в ТРО считают, что наилучшие показатели качества классификации достигаются, если структура анализируемых многомерных данных соответствует ограничениям, характерным для используемых математических моделей [2, 4, 5, 39, 55, 96, 99, 101, 102, 103]. Под структурой данных (классов) понимается конфигурация точек-объектов в пространстве признаков [99].
Выбор типа решающих правил для решения конкретной задачи распознавания является достаточно сложной и зависит от множества факторов: от геометрической структуры данных, объема обучающих выборок, типа и характера измерительных шкал, точности указаний учителя и т.д. [84, 88, 90, 93, 99].
Часто классификационные и прогностические задачи в области медицинских исследований формируются так, что решение следует принимать используя эмпирические (эвристические) правила [41, 88, 89]. Это характерно для описательных наук (к которым в основном относятся медицинские, социологические, психологические и другие науки, исследующие поведение сложных систем). В таких системах для достижения поставленных целей используются не вычисления, а последовательность рассуждений. Результат при этом представляется в виде некоторого суждения, устанавливающего принадлежность объекта к соответствующему классу с применением правил четкого или нечеткого логического вывода [88, 90, 132, 133, 153]. В моделях этого типа получают иерархическую древовидную структуру, "корнем" которой является прогноз, диагноз, нозологическая форма, а конечными элементами - признаки исследуемой патологии.
[153].При вероятностном описании пространства признаков и исследуемых классов состояний для построения наилучших решающих правил в идеальном варианте строят функции плотности вероятности и получают надежные оценки априорных вероятностей. Классификация осуществляется по максимальной плотности распространения классов, вычисляемой в данной точке пространства описания [39, 41].
На практике плотности распределения вероятностей получить сложно, поэтому вместо определения функций плотности распределения формируются таблицы экспериментальных данных (ТЭД) ограниченного объема (обучающие выборки) с известной классификацией. По этим
таблицам восстанавливаются или оцениваются параметры функции плотностей вероятностей, по которым строятся решающие правила [41, 99].
При работе с ТЭД используется множество различных алгоритмов, которые условно делятся на три типа: основанные на локальной оценке плотностей без задания явного вида решающих правил (ближнего соседа, средней связи и т.д.); основанные на задании вида разделяющих функций; диалоговые методы классификации [4, 5, 39].
При этом следует иметь ввиду, что большинство из известных алгоритмов распознавания образов обеспечивают надежную классификацию, если структура данных соответствует ограничениям используемых математических моделей [5, 73, 84, 89, 99], например, алгоритм "средней связи" дает лучшие результаты, чем "ближайшего соседа" при простой форме образов (шаровые или эллипсоидные группы объектов).
Анализ задач прогнозирования и медицинской диагностики показал, что многие из них имеют сложную геометрическую структуру, поскольку человек и окружающая его среда представляет собой чрезвычайно сложный, динамичный объект не поддающийся точному аналитическому описанию.
В ТРО для решения плохоформализуемых задач используют аппарат, обеспечивающий изучение структуры классов, который в анализе данных называют вычислительным экспериментом [1, 2, 4, 5, 99]. Для решения задач распознавания образов вычислительный эксперимент реализуется с помощью диалоговых интерактивных систем распознавания образов (ДСР) [84, 88, 89, 99, 201, 202, 203].
Режим диалога в ДСР ориентирован на исследование структуры многомерных данных с подбором адекватных методов и алгоритмов обработки данных (этап качественного решения задачи анализа данных). На этапе количественного описания данных производится поиск параметров выбранных пользователем моделей и, методом проб и оценок, делается окончательный выбор конкретной (чаще всего одной) решающей модели [89, 99].
Задача изучения структуры классов в ДСР решается различными методами отображения многомерных данных в одно-, двух- или трехмерные пространства, в которых человек имеет возможность увидеть структурные особенности исследуемых классов, сделать определенные предположения, выдвинуть гипотезы, определить дальнейшую стратегию решения задачи распознавания и др. [4, 5, 99, 202].
Второй подход, который хорошо зарекомендовал себя при решении плохоформализуемых задач с неполной и нечеткой структурой данных основывается на использовании теории нечеткой логики принятия решений [49, 50, 51, 96, 115, 125, 150, 151, 152, 161, 174].
Фундаментальным понятием этой теории является нечеткое множество А, элементы которого описываются с помощью характеристических функций) цА(х) на универсальном множестве х. Считается, что если элемент полностью принадлежит множеству, то μ,∖(.∖j1, не принадлежит множеству- цА(х)=0, если элемент частично принадлежит множеству X, то μj∖(x) принимает числовые значения, лежащие в интервале от 0 до 1, то есть Цд(х)е[0,1] [210, 211].
Значение функции принадлежностей часто определяется как степень или коэффициент принадлежности к множеству А.
Числовое значение μ(х) может быть задано аналитически или в виде числовых значений на различных типах шкал.
Для работы с нечисловыми шкалами Л. Заде предложил использовать понятие лингвистических переменных с приписыванием им числовых значений [50].
На рис. 1.1 приведен пример графика функции принадлежностей к понятиям низкая μmt3 (t), нормальная μ^ri (t) и высокая μβbic (t) температура тела.
Рис.
1.1. График функции принадлежностей по шкале температура тела к понятиям низкая, нормальная и высокая температура тела.Для нечеткого множества А определено понятие носителя Sa,который определяется как подмножество А для элементов которого коэффициент принадлежности строго больше нуля. Переменную, относительно которой определяется функции принадлежностей, принято называть базовой переменной
Аналогично классической теории множеств в теории нечетких множеств определены операции объединения, пересечения, равенства, дополнения, [49, 50, 51, 152, 174].
В современной литературе отсутствует единство мнений о содержательной интерпретации функции принадлежности [124, 150, 152, 170]. Например, в вероятной интерпретации величина цА(х) есть условная вероятность наблюдения события А при наблюдении х. Эксперты медики часто трактуют функцию принадлежности, как величину уверенности в принимаемых решениях.
Для получения функций принадлежности привлекаются эксперты той области знаний, для которых решается задача классификации и инженеры, специализирующиеся на нечеткой логике принятия решений. При синтезе
нечетких решающих правил в многомерном пространстве признаков X = {χ,...,xn} в общем виде требуется построение многомерной функции принадлежности μ ...(.∖j. При этом экспертам каждому многомерному объекту необходимо поставить в соответствие число, характеризующее его принадлежность к исследуемым классам состояний. Такая задача из-за своей сложности практически не разрешима так же, как и задача построения многомерной функции плотности распределения классов состояний в статистической теории распознавания образов. Эта задача резко упрощается, если каждый признак рассматривать как базовую переменную искомой функции принадлежности, являющейся частью более сложной нечеткой моделью принятия решений.
В этом варианте на первом этапе синтеза нечеткого решающего правила определяется список базовых переменных функций принадлежности.
На втором этапе производится агрегация полученных функций принадлежности в нечеткие решающие правила, с требуемым качеством классификации.В классической теории нечеткой логики в качестве агрегатора часто используют правило нечеткой импликации вида [207, 208]:
ЕСЛИ х ЭТО А, ТО у ЭТО В, (1.4)
где А и В - значения лингвистических переменных, определяемых нечетким способом через функции принадлежности с базовыми переменными х и у.
Часть х ЭТО А называют условием (предпосылкой), а часть у ЭТО В - следствием (заключением) [152].
Для случая множества переменных (признаков классификации) xi (i = 1,...,n) нечеткое правило (1.4) записывается следующим образом:
ЕСЛИ х, ЭТО А1, И х2 ЭТО А2 И...И хп ЭТО An, ТО у ЭТО В (1.5)
Переменные х1,...,хп представляют собой многомерный вектор X, аргумента условия, в котором Λ1, ... , An и В - величины соответствующих функций принадлежностей μAl(.x1), ..., pAn(.vn) и цВ(у).
Наиболее часто при синтезе нечетких правил вывода применяют операции в виде логического, или алгебраического произведения:
На уровне импликации агрегирование выполняют, используя логическое сложение, логическое и алгебраическое произведение.
Импликация в виде логического сложения:
Импликация в виде логического произведения:
Импликация в виде алгебраического произведения:
Еще одним подходом к принятию нечетких классификационных решений является использование итерационных процедур, предложенных Е. Шортлифом [188, 204].
В основе логики Е. Шортлифа лежит определение меры доверия к принимаемым решениям в соответствии с формулами: где КУ - коэффициент уверенности, определяемый как мера доверия к принимаемым решениям;- уверенность в гипотезе ωkпри наличиисвидетельств (признаков) X; МД(юаД) - мера доверия к ωkс учетом вновь поступившего признака х; МНД(юа/¥) - мера доверия к ω⅛,∙ МНД(юк/х) - мера недоверия к ω⅛,∙ х - текущий измеренный признак.
В работах [70, 82, 88] предлагается для принятия решений о принадлежности к тому или иному классу состояний ох, где (£ = 1,..., L) использовать итерационную формулу расчета уверенностей в принимаемом решении, определяемую выражением:
где q - номер итерации при вычислении коэффициента уверенности КУ [q] о принадлежности объекта к классу ox; μ^λ (xi+1) - функция принадлежности, характеризующая уверенность в принадлежности объекта к классу ох при поступлении для анализа признака xi+1;
На основании обобщения работ по прогнозированию и диагностике в медицине, здравоохранении и экологии в работах Юго-Западного государственного университета [68, 70, 82, 88, 89, 90] делается вывод о том, что плохоформализуемые прогностические и диагностические задачи целесообразно решать, объединяя нечеткую логику принятия решений с анализом структуры данных, реализуемых в диалоговых (интерактивных) системах распознавания образов.
При таком подходе задача синтеза нечетких математических моделей принятия решений проводится в три этапа [88, 90].
На первом этапе проводится разведочный анализ, в ходе которого изучается взаиморасположение объектов обучающей выборки и структура классификационного пространства.
На втором этапе под известную структуру признаков и классов выбираются базовые переменные и типы частных функций принадлежности,
решающих задачи классификации по областям и подпространствам многомерного пространства признаков.
На третьем этапе частные функции принадлежности агрегируются в коллективы нечетких решающих правил с сетевой структурой, реализуя требуемое качество принимаемых решений.
Разведочный анализ производится с использованием специального пакета прикладных программ, разработанный на кафедре БМИ ЮЗГУ [88,90].
В работах [88, 90] описывается такая процедура синтеза нечетких решающих правил:
1. На основании данных о современных технологиях ведения пациентов с исследуемой патологией с участием высококвалифицированных экспертов формируется алфавит классов состояний и состав пространства информативных признаков.
2. По данным разведочного анализа выбирают задачи, решение которых возможно в их геометрической интерпретации с построением линейных или кусочно-линейных разделяющих поверхностей.
3. Для выбранных разделяющих гиперплоскостей в качестве базовых переменных функций принадлежности выбирается выражение вида
I=1
где- признак с номером i в подпространстве с номером k (i=l,..., n; к=1,..., K);- вектор настраиваемых параметров; Y- переменная величина,
пропорциональная расстоянию от начала координат до гиперплоскости (1.15).
4. При количестве классов больше двух, обучающая выборка разбивается на две: класс относительно которого строится нечеткое решающее правило (базовый класс ωf) и альтернативные классы,
объединяемые в класс ω2. Для объектов новых обучающих выборок строятся гистограммы распределения по шкале
5. Если гистограммы классов ω1и ω2не пересекаются, то относительно
них экспертам предлагается построить функции принадлежности к классам μω∕(Y) и μω2(Y) имея в виду, что функции принадлежности отражают экспертную уверенность в диагностике, а гистограммы соответствующую частость. При построении графиков функций принадлежности рекомендуется определить координаты ряда опорных точек (точки максимальной уверенности в принимаемых решениях; точки начала нулевой уверенности; точки возможного пересеченияточки, где функции
принадлежности принимают половинное значение, а затем под эти точки подбирается наиболее подходящая, по мнению экспертов, аналитическая зависимость из заданного их перечня.
6. Если гистограммы классов пересекаются то для интервала пересечения выделенного на оси Y, методами разведочного анализа выясняется факт пересечения альтернативных классов в исходном пространстве, например, с использованием методов кластерного анализа, метода ближайших соседей и др.
Если объекты классов ω1и ω2пересекаются, то в соответствии с рекомендациями [88] строятся пересекающиеся участки функций принадлежностейЕсли полученные показатели качества
принятия решений признаются экспертами удовлетворительными, то частный коэффициент уверенности в классе ωlпо группе признаков r принимается равным соответствующей функции принадлежностей (то есть и по текущему подпространству признаков решение заканчивается. Если качество принятия решения экспертов не устраивает, изучаются классификационные возможности других типов правил расчета коэффициентов уверенности (пункт 10).
Если в ходе разведочного анализа устанавливается, что пересечение гистограмм hω1(Y) и hω2(Y) образовано объектами, не имеющими пересечения объектов в исходном пространстве, то выполняется следующий пункт.
7. Функции μω1(Y) и μω2(Y) строятся для объектов, не попадающих в интервал пересечения гистограмм hω1(Y) и hω2(Y).
После этого объекты, не попадающие в интервал пересечения обучающей выборки, исключаются и по новым обучающим выборкам повторяются пункты 5-7 с получением группы частных коэффициентов уверенности, где t - номер частного коэффициента уверенности по
подпространству r.
После анализа всех объектов подпространства r решение о классификации принимается по условию:
8. При количестве классов больше двух пункты 4-7 повторяются для всех классов ωtи производится переход к новым подпространствам признаков до полного исчерпания списка всех подпространств.
9. Если геометрическое решение задачи не целесообразно то, реализуется следующий пункт.
10. Если частные решения таковы, что при отсутствии хотя бы одного из значащих свидетельств необходимо отказаться от решения в пользу класса ωпроверяется применимость правила типа:
11. Если решение необходимо принимать при наличии хотя бы одного свидетельства в пользу диагноза ωf, то рекомендуется проверить эффективность правила типа:
12. Если в общем решении используются свидетельства, удовлетворяющие условиям (1.16) и (1.17) целесообразно проверить эффективность правила типа:
13. Если используемые частные свидетельства вносят свой вклад в увеличение уверенности в диагнозе ωlили в его опровержение, то рекомендуется использовать накопительные формулы расчета уверенности. Практика работы с медицинскими задачами показала, что хорошие результаты по качеству классификации обеспечивает использование итерационных зависимостей типа:
где J - число итераций в формуле (1.19); Q - число итераций в формуле (1.20).
В работах [88, 90] показано, что, задачу прогнозирования можно решать как двухклассовую задачу: пациент через заданное время t останется в классе состояний ωlили перейдет в класс состояний ωr.
В более частном варианте согласно рекомендациям [88] выделяется два класса состояния обследуемых ω0- не заболеет в течение заданного времени t0и класс ω- заболеет в течение заданного времени t0.
В работах [28, 69, 111, 112, 122, 123] была доказана эффективность использования биологически активных точек (БАТ) для решения задач прогнозирования и диагностики заболеваний, включая их ранние (донозологические) стадии. При этом необходимо учитывать специфику представления информации на БАТ (связь одной зоны (точки)) с несколькими диагнозами (симптомами, синдромами), суточные и другие циклы изменения энергетического состояния БАТ и др.
В работах [30, 81, 82] было показано, что для формирования пространства информативных признаков по энергетическим характеристикам БАТ (сопротивление, электродвижущую силу и др.) необходимо использовать алгоритм поиска таких групп точек, названных диагностически значимыми точками (ДЗТ), по одновременной энергетической реакции которых можно уточнить наличие искомых прогнозов и (или) диагнозов, исключая влияние на эти точки других составляющих, влияющих на их энергетику.
В работах [81, 88, 90] на различных типах заболеваний для синтеза прогностических и диагностических решающих правил, была показана целесообразность использования правил нечётного логического вывода типа:
38
где Yj - БАТ с номером j; δR7∙ - относительное отклонение сопротивления БАТ Yj от его номинального значения; δR7∙∏op- пороговое значение отклонения сопротивления БАТ от его номинального значения; £ - номер
анализируемого класса заболевания; t - номер решаемой задачи (например, 1 - прогнозирование, 2 - донозологическая диагностика; 3 - клинический диагноз); q - номер итерации в расчёте соответствующего коэффициента уверенности; Kyt£- коэффициент уверенности по задаче t для класса ωs,с номером £; μt£(δRj+1) - функция принадлежностей к классу ωs,в задаче t с носителем по шкале δRj+β Kyt£(1)= μ∖ (δR1).
Таким образом, существует достаточно хорошо отработанный математический аппарат позволяющий решать задачи прогнозирования и
диагностики заболеваний, | включая | заболевания, | вызываемые |
экологическими факторами. Однако обоснование, | выбор и | использование | конкретной |
математической модели под конкретную задачу носит не простой характер. Тем более сложные, плохоформализуемые задачи требуют для своего решения проведения специальных исследований по выбору соответствующего математического аппарата, что будет являться одной из задач нашего исследования.
Еще по теме 1.3. Методы распознавания образов и нечеткая логика в задачах прогнозирования и медицинской диагностики:
- Задачи распознавания образов, анализа и распознавания изображений
- Обзор математических методов прогнозирования, особенности использования нечеткой логики принятия решений при мочекаменной болезни
- БИБЛИОГРАФИЧЕСКИЙ СПИКОК
- ВВЕДЕНИЕ
- Синтез гибридных нечетких решающих правил принятия решений на основе логики Л. Заде и Е. Шотрлифа
- Список литературы
- Применение математических методов в задачах прогнозирования появления и развития заболеваний
- Прогнозирование, появление и развития заболеваний по энергетическим характеристикам биологически активных точек
- Список использованной литературы
- СОДЕРЖАНИЕ
- 1.3. Методы распознавания образов и нечеткая логика в задачах прогнозирования и медицинской диагностики
- 2 метод и модель нечеткого прогнозирования и ранней диагностики профессиональных заболеваний работников агропромышленного комплекса, контактирующих с ядохимикатами
- 2.2. Метод синтеза нечетких решающих правил прогнозирования и ранней диагностики работников агропромышленного комплекса, контактирующих с ядохимикатами.
- СИНТЕЗ НЕЧЕТКИХ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ПРОГНОЗИРОВАНИЯ И РАННЕЙ ДИАГНОСТИКИ ЗАБОЛЕВАНИЙ, ПРОВОЦИРУЕМЫХ ДЕЙСТВИЕМ СЕЛЬСКОХОЗЯЙСТВЕННЫХ ЯДОХИМИКАТОВ.
- библиографический список.
- Модели и методы оценки состояния организма и его систем по электрическим характеристикам биологически активных точек
- Компьютерные технологии прогнозирования и диагностики в медицинской практике
- Нечеткие модели принятия решений в медицинских диагностических системах
- Оценка состояния здоровья на основе математических методов.