<<
>>

2.4.2. Технологии интеллектуального анализа данных — Data Mining

Искусственный интеллект с момента своего возникно­вения претерпевал существенные изменения. Изменялись взгляды на то, какими должны быть интеллектуальные системы и как их разрабатывать.

В настоящее время сис­темы, разрабатываемые в рамках искусственного интел­лекта, называют системами, основанными на знаниях.

Важнейший вопрос на сегодняшний день — получение знаний. На первых этапах развития интеллектуальных систем большинству теоретиков и разработчиков казалось, что эта проблема может быть успешно решена посредством диалога инженера по знаниям с экспертом, специалистом в прикладной области. Но здесь проявился известный па­радокс — чем более квалифицирован специалист, тем ме­нее он способен объяснить свои рассуждения. Возникла глобальная проблема извлечения «скрытых» знаний.

Кроме того, наконец, к общественному сознанию при­шло понимание, что в огромных массивах данных, на­капливаемых в электронных хранилищах различных пред­приятий, содержится колоссальный скрытый потенциал знаний, способных существенно повысить эффективность коммерческой и производственной деятельности.

Data Mining переводится как «добыча» или «раскоп­ка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ дан­ных». Их можно считать синонимами Data Mining. Воз­никновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

С начала 90-х годов в связи с совершенствованием тех­нологий записи и хранения данных на людей обрушились колоссальные информационные потоки в самых различных областях. Деятельность любого предприятия (коммерчес­кого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех под­робностей его деятельности. Что делать с этой информаци­ей? Стало ясно, что без продуктивной переработки потоки, сырые данные образуют никому не нужную свалку.

Специфика современных требований к такой перера­ботке следующие:

1. Данные имеют неограниченный объем.

2. Данные являются разнородными (количественными, качественными, текстовыми).

3. Результаты должны быть конкретны и понятны.

4. Инструменты для обработки сырых данных должны быть просты в использовании.

Традиционная математическая статистика, долгое вре­мя претендовавшая на роль основного инструмента ана­лиза данных, откровенно спасовала перед лицом возник­ших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по боль­нице, средней высоты дома на улице, состоящей из двор­цов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки за­ранее сформулированных гипотез и для «грубого» разве­дочного анализа, составляющего основу оперативной ана­литической обработки данных (online analytical processing, OLAP).

В основу современной технологии Data Mining (discovery- driven data mining) положена концепция шаблонов, отра­жающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономернос­ти, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограничен­ными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Важное положение Data Mining — нетривиальность ра­зыскиваемых шаблонов. Это означает, что найденные шаб­лоны должны отражать неочевидные, скрытые закономер­ности в данных, составляющие так называемые скрытые знания.

Таким образом, Data Mining — это процесс обнаруже­ния в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации зна­ний, необходимых для принятия решений в различных сферах человеческой деятельности.

Типы закономерностей

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:

1) ассоциация;

2) последовательность;

3) классификация;

4) кластеризация;

5) прогнозирование.

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% ку­пивших кукурузные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобре­тают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько дей­ственна предоставляемая скидка.

Если существует цепочка связанных во времени собы­тий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца при­обретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, ха­рактеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже клас­сифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластериза­ции средства Data Mining самостоятельно выделяют раз­личные однородные группы данных.

Основой для всевозможных систем прогнозирования слу­жит историческая информация, хранящаяся в БД в виде временных рядов. Если удается найти шаблоны, адекват­но отражающие динамику поведения целевых показате­лей» есть вероятность, что с их помощью можно предска­зать поведение системы в будущем.

Значительная часть современных статистических паке­тов, наряду с традиционными статистическими методами, включает элементы Data Mining. Однако алгоритмы реше­ний, заложенные в них, опираются на статистические под­ходы, включая усредненные характеристики выборки, что далеко не всегда отражает сложные жизненные ситуации. Реализация большинства технологических подходов Data Mining возможна путем создания специальных программ­ных комплексов. К настоящему времени сформировалось несколько основных технологических направлений и, со­ответственно, классов систем Data Mining.

Нейронные сети. Архитектура этих систем имеет не­которую аналогию со структурой нервной ткани и чаще всего имитирует работу нейронов в составе многослойных иерархических сетей, где каждый нейрон более высокого уровня соединен своими входами с выходами нейронов нижележащего слоя.

Значения входных параметров (ис­ходные сигналы) подаются на нейроны самого нижнего слоя. Эти сигналы передаются в следующий слой, усили­ваясь или ослабляясь в зависимости от числовых значений или весов, приписываемых межнейронным связям. В ко­нечном счете, на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматри­вается как ответная реакция всей сети на введенные зна­чения входных сигналов. Для того, чтобы сеть можно было применять для решения конкретных задач, ее прежде надо «натренировать» на полученных ранее данных, для кото­рых известны и значения входных параметров, и правиль­ные ответы (решения). Тренировка состоит в подборе ве­сов межнейронных связей, которые обеспечивают соот­ветствие ответов сети известным правильным решениям.

Системы рассуждений на основе аналогичных случа­ев. Эти системы для выбора правильного решения или создания прогноза на будущее находят в базах знаний близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Системы пока­зывают неплохие результаты при решении самых разных задач. Однако, поскольку в выборе решения они основы­ваются на всем массиве заложенных в них данных, невоз­можно выяснение алгоритма принятия решения. Кроме того, выбор «меры близости» осуществляется системами произвольно, поэтому конечный результат во многом за­висит от объема знаний или количества прецедентов, ко­торые необходимо хранить в памяти.

Системы для обнаружения логических закономернос­тей в данных (деревья решений). Деревья решений созда­ют иерархическую структуру классифицирующих правил типа «если... то...», имеющую вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в уз­лах этого дерева, начиная с его корня. Эти системы явля­ются одним из наиболее популярных подходов к реше­нию задач Data Mining, что связано с наглядностью и по­нятностью формирующихся решений. Однако далеко не всегда результатом работы является нахождение наибо­лее полных и точных правил в данных.

Эволюционное программирование. Принцип работы си­стем связан с поиском зависимости целевых (искомых) переменных от других переменных в виде программ или функций какого-то определенного вида. Когда система находит программу или функцию, более или менее удов­летворительно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отби­рает среди дочерних программ те, которые повышают точ­ность. Таким образом, система формирует несколько «ли­ний» программ, которые начинают «конкурировать» меж­ду собой в точности выражения искомой зависимости.

Генетические алгоритмы. Данные программы имити­руют биологические процессы. Первый шаг в построении генетических алгоритмов — кодировка исходных логи­ческих закономерностей в базе данных, которые именуют «хромосомами», а весь набор таких закономерностей на­

зывают «популяцией хромосом». Далее для реализации модели концепции отбора вводится способ сопоставления различных хромосом. Популяция обрабатывается с помо­щью процедур репродукции, изменчивости (мутаций), ге­нетической композиции. Наиболее важные среди них: случайные мутации данных в индивидуальных хромосо­мах, переходы (кроссинговер) и рекомбинация генетичес­кого материала, содержащегося в родительских хромосо­мах (аналогично гетеросексуальной репродукции) и миг­рации генов. В ходе работы этих процедур на каждой стадии эволюции образуются популяции с все более со­вершенными индивидами (решающими программами и правилами).

Алгоритмы ограниченного перебора. Эти системы вы­числяют частоты комбинаций простых логических собы­тий в подгруппах данных. Примеры простых логических событий: X = а; X > а; X < а; а < X < b и др., где X — какой-либо параметр, а и b — константы. На основании анализа вычисленных частот делается заключение полез­ности той или иной комбинации для установления ассо­циации в данных, для классификации, прогнозирования и пр. Ограничением программ служит длина комбинации простых логических событий. Поиск простых логических событий как основа алгоритма программы приводит к се­рьезным ограничениям ее возможностей.

Разработка различных систем Data Mining в настоя­щее время активно развивается. В этом развитии прини­мают участие практически все крупные корпорации. Бу­дущее этих систем связывают с использованием их в ка­честве интеллектуальных приложений, встроенных в корпоративные хранилища данных.

КОНТРОЛЬНЫЕ ВОПРОСЫ

1. Что такое структура медицинского исследования?

97

2. Дайте характеристику поперечных медицинских ис­следований.

4. Зак. 549

3. Дайте характеристику продольных медицинских исследований.

4. Что такое ретроспективное и проспективное меди­цинское исследование? Дайте их характеристики.

5. Перечислите основные биостатистические термины, используемые для представления результатов ис­следования.

6. Назовите основные типы случайных величин. Чем они характеризуются?

7. Что такое вариационный ряд?

8. Какие средние величины используются для харак­теристики вариационного ряда?

9. Какие показатели вариации рассчитываются для характеристики вариационного ряда?

10. Какие основные параметры характеризуют нормаль­ное распределение?

11. Дайте характеристику доверительной вероятнос­ти и уровню значимости для нормального распре­деления.

12. Дайте определение понятий «генеральная совокуп­ность», «выборочная совокупность», «репрезента­тивность» .

13. Типы ошибок репрезентативности. Количественная характеристика ошибок выборочных показателей.

14. Какие основные интенсивные показатели исполь­зуются для характеристики основных аспектов здо­ровья населения?

15. Что такое «критерий Стьюдента», его назначение и условия применения?

16. Какие причины ограничивают возможность исполь­зования параметрических критериев значимости?

17. Что такое «непараметрические критерии», каковы возможности и варианты их использования?

18. Какие методы статистического анализа использу­ются для описания закономерностей в медико-био­логических исследованиях?

19. Что такое диагностическая эффективность, диагно­стическая чувствительность и диагностическая спе­цифичность лабораторного теста? Как их рассчитать?

20. Перечислите возможности программных средств компьютерной математики.

21. Что такое экспертная система? Каковы основные области их применения и основные компоненты?

22. Какие современные технологии используются для интеллектуального анализа данных?

23. Назовите основные типы закономерностей, выяв­ляемых с помощью технологий «извлечения зна­ний» и основные классы систем Data Mining.

ЛИТЕРАТУРА

1. Боровиков В.П., Боровиков И.П. STATISTICA — Статистический анализ и обработка данных в сре­де Windows / В.П. Боровиков, И.П. Боровиков. — М., 1997. —608с.

2. Власов В.В. Эффективность диагностических иссле­дований / В.В. Власов. — М., 1988. — 254 с.

3. Гельман В.Я. Медицинская информатика: практи­кум / В.Я. Гельман. — СПб., 2001. — 480 с.

4. Дюк В., Эмануэль В. Информационные технологии в медико-биологических исследованиях / В. Дюк, В. Эмануэль. — СПб., 2003. — 528 с.

5. Елисеева ИМ., Юзбашев М.М. Общая теория ста­тистики: учебник / Под ред. И.И. Елисеевой. — М., 2000. — 480 с.

6. Клинический диагноз — лабораторные основы / Под ред. В.В. Меньшикова — М.» 1997. — 320 с.

7. Омельченко В.П., Демидова АА. Практикум по меди­цинской информатике / В.П. Омельченко, А.А. Де­мидова. — Ростов-на-Дону, 2001. — 304 с.

4*

8. http://www.statsoft.ru/home/portal/applications/ medicine/medadvisor.htm — Статистический Меди­цинский Советник StatSoft.

99

<< | >>
Источник: В.И. Чер­нов и др.. Медицинская информатика: Учеб. пособие — Ростов н/Д: Феникс,2007. — 320 с.. 2007

Еще по теме 2.4.2. Технологии интеллектуального анализа данных — Data Mining:

  1. 2.3. Методы статистического анализа данных
  2. 4.1 Анализ данных социологического исследования качества жизни пациентов, наблюдавшихся в онкологическом диспансере №2 г. Москвы
  3. Программные средства анализа данных
  4. Статистический анализ данных
  5. 2.4.2. Технологии интеллектуального анализа данных — Data Mining
  6. Словарь основных терминов
  7. Содержание
  8. Назаренко Г. И., Осипов Г. С.. Основы теории медицинских технологических процессов. Ч. 2. Исследование медицинских технологических процессов на основе интеллектуального анализа данных. - М.: ФИЗМАТЛИТ,2006. - 144 с., 2006
  9. Статистический анализ данных
  10. 1.4. Анализ данных литературы и постановка вопроса
  11. II.1.1. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ АНАМНЕЗА В ГРУППАХ ОБСЛЕДОВАННЫХ
  12. Кластерный анализ данных масс-спектров SELDI-TOF
- Акушерство и гинекология - Анатомия - Андрология - Биология - Болезни уха, горла и носа - Валеология - Ветеринария - Внутренние болезни - Военно-полевая медицина - Восстановительная медицина - Гастроэнтерология и гепатология - Гематология - Геронтология, гериатрия - Гигиена и санэпидконтроль - Дерматология - Диетология - Здравоохранение - Иммунология и аллергология - Интенсивная терапия, анестезиология и реанимация - Инфекционные заболевания - Информационные технологии в медицине - История медицины - Кардиология - Клинические методы диагностики - Кожные и венерические болезни - Комплементарная медицина - Лучевая диагностика, лучевая терапия - Маммология - Медицина катастроф - Медицинская паразитология - Медицинская этика - Медицинские приборы - Медицинское право - Наследственные болезни - Неврология и нейрохирургия - Нефрология - Онкология - Организация системы здравоохранения - Оториноларингология - Офтальмология - Патофизиология - Педиатрия - Приборы медицинского назначения - Психиатрия - Психология - Пульмонология - Стоматология - Судебная медицина - Токсикология - Травматология - Фармакология и фармацевтика - Физиология - Фтизиатрия - Хирургия - Эмбриология и гистология - Эпидемиология -