2.4.2. Технологии интеллектуального анализа данных — Data Mining
Искусственный интеллект с момента своего возникновения претерпевал существенные изменения. Изменялись взгляды на то, какими должны быть интеллектуальные системы и как их разрабатывать.
В настоящее время системы, разрабатываемые в рамках искусственного интеллекта, называют системами, основанными на знаниях.Важнейший вопрос на сегодняшний день — получение знаний. На первых этапах развития интеллектуальных систем большинству теоретиков и разработчиков казалось, что эта проблема может быть успешно решена посредством диалога инженера по знаниям с экспертом, специалистом в прикладной области. Но здесь проявился известный парадокс — чем более квалифицирован специалист, тем менее он способен объяснить свои рассуждения. Возникла глобальная проблема извлечения «скрытых» знаний.
Кроме того, наконец, к общественному сознанию пришло понимание, что в огромных массивах данных, накапливаемых в электронных хранилищах различных предприятий, содержится колоссальный скрытый потенциал знаний, способных существенно повысить эффективность коммерческой и производственной деятельности.
Data Mining переводится как «добыча» или «раскопка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.
С начала 90-х годов в связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные информационные потоки в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки, сырые данные образуют никому не нужную свалку.
Специфика современных требований к такой переработке следующие:
1. Данные имеют неограниченный объем.
2. Данные являются разнородными (количественными, качественными, текстовыми).
3. Результаты должны быть конкретны и понятны.
4. Инструменты для обработки сырых данных должны быть просты в использовании.
Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и для «грубого» разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).
В основу современной технологии Data Mining (discovery- driven data mining) положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.
Важное положение Data Mining — нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, скрытые закономерности в данных, составляющие так называемые скрытые знания.
Таким образом, Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Типы закономерностей
Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:
1) ассоциация;
2) последовательность;
3) классификация;
4) кластеризация;
5) прогнозирование.
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.
Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.
Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается найти шаблоны, адекватно отражающие динамику поведения целевых показателей» есть вероятность, что с их помощью можно предсказать поведение системы в будущем.
Значительная часть современных статистических пакетов, наряду с традиционными статистическими методами, включает элементы Data Mining. Однако алгоритмы решений, заложенные в них, опираются на статистические подходы, включая усредненные характеристики выборки, что далеко не всегда отражает сложные жизненные ситуации. Реализация большинства технологических подходов Data Mining возможна путем создания специальных программных комплексов. К настоящему времени сформировалось несколько основных технологических направлений и, соответственно, классов систем Data Mining.
Нейронные сети. Архитектура этих систем имеет некоторую аналогию со структурой нервной ткани и чаще всего имитирует работу нейронов в составе многослойных иерархических сетей, где каждый нейрон более высокого уровня соединен своими входами с выходами нейронов нижележащего слоя.
Значения входных параметров (исходные сигналы) подаются на нейроны самого нижнего слоя. Эти сигналы передаются в следующий слой, усиливаясь или ослабляясь в зависимости от числовых значений или весов, приписываемых межнейронным связям. В конечном счете, на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответная реакция всей сети на введенные значения входных сигналов. Для того, чтобы сеть можно было применять для решения конкретных задач, ее прежде надо «натренировать» на полученных ранее данных, для которых известны и значения входных параметров, и правильные ответы (решения). Тренировка состоит в подборе весов межнейронных связей, которые обеспечивают соответствие ответов сети известным правильным решениям.Системы рассуждений на основе аналогичных случаев. Эти системы для выбора правильного решения или создания прогноза на будущее находят в базах знаний близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Системы показывают неплохие результаты при решении самых разных задач. Однако, поскольку в выборе решения они основываются на всем массиве заложенных в них данных, невозможно выяснение алгоритма принятия решения. Кроме того, выбор «меры близости» осуществляется системами произвольно, поэтому конечный результат во многом зависит от объема знаний или количества прецедентов, которые необходимо хранить в памяти.
Системы для обнаружения логических закономерностей в данных (деревья решений). Деревья решений создают иерархическую структуру классифицирующих правил типа «если... то...», имеющую вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Эти системы являются одним из наиболее популярных подходов к решению задач Data Mining, что связано с наглядностью и понятностью формирующихся решений. Однако далеко не всегда результатом работы является нахождение наиболее полных и точных правил в данных.
Эволюционное программирование. Принцип работы систем связан с поиском зависимости целевых (искомых) переменных от других переменных в виде программ или функций какого-то определенного вида. Когда система находит программу или функцию, более или менее удовлетворительно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди дочерних программ те, которые повышают точность. Таким образом, система формирует несколько «линий» программ, которые начинают «конкурировать» между собой в точности выражения искомой зависимости.
Генетические алгоритмы. Данные программы имитируют биологические процессы. Первый шаг в построении генетических алгоритмов — кодировка исходных логических закономерностей в базе данных, которые именуют «хромосомами», а весь набор таких закономерностей на
зывают «популяцией хромосом». Далее для реализации модели концепции отбора вводится способ сопоставления различных хромосом. Популяция обрабатывается с помощью процедур репродукции, изменчивости (мутаций), генетической композиции. Наиболее важные среди них: случайные мутации данных в индивидуальных хромосомах, переходы (кроссинговер) и рекомбинация генетического материала, содержащегося в родительских хромосомах (аналогично гетеросексуальной репродукции) и миграции генов. В ходе работы этих процедур на каждой стадии эволюции образуются популяции с все более совершенными индивидами (решающими программами и правилами).
Алгоритмы ограниченного перебора. Эти системы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = а; X > а; X < а; а < X < b и др., где X — какой-либо параметр, а и b — константы. На основании анализа вычисленных частот делается заключение полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр. Ограничением программ служит длина комбинации простых логических событий. Поиск простых логических событий как основа алгоритма программы приводит к серьезным ограничениям ее возможностей.
Разработка различных систем Data Mining в настоящее время активно развивается. В этом развитии принимают участие практически все крупные корпорации. Будущее этих систем связывают с использованием их в качестве интеллектуальных приложений, встроенных в корпоративные хранилища данных.
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Что такое структура медицинского исследования?
97 |
2. Дайте характеристику поперечных медицинских исследований.
4. Зак. 549
3. Дайте характеристику продольных медицинских исследований.
4. Что такое ретроспективное и проспективное медицинское исследование? Дайте их характеристики.
5. Перечислите основные биостатистические термины, используемые для представления результатов исследования.
6. Назовите основные типы случайных величин. Чем они характеризуются?
7. Что такое вариационный ряд?
8. Какие средние величины используются для характеристики вариационного ряда?
9. Какие показатели вариации рассчитываются для характеристики вариационного ряда?
10. Какие основные параметры характеризуют нормальное распределение?
11. Дайте характеристику доверительной вероятности и уровню значимости для нормального распределения.
12. Дайте определение понятий «генеральная совокупность», «выборочная совокупность», «репрезентативность» .
13. Типы ошибок репрезентативности. Количественная характеристика ошибок выборочных показателей.
14. Какие основные интенсивные показатели используются для характеристики основных аспектов здоровья населения?
15. Что такое «критерий Стьюдента», его назначение и условия применения?
16. Какие причины ограничивают возможность использования параметрических критериев значимости?
17. Что такое «непараметрические критерии», каковы возможности и варианты их использования?
18. Какие методы статистического анализа используются для описания закономерностей в медико-биологических исследованиях?
19. Что такое диагностическая эффективность, диагностическая чувствительность и диагностическая специфичность лабораторного теста? Как их рассчитать?
20. Перечислите возможности программных средств компьютерной математики.
21. Что такое экспертная система? Каковы основные области их применения и основные компоненты?
22. Какие современные технологии используются для интеллектуального анализа данных?
23. Назовите основные типы закономерностей, выявляемых с помощью технологий «извлечения знаний» и основные классы систем Data Mining.
ЛИТЕРАТУРА
1. Боровиков В.П., Боровиков И.П. STATISTICA — Статистический анализ и обработка данных в среде Windows / В.П. Боровиков, И.П. Боровиков. — М., 1997. —608с.
2. Власов В.В. Эффективность диагностических исследований / В.В. Власов. — М., 1988. — 254 с.
3. Гельман В.Я. Медицинская информатика: практикум / В.Я. Гельман. — СПб., 2001. — 480 с.
4. Дюк В., Эмануэль В. Информационные технологии в медико-биологических исследованиях / В. Дюк, В. Эмануэль. — СПб., 2003. — 528 с.
5. Елисеева ИМ., Юзбашев М.М. Общая теория статистики: учебник / Под ред. И.И. Елисеевой. — М., 2000. — 480 с.
6. Клинический диагноз — лабораторные основы / Под ред. В.В. Меньшикова — М.» 1997. — 320 с.
7. Омельченко В.П., Демидова АА. Практикум по медицинской информатике / В.П. Омельченко, А.А. Демидова. — Ростов-на-Дону, 2001. — 304 с.
4* |
8. http://www.statsoft.ru/home/portal/applications/ medicine/medadvisor.htm — Статистический Медицинский Советник StatSoft.
99
Еще по теме 2.4.2. Технологии интеллектуального анализа данных — Data Mining:
- 2.3. Методы статистического анализа данных
- 4.1 Анализ данных социологического исследования качества жизни пациентов, наблюдавшихся в онкологическом диспансере №2 г. Москвы
- Программные средства анализа данных
- Статистический анализ данных
- 2.4.2. Технологии интеллектуального анализа данных — Data Mining
- Словарь основных терминов
- Содержание
- Назаренко Г. И., Осипов Г. С.. Основы теории медицинских технологических процессов. Ч. 2. Исследование медицинских технологических процессов на основе интеллектуального анализа данных. - М.: ФИЗМАТЛИТ,2006. - 144 с., 2006
- Статистический анализ данных
- 1.4. Анализ данных литературы и постановка вопроса
- II.1.1. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ АНАМНЕЗА В ГРУППАХ ОБСЛЕДОВАННЫХ
- Кластерный анализ данных масс-спектров SELDI-TOF