Автоматизация извлечения информации и знаний из экспериментальных данных
Теоретической и методической основой автоматизации обработки, анализа и оценивания экспериментальных данных, получаемых при исследовании мозга, являются математическая теория распознавания образов и математическая теория анализа изображений (Верхаген и др., 1985; Горелик и др., 1985; Журавлев, 1978; Журавлев, Гуревич, 1989; Dougherty, 2012; Grenander, 1993; Gurevich, 1991; Gonzalez, Woods, 2002; Jahne, 2005; Petrou, Petrou, 2010; Rosenfeld, Kak, 1982; Russ, 2011; Soille, 2004; Solomon, Breckon, 2010; Sonka et al., 2014; Tanimoto, 2012).
Основное назначение методов распознавания образов - отнесение предъявленного объекта к одному из заданных классов на основе анализа прецедентов (вычисление значений метрики близости) в многомерном признаковом пространстве при помощи постановки и решения задач следующих типов:
а) идентификация и классификация объектов;
б) разбиение множества заданных объектов на непересекающиеся классы (кластерный анализ);
в) оценка информативности характеристик (признаков) распознаваемых объектов;
г) построение формализованных описаний распознаваемых объектов (в т.ч. с помощью дескриптивных алгебр, векторов признаков, логических формул, формальных грамматик).
Распознавание образов как наука возникло и сформировалось в результате необходимости решать задачи анализа и оценивания плохо структурированной, неформализованной, нечёткой, неполной, противоречивой, семантически насыщенной и зашумленной информации с помощью вычислительно эффективных математических методов. Исходной информацией в этих задачах служат числовая, символьная и экспертная информация, изображения, речь, сигналы произвольного вида, тексты, документы, схемы и чертежи, а также произвольные комбинации указанных разновидностей исходных данных.
Методы и средства распознавания образов предназначены для решения прикладных интеллектуальных задач принятия решений, диагностики, идентификации и прогнозирования.
Основу современной математической теории распознавания образов составляет «Алгебраический подход к решению задач распознавания и классификации» (Журавлев, 1978). Для случая представления исходной информации в виде изображений осуществлена его специализация - предложен и развивается дескриптивный подход к анализу и пониманию изображений (ДІІАИ) (Gurevich, 1991). Основной целью ДПАИ является структурирование разнообразных методов, операций и представлений, используемых в анализе и распознавании изображений, причём формальные конструкции ДПАИ обеспечивают способы и инструменты представления и описания изображений для их последующего анализа и оценивания. В рамках развития ДПАИ решаются следующие задачи:
а) определение способов представления исходной и промежуточной информации в задачах обработки, анализа и распознавания изображений;
б) разработка математического аппарата для единообразного описания моделей изображений и моделей преобразований, обеспечивающих их построение и решение задач распознавания;
в) построение стандартизированных алгоритмических схем и их реализация в виде элементов информационных технологий анализа изображений.
В рамках ДПАИ выделены три функциональные группы задач:
1) обработка изображений - повышение качества изображений для улучшения их визуального восприятия человеком, обработка изображений для их хранения, представления и передачи, преобразование изображений с целью повышения эффективности их дальнейшего анализа и распознавания;
2) анализ изображений - применение к ним системы преобразований, обеспечивающей извлечение из изображения полезной информации о свойствах изображаемого объекта/процесса; результатом анализа изображений является приведение изображения к виду, удобному для распознавания, т.е. построение формального описания - модели изображения;
3) распознавание изображений - отнесение изображения/его фрагментов/ представленных на нём объектов к некоторому классу, либо разбиение множества изображений/его фрагментов/представленных на нём объектов на несколько классов.
В области распознавания образов и анализа изображений выделяют следующие основные стадии «алгебраизации»:
• Математическая морфология: Г. Матерон, Ж. Серра (1970-е);
• Алгебра алгоритмов: Ю.И. Журавлев (1970-е - настоящее время);
• Теория образов: У. Гренандер (1970-е - настоящее время);
• Теория категорий в области распознавания образов: М. Павел (1970-е);
• Алгебра изображений: Ж. Серра, С. Стернберг (1980-е);
• Стандартная алгебра изображений: Г. Риттер (1990-е - настоящее время);
• Дескриптивные алгебры изображений (ДАИ): И. Гуревич (1990-е - настоящее время);
• ДАИ с одним кольцом (ДАИ1К): И. Гуревич, В. Яшина (2002 - настоящее время).
Роль изображения как объекта анализа и оценивания определяется его специфическими и неотъемлемыми информационными свойствами. Изображение представляет собой некоторую совокупность отображаемых исходных данных и средств их представления, результатов процессов формирования представлений изображения и процедур их преобразований, физических и логических аспектов и моделей объектов, событий и процессов, представленных на изображении.
Специфичность и сложность задач анализа и оценивания изображений связана с необходимостью достижения некоторого баланса между такими противоречивыми факторами, как цели и задачи анализа, природа зрительного восприятия, способы и средства получения, формирования и представления изображений, и математическими, вычислительными и технологическими инструментами анализа изображений.
Разработка математического аппарата, обеспечивающего теоретическую основу автоматизации обработки, анализа, оценивания и понимания изображений, является одной из фундаментальных задач информатики. Автоматизация обработки и анализа изображений обеспечивает разработчикам автоматизированных систем, предназначенных для работы с изображениями, и конечным пользователям, в т.ч. не являющимся специалистами в области информатики и прикладной математики, возможность в автоматическом или интерактивном режимах:
а) разрабатывать, адаптировать и проверять методы и алгоритмы распознавания, понимания и оценивания изображений;
б) выбирать оптимальные или адекватные методы и алгоритмы распознавания, понимания и оценивания изображений;
в) проверять качество исходных данных и их пригодность для решения задачи распознавания изображений;
г) использовать стандартные алгоритмические схемы распознавания, понимания, оценивания и поиска изображений.
К настоящему времени анализ и оценивание изображений накопили обширный опыт применения математических методов из различных разделов математики, информатики и физики, в частности, алгебры, геометрии, дискретной математики, математической логики, теории вероятностей, математической статистики, математического анализа, математической теории распознавания образов, цифровой обработки сигналов, оптики.
Анализ и понимание изображений для математиков оказались весьма трудной задачей, поскольку изображение - крайне неудобная для математической обработки форма представления информации. В задачах, связанных с исследованиями мозга, приходится работать с динамическими изображениями, что ещё больше усложняет анализ. Работа с такими нетрадиционными видами информации для математиков достаточно долго не являлась предметом интересов, это направление не развивали. Серьёзные изыскания начались в 1950-е годы, они активно продолжаются и сегодня. К настоящему времени выделена целая совокупность математических методов, которые позволяют приводить изображение к виду, допускающему применение эффективных алгоритмов распознавания. Такие формализованные представления изображения (модели - изображения, приведённые к виду, удобному для распознавания) - необходимая основа для моделирования, распознавания, вычисления характеристик, выделения регулярностей и свойств, принятия интеллектуальных решений. Эти методы в фундаментальной части в определённой мере отработаны и многократно практически проверены. В этом смысле вполне правомерно говорить о формировании математической теории анализа изображений и достижении ею определённой степени зрелости, но она ещё не достигла степени развития математической теории распознавания образов, существенные элементы которой используются при работе с изображениями.
Чрезвычайно существенен вклад в математические теории распознавания образов и анализа изображений отечественной математической школы, фундаментальные результаты которой, в частности в области алгебраических методов распознавания образов и анализа изображений, определяют в настоящее время мировой уровень (Журавлев, 1978; Gurevich, 1991).
В рамках указанных теорий и прикладных разработок, выполненных на их основе, учёные и специалисты, занятые исследованием мозга, могут найти обширный набор методов и средств, необходимых для перехода к реальной автоматизации научных исследований, извлечения информации и знаний из результатов экспериментальных исследований и, в некоторой степени, для моделирования мозга и его функций. Для прикладного анализа изображений разработаны и готовы к использованию стандартные постановки задач, алгоритмические схемы и алгоритмические библиотеки. Используя эти инструменты, исследователь может синтезировать необходимую алгоритмическую схему обработки и анализа данных из стандартных алгоритмических блоков. Следующим этапом развития является разработка на базе этого инструментария стандартных информационных технологий и АПК, специализированных для обработки и анализа данных, получаемых при исследованиях мозга.
3.
Еще по теме Автоматизация извлечения информации и знаний из экспериментальных данных:
- Автоматизация анализа изображений в исследованиях мозга: постановка задач, математические основы, информационные технологии
- Введение
- Автоматизация извлечения информации и знаний из экспериментальных данных
- Автоматизация анализа микроскопических изображений нейронов и их отростков
- Заключение