V.A. Duke
Russia, St. Petersburg, Institute for Computer Science and Automation
Russian Academy of Sciences, v_duke@spiiras.nw.ru
From data to knowledge – new possibilities of databases processing
The traditional methods of Data Mining, also known as methods of knowledge discovery in databases, are considered. The new technology of logic regularities search in a data having a number of essential advantages is described..
В.А. Дюк
Россия, Санкт-Петербургский институт
информатики и автоматизации
Российской Академии Наук, v_duke@spiiras.nw.ru
От данных к знаниям – новые возможности обработки баз данных
Рассматриваются традиционные методы раскопки данных ( Data Mining), известные также как методы “обнаружения знаний в базах данных”. Описывается новая технология поиска логических закономерностей в данных, обладающая рядом существенных преимуществ.
Ключевым фактором деятельности коммерческих, производственных, государственных и других структур является оперативное принятие эффективных решений. Однако естественное стремление усовершенствовать процессы принятия решений нередко наталкивается на труднопреодолимое препятствие — огромный объем и высокая сложность данных, содержащихся в разнообразных оперативных и других информационных системах. Сделать такую информацию доступной для анализа — одна из наиболее серьезных задач, стоящих сегодня перед профессионалами в области информационных технологий.
Современныые подходы к решению этой задачи связаны с построением хранилища данных (data warehouse), позволяющего "высвободить" информацию из жестких рамок оперативных систем и лучше осознать проблемы реальной деятельности. Хранилище данных — это интегрированный накопитель информации, собранной из других систем, на основе которого строятся процессы принятия решений и анализа данных. Несмотря на то что хранилища данных бывают различных типов и могут опираться на разные методологии, и даже философии, построения, все они имеют следующие общие признаки:
Хранилище данных – это собрание данных, предназначенное для поддержки принятия управленческих решений и отличающееся предметной ориентированностью, интегрированностью, поддержкой хронологии и неизменяемостью. Иными словами, хранилище данных ориентировано на ключевые понятия (например, цели операций), а не на процессы (например, оформление какой-либо документации), и содержит всю существенную информацию, относящуюся к этим понятиям, которая собрана из различных обрабатывающих систем. Эта информация собирается и представляется за согласованные периоды времени и не подвержена оперативным изменениям.
Одними из основных новых возможностей, появляющихся в результате построения хранилищ данных являются следующие:
В данной статье мы остановимся на состоянии дел в области интеллектуального анализа данных и кратко охарактеризуем новую технологию, разработанную в СПИИРАН.
Особенности Data Mining
Ключевое достоинство Data Mining по сравнению с предшествующими методами — возможность автоматического порождения гипотез о взаимосвязи между различными параметрами или компонентами данных. Работа аналитика при работе с традиционным пакетом обработки данных сводится фактически к проверке или уточнению одной-двух порожденных им самим гипотез. В тех случаях, когда начальных предположений нет, а объем данных значителен, существующие системы теряют работоспособность и превращаются в пожирателей времени аналитика.
Еще одна важная особенность систем Data Mining — возможность обработки многомерных запросов и поиска многомерных зависимостей. Уникальна также способность систем data mining автоматически обнаруживать исключительные ситуации — т.е. элементы данных, “выпадающие” из общих закономерностей.
Типы закономерностей, выявляемых методами Data Mining
Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Если существует цепочка связанных во времени событий, то говорят о последовательности. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.
Традиционные логические методы Data Mining
Особую ценность в обнаружении закономерностей имеют логические методы. Эти методы позволяют находить в данных логические цепочки (правила), характерные для одной группы объектов (записей БД) и не характерные для других групп.
На основе выявляемых логических правил решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД и др. Логические методы работают в условиях разнородной информации. Их результаты эффективны и прозрачны для восприятия.
Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, ТЕМП), либо строят так называемые деревья решений (decision tree — методы CART, CHAID, ID3), дающие полезные результаты только в случае независимых признаков. Известные эволюционные методы (в частности, генетические алгоритмы) используют сильные эвристические допущения и также далеко не гарантируют нахождения оптимума.
Характеристика новой технологии
Новая технология, разработанная в лаборатории прикладной информатики СПИИРАН, основывается на представлениях специальной локальной геометрии. В этой геометрии каждый объект существует в собственном локальном пространстве событий с индивидуальной метрикой. За счет свойств локальных пространств процедура поиска логических закономерностей в данных получает геометрическое истолкование.
Перебор вариантов при поиске логических закономерностей методами локальной геометрии практически отсутствует. Поиск осуществляется с помощью модифицированного аппарата линейной алгебры. При этом новая технология позволяет обнаруживать “лучшие” (наиболее полные при заданной точности) логические правила для каждой записи в базе данных. Также важным моментов является возможность распараллеливания многих операций, лежащих в основе применяемых алгоритмов.
Результаты, полученные по новой технологии, выдаются в виде таблицы логических правил ЕСЛИ … ТО с указанием их характеристик (точности и полноты) и дендрограммы логических правил с описанием обобщающих понятий и метапонятий.
Разработанная технология обнаружения закономерностей в базах данных методами локальной геометрии отнесена к важнейшим результатам 1998 г. в отчете о деятельности РАН.
Использование этой технологии способно существенным образом повысить “уровень интеллектуальности” хранилища данных и способствовать эффективному решению задач прогнозирования, выявления стереотипных схем и шаблонов в структуре анализируемой информации.
Основные теоретические положения новой технологии изложены в следующей литературе:
Site of Information
Technologies Designed by inftech@webservis.ru. |
|