Сайт Информационных Технологий

V.A. Duke

Russia, St. Petersburg, Institute for Computer Science and Automation
Russian Academy of Sciences, v_duke@spiiras.nw.ru

From data to knowledge – new possibilities of databases processing

The traditional methods of Data Mining, also known as methods of knowledge discovery in databases, are considered. The new technology of logic regularities search in a data having a number of essential advantages is described..

В.А. Дюк

Россия, Санкт-Петербургский институт информатики и автоматизации
Российской Академии Наук, v_duke@spiiras.nw.ru

От данных к знаниям – новые возможности обработки баз данных

Рассматриваются традиционные методы раскопки данных ( Data Mining), известные также как методы “обнаружения знаний в базах данных”. Описывается новая технология поиска логических закономерностей в данных, обладающая рядом существенных преимуществ.

Ключевым фактором деятельности коммерческих, производственных, государственных и других структур является оперативное принятие эффективных решений. Однако естественное стремление усовершенствовать процессы принятия решений нередко наталкивается на труднопреодолимое препятствие — огромный объем и высокая сложность данных, содержащихся в разнообразных оперативных и других информационных системах. Сделать такую информацию доступной для анализа — одна из наиболее серьезных задач, стоящих сегодня перед профессионалами в области информационных технологий.

Современныые подходы к решению этой задачи связаны с построением хранилища данных (data warehouse), позволяющего "высвободить" информацию из жестких рамок оперативных систем и лучше осознать проблемы реальной деятельности. Хранилище данных — это интегрированный накопитель информации, собранной из других систем, на основе которого строятся процессы принятия решений и анализа данных. Несмотря на то что хранилища данных бывают различных типов и могут опираться на разные методологии, и даже философии, построения, все они имеют следующие общие признаки:

Хранилище данных – это собрание данных, предназначенное для поддержки принятия управленческих решений и отличающееся предметной ориентированностью, интегрированностью, поддержкой хронологии и неизменяемостью. Иными словами, хранилище данных ориентировано на ключевые понятия (например, цели операций), а не на процессы (например, оформление какой-либо документации), и содержит всю существенную информацию, относящуюся к этим понятиям, которая собрана из различных обрабатывающих систем. Эта информация собирается и представляется за согласованные периоды времени и не подвержена оперативным изменениям.

Одними из основных новых возможностей, появляющихся в результате построения хранилищ данных являются следующие:

В данной статье мы остановимся на состоянии дел в области интеллектуального анализа данных и кратко охарактеризуем новую технологию, разработанную в СПИИРАН.

Особенности Data Mining

Ключевое достоинство Data Mining по сравнению с предшествующими методами — возможность автоматического порождения гипотез о взаимосвязи между различными параметрами или компонентами данных. Работа аналитика при работе с традиционным пакетом обработки данных сводится фактически к проверке или уточнению одной-двух порожденных им самим гипотез. В тех случаях, когда начальных предположений нет, а объем данных значителен, существующие системы теряют работоспособность и превращаются в пожирателей времени аналитика.

Еще одна важная особенность систем Data Mining — возможность обработки многомерных запросов и поиска многомерных зависимостей. Уникальна также способность систем data mining автоматически обнаруживать исключительные ситуации — т.е. элементы данных, “выпадающие” из общих закономерностей.

Типы закономерностей, выявляемых методами Data Mining

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять  методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Если существует цепочка связанных во времени событий, то говорят о последовательности. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

Традиционные логические методы Data Mining

Особую ценность в обнаружении закономерностей имеют логические методы. Эти методы позволяют находить в данных логические цепочки (правила), характерные для одной группы объектов (записей БД) и не характерные для других групп.

На основе выявляемых логических правил решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД и др. Логические методы работают в условиях разнородной информации. Их результаты эффективны и прозрачны для восприятия.

Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, ТЕМП), либо строят так называемые деревья решений (decision tree — методы CART, CHAID, ID3), дающие полезные результаты только в случае независимых признаков. Известные эволюционные методы (в частности, генетические алгоритмы) используют сильные эвристические допущения и также далеко не гарантируют нахождения оптимума.

Характеристика новой технологии

Новая технология, разработанная в лаборатории прикладной информатики СПИИРАН, основывается на представлениях специальной локальной геометрии. В этой геометрии каждый объект существует в собственном локальном пространстве событий с индивидуальной метрикой. За счет свойств локальных пространств процедура поиска логических закономерностей в данных получает геометрическое истолкование.

Перебор вариантов при поиске логических закономерностей методами локальной геометрии практически отсутствует. Поиск осуществляется с помощью модифицированного аппарата линейной алгебры. При этом новая технология позволяет обнаруживать “лучшие” (наиболее полные при заданной точности) логические правила для каждой записи в базе данных. Также важным моментов является возможность распараллеливания многих операций, лежащих в основе применяемых алгоритмов.

Результаты, полученные по новой технологии, выдаются в виде таблицы логических правил ЕСЛИ … ТО с указанием их характеристик (точности и полноты) и дендрограммы логических правил с описанием обобщающих понятий и метапонятий.

Разработанная технология обнаружения закономерностей в базах данных методами локальной геометрии отнесена к важнейшим результатам 1998 г. в отчете о деятельности РАН.

Использование этой технологии способно существенным образом повысить “уровень интеллектуальности” хранилища данных и способствовать эффективному решению задач прогнозирования, выявления стереотипных схем и шаблонов в структуре анализируемой информации.

Основные теоретические положения новой технологии изложены в следующей литературе:

  1. Дюк В.А. Обработка данных на ПК в примерах. – СПб: “Питер”, 1997. – 240 с.
  2. Дюк В.А. Формирование знаний в системах искусственного интеллекта: геометрический подход//Вестник академии технического творчества. – СПб.: изд-во СПбГТУ, 1996, № 2. – с. 46–67.
  3. Дюк В.А. Формирование знаний в системах искусственного интеллекта: геометрический подход (ч. 4, глава 2)/В кн. Телемедицина. Новые информационные технологии на пороге XXI века. – СПб: “Анатолия”, 1998. С. 367—389.
  4. Дюк В.А. Data Mining – обнаружение знаний в базах данных (в печати) – СПб: Изд-во “БСК”, 15 п.л.

Site of Information Technologies
Designed by  inftech@webservis.ru.