Сайт Информационных Технологий

XML – СРЕДСТВО ДЛЯ РЕАЛИЗАЦИИ БАЙЕСОВСКИХ ИНТЕГРИРУЮЩИХ ТЕХНОЛОГИЙ В СРЕДЕ ИНТЕРНЕТ

А.В.Лещинский

Негосударственное научное учреждение "Байесовские интегрирующие технологии интеллектуальных систем" ("БИТИС")

Аннотация.

Дано подробное описание возможностей языка XML и преимуществ использования этого нового интернет-стандарта. Рассмотрены перспективы совместного использования XML и байесовских интегрирующих технологий (БИТ-интернет) в разработке приложений, позволюящих расширить возможности интернет и приобрести этой глобальной сети новые качества.

 

XML - eXtensible Markup Language, расширяемый язык разметки - простой и очень гибкий язык, созданный на базе SGML (Standard Generalized Markup Language, стандартный обобщенный язык разметки). XML был р в окончательно создан в начале 1998 года международным консорциумом WWWC (W3C, World Wide Web Consortium). Хотя первоначально он предназначался для для распространения информации, в настоящее время XML играет все более активную роль в разметке самых разнообразных данных в мировой сети интернет. Он упрощает поиск не только требуемой информации. но и метаданных XML - информации об информации - для различных интернет-ориентированных приложений.

Язык XML помогает источникам и получателям информации находить друг друга. Многие задания на поиск и обмен информацией могут быть успешно автоматизированы с помощью XML, который создает единую основу для представления информации. Другими словами, XML является метаязыком разметки (т.е. языком для разработки языков разметки), ориентированным на строго определенный тип содержания. Язык разметки использует теги, встраеваемые непосредственно в текст для описания различных фрагментов и частей текста.

Для языка разметки неважно, как отформатирован описываемый текст. Этот язык точно описывает его содержание. Например, HTML (Hyper Text Markup Language, язык разметки гипертекста) - язык рахметки. XML жепредставляет собой особый язык разметки, который можно использовать в любых платформах, операционных системах и средах. Он позволяет разработчику наилучшим образом описать содержимое документа. Первоначально XML предназначался для издательской деятельности, но затем его стали использовать для обмена данными в интеренет. XML позволяет разработчикам создавать собственные описания типов документов (DTD - document type definitions), для наборов тегов и атрибутов, которые в свою очередь можно использовать для описания конкретных типов содержания. DTD представляют собой своды правил языка разметки, определяющие элементы, которые могут быть использованы для описания документа. Отдельные языки разметки, создаваемые на базе XML, называют словарями XML или приложениями. Эти языки определяются с помощью описаний типов документов.

XML разрабатывается под патронажем рабочей группы по XML консорциума W3C, что позволяет обеспечитьстандартизацию всех механизмов и избежать излишней монополизации. Поскольку каждый словарь XML имеет особое назначение и описывает определенный тип содержания, он должен строго соответствовать правилам XML, что делает все словари подмножествами одного множества. Двумя примерами словарей XML служат GedML (Genealogical Markup Language, язык разметки генеалогической информации ) и CML (Chemical Markup Language, язык разметки химической информации). Оба этих словаря были разработаны на основе спецификации XML, но каждый имеет свое собственное назначение. GedML предназначен для описания наследственной информации, тогда как CML специально создан для описания химических формул и молекул. Оба они описываются с помощью DTD, которое определяет, какие элементы могут использоваться для описания генеалогической и химической информации.

XML обладает достаточно мощными и широкими возожностями. Поэтому его можно использовать для описания не только содержания, но и метаданных. Метаданные представляют собой информацию, которая описывает другую информацию. Примером метаданных может служить библиотечный каталог. Каждая карточка или запись в компьютерном каталоге представляет собой информационный ресурс, который содержит данные о другом информационном ресурсе, обычно книге, журнале или фильме. Последовательный метод описания метаданных (с помощью XML) позволяет оптимально организовать каталогизацию ресурсов интернет, что существенно упрощает для пользователей поиск требуемой информации.

XML предоставляет как средства для описания содержания документа, так и механизм для описания метаданных с помощью методов, совместимых с любыми компьютерами независимо от используемой платформы и операционной системы.

XML был разработан для создателей документов и специалистов в области разработки содержания, которые испытывали трудности из-за ограниченных возможностей HTML. Не все элементы содержания могут быть описаны как абзацы, списки, таблицы и формы.

Поскольку для описания Web-содержания существовал только один доступный метод - язык HTML, то содержание втискивалось в тесные рамки перечисленных выше элементов. Если вы когда-нибудь пробовали вставить квадратную деталь в круглое отверстие, то вам понятна сложность подобной проблемы.

Сотрудники различных рабочих групп W3C пришли к выводу, что HTM нельзя расширить настолько, чтобы он мог справляться со всеми возможными типами данных. Сначала они разработали ряд специализированых языков разметки, каждый из которых работал с определнным типом данных. Вскоре стало понятно, что удовлетворить все запросы разработчиков таким путем невозможно. Возврат к SGML тоже не представлялся целесообразным, поскольку этот язык довольно громоздкий и избыточный.

XML был разработан с целью создания структурированной среды в интересах разработчиков DTD для содержания, которое не вписывается в жесткие рамки HTML. Создав метаязык для разработки интернет-ориентированных языков разметки вместо отдельных языков, консорциум W3C внедрил механизм для создания настраиваемых интернет-реализаций, которые могут работать в рамках инфраструктуры интернет. Таким образом, расширяемый язык разметки XML был разработан с целью полнее использовать возможности довольно сложного стандартного обобщенного языка разметки SGML и простоту ограниченного языка разметки гипертекста HTML, принятого в Web.

Во многих отношениях XML - дальний родственник HTML. Оба эти языка являются потомками SGML. Различие заключается в том, что XML является метаязыком, а HTML - специализированным языком разметки. SGML - прародитель всех языков разметки и их база. В будущем HTML может стать просто словарем XML, предназначенным для описания простейших документов и для обеспечения совместимости Web-узлов по нисходящей с более ранними версиями Web-браузеров.

HTML послужил основой для разработки XML. В результате широкого использования HTML для описания всех типов документов возник ряд проблем, требующих разрешения. XML развивается быстрыми темпами как раз для удовлетворения тех потребностей, которые возникли в ходе распространения HTML.

В настоящее время для работы в Web все еще используется HTML. Многие современные средства предназначены для анализа и отображения данных, описанных с помощью словарей XML и написанных на языке Java для использования в среде Web. Для включения аплета Java в Web-страницу нужно использовать HTML. Подобная ситуация изменится еще не скоро, по меньшей мере, в ближайшие годы HTML и XML будут мирно сосуществовать в среде интернет, а HTML останется неотъемлемой частью Web-реализаций XML.

XML дает возможность элегантно и просто решить ряд вопросов, возникших вследствие принятия HTML в качестве языка для интернет. XML предполагает, что разработчики документов усвоят некоторые новые принципы и овладеют новыми знаниями. Web-браузеры должны обрабатывать документы дифференцированно и поддерживать большое множество словарей разметки. Тем не менее разработчики могут выбирать из целого набора языков, а не быть привязанными к какому-то одному из них. Разработчикам браузеров уже не надо создавать отдельные приложения для удовлетворения разнообразных запросов пользователей.

Уже разрабатываются многие словари XML, учитывающие потребности описания различных типов Web-содержания. Сюда входят описания математических и химеческих данных, определение метаданных Web, обеспечение финансовых операций и многое другое. Компании и их группы разрабатывают большинство словарей для своих собственных целей. Для таких словарей неизбежно будут разрабатываться специализированные средства, облегчающие их использование. Буквально каждый день появляются новые словари. Цель существования XML - предоставление разработчикам стандартной среды, в которой они могут создавать специализированную разметку. Однако стандартная среда, способная настраиваться так, чтобы удовлетворить самые разнообразные запросы, может оказаться весьма сложной.

XML-документы обрабатываются приложениями, которые называются синтаксическими анализаторами. Анализатор читает документ и генерирует на выходе информацию, соответствующую содержанию документа и разметке, описывающей это содержание. Поскольку XML является технологией для работы в Web и интернет и разработчики словарей понимают, что для корректного просмотра содержимого соответствующих документов нужны специализированные браузеры, большинство синтаксических анализаторов и браузеров представляют аплеты Java. Благодаря тому, что все основные браузеры поддерживают Java, специализированные XML-браузеры легко могут встраиваться в Web-страницы, а отображение XML-документов весьма несложно интегрируется в инфрасруктуру Web.

XML позволяет делать гораздо больше, чем просто создавать собственные теги. Он позволяет создавать Web-ориентированные, настраиваемые описания документов и приложений, распространяющих информацию. С помощью XML можно изменить привычные методы проектирования и использования Web-документов.

Одним из замечательных достоинств XML является использование нового стандарта для международной языковой кодировки, называемого UNICODE. Благодаря использованию UNICODE XML позволяет осуществлять обмен информацией не только между разными компьютерными системами, но и открыть национальные и культурные границы. На зло смешению несовместимых компьютерных систем, языков, алфавитов и кодировок, XML становится компьютерным есперанто, на котором любой человек и компьютер может "читать и писать".

В качестве примера конкретного применения XML-технологии возьмем проект, осуществленный такими лидерами компьютерной индустрии как Software AG и Nokia при поддержке Mannesmann и Linked-With, по прямому доступу в интернет с мобильного телефона (без использования компьютера клиентом). Основой для подобных решений является WAP (Wireless Application Protocol, протокол беспроводных приложений), стандарт для осуществления взаимодействия между беспроводными устройствами и интернетом. Частью WAP является WML (Wireless Murkup Language, язык беспроводной разметки), язык являющийся словарем XML. WML позволяет представлять текстовую информацию в формате, совместимом с мобильными устройствами, такими как мобильные телефоны и персональные цифровые помощники. Это технология, которая еще позавчера казалось фантастикой, вчера уже применялась банками, страховыми компаниями и авиалиниями, а сегодня доступна каждому!

 

Литература:

1. Pitts N. XML In Record Time. San-Francisco, 1999 (англ.);

2. Horak C. The XML Shockwave. Darmstadt, 1999 (англ.);

3. Goulde M.A. Tamino:Software AG's XML Server. Boston, 1999 (англ);

4. Horak C. Electronic Business powered by XML. "Software report", 1999, №50 (англ.)


Site of Information Technologies
Designed by  inftech@webservis.ru.