Logo    
Деловая газета CitCity.ru CITKIT.ru - все об Open Source Форумы Все публикации Учебный центр Курилка
CitForum    CITForum на CD    Подписка на новости портала Море(!) аналитической информации! :: CITFORUM.RU
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

18.01.2017

Google
WWW CITForum.ru
С Новым годом!
2008 г.

Ландшафт области управления данными: аналитический обзор

С.Д. Кузнецов, М.Н. Гринев
Институт системного программирования РАН

Назад Содержание Вперёд

5. Новые технологии для обработки потоковых и сенсорных данных

Для некоторых прикладных областей традиционная технология управления данными, основывающаяся на двух- или трехзвенной системной архитектуре с выделенным сервером баз данных, размещении данных в медленной дисковой памяти и т.д., оказывается неприемлемой. К таким областям относятся, в частности, приложения потоковых и сенсорных данных.

5.1. Требования реального времени

Основная особенность потоковых и сенсорных данных состоит в том, что такие данные динамически генерируются с очень большой скоростью, ценность этих данных может иногда стремительно падать со временем, и приложения должны успевать обрабатывать эти данные в реальном времени, в темпе их генерации. При этом число приложений потенциально очень велико, и по части базовой обработки данных между ними много общего, так что наличие специализированных средств управления потоковых и сенсорных данных ускоряет разработку новых приложений, делает их более надежными и эффективными.

5.2. Прикладные области, в которых требуется обработка потоковых данных

Наиболее важной областью, в которой требуется обработка потоковых данных, признается финансовая деятельность, связанная с использованием биржевой информации. Биржи круглосуточно генерируют чрезвычайно интенсивные потоки данных, отражающие текущие курсы акций, объемы и покупок и продаж, и анализ этих данных в реальном времени исключительно актуален как для компаний, акции которых продаются и покупаются на биржах, так и для различных финансовых организаций. До появления специализированных средств управления потоковыми данными соответствующие приложения делались на основе проприетарных технологий, и эти приложения часто не выдерживали возрастающих темпов поступления данных.

5.3. История потоковых систем, существующие системы и их особенности

Исследования в области систем управления потоковыми данными и разработка прототипов таких систем начались с начала 2000-х гг. в университетских проектах Aurora [51] и TelegraphCQ [52]. В этих проектах исследовались основные проблемы систем управления потоковыми данными, в частности, изучались возможности эффективного выполнения «непрерывных» (continuous) запросов. В 2003 г. была создана компания StreamBase Systems [53], которая вскоре выпустила инструментальную систему обработки потоковых данных StreamBase [54]. В этой системе используются и развиваются результаты предыдущих исследований, применяется подход к встраиванию средств управления данными в приложения, используется специальное средство управления данными в основной памяти и т.д.

5.4. Проблемы управления данными в сенсорных сетях

В настоящее время исследуются возможности использования сенсорных сетей в приложениях мониторинга окружающей среды, медицинского мониторинга, промышленной автоматизации, самоуправляемых групп роботов и интеллектуальных домов. В этих приложениях основными ресурсами, которые требуется беречь, являются пропускная способность и энергия. Кроме того, основная часть энергии тратится на коммуникации, а не на обработку или сохранение данных. Требуется такой способ управления сенсорными данными, который обеспечивал бы к ним доступ в реальном времени без потребности массовой передачи данных в центральные узлы.

5.5. История систем управления сенсорными данными и их особенности

Управление сенсорными данными еще не вышло на производственный уровень. Наиболее интересным и развитым является университетский проект TinyDB [55], выполненный в университете Беркли совместно с исследовательской лабораторией компании Intel. Основная идея этой системы состоит в том, что вся сенсорная сеть представляется как огромная распределенная база данных, каждый узел которой (сенсор) хранит крохотный объем данных. Запрос к этой базе данных компилируется таким образом, что на каждый сенсор попадает компонент запроса, имеющий отношение к соответствующей порции данных. Каждый сенсор сохраняет свой компонент запроса и обрабатывает его в непрерывном режиме. Конечно, для построения системы, которую можно было бы использовать в производственном режиме, здесь требуется выполнить ряд научно-исследовательских и опытно-конструкторских работ.

6. Системы управления полуструктурированными и неструктурированными данными

Наряду с наличием огромных объемов структурированных данных, хранимых и обрабатываемых с использованием традиционных средств СУБД, в мире накоплен колоссальный объем представленных в электронном виде полуструктурированных и неструктурированных данных, для эффективной работы с которыми требуются специальные программные средства.

6.1. XML как общепринятый формат представления полуструктурированных данных, стандарты XML

В последние десять лет фактическим стандартом представления полуструктурированных данных является расширяемый язык разметки XML [56]. XML применяется в качестве формата сообщений в протоколе SOAP [57], являющемся основой технологии Web-сервисов, на XML представляется большинство документов, публикуемых в Web, и т.д. Консорциум World Wide Web [58] разрабатывает и публикует стандарты, определяющие функциональные возможности средств управления XML-данными. Одной из проблем XML является то, что эти стандарты очень часто изменяются, а иногда кажутся перегруженными, как, например, в случае стандарта языка XQuery [59].

6.2. Особенности и подходы систем управления XML-данными

Развитые средства управления XML-данными поддерживаются в основных SQL-ориентированных СУБД. В Oracle 11g [2] и IBM DB2 v.9 [3] даже поддерживаются специализированные хранилища XML-данных, позволяющие более эффективно их обрабатывать. На основе ООСУБД ObjectStore была создана XML-СУБД eXcelon, которая позже была приобретена компанией Progress Software и, в конечном счете, стала называться Progress Sonic XML-Server [60].

Для более эффективной и менее тяжеловесной обработки XML-данных разработан ряд специализированных XML-СУБД, базовым языком которых является XQuery. К числу наиболее развитых и известных специализированных XML-СУБД относятся Marklogic [61], X-Hive [62] и Sedna [63, 64]. СУБД Sedna разработана, развивается и внедряется Институтом системного программирования РАН. У каждого из подходов имеются собственные достоинства и недостатки, позволяющие эффективно выполнять только некоторые операции манипулирования XML-данными.

6.3. Проблемы XML-СУБД

Для успешного применения систем управления XML-данными требуется решить ряд проблем. Из-за потенциальной сложности структуры и различий в потребностях разных приложений в разных ситуациях требуются разные методы хранения и индексации баз XML-данных. Нужно понять, в каких ситуациях, и каким образом необходимо оптимизировать запросы к базам XML-данных. В частности, до сих пор непонятно, нужны ли XML-СУБД «стоимостные» оптимизаторы запросов наподобие тех, которые используются в SQL-ориентированных СУБД. Остается открытым вопрос о требуемом уровне изоляции данных при поддержке транзакционного доступа к базам XML-данных.

6.4. Системы текстового поиска и потребности в поддержке семантики

Традиционно применяемый в информационно-поисковых системах контекстный поиск по ключевым словам перестает удовлетворять пользователей. Особенно это заметно в поисковых средствах, ориентированных на работу в Web. Огромные объемы хранимых в Web текстовых документов приводят к недопустимо высокому уровню погрешностей поиска. Для решения этой проблемы при поиске должен использоваться не только контекст, но и семантика документов в виде, например, тезаурусов, онтологий и т.д.

6.5. Краткая характеристика целей и методов направления Semantic Web

Практически параллельно с работами по стандартизации XML основатель консорциума World Wide Web Тим Бернерс-Ли (Tim Berners-Lee) сформулировал понятие Semantic Web и инициировал исследования в этом направлении. В основе предполагаемого им будущего лежит способность машин не только читать, но и понимать содержание Web-сайтов, причем достигнуть этого нужно не путем создания программ искусственного интеллекта, моделирующих деятельность человека, а через использование средств выражения семантики данных и их связей [65].

В начале развития направления Semantic Web предполагалось, что публикации в Internet будут сопровождаться сравнительно формально представленными аннотациями, позволяющими автоматически распознавать семантическое содержание текстов. Для этого был разработаны язык описания RDF [66] и язык представления онтологий OWL [67]. Однако оказалось, что даже при наличии этих языковых средств и поддерживающих их механизмов находится мало желающих вручную описывать семантику документов. Поэтому стало активно развиваться направление интеллектуального анализа текстов (text mining) для автоматического обнаружения их семантики [68]. Добываемая таким образом семантика текстов представляется, например, на языке RDF и в дальнейшем используется для обеспечения более качественного поиска.

6.6. Проблемы семантически обогащенных систем

Для выполнения анализа текстов и поддержки поиска с использованием семантики приходится иметь дело с огромными объемами текстов. Для этого непригодны ни традиционные файловые системы, ни традиционные СУБД. Первыми примерами систем управления данными, специализированными для обработки текстов, являются Map-Reduce [69], Google File System [70] компании Google и конкурирующие с ними открытые разработки компании Yahoo! Hadoop Map-Reduce, Hadoop Distributed File System [71]. Необходимо продолжать исследовать новые средства анализа текстов с целью извлечения из них семантики, а также изучать требуемые свойства систем управления данными.

7. Фундаментальные проблемы управления данными

В соответствии с мнением ведущих исследователей сообщества баз данных [74-75] и последними наиболее авторитетными международными конференциями в области управления данными (International Conference on Very Large Data Bases [76], ACM SIGMOD International Conference on Management of Data [77], International Conference on Data Engineering [78]) в области управления данными имеется несколько фундаментальных проблем.

7.1. Интеграция текста, данных, кода и потоков

Пора прекратить встраивать новые конструкции в старую реляционную архитектуру. Нужно переосмыслить базовую архитектуру СУБД с целью поддержки структурированных данных; текстовых, пространственных, темпоральных и мультимедийных данных; процедурных данных, т.е. типов данных и инкапсулирующих их методов; триггеров; потоков и очередей данных как равноправных компонентов первого сорта внутри архитектуры СУБД (как на уровне интерфейсов, так и на уровне реализации).

7.2. Интеграция информации

Требуется интеграция, возможно, миллионов информационных источников «на лету». В связи с этим существует множество нерешенных проблем: семантическая неоднородность; неполнота и неточность данных; ограниченность доступа к конфиденциальным данным и т.д.

7.3. Сенсорные данные и сенсорные сети

При запросе данных у сенсорной сети часто более выгодным является полное распределение вычислений по отдельным узлам: сеть становится своего рода машиной баз данных. При вычислении запроса необходимо уметь изменять план запроса при изменении сети по причине выхода из строя сенсора или его отключения от сети. Усложняется и интеграция информации, потому что сенсоры обычно не являются полностью калиброванными.

7.4. Использование неточных данных

СУБД должны обеспечивать встроенную поддержку неточных данных. Обработка запросов должна базироваться на вероятностной, недетерминированной модели; процессор запросов должен накапливать факты, чтобы обеспечивать все лучшие и лучшие ответы на запросы пользователей. У пользователей должна иметься возможность задания неточных запросов, и процессор запросов должен относиться к этому как к дополнительному источнику неполноты и неточности. При выдаче неточного ответа на запрос пользователя система должна характеризовать уровень его точности, чтобы пользователи могли понять, достаточна ли она для их потребностей. Аналогом может быть уровень релевантности ответа, выдаваемый информационно-поисковыми системами.

7.5. Самоадаптация

Задачей исследовательского сообщества является отказ от «ручек управления» в СУБД: все настроечные решения должны приниматься системой автоматически под влиянием принятой по умолчанию политики, такой как, например, относительная важность реактивности и пропускной способности.

7.6. Безопасность и конфиденциальность данных

Решения о правомерности доступа должны основываться не только на том, кто запрашивает данные, но и на том, что он собирается с ними делать. Сообщество баз данных могло бы предложить декларативные системы, определяющие цели запроса данных, поскольку уже имеется опыт разработки ориентированных на данные декларативных спецификаций для других целей.

Как видно из предыдущих разделов, многие из этих фундаментальных проблем уже частично решены или находятся в состоянии исследования. Тем не менее, до их полного решения еще далеко, и требуется расширять и углублять исследовательскую работу.

Назад Содержание Вперёд

Подписка на новости IT-портала CITForum.ru
(библиотека, CITKIT.ru, CitCity)

Новые публикации:

24 декабря

CITKIT.ru:

  • Новогодние поздравления
  • Сергей Кузнецов. Цикл Операционные системы: Ностальгия по будущему:

  • Алексей Федорчук. OpenSolaris 2008.11 Release

  • Сергей Голубев:

  • Евгений Чайкин aka StraNNik (Блогометки):

    17 декабря

  • С.Д.Кузнецов. Базы данных. Вводный курс

    10 декабря

    CITKIT.ru:

  • OpenSolaris 2008.11 Release

  • Альтернативные ОС: две грустные истории (С.Кузнецов)
  • Nokia N810 — доведение до ума
  • CitCity:

  • Платформа 2009: заоблачные перспективы Microsoft

    4 декабря

  • Лекция С.Д.Кузнецова Понятие модели данных. Обзор разновидностей моделей данных

    CITKIT.ru:

  • OpenSolaris 2008.11 Release. Первые впечатления

  • Linux vs FreeBSD: продолжим "Священные войны"?

  • Nokia N810 as is

  • Индульгенция для FOSS

  • Друзья СПО'2008

    26 ноября

  • Нечеткое сравнение коллекций: семантический и алгоритмический аспекты

    CitCity:

    CITKIT.ru:

  • Глава из книги А.Федорчука
    Сага о FreeBSD:
  • 19 ноября

  • Проблемы экономики производства крупных программных продуктов

  • Язык модификации данных формата XML функциональными методами

    CITKIT.ru:

  • Главы из книги А.Федорчука
    Сага о FreeBSD:

    Заметки к книге:

  • FreeBSD: монтирование сменных устройств и механизм HAL
  • Текстовый редактор ee

    12 ноября

  • Правило пяти минут двадцать лет спустя, и как флэш-память изменяет правила (Гоц Грейф, перевод: Сергей Кузнецов)

    CITKIT.ru:

  • Главы из книги А.Федорчука
    Сага о FreeBSD:
  • OSS в России: взгляд правоведа (В.Житомирский)

  • Новая статья из цикла С.Голубева "Железный марш":

    29 октября

  • О некоторых задачах обратной инженерии

  • Веб-сервисы и Ruby

  • Тестирование web-приложений с помощью Ruby

    CITKIT.ru:

  • Главы из книги А.Федорчука
    Сага о FreeBSD:

  • PuppyRus Linux - беседа с разработчиком (С.Голубев)

  • Сергей Кузнецов. Заметка не про Linux

    22 октября

  • Обзор методов описания встраиваемой аппаратуры и построения инструментария кросс-разработки

    CITKIT.ru:

  • Сергей Кузнецов. Почему я равнодушен к Linux

  • Глава из книги А.Федорчука
    Сага о FreeBSD:
  • Что надо иметь
    3. Базовые познания

    CitCity:

  • Управление IT-инфраструктурой на основе продуктов Microsoft

    15 октября

  • Методы бикластеризации для анализа интернет-данных

    CitCity:

  • Разъемы на ноутбуках: что они дают и зачем их так много?
  • AMD Puma и Intel Centrino 2: кто лучше?

    CITKIT.ru:

  • Новый цикл статей С.Голубева
    Железный марш:

  • Главы из книги А.Федорчука
    Сага о FreeBSD:

    8 октября

  • Автоматизация тестирования web-приложений, основанных на скриптовых языках
  • Опыт применения технологии Azov для тестирования библиотеки Qt3

    Обзоры журнала Computer:

  • SOA с гарантией качества
  • Пикоджоуль ватт бережет
  • ICT и всемирное развитие

    CitCity:

  • Пиррова победа корпорации Microsoft

    CITKIT.ru:

  • Главы из книги А.Федорчука
    Сага о FreeBSD:

    Статья из архива:

  • Я живу в FreeBSD (Вадим Колонцов)

    Новые Блогометки:

  • Перекройка шаблона Blogger или N шагов к настоящему
  • Blogger. Comment style
  • Screenie или глянцевый снимок экрана

    2 октября

    CITKIT.ru:

  • Сага о FreeBSD (А. Федорчук)

    Zenwalk: пакет недели

  • Банинг — интеллектуальное развлечение (С.Голубев)

    CitCity:

    25 сентября

  • Клермонтский отчет об исследованиях в области баз данных

    CITKIT.ru:

  • Пользователям просьба не беспокоиться... (В.Попов)

  • Снова про ZFS: диск хорошо, а два лучше
  • Командная оболочка tcsh (А.Федорчук)

    Zenwalk: пакет недели

    17 сентября

  • T2C: технология автоматизированной разработки тестов базовой функциональности программных интерфейсов
  • Технология Azov автоматизации массового создания тестов работоспособности

    CITKIT.ru:

  • FreeBSD: ZFS vs UFS, и обе-две — против всех (А.Федорчук)

    Zenwalk: пакет недели

  • Дачнет — практика без теории (С.Голубев)

    10 сентября

  • За чем следить и чем управлять при работе приложений с Oracle
  • Планировщик заданий в Oracle
    (В.Пржиялковский)

    CITKIT.ru:

  • Microsoft: ответный "боян" (С.Голубев)

  • Причуды симбиоза, или снова "сделай сам" (В.Попов)

  • Файловые системы современного Linux'а: последнее тестирование
  • Zsh. Введение и обзор возможностей
    (А.Федорчук)

    Описания пакетов Zenwalk: Zsh, Thunar, Thunar-bulk-rename, Xfce4-places-plugin, Xfce4-fsguard-plugin

    Блогометки:

  • Google Chrome
  • Лончер для ASUS Eee PC 701

    3 сентября

    CITKIT.ru:

  • Заметки о ядре (А.Федорчук):

    Добавлены описания пакетов Zenwalk: Galculator, Screenshot, Gnumeric, Pidgin

    В дискуссинном клубе:

  • И еще о Википедии и Google Knol

  • Лекция для начинающего линуксоида (С.Голубев)

    26 августа

  • Транзакционная память (Пересказ: С. Кузнецов)

    CITKIT.ru:

  • Открыт новый проект Zenwalk: пакет недели

  • Статья Текстовые процессоры и их быстродействие: конец еще одной легенды?

    21 августа

    CITKIT.ru:

  • Почему школам следует использовать только свободные программы (Ричард Столлман)
  • Беседа Сергея Голубева с учителем В.В.Михайловым

  • Википедия или Гуглезнание? Приглашение к обсуждению (Алексей Федорчук)
  • Народная энциклопедия от Google (StraNNik)

  • Обзор Mandriva 2009.0 Beta 1 Thornicrofti
  • Новичок в Линукс: Оптимизируем Mandriva 2008.1

  • Книга Zenwalk. Приобщение к Linux:

    13 августа

    CitCity:

  • Мирный Atom на службе человеку. Обзор платы Intel D945GCLF с интегрированным процессором
  • Обзор процессоров Intel Atom 230 на ядре Diamondville

  • iPhone - год спустя. Скоро и в России?

    CITKIT.ru:

  • Интермедия 3.4. GRUB: установка и настройка (из книги Zenwalk. Приобщение к Linux)

    6 августа

  • СУБД с хранением данных по столбцами и по строкам: насколько они отличаются в действительности? (Пересказ: С. Кузнецов)

    CITKIT.ru:

  • Интермедия 2.2. Что неплохо знать для начала (из книги Zenwalk. Приобщение к Linux)

  • И снова про шрифты в Иксах (А.Федорчук)

  • 20 самых быстрых и простых оконных менеджеров для Linux

  • Дело о трех миллиардах (С.Голубев)

    30 июля

  • OLTP в Зазеркалье (Пересказ: С. Кузнецов)

    CitCity:

  • Будущее BI в облаках?
  • Тиражные приложения и заказная разработка. Преимущества для заказчика
  • Дискуссия со сторонниками заказной разработки

    CITKIT.ru:

  • Новые главы книги Zenwalk. Приобщение к Linux:
  • Глава 8. Пакеты: средства установки, системы управления, системы построения
  • Глава 9. Zenwalk: репозитории, пакеты, методы установки

    23 июля

    CITKIT.ru:

  • Все против всех. 64 vs 32, Intel vs AMD, tmpfs vs ext3
  • Две головы от Intel

  • Zenwalk: обзор штатных приложений (глава из книги "Zenwalk. Приобщение к Linux")

  • Нормально, Григорий...

    16 июля

    Обзоры журнала Computer:

  • Перспективы и проблемы программной инженерии в XXI веке
  • Большие хлопоты с большими объемами данных
  • Перспективы наноэлектроники

    CITKIT.ru:

  • Интермедия о лицензиях (А.Федорчук. "Zenwalk. Приобщение к Linux")

  • Есть ли будущее у KDE?

  • Linux в школе: альтернативный вариант в задачах

  • Шифр (приключения агента Никодима)

    10 июля

    CITKIT.ru:

  • Новые разделы книги А. Федорчука Zenwalk. Приобщение к Linux:
  • Интермедия вступительная. Linux или GNU/Linux? Как вас теперь называть?
  • Глава 5. Среда Xfce
  • Глава 6. Xfce: приложения и плагины

  • ZUR (Zenwalk User Repository) FAQ

    2 июля

  • Персистентность данных в объектно-ориентированных приложениях (С. Кузнецов)

    CITKIT.ru:

  • Новые разделы книги А. Федорчука Zenwalk. Приобщение к Linux:
  • Интермедия 1.2. Дорога к Zenwalk'у. Период бури и натиска
  • Интермедия 3.3. Немного о Linux'е и "железе"
  • Глава 4. Настройка: инструментами и руками
  • Интермедия 4.1. Zenpanel и конфиги: поиски корреляции

  • Интервью с Жан-Филиппом Гийоменом, создателем дистрибутива Zenwalk

  • Linux в школе: первые итоги (С. Голубев)

    25 июня

    CITKIT.ru:

  • Zenwalk. Приобщение к Linux (А. Федорчук)

  • Логика и риторика (С.Голубев)

  • Технология Tru64 AdvFS

  • Ханс Райзер предлагает отвести полицейских к телу Нины

    18 июня

  • Проекты по управлению данными в Google (Пересказ: С. Кузнецов)

    CITKIT.ru:

  • ОС и поддержка "железа": мифы и реальность (А. Федорчук)

  • Linux в школе: другие дистрибутивы

  • Пинок (С. Голубев)

    4 июня

  • Ландшафт области управления данными: аналитический обзор (С. Кузнецов)

    CITKIT.ru:

  • Linux в школе: слово заинтересованным лицам

  • SlackBuild: пакеты своими руками

  • Linux от компании Novell. Установка и обзор openSUSE Linux

    Все публикации >>>




  • IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

    Информация для рекламодателей Пресс-релизы — pr@citcity.ru
    Послать комментарий
    Информация для авторов
    Rambler's Top100 This Web server launched on February 24, 1997
    Copyright © 1997-2017 CIT, © 2001-2017 CIT Forum
    Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...