Logo    
Деловая газета CitCity.ru citforum.ck.ua - все об Open Source Форумы Все публикации Учебный центр Курилка
CitForum    CITForum на CD    Подписка на новости портала Море(!) аналитической информации! :: citforum.ck.ua
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Saturday, 05-Apr-2008 14:55:26 EEST

Google
WWW citforum.ck.ua
Техническая конференция «Корпоративные базы данных-2008»
Москва, 24-25 апреля
2008 г.

Комментарии к статье Ч.Бергера «Data Mining от Oracle: настоящее и будущее»

,
старший консультант отдела бизнес-анализа и хранилищ данных,
Консалтинговая группа «Борлас» (Москва)
Источник: Oracle Magazine/Русское Издание

Истоки развития Data Mining от Oracle восходят к 1998 году, когда корпорация серьезно занялась расширением этого функционала и его инструментальных средств. В состав СУБД Oracle 8i была включена частичная поддержка алгоритмов Data Mining. Затем Oracle приобрела подразделение компании Thinking Machines, занимающегося разработкой ПО для интеллектуального анализа данных под общим названием Darwin. Основной идей было встроить систему интеллектуального анализа данных в будущие версии СУБД Oracle. Параллельно Oracle выпускает набор инструментальных средств Oracle Data Mining Suite. На конференции Oracle OpenWorld’2000 выходит статья “Data Mining от Oracle: настоящее и будущее” Ч.Бергера, занимающегося развитием этой технологии. С момента той публикации прошло практически 7 лет. За это время многое изменилось, и сделанные еще 2000 году предположения о будущем Data Mining абсолютно все воплотились в жизнь.

Технологии Data Mining появились в составе движка базы данных, начиная с Oracle 9i. Было очевидно желание Oracle встроить алгоритмы анализа в базу данных, чтобы минимизировать потери при передаче и подготовке данных. Могучие функциональные возможности СУБД Oracle, включая многопоточность и распараллеливание, систему блокировок и изощренные механизмы разграничения прав доступа к информации, кардинально расширяли возможности Data Mining. Поэтому реализация опции Data Mining в составе движка базы данных давало колоссальную возможность для продвижения новой технологии и решения аналитических задач. А поскольку по сути СУБД является средой разработки приложений, необходимым условием успешного развития стало наличие специального API. Все это было удачно реализовано в СУБД Oracle. Сегодня ODM (Oracle Data Mining) – опция Oracle EE (Enterprise Edition). В редакциях Personal Edition, Standard Edition, Standard Edition One эта опция отсутствует.

ODM поддерживает все этапы технологии извлечения знаний из данных, включая постановку задачи, подготовку данных, автоматическое построение моделей, анализ и тестирование результатов, использование моделей в реальных приложениях. ODM состоит из двух компонентов: Oracle Data Mining Server – процедуры, реализующие различные алгоритмы извлечения данных и Oracle Data Mining API – API для разработки. Существенно, что модели строятся автоматически в процессе анализа имеющейся информации об объектах, наблюдениях и ситуациях с помощью специальных алгоритмов, основанных на различных математических и статистических подходах. Важными техническими характеристиками ODM являются: работа в архитектуре клиент-сервер, широкое использование техники параллельных вычислений, высокая степень масштабируемости.

На данный момент в состав Oracle Data Mining реализованы алгоритмы для следующих моделей:

  • Классификационные модели
    • Деревья решений
    • Наивный Байесовский классификатор
    • Адаптивная Байесовская сеть
    • Метод опорных векторов
  • Регрессионные модели
    • Метод опорных векторов
  • Поиск существенных атрибутов
    • Метод минимальной длины описания
  • Кластеризация
    • Иерархический алгоритм k-средних
    • Иерархический алгоритм с неизвестным число кластеров
  • Поиск ассоциаций
    • Априорный алгоритм
  • Выделение признаков
    • Алгоритм сингулярной декомпозиции
  • Выделение аномальных выбросов

Таким образом, за 7 лет Oracle серьезно развил математическую составляющую опции Data Mining. Появились новые алгоритмы и методы, были переписаны и оптимизированы старые алгоритмы. Кроме того, появились совсем новые подходы к анализу данных, в частности, Text Mining - анализ структурированных и неструктурированных текстовых данных. Text Mining позволяет вместе с опцией Oracle Text производить глубокий анализ текстовых документов для того, чтобы затем их классифицировать по атрибутам и кластеризовать. Еще одним нововведением стало появление BLAST-алгоритма, позволяющего искать закономерности в последовательностях букв и цифр. Технологии BLAST-анализа нашли широкое применение в естественных науках, особенно в медицине для анализа последовательностей генов и в химии для анализа химических соединений. Кроме математической составляющей, очень широкое развитие получили интерфейсы взаимодействия пользователей и разработчиков с ODM. На программном уровне с ODM можно взаимодействовать с помощью Java API или PL/SQL API, а на графическом - с помощью клиентского Java-приложения Oracle Data Miner или c помощью специального расширения для Microsoft Excel – Oracle Spreadsheet Add-In for Predictive Analytics. Oracle Java Data Mining API соответствует международным стандартам JSR-73, JSR-247 и PMML. Таким образом функционал Oracle Data Mining можно легко и просто встраивать в любые приложения, поддерживающие эти стандарты.

Говоря о современном Data Mining, можно выделить следующие тенденции:

  • попытка сделать Data Mining более “простым” и удобным для использования.
    Потому как процесс создания модели анализа достаточно трудоемок и сложен, в состав клиентского приложения Oracle Data Miner включены специальные мастера-помощники, которые позволяют пользователям легко и быстро строить адекватные модели. Они шаг за шагом помогают пользователям пройти через все этапы data mining. С другой стороны, в язык SQL добавлены специальные функции для прогнозной аналитики. Их можно легко и просто использовать, не надо строить никаких моделей, достаточно подать на вход выборку и указать прогнозируемые величины. Та же тенденция проявилась и в Oracle Spreadsheet Add-In, который позволяет строить прогнозы и выполнять анализ данных в режиме реального времени.
  • интеграция приложений.
    Следует отметить, что это общая тенденция для всей отрасли ИТ. В Oracle Data Miner добавлены средства для интеграции с Oracle Business Intelligence.
  • работа Data Mining в режиме реального времени.
    Уже упоминались SQL-функции и Excel Add-In. Самым же важным примером этой тенденции является Oracle Real-Time Decisions, новый специальный инструмент, предназначенный для автоматизации принятия решений в режиме реального времени. Он идеально подходит для SOA-среды и легко интегрируется в любые бизнес-процессы на предприятии. Основной его плюс - самонастраивающиеся прогностические модели, которые можно оперативно запускать через Web-сервисы. Более подробно о продукте Oracle Real Time Decisions можно прочитать в статье Глубинный анализ данных в режиме реального времени: Oracle Real Time Decisions. А в статье Байесовский классификатор и регрессионная модель в ORTD: практический пример рассматривается реальный бизнес пример, который решается как в ODM, так и ORTD.

 

\

Подписка на новости IT-портала citforum.ck.ua
(библиотека, citforum.ck.ua, CitCity)

Новые публикации:

2 апреля

  • NULL, трехзначная логика и неопределенность в SQL: критика критики Дейта
  • Критика критики критики Дейта
  • Сервис-ориентированный подход в бизнес-аналитике от Oracle
  • Хранение данных на клиенте. DOM Storage и его аналоги
  • citforum.ck.ua:

  • Conky - системный монитор
  • Звук в Linux
  • Linux swap space
  • Описание пакетов KDE
  • 27 марта

    Обзоры журнала Computer:

  • Мечты Дэвида Харела
  • О вреде избыточного питания компьютеров
  • SOA: просто для большинства, сложно для меньшинства
  • CitCity:

  • 12 дюймов и меньше - а стоит ли "овчинка" выделки?
  • Сравнение электронных автомобильных карт и автонавигаторов
  • BI-технологии, что нас ждет в ближайшие годы
  • citforum.ck.ua:

  • И снова Старый Оскол: второй семинар по свободному софту
  • Новые Блогометки:

  • Xdiskusage: где место?!
  • TTF-Inconsolata: открытый шрифт для вашего терминала и красивых распечаток кода
  • Jed: карманный EMACS
  • Ipcalc: полезная информация об IP и маске сети
  • IPTraf: монитор локальной сети с интерфейсом ncurses
  • Burgerspace: свободный клон классической аркады «Burgertime»
  • 19 марта

  • Технология проектирования модели предприятия на основе универсальной модели данных
  • CitCity:

  • Гимн героям Microsoft
  • citforum.ck.ua:

  • Колонки Алексея Федорчука из журнала Linuxformat
  • Завершение цикла Сергея Голубева "Linux для начинающих":
    • Работа в сети
    • Пользовательские приложения

    Новые Блогометки:

  • И вечный бой... со шрифтами
  • Введение в API для карт Google
  • Conky: хорошо настраиваемый системный монитор для X
  • Newsbeuter: чтение RSS из консоли
  • Katapult: ускоренный и упрощенный доступ к приложениям, закладкам и файлам
  • GPRename: пакетное переименование с интерфейсом GTK2-Perl
  • Duplicity: шифрованное и экономное для трафика резервное копирование на основе алгоритма rsync
  • Listadmin: консольное управление очередью модерации Mailman
  • 12 марта

  • Восход и закат High Performance Fortran: наглядный урок истории (пересказ: С.Кузнецов)
  • citforum.ck.ua:

    Новые Блогометки:

  • Ccze: хорошее модульное средство подсветки логов
  • PWSafe - кроссплатформенное средство для работы с паролями
  • colordiff - подсветка для diff
  • psmisc: рассмотрим ближе стандартный пакет
  • Работа с сетью
  • xkb, узелок на память
  • ffmpeg-php
  • debiannotes:desktop:prettyfonts
  • 5 марта

    citforum.ck.ua:

  • Ричард Столлман в Москве
  • О мудром доценте замолвите слово... (Интенсификация Малаховна)
  • Новые Блогометки:

  • "Десктопизация" OpenBSD
  • weather: проверяйте сводку и прогноз погоды из командной строки
  • hpodder: клиент подкастов, который просто работает
  • bc: язык численных расчетов с произвольной точностью
  • Decibel: аудиоплеер для людей
  • GNU Wget: загрузите весь понравившийся сетевой контент на локальный компьютер
  • Deborphan: найдите ненужные пакеты
  • Kivio: мощный и простой в использовании редактор блок-схем
  • Cowsay: настраиваемая говорящая и думающая корова
  • Thoggen: основанная на GTK+ программа для извлечения видео с DVD
  • 28 февраля

  • Подбор и развитие команд
    Глава из книги «Руководство командой разработчиков программного обеспечения. Прикладные мысли» (С.Архипенков)
  • citforum.ck.ua:

    Дискуссия об анонимусах:

  • К комментаторам
  • Windows против Linux - психологический портрет участников форумов
  • Новые Блогометки:

  • Nokia N810 - Linux Inside
  • LiMo - стандарты Linux для сотовых телефонов
  • timer-applet: таймер для панели GNOME
  • Debfoster: удалите пакет и все его зависимости
  • GPW: генератор произносимых паролей
  • AMOR: общество для рабочего стола
  • 20 февраля

    citforum.ck.ua:

    Новые Блогометки:

  • Кое-что о приложениях KDE 4
  • Инструкция по установке KDE 4 в Ubuntu
  • Настоящие мужчины ставят KDE из SVN!
  • Начат переход Amarok на Qt 4.4
  • Marble
  • Dillo - сверхбыстрый браузер
  • Создаем резервные копии настроек программ и важных файлов в Ubuntu LInux
  • NTP: всегда вовремя
  • VYM - простое средство зарисовки мыслей и планирования
  • KBibTeX: простой и гибкий редактор библиографий для KDE
  • Дискуссия Windows vs Linux:

  • Жил-был Мальчик, или Сказочка о Том, Откуда Берутся "КУЛХАЦКЕРЫ", ненавидящие Линукс и Юникс
  • 13 февраля

  • Терминологический словарь Wi-Fi
  • Задача проектирования базы данных методом нормализации
  • CitCity:

  • Лучшие смартфоны начала 2008 года
  • citforum.ck.ua:

  • Первый взгляд на Firefox 3.0
  • Open Source на Белгородщине: семинар в Старом Осколе
  • Что такое KDE?
  • Цикл о Slackware:

  • Русский в консоли
  • Быстрая настройка Иксов
  • xorgconfig - консольный подход
  • 6 февраля

    citforum.ck.ua:

  • Мобильный Linux – вчера, сегодня, завтра
  • Чем записать диски в Linux? Попробуй Brasero!
  • Консольные команды
  • Рецепты. Кое-что о программе mplayer
  • Slackware:
    • Что такое Slackware?
    • Установка Slackware - Загрузка
    • Категории программного обеспечения
    • Структура файловой системы
    • Система инициализации Slackware Linux
    • Скрипты инициализации уровня запуска

    30 января

  • Обзор алгоритмов MOLAP
  • CitCity:

  • BI-технологии 2007. Итоги года
  • Рынок СУБД для Хранилищ данных 2007. Итоги года, тенденции
  • Обзор рынка BI (по результатам исследований IDC, OLAP Report, Gartner)
  • Модель зрелости BI
  • citforum.ck.ua:

  • Владимир Попов: За что я люблю Linux
  • Священные войны
  • 23 января

  • Data Mining от Oracle: настоящее и будущее
  • Комментарии к статье Ч.Бергера «Data Mining от Oracle: настоящее и будущее»
  • Байесовский классификатор и регрессионная модель в ORTD: практический пример
  • citforum.ck.ua:

    Дискуссия Windows vs Linux:

  • Программисты и фирмы: кто кого
  • О "чистых пользователях"
  • Новые Блогометки:

    • Почему Jabber, а не ICQ?
    • Archlinux install quick
    • Arch на IBM Z60m
    • Arch + IBM R50e
    • OpenBSD - сборка E17-cvs (или ещe одна маленькая победа разума)
    • OpenBSD - всe для Человека и ради Человека...
    • PekWM
    • E17 и "прозрачность"
    • E17 - приятные мелочи (multimedia)
    • SuSE + Enlightenment = угробил целый день

    16 января

  • Вьетнам компьютерной науки (пересказ - С.Кузнецов)
  • Пример построения автоматизированного управления дисками (ASM) (В. Пржиялковский)
  • CitCity:

  • 2008 год: антипрогноз
  • citforum.ck.ua:

    Новые Блогометки:

    Сети и Интернет:

    • Mozilla firefox. Шрифты в меню
    • Screen tips
    • Liferea: программа чтения RSS для GNOME
    • HTTrack: скачивание и зеркалирование сайтов
    • Clusterssh: работа с несколькими сеансами SSH через общий интерфейс

    Десктопы:

    • Fluxbox & xinitrc. Some new tips
    • Как я конфигурировал xdm

    Системы:

    • SuSE 10.2: zypper - еще один способ установки пакетов
    • cpipe: определите пропускную способность конвейера команд
    • gddrescue: средство восстановления данных с поврежденных носителей
    • VirtualBox: ваш виртуальный ПК

    Приложения:

    • MyTop: top для MySQL

    10 января

    citforum.ck.ua:

    Дискуссионный клуб:

  • Краткое руководство по общению с никсофилами (Интенсификация Малаховна Сергина-Гейтс)
  • О троллях
  • Пещера горного короля: заметки о троллинге
  • Новые Блогометки:

    Сети и Интернет:

    • Делаем блог на Drupal
    • Использование lftp
    • Устанавливаем FTP сервер ProFTPd с TLS шифрованием
    • Управляем файлами на FTP сервере с помощью FileZilla

    Десктопы:

    • fluxbox.autorun
    • 15 человек на сундук мертвеца! (или песнь о зарытых сокровищах)

    Системы:

    • Живой Debian или рабочее место в кармане
    • Разбивка hdd

    Приложения:

    • Cat Excel files
    • Vim: меню выбора кодировок

    26 декабря

    citforum.ck.ua:

  • В Блогометках открыты разделы:
    • Софт для Windows
    • Сети и Интернет
  • dwm. От статики к динамике
  • Установил Solaris
  • Новая Дискуссия:
    • Нужен ли русский Linux?

    19 декабря

  • SQL Anywhere: встраиваемая СУБД
  • citforum.ck.ua:

  • В разделе Блогометки появились рубрики:
    • Десктопы
    • Приложения
    • Системы
  • Подробно о разделе: Блоги и блогометки: открываем сезон промывки
  • 13 декабря

    CitCity:

  • Microsoft и Барселона: сюрреализм?
  • citforum.ck.ua:

  • Открыт новый раздел Блогометки
  • ZFS в подробностях. 1. Былое и ныне
  • 5 декабря

  • Архитектура предприятия: основные определения
  • Архитектуры для государственных ведомств. Примеры
  • Обзор журнала Computer:

  • Высокопроизводительные встроенные системы
  • citforum.ck.ua:

  • Продолжение цикла Linux для начинающих:
    • Пользовательские интерфейсы
    • Файлы
    • Системы настройки

    Все публикации >>>


    На правах рекламы:

  • Эффективные модели данных ключ к успеху в бизнесе
  • Все публикации >>>




IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей Пресс-релизы -
Послать комментарий
Информация для авторов
Rambler's Top100 хостинг от .masterhost This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2007 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...
[an error occurred while processing this directive]