Современный уровень
развития аппаратных и программных средств сделал возможным повсеместное ведение баз данных
оперативной информации на разных уровнях управления. Для этого используются так называемые системы оперативной обработки
транзакций (OLTP-системы). В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры,
органы государственной власти и управления
накопили большие объемы данных. Они хранят в себе большие потенциальные
возможности по извлечению полезной аналитической информации, на основе которой
можно выявлять скрытые тенденции, строить стратегию
развития, находить новые решения.
В последние годы в мире оформился ряд
новых концепций хранения и анализа
корпоративных данных:
1)
Хранилища данных
(ХД), или Склады данных (Data Warehouse);
2)
Оперативная аналитическая обработка (OLAP);
3)
Интеллектуальный анализ данных - ИАД (Data Mining).
Концепция хранилищ данных
Хранилище данных - способ хранения больших многомерных массивов данных,
который позволяет легко извлекать и использовать информацию в процедурах анализа.
Технология хранилищ данных подразумевает
выделение необходимых данных из нескольких OLTP-систем, создание на основе этой информации хранилища
данных, которое может быть использовано при построении систем оперативного анализа и поддержки принятия решений.
Основные преимущества данного
подхода выражаются в следующем:
Хранилища данных создаются для
удовлетворения нужд потребителей информации
(а не поставщиков). Информация, содержащаяся в хранилище, может быть представлена конечному пользователю в
удобной для него форме.
Данные, записанные в
хранилище, являются "очищенными" по сравнению с данными хранящимися в OLTP-системах. Это означает, что в хранилище погружаются не все данные, а лишь те, которые представляют интерес
с точки зрения анализа. Например, в хранилище может быть занесена отметка о каком-либо факте, но не о времени этого
факта с точностью до секунды. Кроме
того, в хранилище заносится производная информация, которая может упростить и ускорить последующий анализ, -
например, средние значения, суммы, аппроксимации и т.д. Все это ведет к
упрощению процесса анализа на следующих
этапах и, следовательно, к уменьшению временных затрат.
В процессе погружения данные "связываются"
между собой -унифицируются формы
представления, формализуются логические связи, осуществляется привязка к одному моменту времени и т.д. В результате хранилище содержит не просто набор данных, а
данные, взаимосвязанные между собой. Несмотря на различия в подходах и реализациях, всем
хранилищам данных свойственны
следующие черты:
Предметная
ориентированность. Информация в хранилище организована в
соответствии с основными аспектами деятельности предприятия; это отличает хранилище данных от оперативной БД, где данные организованы в
соответствии с процессами.
Интегрированность. Исходные данные извлекаются из
оперативных БД, проверяются,
очищаются, приводятся к единому виду, в нужной степени агрегируются и загружаются в хранилище.
Привязка ко времени. Данные в хранилище всегда напрямую
связаны с определенным
периодом времени.
Неизменяемость. Попав в определенный
"исторический слой" хранилища, данные уже никогда не будут изменены. Это отличает
хранилище от оперативной
БД, в которой данные все время меняются, и один и тот же запрос, выполненный дважды с
интервалом в 10 минут, может дать разные результаты. Стабильность данных также облегчает их
анализ.
В результате
развития теории хранилищ данных появилась новая технология их построения, которая основана на
понятии витрин данных.
В сущности, витрина данных - это
небольшое хранилище данных, обслуживающие одно из направлений деятельности
организации, или одно ее структурное подразделение.
В отличие от корпоративного ХД, витрина доступна только небольшому кругу
пользователей, деятельность которых уже относительно
хорошо изучена (например, службе кадров). Стоимость разработки такой витрины в десятки и сотни раз ниже
стоимости корпоративного ХД, а результат ее внедрения может окупиться
очень быстро. Сейчас практически любой проект по созданию крупного хранилища
данных начинается с разработки витрин. Параллельно с этим может идти проработка
структуры корпоративного хранилища.
Витрины данных
обеспечивают довольно высокую гибкость, поскольку имеется возможность её индивидуализировать
в соответствии с производственными потребностями
и возможностями подразделения, направлением
деятельности или приложением.
Главным отличием централизованного хранилища
данных от витрины данных является вовсе не
размер, а скорее уровень охвата предмета
Существует два типа
витрин данных:
• Независимая
витрина данных представляет собой полностью отдельную систему, которая не
имеет связи с другими витринами данных. Система данного типа не ввязывается в решение многих практических вопросов "организационной интеграции"
подразделений компании или откладывает их.
С технической точки зрения более узкая область применимости витрины данных
может ограничивать сложность исходно требуемых моделей данных.
Витрины такого типа обычно
используются как отдельные системы и извлекают данные непосредственно из производственных
систем.
• Зависимая
витрина данных — это такая витрина, которая, как и независимая, фокусируется на одной предметной
области, но получает данные из центрального
хранилища данных, которое распределяет и преобразовывает данные для всех витрин
данных. Это означает, что в зависимых витринах данных используется трехуровневая архитектура.