Программирование >>  Программирование баз данных 

1 ... 331 332 333 [ 334 ] 335 336 337 ... 346


Следует отметить, что на рис. В. 4 между таблицами Fact Internet Sales uDim-Time имеются три связи, и причина этого состоит в том, что в таблице размерностей DimTime имеются три ключевых столбца, которые относятся к разным значениям времени (OrderDa t еКеу, DueDa t еКеу, ShipDa t еКеу).

Кубы

Куб представляет собой своего рода разновидность многомерной схемы. Он поддерживает понятие повышения степени детализации, для чего применяется таблица фактов, но анализ осуществляется по одному или нескольким измерениям. Под термином куб подразумевается то, что используется трехмерный объект (куб) и что количество измерений выше по сравнению с теми двумя измерениями, с которыми приходится сталкиваться во время работы с обычной таблицей (состоящей из столбцов и строк). Но это не означает, что куб, применяемый в анализе данных, может быть только трехмерным; в действительности количество измерений этого куба является неограниченным, и он обеспечивает обработку данных по трем, четырем, пяти или большему количеству измерений. А определение куба в виде трехмерной структуры позволяет легче представить себе визуально, как осуществляется поиск данных на пересечени51х размерностей. Например, на рис. В.5 показано, как представить данные о сбыте на пересечении размерности, обозначающей операционные системы. Operating Systems, в магазинах штата Мичиган (Ml) за 1998 год. Доступны также другие данные о сбыте (такие как сбыт товаров из категории Operating Systems в штате 1Салифорния (СА) за 1997 год), а сам доступ к данным может быть организован любым способом, который позволил бы упростить проведение анализа. Особенность представления данных в виде кубов состоит в том, что вместе с данными, относящимися к определенной категории, хранятся также результаты их агрегирования в той или иной форме, поэтому можно рассчитывать на очень быстрое получение сводных данных.

Операционные системы

2 Операционная система Windows

Программирование

1997 1998 1999 Время

Рис. в. 5. Данные о сбыте



В частности, при попытке получения суммарньпс результатов из обычной таблицы нам потребовалось бы применить сложный оператор выборки с конструкцией GROUP BY, в котором задана функция SUM () с определенными параметрами. Но агрегирующие функции известны тем, что работают очень медленно, поэтому нам пришлось бы, по-видимому, довольно долго ожидать получения необходимых результатов (разумеется, при условии, что количество данных о сбыте, подлежащих агрегированию, достаточно велико).

А при создании куба для службы Analysis Services (или для другого предпочтительного инструментального средства создания многомерной базы данных) должны быть определены правила автоматического предварительного агрегирования числовых данных.

Типы хранилищ

в многомерной базе данных для хранения сводной информации применяется полностью иная структура по сравнении с той, которая обнаруживается в типичном В-дереве, используемом в основной реляционной машине. Дело в том, что В-деревья являются эффективным средством обработки двумерных данных, но в них отсутствуют какие-либо специальные конструкции, которые могли бы обеспечить обработку многомерных данных. Для хранения многомерных данньгх используются три различные модели хранения, приведенные ниже.

Многомерная модель OLAP (Multidimensional OLAP - MOLAP).

Реляционная модель OLAP (Relational OLAP - ROLAP).

Гибридная модель, представляющая собой сочетание двух предыдущих вариантов (Hybrid OLAP - HOLAP).

1Саждый из этих вариантов имеет свои преимущества и недостатки, а наиболее подходящая область их применения зависит от размера базы данных и способа использования данных.

Модель MOLAP

Модель MOLAP представляет собой высокоэффективный, многомерный формат хранилища данных. Данные OLAP, поддерживающие кубы, наряду с самими кубами хранятся на сервере OLAP в многомерньпс структурах (структурах OLAP). Модель MOLAP обеспечивает наивысшую производительность при выполнении запросов, поскольку она предназначена для оптимального выполнения многомерных запросов к данным. Достижение высокой производительности обусловлено тем, что таблицы фактов хранятся в сжатом виде, для чего используется формат, наиболее подходящий для данной модели, а индексация осуществляется с помощью битовых индексов.

При использовании модели MOLAP требуется включение в хранимую копию всех данных, поэтому такая модель является наиболее подходящей для наборов данных с объемом от небольшого до среднего. Если объем набора данньгх отвечает этим условиям, то для него не требуется значительное время загрузки, а также не используется слишком большой объем дискового пространства.



Модель ROLAP

В модели ROIAP предусмотрено хранение данных OLAP, образующих кубы, наряду с результатами обработки кубов (под этим подразумеваются агрегированные данные), в реляционных таблицах, находящихся в реляционной базе данных. В этом случае для хранения и обработки агрегированных данньгх (данных кубов) в системе OLAP используется отдельный набор реляционных таблиц. Эти таблицы не выгружаются на сервер системы поддержки принятия решений (Decision Support System - DSS). Таблицы, в которьгх хранятся результаты агрегирования данных, принято называть материализованными представлениями. В этих таблицах агрегированные данные хранятся в соответствии с тем, что определено размерностями, заданными при создании куба.

При использовании этой модели в таблицах агрегирования предусматриваются поля для каждой размерности и для каждого измерения. Каждый столбец размерности индексрфован. Кроме того, для всех полей размерностей создается составной индекс. Таким образом, в модели ROLAP, с одной стороны, не создается полная копия данных, а с другой стороны, не все сводные результаты полностью вычисляются заранее, поэтому она идеально подходит для использования с крупными базами данных или для обработки устаревших данных, запросы к которым поступают довольно редко.

Модель HOLAP

В СУБД SQL Sei-ver используется также комбинация моделей MOLAP и ROLAP. Эта комбинация известна под названием модели HOLAP. Модель HOLAP, как и модель ROLAP, пред\сматривает хранение данных OLAP, относящихся к кубам, непосредственно в таблицах реляционной базы данных. Но, в отличие от модели ROLAP, в модели HOLAP выполняется агрегирование данных (данных кубов) и результаты агрегирования сохраняются в многомерном формате. Преимущество системы, основанной на использовании модели HOLAP, состоит в том, что обеспечивается взаимодействие с крупными наборами данных, хранящимися в реляционных таблицах, и вместе с тем достигается более высокая производительность, характерная для хранилищ с многомерным агрегированием данных. А недостатком модели HOLAP является то, что ее эффективность может снизиться из-за большого объема обработки данных, передаваемых из системы ROLAP в систему MOLAP.

Краткое описание хранилищ данных

Хранилище данных представляет собой место хранения данных, собранных компанией в результате проведения деловых операций за длительный период времени. В хранилище данных в качестве источника данных используются системы OLTP, которые собирают данные, ставшие результатом повседневно выполняемых операций и транзакций. В число необходимых компонентов хранилища данных входят также средства, обеспечивающие предварительную подготовку данных (под этим подразумевается удаление или корректировка неправильных данных, а также выборка по критериям только тех данных, которые действительно требуются) и преобразование данных. Эти средства позволяют подготовить данные к вводу в хранилище данных. Кроме того, к категории хранилищ данных относятся репозитарий итоговых таблиц и статистических данных, а также базы данных, организованные по размерностям. Наконец, любое хранилище данных включает инструментальные средства, с помощью которых деловые аналитики формируют представления данных и осуществляют обработку данньгх. К таким инструментальным средствам относятся инструментальные



1 ... 331 332 333 [ 334 ] 335 336 337 ... 346

© 2006 - 2024 pmbk.ru. Генерация страницы: 0
При копировании материалов приветствуются ссылки.
Яндекс.Метрика