Программирование >>  Хронологические базы данных 

1 ... 269 270 271 [ 272 ] 273 274 275 ... 348


где под набором потребительских товаров понимается набор продуктов, закупленных во время одной сделки. Благодаря анализу можно определить, например, что потребитель, который покупает обувь, вероятно, покупает и носки как часть одной и той же сделки. Эта зависимость между обувью и носками- пример правила связи. Оно может быть выражено приблизительно так.

FORALL tx ( Обувь Е tx Носки е tx )

Здесь Обувь е tx - amenejxQm, vinvi условие, правила, Еосш g tx-результат, или следствие, правша и tx изменяется по всем сделкам по продаже.

SALES

CUST#

TIMESTAMP

PRODUCT

Обувь

Носки

Галстуки

Обувь

Носки

Галстуки

Пояса

Сорочки

Обувь

Галстуки

Обувь

Носки

Пояса

Рис. 21.5. Таблица продаж SALES

Введем некоторые дополнительные термины. Множество всех сделок по продаже в данном примере называют совокупностью. Любое данное правило связи имеет уровень поддержки и уровень достоверности, или доверительный уровень. Поддержка - это доля совокупности, в которой правило удовлетворяется. Достоверность - это отношение объема совокупности, в которой удовлетворяется правило, к объему совокупности, в которой удовлетворяется условие. (Отметим, что условие и следствие необязательно должны относиться к одному продукту; они могут относиться к любому количеству различных продуктов.) Рассмотрим, например, такое правило.

FORALL tx (Носки g tx Галстуки е tx)

Для нашего примера данных, представленного на рис. 2L5, совокупность составляет 4 сделки, поддержка равна 50%, а достоверность - 66,67%.

Более общие правила связи могут быть исследованы на соответствующих агрегациях данных. Например, после группирования по заказчикам можно проверить допустимость такого правила, как Если заказчик покупает обувь, то, вероятно, он также покупает носки, хотя необязательно во время той же сделки .

Могут быть определены и другие виды правил. Например, правило зависимости следствия может использоваться для определения покупаемых образцов в течение некоторого времени ( Если заказчик купил обувь сегодня, то он, вероятно, купит носки в течение пяти дней ). Правило классификации может использоваться для принятия реше-



ния по удовлетворению заявки на получение товара в кредит ( Если доход заказчика превышает $75 ООО в год, то, вероятно, риск неплатежа будет невелик ) и т.д. Подобно правилам связей правила зависимости следствий и правила классификации также имеют уровни поддержки и достоверности.

Разработка данных представляет собой огромную самостоятельную тему [21.1], поэтому, очевидно, что рассмотреть ее детально в этой книге невозможно. Мы ограничимся кратким описанием вероятного применения методов разработки данных к расширенной версии базы данных поставщиков и деталей. Прежде всего при отсутствии других источников данных мы можем использовать индукцию для классификации поставщиков по их специализации, например по крепежным деталям и деталям двигателя, и предварение значений, чтобы прогнозировать, какими поставщиками и какие детали наиболее вероятно будут поставляться. Затем мы можем использовать демографическую кластеризацию, т.е. разбивку на группы, чтобы связать расходы на поставки с географическим расположением посредством закрепления поставщиков за регионами поставок. После этого можно использовать исследование связей, чтобы определить те детали, которые получены вместе, в одной поставке. С помощью последовательного исследования образцов можно определить, что поставки крепежных деталей, в общем, следуют за поставками деталей двигателя, а путем исследования соответствующих временных циклов - что имеются сезонные количественные изменения в поставках определенных деталей (одни из таких изменений происходят осенью, а другие - весной).

21.8. Резю]У1е

в этой главе было рассмотрено использование технологии баз данных для систем поддержки принятия решений. Основная идея заключается в том, чтобы отобрать оперативные данные и привести их к виду, в котором их можно было бы использовать для оказания помощи управляющему персоналу в понимании особенностей функционирования предприятия и выборе направления его дальнейшего развития.

Сначала были определены понятия систем поддержки принятия решений, которые устанавливаются отдельно от систем оперативных баз данных. Характерная черта баз данных поддержки принятия решений заключается в том, что они предназначены преимущественно лишь для чтения. Как правило, такие базы данных очень большие и имеют много индексов. В них обычно присутствует контролируемая избыточность, особенно в форме репликации и предварительного обобщения данных. Ключи обычно содержат временной компонент, а запросы, как правило, очень сложные. Исходя из этих соображений, при проектировании первостепенное внимание уделяется обеспечению производительности систем. Соглашаясь с важностью этой задачи, мы все же считаем, что способы ее достижения не должны вступать в противоречие с правильной практикой проектирования. Проблема заключается в том, что в практике проектирования систем поддержки принятия решений обычно недостаточно четко различаются вопросы логического и физического проектирования.

Затем рассматривались вопросы подготовки оперативных данных к помещению в системы поддержки принятия решений: задачи извлечения, очистки, преобразования и консолидации, загрузки и обновления данных. Также упоминалась концепция банков оперативных данных, которые, кроме всего прочего, могут использоваться и как области накопления в процессе подготовки данных. Еще одно применение банков оперативных данных - предоставление сервиса поддержки принятия решений на основе текущих данных.



Далее речь шла о хранилищах данных и магазинах данных (последние могут расцениваться как специализированные хранилища данных). Была рассмотрена основная идея построения схем типа звезда , в которых данные организованы, как большая основная таблица фактов и несколько значительно меньших таблиц размерности. В простых случаях схемы типа звезда неотличимы от обычных классических нормализованных схем. Однако на практике они во многом отходят от принципов классического проектирования по причинам, связанным с производительностью. Проблема, опять же, состоит в том, что схемы типа звезда на самом деле в большей степени имеют физическую, а не логическую природу. Также мы коснулись стратегии реализации операции соединения, известной как звездообразное соединение, и разновидности схемы типа звезда , которая называется схемой типа снежинка .

В этой главе также уделялось внимание оперативной аналитической обработке данных (OLAP). Обсуждались возможности языка SQL, которые предоставляются с помощью опций GROUPING SETS, ROLLUP и CUBE предложения GROUP BY, a именно - возможности получения нескольких различных видов обобщения в одном SQL-запросе. Также отмечалось, что язык SQL, к сожалению (на наш взгляд), объединяет эти различные обобщения в одной таблице , содержащей множество NULL-значений. Также шла речь о том, что на практике OLAP-системы могут предусматривать преобразование этих таблиц в многокоординатные таблицы (обыкновенные массивы) для их отображения. Затем мы обратили ваше внимание на многомерные базы данных, в которых данные концептуально хранятся не в таблицах, а в многомерных массивах или гиперкубах. Размерности такого массива составляют независимые переменные, а в ячейках содержатся значения соответствующих зависимых переменных. Независимые переменные обычно связываются в различные иерархии, которые определяют разумные способы группирования и объединения данных.

И наконец была рассмотрена концепция разработки данных. Основная идея состоит в том, что, поскольку данные часто недостаточно хорошо изучены, можно использовать возможности компьютера, чтобы во всей совокупности данных обнаружить некоторые характерные взаимосвязи. Здесь кратко рассматривались различные виды правил, а именно - правила связи, классификации и зависимости следствия, и обсуждались связанные с ними понятия уровней поддержки и достоверности.

Упражнения

21.1. Назовите некоторые из основных отличий между базами данных поддержки принятия решений и оперативными базами данных. Почему системы поддержки принятия решений и оперативные приложения обычно используют различные хранилища данных?

21.2. Кратко опишите этапы подготовки оперативных данных для их помещения в систему поддержки принятия решений.

21.3. Назовите отличия между контролируемой и неконтролируемой избыточностью. Приведите соответствующие примеры. Почему контролируемая избыточность важна в системах поддержки принятия решений? Что случится, если избыточность станет неконтролируемой?

21.4. Назовите отличия между хранилищами данных и магазинами данных.

21.5. Что вы понимаете под термином схема типа звезда !



1 ... 269 270 271 [ 272 ] 273 274 275 ... 348

© 2006 - 2024 pmbk.ru. Генерация страницы: 0
При копировании материалов приветствуются ссылки.
Яндекс.Метрика