Аналитическая обработка данных (OLAP). Информационное хранилище данных. Модели данных, используемые для построения информационных хранилищ



инженерно-экономический университет”

РЕФЕРАТ

“Аналитическая обработка данных (OLAP). Информационное хранилище данных. Модели данных, используемые для построения информационных хранилищ”

по дисциплине “Информатика”

Группа С-1503

2015

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

10 лет назад технологией мало кто пользовался, а сегодня она получила широкое применение. Например, операции в банке были частично проведены "на бумажках", и важная информация хранилась сотрудниками "в головах". Было необходимо разработать комплекс программ для расчета показателей регламентированной отчетности, быстроты и четкости разработки новых продуктов и оперативности реагирования на любые изменения в спросе на банковские услуги. Целью создания было полномасштабное единое корпоративное хранилище данных, которое отвечало бы требованиям для подготовки отчетов, предоставления всех видов отчетов в контролирующие органы и являлось бы мощным аналитическим инструментом для ускорения роста бизнеса. И сегодня хранилища данных интегральная часть современных корпоративных систем поддержки принятия решения.

Хранилище данных - это место, где хранятся данные для архивирования, анализа, в целях безопасности. Как правило, хранилища данных, либо один или несколько компьютеров (серверов) связаны вместе, чтобы создать один гигантский компьютер системы.

Данные состоят из необработанных данных или отформатированных данных. Она может быть на различные типы вопросов, включая организацию продаж, зарплата, эксплуатационные данные, сводки данных, включая отчеты, копии данных, данных о людских ресурсах, кадастровых данных, внешних данных и обеспечения анализа и моделирования и др.

Информационноехранилищеданных.

Термин "Хранилище данных" был впервые придуман Биллом Инмоном в 1990 г. По Инмону, информационное хранилище данных является предметно-ориентированным, интегрированным и энергонезависимым сбором данных. Эти данные помогают аналитикам принимать обоснованные решения в организации.

Оперативная база данных подвергается частым изменениям на ежедневной основе за счет сделок, которые происходят. Предположим, что хозяйственник хочет проанализировать предыдущую обратную связь по любым данных, таких как продукт, поставщика, или любой потребительский данных, то исполнительный не будут иметь данные, имеющиеся для анализа, так как предыдущие данные были обновлены в результате операций.

А хранилищ данных предоставляет нам обобщенные и консолидированные данные в многомерном представлении. Наряду с обобщенным и консолидированным представлением данных, хранилища данных и предоставляет нам Online Analytical Processing (OLAP) инструменты. Эти инструменты помогают нам в интерактивном и эффективного анализа данных в многомерном пространстве. Этот анализ приводит к обобщению данных и интеллектуального анализа данных.

Пониманиехранилищаданных

Ключевыеособенностихранилищаданных

Энергонезависимая – энергонезависимая особенность означает, что предыдущие данные не стираются, когда добавляются новые данные. Хранилище данных хранится отдельно от рабочей базы данных и, следовательно, частые изменения в рабочей базе данных не отражается в хранилище данных. —Примечание: Хранилище данных не требует обработки транзакций, восстановления и управления параллелизмом, потому что это физически хранятся и отдельно от рабочей базы данных.

ХранилищеданныхПриложения

Как обсуждалось ранее, хранилище данных помогает бизнес – руководителям организовать, анализировать и использовать свои данные для принятия решений. Хранилище данных служит в качестве единственной части: план – выполнить – оценка «замкнутого цикла» системы обратной связи для управления предприятием. Хранилища данных широко используются в следующих областях:

Типыхранилищданных

Обработка информации, аналитическая обработка и добыча данных трех типов хранилищ данных приложений, которые обсуждаются ниже:

Преимущества

Хранилища данных сохраняет копию информации, полученной от источника транзакционные системы. Эта архитектурная сложность обеспечивает возможность:

Хранениеинформации

Есть три или более ведущих подходов к хранению данных в хранилища данных — наиболее важные подходы размерный и нормированный.

Размерный подход обращается к подходу Ральфа Кимбола, в котором установлено, что склад данных должен быть смоделирован, используя Размерную схему Модели/звезды. Нормализованный подход, также названный 3NF модель (Третья Нормальная Форма) обращается к подходу Билла Инмона, в котором установлено, что склад данных должен быть смоделирован, используя E-R.

Ключевое преимущество размерного подхода состоит в том, что склад данных легче для пользователя понять и использовать. Кроме того, поиск данных от склада данных имеет тенденцию работать очень быстро.  Размерные структуры легко понять деловым пользователям, потому что структура разделена на размеры/факты и контекст/измерения. Факты связаны с бизнес-процессами организации и эксплуатационной системой, тогда как измерения, окружающие их сдерживают контекст об измерении.

Главныенеудобстваразмерногоподходаследующее:

В нормализованном подходе, данные в складе данных после хранятся, в известной степени, правила нормализации базы данных. Столы группируются предметными областями, которые отражают общие категории данных (например, данные относительно клиентов, продукции, финансов, и т.д.). Нормализованная структура делит данные на объекты, которые создают несколько столов в реляционной базе данных. Когда применено в больших предприятиях результат – множества столов, которые соединены сетью соединений. Кроме того, каждый из созданных объектов преобразован в отдельные физические столы, когда база данных осуществлена. Главное преимущество этого подхода состоит в том, что можно прямо добавить информацию в базу данных. Некоторые неудобства этого подхода – то, что, из-за числа вовлеченных столов, может быть трудным для пользователей присоединиться к данным из различных источников в нужную информацию и получить доступ к информации без точного понимания источников данных и структуры данных склада данных.

Аналитическая обработка данных (OLAP).

Доктор Е.Ф. (Тэд) Кодди придумал фразу оперативной аналитической обработки (OLAP) в 1993 г., которая была упомянута в статье под названием «Обеспечение OLAP (оперативной аналитической обработки) для пользователей-аналитиков: как некий  “мандат” информационной технологии. Вскоре после опубликования этой статьи, OLAP и стал последним модным словечком в базе данных арены и каждый профессионал изо всех сил пытался понять принцип работы OLAP и как она вписывается в парадигму системы поддержки принятия решений (СППР) приложений. Учитывая в последнее время популярность OLAP, можно сказать, что данная технология очень проста в использовании.

Большой интерес всплыл в применение хранилищ данных и многомерных баз данных в продвинутых системах. Современные системы, такие как экспертные системы и системы поддержки принятия решений были использованы на протяжении десятилетий, чтобы решить слабоструктурированные и неструктурированные проблемы. Традиционно, эти типы систем комбайна вывода двигателей и реляционных баз данных для того, чтобы хранить знание компонентов обработки, и они все сделано этими задачами без выгоды в связи с огромным количеством данных склад.

ПонятиеOLAP

Модель OLAP (online analytical processing) создана для интерактивной аналитической обработки данных в реальном времени. Выполняет OLAP для многомерного анализа бизнес – данных и предоставляет возможность для сложных вычислений, анализ тенденций, моделирование и сложные данные. Она является основой для бизнес-приложений для управления эффективностью бизнеса, планирования, бюджетирования, прогнозирования, финансовой отчетности, анализа, хранилища данных и отчетности. OLAP позволяет конечным пользователям выполнять специальный анализ данных в нескольких измерениях, обеспечивая тем самым возможность для более эффективного принятия решений.

Основы OLAP

По сути, технология OLAP это анализ любой системы обобщения информации, которая захватывает и позволяет резюме отображаться в виде кросс – таблицы между двумя переменными. В следующем примере мы рассмотрим OLAP с помощью сводной таблицы Excel характеристика таблицы.

Термины OLAP и многомерные базы данных стали синонимами. По сути, многомерные базы данных – это базы данных архитектуры, которые хранят обобщенную информацию таким образом, что все основные элементы данных (называемые измерениями) являются перекрестные ссылки  друг другу. Например, многомерная база данных может хранить итоги продаж перекрестных ссылок по месяцам, продукт линии, территории и продавца. Многомерные базы данных также могут отображать итоги продаж в соответствии с возможными сочетаниями кросс – таблицы.

Так что, если это многомерная база данных, тогда что такое OLAP, так? OLAP – это презентация переднего плана, позволяющая конечным пользователям выбрать размеры и факты, которые будут перекрестными ссылками. Данные не обязательно должны прийти непосредственно из многомерной базы данных. Возможные источники данных для приложений OLAP включают:

* Многомерные базы данных

* Реляционные базы данных (ROLAP с помощью инструментов)

* Данные электронной таблицы (извлечено из любой базы данных архитектура)

Преимуществаприменения OLAP:

OLAP предоставляет следующие преимущества аналитическим пользователям:

Типы OLAP:

Классификация продуктов OLAP, которая делается только на основе физического способа хранения. Физические параметры хранения влияют на производительность и требования к хранению данных для кубов. На основе OLAP существует три типа хранения данных (Рис.1.):

  1. MOLAP
  2. ROLAP
  3. HOLAP

1. MOLAP:

MOLAP дляMOLAP дляхранения обеспечивает потенциал для наиболее быстрого времени отклика на запрос, завися только от процента и проекта скоплений куба. В общем,MOLAP является более подходящим для кубов при частом использовании и необходимости быстрого ответа на запрос.

2.ROLAP:

ROLAP для хранения данных использует таблицы в реляционной базе данных хранилища для хранения скопления куба. В отличие от храненияMOLAP,ROLAP не хранит копию  базовых данных, получая доступ к исходной таблице фактов, когда это необходимо, чтобы ответить на запросы.

ROLAPответ на запрос, как правило, дает медленнее, чем это было бы доступно с двух других стратегий хранения. Типичное использованиеROLAP для больших наборов данных, которые редко запрашиваются.

3. HOLAP:

HOLAP для хранения сочетает в себе атрибутыMOLAP иROLAP. Данные скопления хранятся в структурахMOLAP, и базовые данные, оставленные в реляционной базе данных склада данных, которые обращаются к резюме данных, HOLAP является эквивалентом режимуMOLAP.

Запросы, которые обращаются к базе данных, такие как, добраться вплоть до единственного факта, должны извлекаться из реляционной базы данных и так быстро, как если базы данных хранились в структуреMOLAP. Кубы хранятся в виде HOLAP меньше, чем эквивалентные кубы обработкиMOLAP и реагировуют быстрее, чем кубыROLAP, для запросов со сводными данными.

ROLAP MOLAP HOLAP

Рис.1. СтруктураOLAP

УсловияOLAP:

1. Меры:

Мерыили факты являются количественным значением базы данных, которое вы хотите проанализировать. Типичные меры – продажи, затраты и бюджетные данные. Анализируются меры против разных категорий измерения Куба.

2. Измерения:

Размеры – это описательные категории, по которым числовые данные (меры) в кубе разделены для анализа. Например, если куб – это мера производственного графа, и его измерения – время, фабричное местоположение и продукт, пользователи куба могут отделить производство в различные категории времени, фабричного местоположения, и продукта.

3. Иерархия:

Измерения обычно организовываются в иерархии информации, которые отображаются к колонкам в реляционной базе данных. Иерархии измерений сгруппированы в уровни, состоящие из элементов измерения. Каждый уровень измерения может быть скручен вместе, чтобы сформировать значения для следующего уровня. Например, в измерении времени, дни переводятся в месяцы, а рулон месяцев в четверти.

4. Куб:

Подмножество данных, как правило, изготовлены из хранилища данных и организованы в виде многомерной структуры, которая определяет собой набором измерений и мер.

5. Таблица Фактов:

Центральная таблица в хранилище данных, содержит числовые меры и ключи, касающиеся фактов и таблиц измерений. Таблицы фактов содержат данные, описывающие конкретные мероприятия в рамках бизнеса, таких как банковские сделки или продажи продукции.

OLAP FASMI тест

Быстро:  Применение средств, под которыми система предназначена, чтобы поставить ответ на ров вопросов конечного пользователя 5 секунд, с самыми простыми исследованиями, занимающими не больше, чем секунду и очень немного взятия вопросов больше чем 20 секунд (по различным причинам, которые будут обсуждены).

Анализ: Выполняет основной числовой и статистический анализ данных. Система способна к выполнению любой бизнес-логики и статистического анализа, который необходим для применения и также сохраняет его достаточно легким для пользователя. Разделенный: Осуществляет требования безопасности, необходимые для разделения потенциально конфиденциальных данных через многочисленное пользовательское население.

Многомерный: Существенная особенность OLAP. Система обеспечивает многомерное логическое представление о соединенных данных, включая полную поддержку иерархий и многократных иерархий, поскольку это является, конечно, самым логичным способ проанализировать организации и компании.

Информация: Доступны все данные и информация, необходимая и важная для применения, везде, где это может быть использовано без ограничения в объеме.

Куб OLAP

Что такое – Куб OLAP? В определении OLAP ключевое требование – многомерность. Куб OLAP обеспечивает многомерный способ просмотра на данные. Куб сопоставим столу в реляционной базе данных. Определенный проект куба OLAP обеспечивает оптимизацию сообщения.

Данные куба OLAP таким способом способствуют сделать легкую и эффективную отчетность. Традиционная реляционная база данных рассматривает все данные аналогично. Однако кубы OLAP имеют категории данных называемые измерением и мерами. Мера представляет некоторый факт (или число), типа стоимости или подразделений обслуживания. Измерение представляет описательные категории данных, типа времени или местоположения.

Куб срока прибывает от геометрического объекта и подразумевает три измерения, но в фактическом использовании, куб может иметь больше чем три измерения.

Следующая иллюстрация графически представляет понятие куба OLAP.(рис.2)

Рис.2. КубOLAP

Фрагмент:

Срез – это подмножество многомерного массива, соответствующее одно значение для одного или нескольких членов Габариты не в подмножестве.

Кости:

Кости операция кусочек на более чем два измерения Куба данных (или более чем двух последовательных срезов).

Переход Вниз/Вверх:

Переход вниз или вверх – это конкретный аналитический метод, посредством которого пользователь осуществляет переходы между уровнями данных, от самого сводного (вверх) для наиболее детального (нижнего).

Модели данных, используемые для построения информационных хранилищ.

СППР

В настоящее время информационное хранилище данных способствует созданию модели данных современных Систем Поддержки Принятия Решений (СППР)

СППР считается интерактивная компьютеризированная система, которая анализирует данные и представляет его так, что знающие работники могут принимать деловые решения с большей легкостью в тех средах, которые быстро меняются и не всегда прогнозируемы. Она может включать в себя экспертные системы искусственного интеллекта и помогает менеджерам и плановикам для извлечения полезной информации из данных, собранных из различных источников, включая документы в различные электронные форматы, личных знаний, бизнес моделей, промышленных данных и т. д., так что они могут идентифицировать и решить.

В настоящее время информационное хранилище данных способствует созданию модели данных современных Систем Поддержки Принятия Решений (СППР)

СППР считается интерактивная компьютеризированная система, которая анализирует данные и представляет его так, что знающие работники могут принимать деловые решения с большей легкостью в тех средах, которые быстро меняются и не всегда прогнозируемы. Она может включать в себя экспертные системы искусственного интеллекта и помогает менеджерам и плановикам для извлечения полезной информации из данных, собранных из различных источников, включая документы в различные электронные форматы, личных знаний, бизнес моделей, промышленных данных и т. д., так что они могут идентифицировать и решить проблемы.

Главной особенностью СППРявляется качественно новый метод организации взаимодействия человека и компьютера. Выработка решения происходит в результате итерационного процесса (рис.2), в котором участвуют:

Вариант вычисленийРешение выработано

Введение новых исходных данных

Рис.2. Информационная технология поддержки принятия решений как итерационный процесс

ПреимуществаСППР

- Повышает производительность и эффективность работы пользователя

- Позволяет для быстрого принятия решений

- Сокращает время, необходимое для решения проблемы

- Сокращает время обучения, потому что опыт экспертов предоставляется в рамках программ, алгоритмов

- Предоставляет больше доказательств в поддержку решения

- Предоставление разных точек зрения на ситуацию

- Помогает автоматизировать различные бизнес – системы

Недостатки

- Слишком много внимания/контроля уделено машинам

- Может уменьшить навык в персонал, потому что они становятся зависимыми от компьютеров

- Снижение эффективности из-за информационной перегрузки

OLTP (OnlineTransactionProcessing).

Основная задача для модели OLTP быстрая обработка запросов, поддержание целостности данных, мультидоступ к среде, её эффективность измеряется количеством транзакций в секунду.

Функциипрограммногообеспечения OLTPвключают:

- управление пользовательским интерфейсом

- восстановление и изменение данных

- прослеживание местоположений данных и пользователя

- обработка коммуникаций

- установление связи с защитным программным обеспечением

ДляOLTPхарактерны:

- короткое время отклика. ДляOLTP системы требуется малое время отклика для того, чтобы оставаться продуктивными для пользователя.

- мелкие сделки. СистемаOLTP обычно манипулирует весьма избирательно, небольшим объемом данных. Обработка данных – это в основном простые действия и сложные соединения являются относительно редкими.

- операции по техническому обслуживанию. Это программы, которые запускаются в фоновом режиме, пока пользователи продолжают работать над другими задачами, которые могут потребовать большого числа ресурсоемких вычислений.

- большое количество пользователей.OLTP система может подключать большое количество пользователей, которые пытаются получить доступ к одни и тем же данным одновременно.

- высокий параллелизм. Благодаря большому количеству пользователей и короткое время отклика, малые операции, параллелизм в средах OLTP очень высок. Требование для тысяч одновременно работающих пользователей – не редкость.

- большие объемы данных. В зависимости от типа приложения и время удерживания данных,OLTP систем могут стать очень большими.

- высокая доступность. На недоступностьOLTP системы могут влиять очень большое число пользователей, и организаций могут получить серьезные убытки, еслиOLTP система будет недоступна. Например, фондовая биржа система имеет чрезвычайно высокие требования к доступности во время торговых часов.

- жизненный цикл данных, связанных с использование. В аналогичных средах хранилищ данныхOLTP системы часто требуют различные схемы доступа к данным с течением времени. Например, в конце месяца, ежемесячные проценты рассчитываются за каждый активный аккаунт.

ПреимуществасекционированиядляOLTPсред:

- поддержка больших баз данных

- резервное копирование и восстановление, как часть стратегии высокой доступности, могут быть выполнены на низком уровне детализации, чтобы эффективно управлять размером базы данных. СистемаOLTP обычно находится “онлайн” во время резервного копирования, и пользователи могут продолжать получать доступ к системе, пока выполняется резервное копирование.

- перегородки помогают снизить требования к пространству дляOLTP системы, поскольку часть объекта хранилища данных может храниться сжатой, в то время как другие части могут оставаться без сжатия. Обновление операций на несжатые строки эффективнее, чем обновления на сжатых данных.

- перегородки могут хранить данные прозрачно на разных уровнях хранения, чтобы снизить затраты, связанные с сохранением огромные объемы данных.

Для эффективного сбора, хранения, анализа и компьютерных систем, необходимо сочетание OLTP и OLAP приложений. (Табл.1)

Таблица 1

Sr.No.

Хранилище данных (OLAP)

Оперативная база данных (OLTP)

1

Она включает в себя историческую обработку информации.

Она включает в себя обработку изо дня в день.

2

Системы OLAP используют знания работников, таких как руководитель, менеджер, аналитик.

OLTP системы используют клерков, администраторов баз данных, специалистов по базам данных или.

3

Используется для анализа бизнеса.

Используется для запуска бизнеса.

4

Она сосредоточена на информации.

Она сосредоточена на данных.

5

Она основана на схеме звезда, снежинка схеме, и фактов созвездия.

Она основана на Entity Model о взаимоотношениях.

6

Она содержит исторические

данные.

Она содержит текущие данные.

7

Она обеспечивает обобщенные и объединенные данные.

Она обеспечивает примитивные и высоко детализированные данные.

Таблица 1

8

Она обеспечивает обобщенный и многомерный вид данных.

Она обеспечивает подробное и плоское реляционное представление данных.

9

Количество пользователей – сотни.

Количество пользователей – тысячи.

10

Количество записей, доступ в миллионы.

Количество записей, доступ в десятки раз.

11

Размер базы данных от 100 ГБ до 100 ТБ.

Размер базы данных от 100 Мб до 100 Гб.

12

Она очень гибкая.

Обеспечивает высокую производительность.

ЗАКЛЮЧЕНИЕ

Информационное хранилище данных предоставляет возможность получения интересующих сотрудника данных, в удобном и привычном для него формате или виде. Создание хранилищ данных начинается с тщательного планирования и определения сроков работ.

СПИСОКЛИТЕРАТУРЫ

  1. Gupta V. R.,An Introduction to Data Warehousing , System Services corporation, Chicago, Illinois, 1997
  2. Инмон Б.,Типы хранилищ данных (Перевод Intersoftlab), 2001
  3. Кривко О.Б., Информационные технологии. М.: СОМИНТЭК. 2001
  4. Малыхина М.П., Базы данных: основы, проектирование, использование, БХВ-Петербург, 2004




Похожие работы, которые могут быть Вам интерестны.

1. Обработка данных исследований скважины по кривой восстановления давления без учета притока жидкости к забою после остановки методом касательной

2. Использование Больших данных в принятии эффективных решений. Описание модели кластерного анализа Franco M. Battagello

3. Администрирования баз данных

4. Хранилища данных

5. Методы анализа данных

6. СРЕДА ПЕРЕДАЧИ ДАННЫХ

7. Формирование пользовательских данных

8. Базы данных занятия

9. Об эффективности поиска данных в веб-приложениях

10. БАЗЫ ДАННЫХ В ЮРИДИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ