Процессы обработки информации имеют общую природу и опираются
на описание фрагментов реальности, выраженное в виде совокупности
взаимосвязанных данных. Базы данных являются
эффективным средством представления структур данных и манипулирования
ими. Концепция баз данных предполагает использование интегрированных средств хранения информации, позволяющих обеспечить
централизованное управление данными и обслуживание ими многих пользователей.
Базы данных составляют в настоящее время основу компьютерного обеспечения
информационных процессов, входящих
практически во все сферы человеческой деятельности.
При этом БД
должна поддерживаться в среде ЭВМ единым программным обеспечением, называемым системой управления базами данных (СУБД).
СУБД вместе с прикладными программами называют банком данных. Одно из основных назначений СУБД – поддержка
программными средствами представления, соответствующего реальности.
База данных (БД) –
именованная совокупность данных,
отражающая состояние объектов и
их отношений в рассматриваемой
предметной области;
F
система
управления базами данных (СУБД) – совокупность языковых и программных средств,
предназначенных для создания, ведения и совместного применения БД многими пользователями;
F
банк данных (БнД) – основанная на технологии БД система программных,
языковых, организационных и технических средств, предназначенных для
централизованного накопления и коллективного использования данных;
F
информационная
система (ИС) – система, реализующая автоматизированный сбор,
обработку и манипулирование данными и включающая технические средства обработки
данных, программное обеспечение и соответствующий персонал.
По технологии обработки БД бывают:
F
централизованные;
F
распределенные.
По способу доступа БД различают:
F
БД с
локальным доступом;
F
БД с
удаленным доступом.
Любая база данных должна:
F удовлетворять актуальным
информационным потребностям организации;
F обеспечивать получение
нужных данных за приемлемое время;
F удовлетворять выявленным
и вновь возникающим потребностям и запросам конечных пользователей;
F легко расширяться при
изменении предметной области;
F быть переносимой при
изменении программной или аппаратной среды;
F обеспечивать доступ к
данным, хранящимся в БД, только лицам, обладающим соответствующими
полномочиями.
Функционально – полная БД должна включать в свой состав
средства, обеспечивающие потребности пользователей различных категорий на всех
этапах жизненного цикла систем БД: проектирования,
создания, эксплуатации.
Процесс, в ходе которого решается, какой вид будет у
создаваемой БД, называется проектированием базы данных. Процесс
проектирования, заключается в определении данных, хранимых на физических
носителях, которые достаточно полно отражают информационные потребности
потенциальных пользователей в конкретной предметной области.
Проектирование БД начинается с анализа предметной области и
возможных запросов пользователей. В результате этого анализа определяется
перечень данных и связей между ними, которые адекватно отражают предметную
область.
Предметной областью называется
фрагмент реальности, который описывается или моделируется с помощью БД и ее
приложений. В предметной области выделяются информационные объекты – идентифицируемые
объекты реального мира, процессы, системы, понятия и т.д., сведения о которых
хранятся в БД. Объекты могут быть реальными и абстрактными. Принято различать полную предметную область (предприятие, склад, фирма) и организационную единицу (отдел сбыта).
На этапе проектирования необходимо
предусмотреть все возможные действия, которые могут возникнуть на различных
этапах жизненного цикла БД. Весь процесс проектирования БД можно разбить на ряд взаимосвязанных этапов, каждый из
которых обладает своими особенностями и методами проведения. На рисунке 2.39
представлены типовые этапы.
На этапе инфологического
(информационно-логического) проектирования осуществляется построение
семантической модели, описывающей сведения из предметной области, которые могут
заинтересовать пользователей БД. Семантическая модель (semantic model) —
представление совокупности о предметной области понятий в виде графа, в
вершинах которого расположены понятия, в терминальных вершинах — элементарные
понятия, а дуги представляют отношения между понятиями.
Анализ информационных потребностей
потенциальных пользователей имеет два аспекта:
F
определение
собственно сведений об объектах предметной области;
F
анализ
возможных запросов к БД и требований по оперативности их выполнения.
Анализ возможных запросов к БД позволяет уточнить связи между
сведениями, которые необходимо хранить. Хранение большого числа связей
усложняет БД и приводит к увеличению памяти ЭВМ, но часто существенно ускоряет
поиск нужной информации. Поэтому разработчику БД (администратору БД) приходится
принимать компромиссное решение, причем процесс определения перечня хранимых
связей, как правило, имеет итерационный характер.
Рис.2.39. Этапы
проектирования баз данных
Этап датологического
проектирования подразделяется на логическое
(построение концептуальной модели данных)
и физическое (построение физической модели) проектирование.
Главной задачей логического проектирования является
представление выделенных на предыдущем этапе сведений в виде данных в форматах,
поддерживаемых выбранной СУБД.
Задача физического проектирования — выбор способа хранения данных на
физических носителях и методов доступа к ним с использованием возможностей, предоставляемых
СУБД.
При логическом проектировании не принимаются
во внимание функциональные специфические возможности целевой базы данных и
прикладных программ, однако учитываются особенности выбранной модели хранения
данных. Результатом логического проектирования
являются глобальная логическая модель данных и комплект описывающей ее
сопроводительной документации. В совокупности эти результаты являются исходной
информацией для фазы физического проектирования базы данных и предоставляют ее
разработчику все необходимое для принятия решений, направленных на достижение
максимальной эффективности создаваемого проекта.
Образно
говоря, при логическом проектировании разработчик сосредоточивается на том, что надо сделать, тогда, как при
физическом проектировании он ищет способ, как
это сделать. В каждом случае требуется наличие различных навыков.
Методология
физического проектирования баз данных
включает четыре основных этапа:
1.
Разработка таблиц базы данных и установка необходимых
ограничений целостности данных.
2.
Выбор схемы хранения данных и определение методов
доступа к таблицам базы данных.
3.
Проектирование системы защиты базы данных от
несанкционированного доступа.
4.
Организация процессов выявления и устранения проблем
созданной системы.
Относительная простота и наглядность описания
предметной области позволяет использовать ее в процессе диалога с потенциальными
пользователями с самого начала инфологического проектирования. Построение
инфологической модели П.Чена, как и любой другой
модели, является творческим процессом, поэтому единой методики ее создания нет.
Однако при любом подходе к построению модели используют три основных
конструктивных элемента: сущность, атрибут, связь.
Инфологическая модель “сущность—связь” (entity-relationship model; ER-modet) П.Чена представляет собой
описательную (неформальную) модель предметной области, семантически определяющую
в ней сущности и связи
Сущность — это собирательное понятие некоторого повторяющегося объекта,
процесса или явления окружающего мира, о котором необходимо хранить информацию
в системе. Сущность может определять как материальные,
так и нематериальные объекты. Главной
особенностью сущности является то, что вокруг нее сосредоточен сбор информации
в конкретной предметной области. Тип сущности определяет набор однородных
объектов, а экземпляр сущности — конкретный объект в наборе. Каждая сущность в
модели П.Чена именуется.
Атрибут — это поименованная
характеристика сущности, которая принимает значения из некоторого множества
значений. Например,
Сущность |
Атрибуты |
Студент |
Фамилия, имя, отчество, дата рождения, домашний адрес,
специальность, номер группы, курс, стипендия. |
Связи в инфологической модели выступают
в качестве средства, помощью которого представляются отношения между объектами,
имеющими место в предметной области. При анализе связей между сущностями могут
встречаться бинарные (между двумя объектами) и в общем случае n-арные связи. Наиболее распространены бинарные связи.
Учитывая, что любую n-арную связь можно
представить в виде нескольких бинарных, подробнее остановимся именно на таких
связях между двумя типами объектов, устанавливающими соответствие между
множествами экземпляров объектов. Различают три типа связей:
F один к одному (1:1);
F один ко многим (М: 1);
F многие
ко многим (М: N).
Связь один к одному(1:1) определяет такой тип
связи между типами сущности A и В (рис.2.40а), при
котором каждому экземпляру сущности А соответствует один и только один
экземпляр сущности В, и наоборот. Таким образом, имея некоторый
экземпляр сущности А, можно однозначно
идентифицировать соответствующий ему экземпляр сущности В, а по
экземпляру сущности В — экземпляр сущности А.
Рис. 2.40. Связи между объектами: а) один
к одному,
б) один ко многим, в) многие ко многим
Связь один ко многим (1:М) определяет такой тип связи
между типами сущностей А и В (рис.2.40б), для которой одному экземпляру сущности А
может соответствовать 0, 1 или несколько экземпляров сущности В, но каждому
экземпляру сущности В соответствует
один экземпляр сущности А. При этом однозначно идентифицировать можно
только экземпляр сущности А по экземпляру сущности В.
Связь многие ко многим (М:М) определяет такой
тип связи между типами А и В (рис.2.40в), при котором
каждому экземпляру сущности А может соответствовать 0, 1 или несколько
экземпляров сущности В, и наоборот. При такой связи, зная экземпляр
одной сущности, можно указать все экземпляры другой сущности, относящиеся к исходному, т. е. идентификация сущностей неуникальна в обоих
направлениях.
Реально все связи
являются двунаправленными, т.е., зная экземпляр одной из сущностей,
можно идентифицировать (однозначно или многозначно) экземпляр (экземпляры)
другой сущности. В некоторых случаях целесообразно рассматривать лишь однонаправленные
связи между сущностями в целях экономии ресурсов ЭВМ. Возможность введения
таких связей полностью определяется информационными потребностями
пользователей. Различают простую и многозначную однонаправленные связи,
которые являются аналогами связей типа 1:1 и 1:М с учетом направления идентификации.
Введение однонаправленных связей означает, что в результате анализа
потенциальных запросов потребителей установлено, что потребности в информации,
аналогичной приведенной в двух последних примерах, у пользователей не будет (и
они не будут формулировать соответствующие запросы к БД).
При описании атрибутов
сущности необходимо выбрать ряд атрибутов, позволяющих однозначно
идентифицировать экземпляр сущности. Совокупность идентифицирующих атрибутов
называют ключом.
Ключи
бывают разные - потенциальные, первичные,
альтернативные, внешние, индексные, хеш-ключи, ключи
сортировки, вторичные ключи, ключи шифрование и расшифровки и т.д.
Потенциальным ключом называют такую комбинацию столбцов,
которая обладает следующими свойствами:
F Уникальностью.
В таблице нет двух разных строк с одинаковыми значениями в нашем потенциальном
ключе.
F Неизбыточностью. Нельзя убрать один из столбцом из ключа, так, чтобы он не потерял уникальности.
Первичный ключ - это один из потенциальных ключей,
который выбран для уникальной идентификации кортежей внутри отношения.
Первичный ключ может быть только один на всю таблицу. После выбора первичного
ключа из набора потенциальных ключей, оставшиеся ключи называются альтернативными.