Помощь в учёбе, очень быстро...
Работаем вместе до победы

Совместимость форматов — основа эффективного обмена информацией на электронных носителях

РефератПомощь в написанииУзнать стоимостьмоей работы

Информационная совместимость автоматизированных систем — совместимость, характеризуемая согласованностью правил взаимодействия этих систем в области состава, структуры и способов организации данных в них. В частности, это имеет прямое отношение к эксплуатируемым в составе машинной информационной базы АБИС базам данных, и прежде всего — электронным каталогам. Переход к созданию и эксплуатации… Читать ещё >

Совместимость форматов — основа эффективного обмена информацией на электронных носителях (реферат, курсовая, диплом, контрольная)

Основным условием достижения совместимости машинной информационной базы является стандартизация и унификация. Подлинные перспективы для реализации задач межбиблиотечного взаимодействия открылись в эпоху автоматизации и становления автоматизированных библиотечно-информационных систем.

С позиций нормативно-технических документов 34-й системы «Информационная технология. Комплекс стандартов на автоматизированные системы», ориентированных на автоматизированные системы в целом, совместимость АС определена как «комплексное свойство двух или более АС, характеризуемое их способностью взаимодействовать при функционировании». Эти способности автоматизированных систем принято рассматривать в разрезе комплекса обеспечивающих подсистем АС, в частности, информационного обеспечения.

Информационная совместимость автоматизированных систем — совместимость, характеризуемая согласованностью правил взаимодействия этих систем в области состава, структуры и способов организации данных в них. В частности, это имеет прямое отношение к эксплуатируемым в составе машинной информационной базы АБИС базам данных, и прежде всего — электронным каталогам. Переход к созданию и эксплуатации электронных каталогов обеспечивал возможность решения чрезвычайно важной для пользователей библиотек задачи многоаспектного поиска документов — поиска по множеству точек доступа, которыми могли быть любые элементы их поискового образа (автор (ы), заглавие (я), место издания, дата издания, издательство, ISBN и т. д.). Вместе с тем создание электронных каталогов открывало реальные перспективы корпоративной каталогизации, получившей развитие в библиотечной среде в последнюю четверть XX века.

Формат — регламентированная форма структуры и содержания записи.

Информационная совместимость АБИС — совместимость, характеризуемая возможностью использования во взаимодействующих АБИС одних и тех же данных и (или) обмена данными между ними.

Коммуникативный формат (обменный формат) машиночитаемой записи — формат, предназначенный для обеспечения возможности обмена данными между автоматизированными информационными системами Средством согласования состава, структуры и характера записей в информационных массивах, служащих объектами передачи в процессах информационного взаимодействия систем, стали коммуникативные форматы.

Формат MARC — коммуникативный формат данных, служащий для создания библиографических записей в машиночитаемой форме и обмена ими Сегодня, приобретая на информационном рынке или разрабатывая систему автоматизации библиотеки, необходимо в качестве важнейшего фактора ее качества установить/ обеспечить возможность поддержки MARC-форматов, позволяющих библиотекам быть уверенными, что их базы данных, в первую очередь, электронные каталоги будут совместимы.

Историческая справка

Потребность в решении задач создания совместимых электронных каталогов АБИС и их интеграции в масштабах региональных, национальных и международных систем объективно обусловила во второй половине XX столетия разработку коммуникативных или обменных форматов библиографической записи. Впервые решение задач машиночитаемой каталогизации было осуществлено в 1965;1966 годах Библиотекой Конгресса США. Новая технология машиночитаемой каталогизации и ее результат — машиночитаемый каталог — получили известность под названием MachineReadable Catalogueor Cataloguing (MARC). Средством создания машиночитаемой каталогизационной записи стал формат MARC, позволивший структурировать библиографические данные в виде, пригодном для машинной обработки, с целью организации автоматизированного поиска и получения необходимых выходных форм документов.

Для преодоления проблем совместимости на уровне машиночитаемой каталогизации Международной федерацией библиотечных ассоциаций и учреждений (ИФЛА) было принято решение о разработке формата — посредника, предназначенного для обеспечения возможности международного обмена данными в машиночитаемой форме между различными автоматизированными системами, то есть коммуникативного формата (КФ). Отвечающий этим требованиям международный библиотечный коммуникативный формат получил название UNIMARC (универсальный MARC). Универсальность формата UNIMARC состоит в том, что он базируется не на национальных правилах описания какой-либо отдельной страны, а на Международном стандартном библиографическом описании (ISBD), которое является основой для создания национальных правил многих стран. В силу этого он является гостеприимным для многих национальных автоматизированных систем и правил описания.

В 90-е годы XX века отмечался стремительный рост MARC-форматов, ориентированных на UNIMARC. Но практически в то же время наметилась тенденция к интеграции форматов, позволяющая избежать процесса конвертирования, требующего немалых интеллектуальных и финансовых вложений. Первый шаг в направлении интеграции MARC-форматов сделали США и Канада. Результатом слияния форматов USMARC и CANMARC стал единый формат MARC 21 (то есть MARC-формат XXI века). MARC 21 включает в себя форматы: библиографических данных, авторитетных данных, данных о фондах, классификационных данных, общественной информации. В настоящее время он является самым распространенным коммуникативным форматом в мире. Развитие процессов интеграции и дифференциации в сфере MARC-форматов в хронологическом аспекте может быть проиллюстрировано данными, приведенными ниже (таблица 18).

Таблица 18

Этапы развития MARC-форматов

Период

Характеристика основных результатов

60-е годы XX века.

Разработка Библиотекой Конгресса США формата машиночитаемой каталогизационной записи MARC.

70-е годы XX века.

Появление более 20 различных версий MARC-форматов, ориентированных на национальные правила каталогизации, в том числе UKMARC, INTERMARC, USMARC, AUSMARC, CANMARC, DanMARC, LCMARC, NorMARC, SwaMARC и др.

Окончание таблицы 18

Период

Характеристика основных результатов

1977 год.

Разработка при содействии ИФЛА универсального формата MARC (Universal MARC Format, UNIMARC) и выпуск издания «Универсальный формат MARC», нацеленных на содействие международному обмену данными в машиночитаемой форме между национальными библиографическими службами через преодоление несовместимости MARC-форматов.

90-е годы XX века.

Признание Европейским союзом формата UNIMARC в качестве официального обменного формата стран — членов ЕС.

1999 год.

Создание формата MARC 21 на основе слияния форматов США USMARC и Канады CANMARC.

2000;е годы.

Широкое распространение национальных MARC-форматов, основанных на MARC 21 в США, Канаде, европейских странах, странах Азии и Латинской Америки, Австралии, Новой Зеландии.

Структуру записи в форматах MARC 21 и UNIMARC регламентирует Международный стандарт IS02709−96 «Формат для обмена информацией». Обобщенная структура записи с дополнительными требованиями, отражающими потребности экономики нашей страны, и предназначенная специально для коммуникаций между системами обработки данных представлена в ГОСТ 7.14−98 (ИСО 2709−96) «СИБИД. Формат для обмена информацией. Структура записи». В соответствии с ним каждая библиографическая запись, подготовленная для обмена, должна содержать обязательный набор метаданных: маркер записи, справочник, поля, разделитель записи.

Для характеристики структуры библиографической записи ГОСТ 7.14−98 (ИСО 2709−96) установлены следующие термины с соответствующими определениями:

Запись — совокупность полей, включая маркер записи, справочник и поля данных. Если для библиографических целей необходимо, то допускается установление связи между отдельными записями и разбиение записи на подзаписи, которые осуществляются по правилам, устанавливаемым в нормативных документах по применению данной структуры записей в конкретном обменном формате.

Маркер записи — поле, находящееся в начале каждой записи и содержащее параметры для ее обработки. Маркер имеет фиксированную длину — 24 символа и содержит информацию о длине записи, статусе записи (новая, исключенная и т. д.), типе записи (печатные, рукописные, картографические материалы; звукозаписи, компьютерные файлы и т. д.), библиографическом уровне записи (аналитический, монографический и т. д.) и др.

Справочник — указатель местонахождения полей данных в записи. Справочник следует за маркером и состоит из ряда статей фиксированной длины, которые задают метку, длину и позицию каждого переменного поля. Каждая статья Справочника содержит 12 позиций символов (первые три позиции — метки поля; четыре последующих позиции указывают длину поля (включая индикаторы, коды подполей, данные и знак конца поля); последние пять символов указывают на местонахождение начального символа каждого поля переменной длины в записи.

Поле — часть записи, имеющая переменную длину, предназначенная для данных определенной категории, следующая после справочника и связанная с одной из его статей. Поле данных может содержать одно или несколько подполей.

Подполе — часть поля, содержащая определенную единицу информации. Каждое подполе начинается с идентификатора подполя, который состоит из разделителя подполя и кода подполя (один буквенный или цифровой символ). За идентификаторами подполя следуют кодированные или текстовые данные.

Поля переменной длины — совокупность полей, содержащих библиографические данные и следующих за Справочником.

Индикатор — первый элемент данных, если он имеется, связанный с некоторым полем данных и несущий дополнительную информацию о содержании поля, о взаимосвязи между этим полем и другими полями в записи или об операциях, требуемых при определенной обработке данных.

Идентификатор (подполя) — элемент данных, состоящий из одного или несколько символов, непосредственно предшествующий подполю и идентифицирующий его.

Метка поля — три символа, связанные с полем и применяемые при идентификации этого поля. Метка, индикатор и идентификатор являются определителями содержания.

Разделитель поля — управляющий символ, предназначенный для разделения условной группы данных в логическом, а иногда в иерархическом смысле.

Разделитель записи — символы, характеризующие запись и присваиваемые организацией, создающей запись.

В составе библиографической записи представлены поля фиксированной и переменной длины. Состав и порядок следования полей библиографической записи приведены в таблице 19.

Состав полей в библиографической записи

Наименование поля

Характеристика поля

Маркер

Фиксированная длина.

Справочник.

Переменная длина.

Идентификатор записи.

Переменная длина.

Справочные поля.

Переменная длина.

Поля.

Переменная длина.

Разделитель (и) поля.

Символ IS2 по ГОСТ 7.19.

Разделитель записи.

Символ IS3 по ГОСТ 7.19.

Историческая справка

Создание и использование коммуникативных форматов в нашей стране имеет свою историю, начавшуюся в 70-х годах XX века с разработки государственного коммуникативного формата (ГКФ). В этот период в качестве машинного носителя информации использовались магнитные ленты. Структуру и содержание библиографической записи на магнитной ленте (семантика КФ) определяли ГОСТ 7.14−78 и ГОСТ 7.19−79. Все документы делились на виды с использованием двухуровневой иерархической классификации. Каждому виду соответствовал свой набор обязательных элементов данных. Каждый элемент данных идентифицировался соответствующими значениями метки, индикатора и идентификатора. Позже взамен ГОСТ 7.14−78 в СССР был введен ГОСТ 7.14−84 «СИБИД. Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Структура записи» (СТ СЭВ 4269−83), а взамен ГОСТ 7.19−79 — ГОСТ 7.19−85 «СИБИД. Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Содержание записи». Этими нормативнотехническими документами в качестве альтернативы MARC был введен коммуникативный формат МЕКОФ (международный коммуникативный формат), нацеленный на обеспечение информационной совместимости автоматизированных информационных систем не только на государственном, но и международном уровне — в масштабах международной системы научной и технической информации стран — членов СЭВ. Вместе с тем в этот период были введены ГОСТ 7.52−85 «СИБИД. Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Поисковый образ документа», устанавливающий способ записи поискового образа документа (ПОД) в коммуникативном формате для обмена информацией на магнитной ленте и определяющий перечень элементов данных, их идентификацию и способ записи, и ГОСТ 7.47−84 «СИБИД. Коммуникативный формат для словарей информационных языков и терминологических данных. Содержание записи».

На качественно новом уровне решение проблем совместимости информационного обеспечения автоматизированных библиотечно-информационных систем получило в 90-е годы XX на базе UNIMARC. В 1995—.

1997 годах в рамках программы ЛИБНЕТ по заказу Министерства культуры РФ под эгидой Российской библиотечной ассоциации на базе Международного коммуникативного формата UNIMARC была осуществлена разработка Российского коммуникативного формата RUSMARC, отвечающего, с одной стороны, принятым на международном уровне подходам к решению проблем совместимости автоматизированных систем, а, с другой — с учетом действующих в России ГОСТов и правил каталогизации.

С 1998 года для библиотек Министерства культуры Российской Федерации при разработке и внедрении автоматизированных библиотечноинформационных систем ориентация на формат RUSMARC является обязательной. На базе национальной системы форматов RUSMARC Национальным информационно-библиотечным центром ЛИБНЕТ была создана национальная система корпоративной каталогизации, призванная обеспечивать снижение затрат на машиночитаемую каталогизацию за счет заимствования библиографических записей. Для ведения и совершенствования формата создана Национальная служба развития системы форматов RUSMARC. В настоящее время в систему российских форматов RUSMARC входят:

  • • Российский коммуникативный формат представления библиографических записей в машиночитаемой форме;
  • • Российский коммуникативный формат представления авторитетных/нормативных записей в машиночитаемой форме;
  • • Российский формат машиночитаемой каталогизации (формат перевода в машиночитаемую форму данных об объекте каталогизации);
  • • Российский формат представления классификационных данных в машиночитаемой форме.

Задачи формата RUSMARC направлены на:

S улучшение доступности библиографической информации;

S создание сводных каталогов;

S сокращение затрат при каталогизации документов.

В формате RUSMARC расширен перечень обязательных полей. Для элементов данных национального значения, не нашедших отражения в формате UNIMARC, введены дополнительные поля и подполя в соответствующих блоках национального статуса. Для организации связи записей в формате RUSMARC использован метод встроенных полей, позволяющий наиболее полно представить информацию о связываемой записи.

Поля данных формата RUSMARC (UNIMARC) сгруппированы в десять блоков (http://www.msmarc.ru/rusmarc/format.html). Представление о составе и назначении блоков полей данных дает таблица 20.

Состав блоков полей данных в составе RUSMARC

Таблица 20

Код и наименование блока полей данных

Назначение блока полей данных

0 — Блок идентификации.

Содержит международные стандартные номера. Поле 001 — индикатор записи — является обязательным.

1 — Блок кодированной информации.

Содержит коды документа (например, вид, характер, язык и т. п.). Поле 100 — данные общей обработки — является обязательным.

2 — Блок описательной информации.

Содержит важнейшие поля, описывающие документ, в том числе 200 — заглавие и сведения об ответственности и др.

3 — Блок примечаний.

Содержит данные о примечаниях, приводимых в свободной форме.

4 — Блок связи записей.

Содержит данные, позволяющие связать два документа горизонтальными или вертикальными отношениями. Например, горизонтальная связь устанавливается между разными изданиями одного документа, оригиналом и переводным изданием, текстовой и электронной версиями и т. д. Вертикальная связь характерна для отношений «общее — часть» и связывает журнал и его номер, серию и подсерию, многотомное издание и его том, сборник и статью из него и т. д.

5 — Блок взаимосвязанных заглавий.

Содержит данные, позволяющие установить отношения между различными формами заглавия. Наиболее часто используемые поля: 510 — параллельное заглавие, 517 — разночтение заглавий; 541 — перевод заглавия.

6 — Блок анализа содержания и библиографической истории.

Содержит данные, направленные на раскрытие содержания документа — персоналии (600), предметные рубрики (606), ключевые слова (610), классификационные индексы (621 — ББК) и т. д.

7 — Блок ответственности.

Содержит имена лиц и названия организаций, принимавших участие в создании документа и несущих ответственность за него. Данные, введённые в это поле, являются точкой доступа. Различают первичную и альтернативную ответственность для авторов (первичная — у первого автора, альтернативная — у второго и третьего) и вторичную — для редакторов, оформителей, художников и т. д.

Окончание таблицы 20

Код и наименование блока полей данных

Назначение блока полей данных

8 — Блок международного использования.

Содержит поля, прошедшие согласование и предназначенные для международного обмена записями. Среди полей обязательными являются: 801 — источник составления записи и 856 — местонахождение электронного ресурса и доступ к нему. Последнее поле позволяет при нахождении библиографической записи нужного источника оценить возможность получения его полнотекстовой копии.

9 — Блок локального использования.

Содержит поля, не нашедшие отражения в формате UNIMARC.

Разработка MARC-формата, предназначенного для создания и обмена библиографическими записями, вызвала необходимость подготовки аналогичного формата для создания и обмена записями, содержащими авторитетные данные. Основная цель формата — обеспечение международного обмена авторитетными/нормативными данными в машиночитаемой форме между национальными библиографическими службами.

Формат для авторитетных данных —

коммуникативный формат, содержащий важнейшую информацию о точках доступа в библиографических записях (имена лиц, унифицированные заглавия, названия организаций, географические и предметные термины).

Историческая справка

Первый формат для авторитетных данных, обеспечивающий автоматизированный способ создания авторитетных записей в машиночитаемом виде, разработан Библиотекой Конгресса (США) в середине 1970;х годов. Формат включал спецификации и определители содержания для имен, унифицированных заглавий и предметных рубрик. В настоящее время авторитетные записи формируют унифицированные формы имен, наименований организаций, унифицированных заглавий и предметных рубрик для полей заголовков основных и добавочных записей формата для библиографических записей. В начале XXI века в контексте создания новой инфраструктуры, позволяющей легко и свободно обмениваться записями (появление Интернета, World WideWeb, создание протоколов FTP и Z39.50), Постоянным комитетом ИФЛА по формату UNIMARC инициирован пересмотр формата UN1MARC/Authorities и осуществлена подготовка второго, пересмотренного и дополненного, издания формата UN1MARC/Authorities. Российский коммуникативный формат представления авторитетных/нормативных записей, дополняющий формат RUSMARC для библиографических записей, разработан в 1997 году.

Формат для авторитетных данных (UNIMARC/Authorities) и формат для библиографических записей (UNIMARC) взаимосвязаны в разрезе структуры и содержания записи. По аналогии с форматом для библиографических записей поля в формате для авторитетных данных сгруппированы в функциональные блоки. Для того, чтобы обеспечить возможность выстроить всю цепочку изменений (например, наименования какой-либо организации) или связать псевдоним и подлинное имя автора, в формате разработан механизм, позволяющий связывать все виды записей с использованием ссылок «см.», «см. также».

Авторитетные/нормативные данные — данные, представленные в предпочтительной унифицированной форме.

MARC-форматы являются в настоящее время основной, а во многих случаях и единственной схемой метаданных, используемой в библиотеках. Наряду с ними в современной информационной среде, базирующейся на использовании глобальной сети Интернет и характеризующейся резким увеличением доли электронных информационных ресурсов, а также их диверсификацией, получили развитие и другие схемы метаданных.

На основе MARC 21 в 2002 году Библиотекой Конгресса США разработан Формат MODS (Metadata Object Description Standard). Он представляет собой сокращенную, более «дружественную» для пользователя версию MARC за счет того, что подмножество ключевых элементов данных MARC переведено в легко понимаемый XML-формат.

Метаописание электронных информационных ресурсов регламентируется ГОСТ 7.70−2003 «СИБИД. Описание баз данных и машиночитаемых информационных массивов. Состав и обозначение характеристик». Настоящий стандарт устанавливает состав, содержание и представление реквизитов описания электронных информационных ресурсов, являющихся базами данных и машиночитаемыми информационными массивами, предоставляемыми владельцами для регистрации и использования третьим лицам. Стандарт имеет статус межгосударственного, рекомендован для служб регистрации информационных ресурсов и может быть использован составителями каталогов информационных ресурсов, а также любыми организациями и лицами, предоставляющими электронные информационные ресурсы. Формализованное описание (метаописание) электронного информационного ресурса в соответствии с этим ГОСТ должно строиться, исходя из приведенного списка реквизитов, которые по уровню обязательности подразделяются на реквизиты, имеющие статус: «обязательный», «условно обязательный», «факультативный».

В сфере описания сетевых электронных ресурсов используется формат Dublin Core — «Дублинское ядро метаданных» (англ. Dublin Core metadata element set, Dublin Core, DC), созданный в 1995 году для общесистемного описания информационных ресурсов с целью облегчения их поиска. В России набор элементов метаданных «Дублинское ядро» регламентируется ГОСТ Р 7.0.10−2010 «СИБИД. Набор элементов метаданных „Дублинское ядро“». Он включает метаданные двух уровней: простое «Дублинское ядро» (Simple Dublin Core) и «Дублинское ядро» с квалификаторами (Qualified Dublin Core). В простое «Дублинское ядро» входит 15 основных элементов данных, составляющих три группы: содержание информационных ресурсов (Content), интеллектуальная собственность (Intellectual property), характеристики данного экземпляра информационных ресурсов (Instantiation). Состав элементов формата простое «Дублинское ядро» определен ISO 15 836: 2003 «Information and documentation — The Dublin Core metadata element set». При необходимости они могут дополняться квалификаторами, уточняющими семантику элементов данных, а также источники и способы представления их значений. Благодаря своей компактности и простоте схема нашла широкое распространение. Схема DC более приспособлена к использованию поисковыми инструментами Интернета, однако записи DC не обеспечивают такую полноту и детальность, как MARC-записи. В этой связи обсуждаются вопросы определения четырех уровней каталогизации электронных информационных ресурсов: полные MARC-записи, дополненные записи DC, простые записи DC и использование только поиска по ключевым словам, предлагаемым поисковыми машинами. При этом уровень детальности описания должен определяться каталогизатором для каждого отдельного ресурса или категории ресурсов.

Для того чтобы собрать вместе все файлы, составляющие цифровой объект (например, файлы, представляющие отдельные страницы документа), цифровыми библиотеками и архивами используется формат METS (Metadata Encoding and Transmission Standard), выполняющий роль их «обертки». С этой точки зрения METS можно сравнить с навигационным инструментом для группы файлов цифрового объекта. Кроме того, он включает техническую информацию, необходимую для понимания файлов и управления ими.

С учетом особенностей современной информационной инфраструктуры эффективное развитие библиотечно-информационных учреждений в условиях современной информационно-коммуникативной среды, основанной на использовании веб-пространства, в котором представлены электронные информационные ресурсы, генерируемые организациями различных типов вне библиотечного сообщества, требует органичного взаимодействия с ними на основе согласования и унификации обмена различными типами данных. Наиболее тесные связи характеризуют производственные отношения библиотечно-информационных учреждений и организаций издательско-книготорговой отрасли. В 2000 году совместными усилиями Ассоциации американских издательств (Association of American Publishers) и организации EDItEUR (международной организации, координирующей разработку стандартов, касающихся электронной коммерции в отрасли книг и сериальных изданий) разработан формат ONIX (Online Information Exchange). Если в 2000 году формат ONIX был ориентирован на книги (ONIX forbooks), то в настоящее время он распространён на другие виды издательской продукции (в том числе электронную и мультимедийную). Тем самым целесообразно говорить о семействе форматов ONIX.

Конвертирование (по ГОСТ Р 7.0.95−2015) — преобразование данных из одного формата в другой, обычно с сохранением основного логически-структурного содержания информации Приведенные выше сведения свидетельствуют о разработке и использовании в современной информационной практике различных схем метаданных, обладающих разным статусом, ориентированных на различные виды информационных ресурсов и разную сферу использования. Несмотря на существенные различия их необходимая интеграция может рассматриваться с позиций построения конверторов, таблиц соответствия между элементами данных разных форматов.

Требования коммуникативных форматов высшего уровня иерархии накладывают определенные ограничения на все форматы более низких уровней иерархии, на которые они распространяются (например, требования международных коммуникативных форматов распространяются на государственные (национальные) коммуникативные форматы тех стран, которые поддерживают концепцию соответствующего коммуникативного формата). Эти требования касаются в первую очередь состава, структуры и правил заполнения полей данных, объявленных соответствующим коммуникативным форматом как обязательные. Для реализации процессов обмена информацией на базе UNIMARC предусмотрена возможность конвертирования его с помощью специальных программных средств — конверторов UNIMARC — в соответствующий национальный формат и наоборот — из национального формат в UNIMARC.

Показать весь текст
Заполнить форму текущей работой