Каталог моделей и связанных открытых статистических данных

В качестве наиболее эффективного способа предоставления данных в Интернете Консорциум W3C рекомендует использовать связанные данные, разработанные в соответствии с правилами Semantic Web (SW, глобальной семантической сети) – набором основных правил представления данных в Интернет в виде, позволяющем адекватно интерпретировать их в информационных системах с учетом смыслового значения.

Связанные данные включают в себя машиночитаемые метаданные, что делает их самоописываемыми. Связанные данные поддерживаются такими технологиями, как RDF, SPARQL, JSON-LD, OWL и другие.

Подготовка связанных данных базируется на моделировании – формализации информации, описывающей данные, для точного представления конкретной области знаний. При моделировании данных в процессе совместной работы экспертов предметной области и разработчиков фиксируется контекст и отношения данных. Хорошо определенный контекст обеспечивает лучшее понимание, правильное повторное использование и имеет решающее значение при установлении связей с другими наборами данных.

Формализованный в результате моделирования контекст распространяется как модели данных: (1) метаданные, например, XML- и RDF-схемы; (2) общие модели данных, (3) онтологии, (4) тезаурусы, (5) справочные данные, например, списки кодов, таксономии, словари, глоссарии. Модели данных, подготовленные для многократного использования, т.е. удовлетворяющие требованиям технологической независимости и длительной доступности (персистентности), называются семантическими активами (СА). Каталогизация СА обеспечивает возможность их распространения и повторного использования. СА в каталоге описываются в соответствии с международным стандартом ADMS (профиль ADMS-FW). Содержимое СА доступно для просмотра экспертами в различных вариантах визуализации, включая граф, а также в машиночитаемом формате для информационных систем и сервисов.

Связывание данных с семантическими активами (СА) позволяет не только человеку, но и компьютеру однозначно интерпретировать их смысл. Публикация связанных данных облегчает поиск и интеграцию данных, а технологии SW обеспечивают среду, в которой приложения могут запрашивать данные и управлять ими, формировать интерфейсы и делать выводы с учетом семантических связей. СА, описывающие данные в контексте предметной области, являются основой для поиска, сбора, комплексного анализа и визуализации связанных данных с учетом их семантических свойств, а также для достижения семантической интероперабельности при информационном взаимодействии распределенных информационных систем в целом.

Связанные открытые статистические данные (СОСД) – это связанные данные в области статистики, которые публикуются с использованием открытой лицензии CC BY 4.0, что способствует их повторному бесплатному использованию. Благодаря использованию СА обеспечивается готовность связанных открытых статистических данных к комплексному анализу наборов данных из различных источников.

В подсистеме СОД обеспечивается ведение и публикация каталогов СА и СОСД, обеспечивается доступ к СА и СОСД в виде скачиваемых файлов или через единую точку доступа (SPARQL Endpoint).

Применяемые стандарты и технологии

  1. FOAF (Friend Of A Friend) – словарь именованных свойств и классов, построенных с использованием технологии RDF от W3C и языка OWL.
  2. Vcard (The Electronic Business Card) - формат данных для передачи контактной информации в стандартизированном виде. Например, на телефон или в почтовый агент. 
  3. OWL (Web Ontology Language) – язык онтологий для Semantic Web (SW), описывающий классы и отношения между ними, присущие документам и приложениям Semantic Web.
  4. Дублинское ядро (Dublin Core™) - набор элементов метаданных «Дублинское ядро», определённый Дублинской основной инициативой по метаданным, включающий свойства, схемы кодирования словаря, схемы кодирования синтаксиса и классы.
  5. RDF Concepts (RDF 1.1 Concepts and Abstract Syntax) - модель представления знаний (данных и метаданных). RDF-схема для терминов словаря RDF в пространстве имен RDF, определенная в RDF 1.1 Concepts.
  6. RDFS (RDF Schema 1.1) - набор классов и свойств для модели представления знаний RDF, составляющий основу для описания онтологий с использованием расширенного RDF-словаря для структуры RDF-ресурсов.
  7. RDF Data Cube Vocabulary - словарь RDF Data Cube позволяет публиковать многомерные данные, такие как статистика с помощью стандарта W3C RDF. Модель, лежащая в основе словаря Data Cube, совместима с моделью куба, лежащей в основе SDMX.
  8. SDMX (Statistical Data and Metadata Exchange) – международный стандарт обмена статистическими данными и метаданными.
  9. SKOS (Simple Knowledge Organization Model) – базовая модель организации знаний для Semantics Web, облегчающая взаимодействие различных информационных систем за счёт стандартизации тезаурусов, систем классификации, таксономий, фолксономий и других видов нормализации лексики. 
  10. SKOS-XL (SKOS eXtension) - словарь RDF, расширяющий SKOS, предоставляя дополнительную поддержку для описания и связывания лексических единиц.
  11. XKOS (SKOS extension for representing statistical classifications) – специализированное расширение SKOS для управления статистическими классификациями.

Обучающие материалы

Для экспертов