Каталог моделей и связанных открытых статистических данных

В качестве наиболее эффективного способа предоставления данных в Интернете Консорциум W3C рекомендует использовать связанные данные, разработанные в соответствии с правилами Semantic Web (SW, глобальной семантической сети) – набором основных правил представления данных в Интернет в виде, позволяющем адекватно интерпретировать их в информационных системах с учетом смыслового значения.

Связанные данные включают в себя машиночитаемые метаданные, что делает их самоописываемыми. Связанные данные поддерживаются такими технологиями, как RDF, SPARQL, JSON-LD, OWL и другие.

Подготовка связанных данных базируется на моделировании – формализации информации, описывающей данные, для точного представления конкретной области знаний. При моделировании данных в процессе совместной работы экспертов предметной области и разработчиков фиксируется контекст и отношения данных. Хорошо определенный контекст обеспечивает лучшее понимание, правильное повторное использование и имеет решающее значение при установлении связей с другими наборами данных.

Формализованный в результате моделирования контекст распространяется как модели данных: (1) метаданные, например, XML- и RDF-схемы; (2) общие модели данных, (3) онтологии, (4) тезаурусы, (5) справочные данные, например, списки кодов, таксономии, словари, глоссарии. Модели данных, подготовленные для многократного использования, т.е. удовлетворяющие требованиям технологической независимости и длительной доступности (персистентности), называются семантическими активами (СА). Каталогизация СА обеспечивает возможность их распространения и повторного использования. СА в каталоге описываются в соответствии с международным стандартом ADMS (профиль ADMS-FW). Содержимое СА доступно для просмотра экспертами в различных вариантах визуализации, включая граф, а также в машиночитаемом формате для информационных систем и сервисов.

Связывание данных с семантическими активами (СА) позволяет не только человеку, но и компьютеру однозначно интерпретировать их смысл. Публикация связанных данных облегчает поиск и интеграцию данных, а технологии SW обеспечивают среду, в которой приложения могут запрашивать данные и управлять ими, формировать интерфейсы и делать выводы с учетом семантических связей. СА, описывающие данные в контексте предметной области, являются основой для поиска, сбора, комплексного анализа и визуализации связанных данных с учетом их семантических свойств, а также для достижения семантической интероперабельности при информационном взаимодействии распределенных информационных систем в целом.

Связанные открытые статистические данные (СОСД) – это связанные данные в области статистики, которые публикуются с использованием открытой лицензии, что способствует их повторному бесплатному использованию. Благодаря использованию СА обеспечивается готовность связанных открытых статистических данных к комплексному анализу наборов данных из различных источников.

В прототипе СПР СОСД обеспечивается ведение и публикация каталогов СА и СОСД, обеспечивается доступ к СА и СОСД в виде скачиваемых файлов или через единую точку доступа (SPARQL Endpoint).