Каталог моделей и связанных открытых статистических данных
В качестве наиболее эффективного способа предоставления данных в Интернете Консорциум W3C рекомендует использовать
связанные данные, разработанные в соответствии с
правилами Semantic Web (SW, глобальной семантической сети) – набором основных правил представления данных в Интернет в виде, позволяющем адекватно интерпретировать их в информационных системах с учетом смыслового значения.
Связанные данные включают в себя машиночитаемые метаданные, что делает их самоописываемыми. Связанные данные поддерживаются такими технологиями, как
RDF,
SPARQL,
JSON-LD,
OWL и другие.
Подготовка связанных данных базируется на моделировании – формализации информации, описывающей данные, для точного представления конкретной области знаний. При моделировании данных в процессе совместной работы экспертов предметной области и разработчиков фиксируется контекст и отношения данных. Хорошо определенный контекст обеспечивает лучшее понимание, правильное повторное использование и имеет решающее значение при установлении связей с другими наборами данных.
Формализованный в результате моделирования контекст распространяется как
модели данных: (1) метаданные, например,
XML- и
RDF-схемы; (2) общие модели данных, (3) онтологии, (4) тезаурусы, (5) справочные данные, например, списки кодов, таксономии, словари, глоссарии. Модели данных, подготовленные для многократного использования, т.е. удовлетворяющие требованиям технологической независимости и длительной доступности (персистентности), называются
семантическими активами (СА). Каталогизация СА обеспечивает возможность их распространения и повторного использования. СА в каталоге описываются в соответствии с международным стандартом
ADMS (профиль
ADMS-FW). Содержимое СА доступно для просмотра экспертами в различных вариантах визуализации, включая граф, а также в машиночитаемом формате для информационных систем и сервисов.
Связывание данных с семантическими активами (СА) позволяет не только человеку, но и компьютеру однозначно интерпретировать их смысл. Публикация связанных данных облегчает поиск и интеграцию данных, а технологии SW обеспечивают среду, в которой приложения могут запрашивать данные и управлять ими, формировать интерфейсы и делать выводы с учетом семантических связей. СА, описывающие данные в контексте предметной области, являются основой для поиска, сбора, комплексного анализа и визуализации связанных данных с учетом их семантических свойств, а также для достижения семантической интероперабельности при информационном взаимодействии распределенных информационных систем в целом.
Связанные открытые статистические данные (СОСД) – это связанные данные в области статистики, которые публикуются с использованием
открытой лицензии, что способствует их повторному бесплатному использованию. Благодаря использованию СА обеспечивается готовность связанных открытых статистических данных к комплексному анализу наборов данных из различных источников.
В прототипе СПР СОСД обеспечивается ведение и публикация каталогов СА и СОСД, обеспечивается доступ к СА и СОСД в виде скачиваемых файлов или через единую точку доступа (
SPARQL Endpoint).