Каталог моделей и связанных открытых статистических данных
В качестве наиболее эффективного способа предоставления данных в Интернете Консорциум W3C рекомендует использовать
связанные данные, разработанные в соответствии с
правилами Semantic Web (SW, глобальной семантической сети) – набором основных правил представления данных в Интернет в виде, позволяющем адекватно интерпретировать их в информационных системах с учетом смыслового значения.
Связанные данные включают в себя машиночитаемые метаданные, что делает их самоописываемыми. Связанные данные поддерживаются такими технологиями, как
RDF,
SPARQL,
JSON-LD,
OWL и другие.
Подготовка связанных данных базируется на моделировании – формализации информации, описывающей данные, для точного представления конкретной области знаний. При моделировании данных в процессе совместной работы экспертов предметной области и разработчиков фиксируется контекст и отношения данных. Хорошо определенный контекст обеспечивает лучшее понимание, правильное повторное использование и имеет решающее значение при установлении связей с другими наборами данных.
Формализованный в результате моделирования контекст распространяется как
модели данных: (1) метаданные, например,
XML- и
RDF-схемы; (2) общие модели данных, (3) онтологии, (4) тезаурусы, (5) справочные данные, например, списки кодов, таксономии, словари, глоссарии. Модели данных, подготовленные для многократного использования, т.е. удовлетворяющие требованиям технологической независимости и длительной доступности (персистентности), называются
семантическими активами (СА). Каталогизация СА обеспечивает возможность их распространения и повторного использования. СА в каталоге описываются в соответствии с международным стандартом
ADMS (профиль
ADMS-FW). Содержимое СА доступно для просмотра экспертами в различных вариантах визуализации, включая граф, а также в машиночитаемом формате для информационных систем и сервисов.
Связывание данных с семантическими активами (СА) позволяет не только человеку, но и компьютеру однозначно интерпретировать их смысл. Публикация связанных данных облегчает поиск и интеграцию данных, а технологии SW обеспечивают среду, в которой приложения могут запрашивать данные и управлять ими, формировать интерфейсы и делать выводы с учетом семантических связей. СА, описывающие данные в контексте предметной области, являются основой для поиска, сбора, комплексного анализа и визуализации связанных данных с учетом их семантических свойств, а также для достижения семантической интероперабельности при информационном взаимодействии распределенных информационных систем в целом.
Связанные открытые статистические данные (СОСД) – это связанные данные в области статистики, которые публикуются с использованием
открытой лицензии CC BY 4.0, что способствует их повторному бесплатному использованию. Благодаря использованию СА обеспечивается готовность связанных открытых статистических данных к комплексному анализу наборов данных из различных источников.
В подсистеме СОД обеспечивается ведение и публикация каталогов СА и СОСД, обеспечивается доступ к СА и СОСД в виде скачиваемых файлов или через единую точку доступа (
SPARQL Endpoint).
Применяемые стандарты и технологии
- FOAF (Friend Of A Friend) – словарь именованных свойств и классов, построенных с использованием технологии RDF от W3C и языка OWL.
- Vcard (The Electronic Business Card) - формат данных для передачи контактной информации в стандартизированном виде. Например, на телефон или в почтовый агент.
- OWL (Web Ontology Language) – язык онтологий для Semantic Web (SW), описывающий классы и отношения между ними, присущие документам и приложениям Semantic Web.
- Дублинское ядро (Dublin Core™) - набор элементов метаданных «Дублинское ядро», определённый Дублинской основной инициативой по метаданным, включающий свойства, схемы кодирования словаря, схемы кодирования синтаксиса и классы.
- RDF Concepts (RDF 1.1 Concepts and Abstract Syntax) - модель представления знаний (данных и метаданных). RDF-схема для терминов словаря RDF в пространстве имен RDF, определенная в RDF 1.1 Concepts.
- RDFS (RDF Schema 1.1) - набор классов и свойств для модели представления знаний RDF, составляющий основу для описания онтологий с использованием расширенного RDF-словаря для структуры RDF-ресурсов.
- RDF Data Cube Vocabulary - словарь RDF Data Cube позволяет публиковать многомерные данные, такие как статистика с помощью стандарта W3C RDF. Модель, лежащая в основе словаря Data Cube, совместима с моделью куба, лежащей в основе SDMX.
- SDMX (Statistical Data and Metadata Exchange) – международный стандарт обмена статистическими данными и метаданными.
- SKOS (Simple Knowledge Organization Model) – базовая модель организации знаний для Semantics Web, облегчающая взаимодействие различных информационных систем за счёт стандартизации тезаурусов, систем классификации, таксономий, фолксономий и других видов нормализации лексики.
- SKOS-XL (SKOS eXtension) - словарь RDF, расширяющий SKOS, предоставляя дополнительную поддержку для описания и связывания лексических единиц.
- XKOS (SKOS extension for representing statistical classifications) – специализированное расширение SKOS для управления статистическими классификациями.
Обучающие материалы
Для экспертов