прочитано
#качество управления #стандартизация #IT и телеком #госконтроль

В статье рассмотрим ГОСТ Р ИСО/МЭК 20546-2021, цель которого – улучшить информационное взаимодействие, понимание информационных технологий и больших данных. Последние, в свою очередь, помогут в развитии искусственного интеллекта.

0 3

1 ноября 2021 года вступил в силу стандарт ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь», который стал первым отечественным нормативно-техническим документом в сфере больших данных, или big data. 

Кроме него существует добровольный «Кодекс этики использования данных» от Ассоциации больших данных, а  единственный законопроект  на эту тему так и не был вынесен на рассмотрение Государственной думой.

В разработке ГОСТа участвовали Научно-образовательный центр компетенций в области цифровой экономики МГУ и Автономная некоммерческая организация  «Институт развития информационного общества» .

Документ подготовлен на основе международного стандарта ISO/IEC 20546:2019 «Информационные технологии – Большие данные – Обзор и словарь».

Он содержит перевод на русский язык англоязычных терминов и определяет основные понятия, связанные с использованием больших данных.

По мнению разработчиков, стандарт поможет улучшить взаимодействие между федеральными органами исполнительной власти, научным сообществом, коммерческими организациями и всеми заинтересованными лицами.

По данным источника, директор по научным проектам НИУ «Высшая школа экономики» Сергей Гарбук, который является председателем технического комитета N 164 «Искусственный интеллект» отметил, что «обеспечение доступа российских разработчиков систем искусственного интеллекта к специальным образом подготовленным наборам данных является важнейшим условием развития отрасли искусственного интеллекта. Стандартизация в этой области позволит обеспечить разумный компромисс между соблюдением двух противоречивых требований: необходимостью формирования специфических наборов обучающих и тестовых данных для каждой конкретной прикладной задачи искусственного интеллекта и стремлением к унификации наборов данных, обеспечивающей многократное использование данных при решении различных прикладных задач».

В целом наука о данных изучает процесс извлечения из них знаний; используемый научный подход может заключаться либо в исследовании, либо в проверке гипотез.

Согласно ГОСТу, большие данные, или big data, – это большие массивы данных, отличающиеся главным образом такими характеристиками, как объем, разнообразие, скорость обработки и/или вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа.

При выборе системы больших данных документ рекомендует руководствоваться четырьмя характеристиками:

  • объемом; 

  • скоростью обработки; 

  • разнообразием;

  • вариативностью данных – изменениями в скорости передачи, формате или структуре, семантике или качестве массива данных.

Также ГОСТ разъясняет ключевые характеристики данных. Например, что такое объем данных, разнообразие, скорость их  обработки вариативность . Влияние последней может заключаться в необходимости проведения реорганизации архитектур, интерфейсов, методов обработки, алгоритмов, интеграции, слияния, хранения, применимости или использования данных.

П. 3.3.3 документа дает представление о ключевых параметрах обработки данных: их изменчивости, достоверности, выгоде, визуализации, масштабировании и т.д.

В справочном приложении А перечислены сквозные понятия в сфере больших данных, например:

  • метаданные, которые представляют собой описательные данные, включая, например, описание истории обработки данных;

  • алгоритмы;

  • кластерные вычисления, которые относятся к распределению процессов по сети компьютеров;

  • облачные вычисления, представляющие собой одну из парадигм доступности и управления ресурсами для систем больших данных;

  • безопасность данных;

  • требования по защите конфиденциальности; 

  • интерактивный язык программирования SQL, предназначенный для создания запросов, обновления и управления данными и их массивами в базе данных; 

  • параллельные вычисления ;

  • интернет вещей;

  • языки программирования.

Стандартизации цифровых технологий в прошлом году были посвящены многочисленные обсуждения на различных площадках. Стоит отметить, что стандарты в области больших данных играют важную роль не только в области искусственного интеллекта, но и в развитии таких перспективных направлений, как:

  • новые производственные технологии;

  • методы цифрового моделирования;

  • технологии умных производств и умных городов.

Дальнейшая разработка стандартов в области больших данных будет осуществляться в рамках перспективной программы стандартизации приоритетного направления «Искусственный интеллект» на 2021-2024 годы, утвержденной Минэкономразвития России и Росстандартом в декабре 2020 года.