1 ноября 2021 года вступил в силу стандарт ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь», который стал первым отечественным нормативно-техническим документом в сфере больших данных, или big data.
Кроме него существует добровольный «Кодекс этики использования данных» от Ассоциации больших данных, а единственный законопроект на эту тему так и не был вынесен на рассмотрение Государственной думой.
В разработке ГОСТа участвовали Научно-образовательный центр компетенций в области цифровой экономики МГУ и Автономная некоммерческая организация «Институт развития информационного общества» .
Документ подготовлен на основе международного стандарта ISO/IEC 20546:2019 «Информационные технологии – Большие данные – Обзор и словарь».
Он содержит перевод на русский язык англоязычных терминов и определяет основные понятия, связанные с использованием больших данных.
По мнению разработчиков, стандарт поможет улучшить взаимодействие между федеральными органами исполнительной власти, научным сообществом, коммерческими организациями и всеми заинтересованными лицами.
По данным источника, директор по научным проектам НИУ «Высшая школа экономики» Сергей Гарбук, который является председателем технического комитета N 164 «Искусственный интеллект» отметил, что «обеспечение доступа российских разработчиков систем искусственного интеллекта к специальным образом подготовленным наборам данных является важнейшим условием развития отрасли искусственного интеллекта. Стандартизация в этой области позволит обеспечить разумный компромисс между соблюдением двух противоречивых требований: необходимостью формирования специфических наборов обучающих и тестовых данных для каждой конкретной прикладной задачи искусственного интеллекта и стремлением к унификации наборов данных, обеспечивающей многократное использование данных при решении различных прикладных задач».
В целом наука о данных изучает процесс извлечения из них знаний; используемый научный подход может заключаться либо в исследовании, либо в проверке гипотез.
Согласно ГОСТу, большие данные, или big data, – это большие массивы данных, отличающиеся главным образом такими характеристиками, как объем, разнообразие, скорость обработки и/или вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа.
При выборе системы больших данных документ рекомендует руководствоваться четырьмя характеристиками:
-
объемом;
-
скоростью обработки;
-
разнообразием;
-
вариативностью данных – изменениями в скорости передачи, формате или структуре, семантике или качестве массива данных.
Также ГОСТ разъясняет ключевые характеристики данных. Например, что такое объем данных, разнообразие, скорость их обработки , вариативность . Влияние последней может заключаться в необходимости проведения реорганизации архитектур, интерфейсов, методов обработки, алгоритмов, интеграции, слияния, хранения, применимости или использования данных.
П. 3.3.3 документа дает представление о ключевых параметрах обработки данных: их изменчивости, достоверности, выгоде, визуализации, масштабировании и т.д.
В справочном приложении А перечислены сквозные понятия в сфере больших данных, например:
-
метаданные, которые представляют собой описательные данные, включая, например, описание истории обработки данных;
-
алгоритмы;
-
кластерные вычисления, которые относятся к распределению процессов по сети компьютеров;
-
облачные вычисления, представляющие собой одну из парадигм доступности и управления ресурсами для систем больших данных;
-
безопасность данных;
-
требования по защите конфиденциальности;
-
интерактивный язык программирования SQL, предназначенный для создания запросов, обновления и управления данными и их массивами в базе данных;
-
параллельные вычисления ;
-
интернет вещей;
-
языки программирования.
Стандартизации цифровых технологий в прошлом году были посвящены многочисленные обсуждения на различных площадках. Стоит отметить, что стандарты в области больших данных играют важную роль не только в области искусственного интеллекта, но и в развитии таких перспективных направлений, как:
-
новые производственные технологии;
-
методы цифрового моделирования;
-
технологии умных производств и умных городов.
Дальнейшая разработка стандартов в области больших данных будет осуществляться в рамках перспективной программы стандартизации приоритетного направления «Искусственный интеллект» на 2021-2024 годы, утвержденной Минэкономразвития России и Росстандартом в декабре 2020 года.