Data Science — так называется эта книга в оригинале — очень модное и широко используемое в мире последние несколько лет словосочетание. На английском языке книга выпущена в 2018 году издательством знаменитого МИТ. Ее цель — познакомить с наукой о данных на уровне ее основных элементов и обеспечить принципиальное понимание сути вопроса.


Лично я читал книгу довольно долго — около двух месяцев, хотя ее формальный объем очень небольшой — всего 222 страницы (формат: 60х90/16). Отчасти это было вызвано внешними обстоятельствами (конец семестра, коронавирус), отчасти — собственно книгой, читать которую оказалось занятием непростым. Авторы широко используют многочисленные аббревиатуры из ИТ-тематики. Если вы с ними незнакомы, то вам придется регулярно останавливаться и искать расшифровку очередной загадочной комбинации букв. Правда, в конце книги есть глоссарий, но далеко не все аббревиатуры мне удалось там найти. Кроме того, читатель должен не бояться математических терминов и иметь хотя бы минимальное представление о том, что такое вероятность, корреляция, регрессия и тому подобное. Другими словами, это книга не просто для любознательных — это книга для тех, кто имеет какой-то интерес к науке о данных, большим данным , современным маркетинговым моделям и модели классификации данных, компьютерной диагностике болезней и так далее.
Целая глава книги посвящена этическим проблемам, связанным с персональными данными и их использованием. Кстати, главы об этике и будущих тенденциях науки о данных, так же, как и две первые главы, на мой взгляд, можно читать как обособленные произведения.
Итак, вот основные выводы, которые я сделал, прочитав книгу целиком:
-
Наука о данных эффективна только при объединении человеческого опыта и компьютерной мощи. Для получения полезных результатов нужно глубоко знать предметную область и хорошо понимать допущения, на которых основано машинное обучение.
-
Правильность данных гораздо важнее их объема. Опрос специалистов в 2016 году показал, что 79% времени аналитики по большим данным тратят на подготовку данных (60% — на очистку и организацию, 19% — на сбор данных).
-
Компьютер практически всегда ответит вам на ваш вопрос — но проблема состоит в том, чтобы задавать правильные вопросы!
Список литературы в книге составлен по главам, что удобно, но в первой главе номера всех ссылок перепутаны, так что источники нужно искать по авторам или названиям, но никак не по номерам ссылок.