Практическая статистика для специалистов Data Science: 50+ важнейших понятий с использованием R и Python: перевод с английского 🔍
Питер Брюс, Эндрю Брюс, Питер Гедек БХВ-Петербург, 2-е изд., перераб. и доп., Санкт-Петербург, Russia, 2021
English [en] · Russian [ru] · PDF · 29.4MB · 2021 · 📘 Book (non-fiction) · 🚀/lgli/lgrs/nexusstc · Save
description
Cтатистические методы являются ключевой частью науки о данных. Однако очень немногие аналитики данных обучены статистике должным образом, поскольку нет книг по статистике, написанных специально для аналитиков данных.
С другой стороны, многие ресурсы, посвященные науке о данных, содержат статистические методы, но не раскрывают перспективы применения этих методов достаточно глубоко.
Предлагаемая книга, написанная доступным языком, устраняет этот пробел. Если вы немного знакомы с языком программирования R и математической статистикой, то легко освоите материал и существенно повысите свой профессиональный уровень
Во второе издание включены примеры на языке Python, что расширяет практическое применение книги.
Прочитав эту книгу, вы узнаете:
- Почему разведывательный анализ данных является ключевым предварительным шагом в науке о данных
- Как случайная выборка может уменьшить смещение и привести к более высококачественному набору данных, даже в условиях больших данных
- Как принципы планирования эксперимента помогают получить наиболее полные ответы на вопросы
- Как использовать регрессию для оценки результатов и выявления аномалий
Вы освоите:
- Ключевые методы классификации для предсказания, к какой категории относится запись
- Статистические методы машинного обучения, которые “обучаются” на данных
- Методы обучения без учителя для извлечения информации из немаркированных данных
https://github.com/gedeck/practical-statistics-for-data-scientists
Alternative filename
lgli/Брюс и др. - Практическая статистика для специалистов Data Science. 2е - 2021.pdf
Alternative filename
lgrsnf/Брюс и др. - Практическая статистика для специалистов Data Science. 2е - 2021.pdf
Alternative title
Practical Statistics for Data Scientists : 50+ Essential Concepts Using R and Python
Alternative author
Peter Bruce; Peter C. Bruce; Andrew Bruce; Peter Gedeck
Alternative author
Bruce, Peter, Bruce, Andrew, Gedeck, Peter
Alternative author
PETER BRUCE ANDREW GEDECK, PETER BRUCE
Alternative publisher
O'Reilly Media, Incorporated
Alternative publisher
O'reilly media, inc, usa
Alternative publisher
BXV-Peterburg
Alternative edition
United States, United States of America
Alternative edition
2nd ed. May 2020, Sebastopol, CA, 2020
Alternative edition
O'Reilly Media, Sebastopol, CA, 2020
Alternative edition
Second edition, Sebastopol, CA, 2020
Alternative edition
Russia, Russian Federation
Alternative edition
2, US, 2020
metadata comments
{"edition":"2","isbns":["149207294X","5977567057","9781492072942","9785977567053"],"last_page":352,"publisher":"БХВ-Петербург"}
metadata comments
Библиогр.: с. 337-338
Пер.: Bruce, Peter Practical statistics for data scientists Beijing etc. : O'Reilly, cop. 2020 978-1-492-07294-2
Предм. указ.: с. 339-346
metadata comments
РГБ
metadata comments
Russian State Library [rgb] MARC:
=001 010782173
=005 20210826145319.0
=008 210817s2021\\\\ru\\\\\\\\\\\\000\|\rus|d
=017 \\ $a КН-П-21-058573 $b RuMoRKP
=020 \\ $a 978-5-9775-6705-3 $c 1300 экз.
=040 \\ $a RuMoRKP $b rus $e rcr $d RuMoRGB
=041 1\ $a rus $h eng
=044 \\ $a ru
=080 \\ $a 004.438 $2 4
=084 \\ $a З973.2-018.19R,0 $2 rubbk
=084 \\ $a В172с31,0 $2 rubbk
=100 1\ $a Брюс, Питер
=245 00 $a Практическая статистика для специалистов Data Science : $b 50+ важнейших понятий с использованием R и Python : перевод с английского $c Питер Брюс, Эндрю Брюс, Питер Гедек
=250 \\ $a 2-е изд., перераб. и доп.
=260 \\ $a Санкт-Петербург $b БХВ-Петербург $c 2021
=300 \\ $a 346 с. $b ил., табл. $c 23 см
=336 \\ $a Текст (визуальный)
=337 \\ $a непосредственный
=504 \\ $a Библиогр.: с. 337-338
=520 \\ $a Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. В ней в удобной и легкодоступной форме представлены ключевые понятия из статистики, которые относятся к науке о данных, а также объяснено, какие понятия важны и полезны с точки зрения науки о данных, какие менее важны и почему. Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя. Во второе издание включены примеры на языке Python, что расширяет практическое применение книги
=534 \\ $p Пер.: $a Bruce, Peter $t Practical statistics for data scientists $c Beijing etc. : O'Reilly, cop. 2020 $z 978-1-492-07294-2
=555 \\ $a Предм. указ.: с. 339-346
=650 \7 $a Программирования языки $2 RuMoRKP
=650 \7 $a Компьютеры персональные $x Программы по статистике $2 RuMoRKP
=650 \7 $a Техника. Технические науки -- Энергетика. Радиоэлектроника -- Радиоэлектроника -- Вычислительная техника -- Вычислительные машины электронные цифровые -- Программирование -- Языки программирования -- R $2 rubbk
=700 1\ $a Брюс, Эндрю
=700 1\ $a Гедек, Питер
=852 7\ $a РГБ $b CZ2 $h З973.26-32/Б89 $x 83
=852 \\ $a РГБ $b FB $j 2 21-44/368 $x 90
Alternative description
Оглавление
Об авторах
Предисловие
Условные обозначения, принятые в книге
Использование примеров кода
Благодарности
Комментарии переводчика
Глава 1. Разведывательный анализ данных
Элементы структурированных данных
Дополнительные материалы для чтения
Прямоугольные данные
Кадры данных и индексы
Непрямоугольные структуры данных
Дополнительные материалы для чтения
Оценки центрального положения
Среднее
Медиана и робастные оценки
Выбросы
Пример: средние оценки численности населения и уровня убийств
Дополнительные материалы для чтения
Оценки вариабельности
Стандартное отклонение и связанные с ним оценки
Оценки на основе процентилей
Пример: оценки вариабельности населения штатов
Дополнительные материалы для чтения
Разведывание распределения данных
Процентили и коробчатые диаграммы
Частотные таблицы и гистограммы
Графики и оценки плотности
Дополнительные материалы для чтения
Разведывание двоичных и категориальных данных
Мода
Ожидаемое значение
Вероятность
Дополнительные материалы для чтения
Корреляция
Диаграммы рассеяния
Дополнительные материалы для чтения
Разведывание двух или более переменных
Сетка из шестиугольных корзин и контуры (сопоставление числовых данных с числовыми данными на графике)
Две категориальные переменные
Категориальные и числовые данные
Визуализация многочисленных переменных
Дополнительные материалы для чтения
Резюме
Глава 2. Распределение данных и распределение выборок
Случайный отбор и смещенная выборка
Смещение
Случайный отбор
Размер против качества: когда размер имеет значение?
Выборочное среднее против популяционного среднего
Дополнительные материалы для чтения
Систематическая ошибка отбора
Регрессия к среднему
Дополнительные материалы для чтения
Выборочное распределение статистической величины
Центральная предельная теорема
Стандартная ошибка
Дополнительные материалы для чтения
Бутстрап
Повторный отбор против бутстрапирования
Дополнительные материалы для чтения
Доверительные интервалы
Дополнительные материалы для чтения
Нормальное распределение
Стандартное нормальное распределение и квантиль-квантильные графики
Длиннохвостые распределения
Дополнительные материалы для чтения
t-Распределение Стьюдента
Дополнительные материалы для чтения
Биномиальное распределение
Дополнительные материалы для чтения
Распределение хи-квадрат
Дополнительные материалы для чтения
F-распредел ение
Дополнительные материалы для чтения
Распределение Пуассона и другие связанные с ним распределения
Пуассоновские распределения
Экспоненциальное распределение
Оценивание интенсивности отказов
Распределение Вейбулла
Дополнительные материалы для чтения
Резюме
Глава 3. Статистические эксперименты и проверка значимости
A/B-тестирование
Зачем нужна контрольная группа?
Почему только A/В? Почему не С, £>...?
Дополнительные материалы для чтения
Проверки гипотез
Нулевая гипотеза
Альтернативная гипотеза
Односторонняя проверка гипотезы против двухсторонней
Дополнительные материалы для чтения
Повторный отбор
Перестановочный тест
Пример: прилипчивость веб-страниц
Исчерпывающий и бутстраповский перестановочные тесты
Перестановочные тесты: сухой остаток для науки о данных
Дополнительные материалы для чтения
Статистическая значимость и р-значения
р-Значение
Альфа
Разногласия по поводу р-значения
Практическая значимость
Ошибки 1 -го и 2-го рода
Наука о данных и р-значения
Дополнительные материалы для чтения
Проверки на основе /-статистики
Дополнительные материалы для чтения
Множественное тестирование
Дополнительные материалы для чтения
Степени свободы
Дополнительные материалы для чтения
Дисперсионный анализ
F-статистика
Двухсторонний дисперсионный анализ
Дополнительные материалы для чтения
Проверка на основе статистики хи-квадрат
Проверка хи-квадрат: подход на основе повторного отбора
Проверка хи-квадрат: статистическая теория
Точный тест Фишера
Релевантность для науки о данных
Дополнительные материалы для чтения
Алгоритм многорукого бандита
Дополнительные материалы для чтения
Мощность и размер выборки
Размер выборки
Дополнительные материалы для чтения
Резюме
Глава 4. Регрессия и предсказание
Простая линейная регрессия
Уравнение регрессии
Подогнанные значения и остатки
Наименьшие квадраты
Предсказание против объяснения (профилирование)
Дополнительные материалы для чтения
Множественная линейная регрессия
Пример: данные жилого фонда округа Кинг
Оценивание результативности модели
Перекрестный конроль
Отбор модели и пошаговая регрессия
Взвешенная регрессия
Дополнительные материалы для чтения
Предсказание с использованием регрессии
Опасности экстраполяции
Доверительный и предсказательный интервалы
Факторные переменные в регрессии
Представление фиктивных переменных
Факторные переменные с многочисленными уровнями
Упорядоченные факторные переменные
Интерпретирование уравнения регрессии
Коррелированные предсказатели
Мультиколлинеарность
Искажающие переменные
Взаимодействия и главные эффекты
Диагностика регрессии
Выбросы
Влиятельные значения
Гетероскедастичность, ненормальность и коррелированные ошибки
Графики частных остатков и нелинейность
Многочленная и сплайновая регрессия
Многочлены
Сплайны
Обобщенные аддитивные модели
Дополнительные материалы для чтения
Резюме
Глава 5. Классификация
Наивный Байес
Почему точная байесова классификация непрактична?
Наивное решение
Числовые предсказательные переменные
Дополнительные материалы для чтения
Дискриминантный анализ
Матрица ковариаций
Линейный дискриминант Фишера
Простой пример
Дополнительные материалы для чтения
Логистическая регрессия
Функция логистического отклика и логит
Логистическая регрессия и ОЛМ
Обобщенные линейные модели
Предсказанные значения из логистической регрессии
Интерпретирование коэффициентов и отношений перевесов
Линейная и логистическая регрессия: сходства и различия
Подгонка модели
Оценивание результативности модели
Анализ остатков
Дополнительные материалы для чтения
Оценивание классификационных моделей
Матрица путаницы
Проблема редкого класса
Прецизионность, полнота и специфичность
ROC-кривая
Площадь под ROC-кривой
Лифт
Дополнительные материалы для чтения
Стратегии для несбалансированных данных
Понижающий отбор
Повышающий отбор и повышающая/понижающая перевесовка
Адаптация функции потери
Генерация данных
Стоимостная классификация
Разведывание предсказаний
Дополнительные материалы для чтения
Резюме
Глава 6. Статистическое машинное обучение
k ближайших соседей
Небольшой пример: предсказание невыплаты ссуды
Метрики расстояния
Кодировщик с одним активным состоянием
Стандартизация (нормализация, z-оценки)
Выбор числам
k ближайших соседей как механизм порождения признаков
Древесные модели
Простой пример
Алгоритм рекурсивного подразделения
Измерение однородности или загрязненности
Остановка выращивания дерева
Контроль за сложностью дерева в R
Контроль за сложностью дерева в Python
Предсказывание непрерывного значения
Каким образом используются деревья
Дополнительные материалы для чтения
Бэггинг и случайный лес
Бэггинг
Случайный лес
Важность переменных
Гиперпараметры
Бустинг
Алгоритм бустирования
XGBoost
Регуляризация: предотвращение переподгонки
Гребневая регрессия и лассо-регрессия
Гиперпараметры и перекрестный контроль
Гиперпараметры XGBoost
Ключевые идеи для бустинга
Резюме
Глава 7. Неконтролируемое самообучение
Анализ главных компонент
Простой пример
Вычисление главных компонент
Интерпретирование главных компонент
Анализ соответствия
Дополнительные материалы для чтения
Кластеризация на основе К средних
Простой пример
Алгоритм К средних
Интерпретирование кластеров
Выбор числа кластеров
Иерархическая кластеризация
Простой пример
Дендограмма
Агломератов ный алгоритм
Меры несхожести
Модельно-ориентированная кластеризация
Многомерное нормальное распределение
Смеси нормальных распределений
Выбор числа кластеров
Дополнительные материалы для чтения
Шкалирование и категориальные переменные
Шкалирование переменных
Доминантные переменные
Категориальные данные и расстояние Говера
Проблемы кластеризации смешанных данных
Резюме
Библиография
Предметный указатель
Alternative description
Statistical methods are a key part of data science, yet few data scientists have formal statistical training. Courses and books on basic statistics rarely cover the topic from a data science perspective. The second edition of this popular guide adds comprehensive examples in Python, provides practical guidance on applying statistical methods to data science, tells you how to avoid their misuse, and gives you advice on what's important and what's not.Many data science resources incorporate statistical methods but lack a deeper statistical perspective. If you're familiar with the R or Python programming languages and have some exposure to statistics, this quick reference bridges the gap in an accessible, readable format.With this book, you'll learn:Why exploratory data analysis is a key preliminary step in data scienceHow random sampling can reduce bias and yield a higher-quality dataset, even with big dataHow the principles of experimental design yield definitive answers to questionsHow to use regression to estimate outcomes and detect anomaliesKey classification techniques for predicting which categories a record belongs toStatistical machine learning methods that'learn'from dataUnsupervised learning methods for extracting meaning from unlabeled data
Alternative description
Statistical Methods Are A Key Part Of Data Science, Yet Few Data Scientists Have Formal Statistical Training. Courses And Books On Basic Statistics Rarely Cover The Topic From A Data Science Perspective. The Second Edition Of This Practical Guide-now Including Examples In Python As Well As R-explains How To Apply Various Statistical Methods To Data Science, Tells You How To Avoid Their Misuse, And Gives You Advice On What's Important And What's Not. Many Data Scientists Use Statistical Methods But Lack A Deeper Statistical Perspective. If You're Familiar With The R Or Python Programming Languages, And Have Had Some Exposure To Statistics But Want To Learn More, This Quick Reference Bridges The Gap In An Accessible, Readable Format. With This Updated Edition, You'll Dive Into: Exploratory Data Analysis Data And Sampling Distributions Statistical Experiments And Significance Testing Regression And Prediction Classification Statistical Machine Learning Unsupervised Learning.--
Alternative description
Statistical methods are a key part of data science, yet few data scientists have formal statistical training. Courses and books on basic statistics rarely cover the topic from a data science perspective. The second edition of this popular guide adds comprehensive examples in Python, provides practical guidance on applying statistical methods to data science, tells you how to avoid their misuse, and gives you advice on whats important and whats not. Many data science resources incorporate statistical methods but lack a deeper statistical perspective. If youre familiar with the R or Python programming languages and have some exposure to statistics, this quick reference bridges the gap in an accessible, readable format. With this book, youll
Alternative description
Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. В ней в удобной и легкодоступной форме представлены ключевые понятия из статистики, которые относятся к науке о данных, а также объяснено, какие понятия важны и полезны с точки зрения науки о данных, какие менее важны и почему. Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя. Во второе издание включены примеры на языке Python, что расширяет практическое применение книги
Alternative description
May 2017: First Edition
Revision History for the First Edition
2017-05-09: First Release
2017-06-23: Second Release
2018-05-11: Third Release
date open sourced
2023-11-13
Read more…

🐢 Slow downloads

From trusted partners. More information in the FAQ. (might require browser verification — unlimited downloads!)

All download options have the same file, and should be safe to use. That said, always be cautious when downloading files from the internet, especially from sites external to Anna’s Archive. For example, be sure to keep your devices updated.
  • For large files, we recommend using a download manager to prevent interruptions.
    Recommended download managers: Motrix
  • You will need an ebook or PDF reader to open the file, depending on the file format.
    Recommended ebook readers: Anna’s Archive online viewer, ReadEra, and Calibre
  • Use online tools to convert between formats.
    Recommended conversion tools: CloudConvert and PrintFriendly
  • You can send both PDF and EPUB files to your Kindle or Kobo eReader.
    Recommended tools: Amazon‘s “Send to Kindle” and djazz‘s “Send to Kobo/Kindle”
  • Support authors and libraries
    ✍️ If you like this and can afford it, consider buying the original, or supporting the authors directly.
    📚 If this is available at your local library, consider borrowing it for free there.