Сообщения

Сообщения за Апрель, 2018

Подготовка данных для алгоритмов машинного обучения

Изображение
Описание стека и некоторые вводные В нашей статье мы будем использовать язык программирования python с сопутствующими ему библиотеки (sklearn, matplotlib, seaborn) и в качестве среды для работы jupyter notebook. Цель текущего поста - показать общие подходы к подготовке данных. То есть, те манипуляции, которые необходимо совершить перед загрузкой данных в модель машинного обучения. В идеальном мире у вас будет абсолютно чистый датасет без выбросов или пропущенных значений. Однако в реальном мире такие наборы данных встречаются крайне редко.
Далее будем рассматривать данные из Kaggle: "Mental Health in Tech Survey".

Первый взгляд на датасет и понимание его специфики Трудно работать с данными, не понимая, что они из себя представляют, поэтому давайте их загрузим и выведем некоторые статистики.
import pandasas pd import numpy as np df = pd.read_csv("survey.csv") df.head()
Это даст нам первое представление о том, что есть наши данные. Далее посмотрим на размеры наших т…