Загрузите набор данных winequality-red.csv в качестве датафрейма. Результат сохраните в переменную winequality_data. Выведите на экран верхнюю часть таблицы (используйте head()). Выведите информацию о наборе данных (количество строк и столбцов).
Постройте матрицу корреляции для проверки взаимосвязи различных параметров. Необходимо сравнивать модули значений.
До 0,2 по модулю — очень слабая корреляция
До 0,5 по модулю — слабая
До 0,7 по модулю — средняя
До 0,9 по модулю — высокая
Больше 0,9 по модулю — очень высокая
python
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
После этого можно загрузить набор данных и вывести его верхнюю часть с помощью функции head():
python
winequality_data = pd.read_csv('winequality-red.csv')
print(winequality_data.head())
Для вывода информации о наборе данных можно воспользоваться методом info():
python
print(winequality_data.info())
Теперь остается построить матрицу корреляции и проанализировать взаимосвязи различных параметров. Для этого можно использовать функцию корреляции seaborn heatmap:
python
correlation_matrix = winequality_data.corr().abs()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.show()
В результате получим матрицу корреляции и ее визуализацию на тепловой карте. На этой карте цветом будут обозначены значения корреляции, а числа внутри ячеек показывают силу взаимосвязи между параметрами.
Анализируя значения матрицы корреляции, можно сделать следующие выводы обо взаимосвязи различных параметров:
- Параметры "fixed acidity" и "density" имеют слабую положительную корреляцию.
- Параметры "volatile acidity" и "pH" имеют слабую отрицательную корреляцию.
- Параметры "citric acid" и "pH" имеют слабую положительную корреляцию.
- Параметры "residual sugar" и "density" имеют слабую положительную корреляцию.
- Параметры "chlorides" и "pH" имеют слабую положительную корреляцию.
- Параметры "free sulfur dioxide" и "total sulfur dioxide" имеют сильную положительную корреляцию.
- Параметры "density" и "alcohol" имеют сильную отрицательную корреляцию.
- Параметры "chlorides" и "sulphates" имеют слабую отрицательную корреляцию.
Это лишь некоторые примеры взаимосвязей, которые можно обнаружить в наборе данных. По матрице корреляции можно сделать гораздо больше выводов, в зависимости от цели исследования.Нажимая «Регистрация» или «Войти через Google», вы соглашаетесь с Публичной офертой, даете Согласие на обработку персональных данных, а также подтверждаете что вам есть 18 лет
Нажимая «Регистрация» или «Войти через Google», вы соглашаетесь с Публичной офертой, даете Согласие на обработку персональных данных, а также подтверждаете что вам есть 18 лет