Для того, чтобы получить описание набора данных, включающее минимум, максимум, среднее, перцентили в библиотеке Pandas используется команда Into Describe Sample Head Shape Corr
python
import pandas as pd
# Создание DataFrame
data = {'Товар': ['Товар1', 'Товар2', 'Товар3', 'Товар4', 'Товар5'],
'Цена': [10, 15, 20, 25, 30],
'Количество': [50, 30, 40, 20, 10],
'Продажи': [500, 450, 800, 500, 300]}
df = pd.DataFrame(data)
Теперь мы можем вызвать метод `describe()` для DataFrame `df`:
python
description = df.describe()
print(description)
Вывод:
Цена Количество Продажи
count 5.000000 5.000000 5.000000
mean 20.000000 30.000000 510.000000
std 7.905694 14.142136 192.409782
min 10.000000 10.000000 300.000000
25% 15.000000 20.000000 450.000000
50% 20.000000 30.000000 500.000000
75% 25.000000 40.000000 500.000000
max 30.000000 50.000000 800.000000
Из вывода видно, что `describe()` предоставляет следующую информацию о каждом столбце:
- Количество непустых значений (count)
- Среднее значение (mean)
- Стандартное отклонение (std)
- Минимальное и максимальное значения (min и max)
- Перцентили (25%, 50%, 75%)
Первая строка вывода "count" показывает количество непустых значений в каждом столбце. Вторая строка "mean" - среднее значение. Третья строка "std" - стандартное отклонение. Четвертая и пятая строки "min" и "max" - минимальное и максимальное значения соответственно. Шестая, седьмая и восьмая строки "25%", "50%" и "75%" показывают перцентили. В данном случае "25%" - это значение, ниже которого находится 25% данных, "50%" - медиана (значение, отделяющее меньшую половину данных от большей) и "75%" - значение, ниже которого находится 75% данных.
Вместе все это предоставляет полную статистическую сводку о каждом числовом столбце в наборе данных.
Если набор данных содержит не только числовые значения, но и категориальные, `describe()` также предоставит информацию о категориальных столбцах.
python
import pandas as pd
# Создание DataFrame
data = {'Пол': ['Мужской', 'Женский', 'Мужской', 'Мужской', 'Женский'],
'Возраст': [30, 25, 35, 40, 20],
'Город': ['Москва', 'Санкт-Петербург', 'Москва', 'Казань', 'Санкт-Петербург']}
df = pd.DataFrame(data)
description = df.describe()
print(description)
Вывод:
Возраст
count 5.000000
mean 30.000000
std 7.905694
min 20.000000
25% 25.000000
50% 30.000000
75% 35.000000
max 40.000000
Город Пол
count 5 5
unique 3 2
top Москва Мужской
freq 2 3
В этом случае первая таблица отображает статистическую информацию о числовом столбце "Возраст". Вторая таблица показывает информацию о категориальных столбцах "Город" и "Пол". В ней отображается количество уникальных значений (count), количество уникальных категорий (unique), наиболее популярное значение (top) и количество его вхождений (freq).
Таким образом, команда `describe()` является полезным инструментом для получения описательной статистики о наборе данных и может быть очень полезна при исследовании и анализе данных.Нажимая «Регистрация» или «Войти через Google», вы соглашаетесь с Публичной офертой, даете Согласие на обработку персональных данных, а также подтверждаете что вам есть 18 лет
Нажимая «Регистрация» или «Войти через Google», вы соглашаетесь с Публичной офертой, даете Согласие на обработку персональных данных, а также подтверждаете что вам есть 18 лет