Разделите набор данных на обучающую train и тестовую test выборки. В тестовую выборку необходимо поместить 200 значений, все остальные должны быть в обучающей выборке.
python
import pandas as pd
from sklearn.model_selection import train_test_split
Предположим, что у нас есть набор данных, который содержит две колонки "Признаки" и "Целевая переменная". Данные хранятся в файле "data.csv". Загрузим данные в DataFrame:
python
data = pd.read_csv('data.csv')
Теперь, разделим данные на обучающую и тестовую выборки. Укажем test_size=0.05, чтобы 5% данных было в тестовой выборке, а 95% в обучающей. Также, установим random_state, чтобы получить повторяемые результаты:
python
train_data, test_data = train_test_split(data, test_size=0.05, random_state=42)
Теперь, в переменной train_data будут содержаться 95% данных, а в переменной test_data - 5% данных. Мы можем использовать эти данные для построения и оценки моделей машинного обучения.
Для того чтобы в тестовую выборку поместить ровно 200 значений, можно воспользоваться следующим кодом:
python
train_data, test_data = train_test_split(data, test_size=200, random_state=42)
Теперь, в переменной test_data будет содержаться ровно 200 значений, а в train_data - все остальные значения.
Также, стоит отметить, что при разделении данных для обучения и тестирования модели необходимо учитывать, что разбиение должно быть случайным, чтобы исключить возможные смещения данных. В качестве параметра random_state в функции train_test_split можно указать любое фиксированное число. Это число будет использовано для инициализации генератора случайных чисел и обеспечивает воспроизводимость результатов.Нажимая «Регистрация» или «Войти через Google», вы соглашаетесь с Публичной офертой, даете Согласие на обработку персональных данных, а также подтверждаете что вам есть 18 лет
Нажимая «Регистрация» или «Войти через Google», вы соглашаетесь с Публичной офертой, даете Согласие на обработку персональных данных, а также подтверждаете что вам есть 18 лет