[3] 머신러닝 인트로 캐글 / Model Validation, train_test

Model Validation :모델이 유효한지 확인해야 한다

많은 방법 중 Mean Absolute Error (MAE)로 알아본다.

error = actual - predicted

from sklearn.metrics import mean_absolute_error

predicted_home_prices = melbourne_model.predict(X)
mean_absolute_error(y, predicted_home_prices)

in-samples 값을 이용하여 예측하는 경우 실제 상황에서 적용되지 않을 수 있다.

따라서 test_data가 아닌 데이터를 이용해서 모델을 테스트 해야 한다. 이것을 validation data 라고 한다.

scikit-learn 라이브러리는 train_test_split 함수를 이용해 데이터를 2개로 나눌 수 있다.

from sklearn.model_selection import train_test_split

train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)
# Define model
melbourne_model = DecisionTreeRegressor()
# Fit model
melbourne_model.fit(train_X, train_y)

# get predicted prices on validation data
val_predictions = melbourne_model.predict(val_X)

random_state 값을 설정할 경우 코드를 다시 실행시켜도 같은 split이 일어난다.

저작자표시 비영리 변경금지

'Data Science' 카테고리의 다른 글

데이터 사이언스 독학 온라인 사이트 추천 - 코세라(Coursera) 딥 러닝(Deep learning) 앤드류 응(Andrew Ng) (0)	2023.07.03
비즈니스 분석(애널리틱스)를 나누는 3가지 단계 (데이터 분석가 희망자 필독) (0)	2023.06.24
유명 리크루팅 회사 매니저가 챗GPT를 공부하는 4가지 이유 (1)	2023.06.19
[2] 머신러닝 인트로 캐글 / columns 확인, dropna, prediction target, features, sklearn (0)	2022.06.15
[1] 머신러닝 인트로 캐글 / pandas csv파일 읽어오기,describe() (0)	2022.06.15

Big_Terminal

[3] 머신러닝 인트로 캐글 / Model Validation, train_test_split

'Data Science' 카테고리의 다른 글

댓글

티스토리툴바

[3] 머신러닝 인트로 캐글 / Model Validation, train_test_split

'Data Science' 카테고리의 다른 글

관련글

댓글

티스토리툴바