본문 바로가기
Data Science

[2] 머신러닝 인트로 캐글 / columns 확인, dropna, prediction target, features, sklearn

by Ju.D 2022. 6. 15.
반응형

columns를 확인하는 코드

# columns
melbourne_data.columns

missing values를 없애는 코드

# drop missing values
melbourne_data = melbourne_data.dropna(axis=0)

우리가 찾고자 또는 알고자 하는 값을 y라고 한다. 가격을 알고 싶다면

이것을 prediction target 이라고 부름

y = melbourne_data.Price

모델에 사용될 열들을 features 라고 함

다 사용되거나 일부만 사용됨

melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

scikit-learn 라이브러리 줄여서 sklearn은 DataFrames에 저장된 데이터를 모델링 하는데 가장 유명하게 사용되는 라이브러리이다.

 

모델을 제작하고 사용하는 방법은

Define: 어떤 모델을 사용할 것인가

Fit: 데이터에서 패턴을 찾는다. 이것이 모델링의 핵심이다

Predict: 예측

Evaluate: 모델 예측 능력이 얼마나 정확한지 평가

 

 

scikit-learn random state in splitting dataset

Can anyone tell me why we set random state to zero in splitting train and test set. X_train, X_test, y_train, y_test = \ train_test_split(X, y, test_size=0.30, random_state=0) I have seen situ...

stackoverflow.com

from sklearn.tree import DecisionTreeRegressor

# 모델 정의
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model 모델에 값 적용
melbourne_model.fit(X, y)

random_state 는 0이 되든 1이 되든 상관 없지만 항상 같은 값을 가지길 권장. 많은 official documents에서는 42를 사용한다. 항상 같은 값을 써야하는 이유는 코드를 계속 실행시켰을 때 같은 값을 set 하기 위해서임

참고 답변

https://stackoverflow.com/questions/42191717/scikit-learn-random-state-in-splitting-dataset#:~:text=The%20random_state%20is%20an%20integer,each%20combination%20has%20one%20state.

 

scikit-learn random state in splitting dataset

Can anyone tell me why we set random state to zero in splitting train and test set. X_train, X_test, y_train, y_test = \ train_test_split(X, y, test_size=0.30, random_state=0) I have seen situ...

stackoverflow.com

 

반응형

댓글