columns를 확인하는 코드
# columns
melbourne_data.columns
missing values를 없애는 코드
# drop missing values
melbourne_data = melbourne_data.dropna(axis=0)
우리가 찾고자 또는 알고자 하는 값을 y라고 한다. 가격을 알고 싶다면
이것을 prediction target 이라고 부름
y = melbourne_data.Price
모델에 사용될 열들을 features 라고 함
다 사용되거나 일부만 사용됨
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]
scikit-learn 라이브러리 줄여서 sklearn은 DataFrames에 저장된 데이터를 모델링 하는데 가장 유명하게 사용되는 라이브러리이다.
모델을 제작하고 사용하는 방법은
Define: 어떤 모델을 사용할 것인가
Fit: 데이터에서 패턴을 찾는다. 이것이 모델링의 핵심이다
Predict: 예측
Evaluate: 모델 예측 능력이 얼마나 정확한지 평가
scikit-learn random state in splitting dataset
Can anyone tell me why we set random state to zero in splitting train and test set. X_train, X_test, y_train, y_test = \ train_test_split(X, y, test_size=0.30, random_state=0) I have seen situ...
stackoverflow.com
from sklearn.tree import DecisionTreeRegressor
# 모델 정의
melbourne_model = DecisionTreeRegressor(random_state=1)
# Fit model 모델에 값 적용
melbourne_model.fit(X, y)
random_state 는 0이 되든 1이 되든 상관 없지만 항상 같은 값을 가지길 권장. 많은 official documents에서는 42를 사용한다. 항상 같은 값을 써야하는 이유는 코드를 계속 실행시켰을 때 같은 값을 set 하기 위해서임
참고 답변
scikit-learn random state in splitting dataset
Can anyone tell me why we set random state to zero in splitting train and test set. X_train, X_test, y_train, y_test = \ train_test_split(X, y, test_size=0.30, random_state=0) I have seen situ...
stackoverflow.com
'Data Science' 카테고리의 다른 글
데이터 사이언스 독학 온라인 사이트 추천 - 코세라(Coursera) 딥 러닝(Deep learning) 앤드류 응(Andrew Ng) (0) | 2023.07.03 |
---|---|
비즈니스 분석(애널리틱스)를 나누는 3가지 단계 (데이터 분석가 희망자 필독) (0) | 2023.06.24 |
유명 리크루팅 회사 매니저가 챗GPT를 공부하는 4가지 이유 (1) | 2023.06.19 |
[3] 머신러닝 인트로 캐글 / Model Validation, train_test_split (0) | 2022.06.15 |
[1] 머신러닝 인트로 캐글 / pandas csv파일 읽어오기,describe() (0) | 2022.06.15 |
댓글