본문 바로가기
728x90
반응형

Data Science7

데이터 분석가 인턴이 알려주는 핵심 역량 3가지 데이터 분석가 인턴으로 근무했던 한 외국인의 이야기를 소개해드립니다. 현업 종사자의 이야기를 듣고 데이터 분석가가 하는 일과 필요한 역량이 무엇인지 알 수 있는 시간이 되면 좋겠습니다. 자료 출처는 본문 맨 아래에 적어놨습니다. 코로나 이후로 나는 가난한 대학생으로서 데이터 사이언스를 무료로 공부했다. 그 몇 년 동안 나는 데이터 관련 여러 책을 읽고 데이터 셋을 연구하고 대회에 참여하며 친구들과 함께 공부했다. 시간은 훌쩍 지나갔고, 이제 보니 나는 대학교 졸업반이었다. 친구들은 대회에 관심을 잃었고, 스킬 향상을 위해 인턴쉽을 찾기 시작했다. 나도 친구들처럼 인턴쉽을 찾고 있었다. 취업을 위해 내 이력서에 무언가를 보여주어야 한다는 것을 깨달았다. 대회는 꽤 좋은 경험이지만, 이력서를 더 인상적으로 .. 2024. 1. 25.
데이터 사이언스 독학 온라인 사이트 추천 - 코세라(Coursera) 딥 러닝(Deep learning) 앤드류 응(Andrew Ng) 빅데이터, AI, 머신러닝, 딥 러닝. 모두 가장 핫 한 주제이고, 많은 사람들의 관심을 받고 있는 주제입니다. 진로를 이곳으로 가려는 사람도 있는 반면, 직장을 다니며 자기 계발로 학습하는 사람도 있을 텐데요. 요즘 제가 듣고 있는 강의를 추천드립니다. Deep Learning Specialization 다양한 강의를 무료로 수강할 수 있는 코세라(Coursera)에 등록된 강의인 Deep Learning Specialization을 추천드립니다. 이 강의는 코세라의 창업자이자 DeepLearningAI의 창업자인 앤드류 응(Andrew Ng) 교수님의 강의로, 유튜버 월가 아재님도 추천한 강의입니다. 강의 순서 강의 주제는 총 5개로 나눠져 있습니다. 코스 1은 Neural Network, Deep .. 2023. 7. 3.
비즈니스 분석(애널리틱스)를 나누는 3가지 단계 (데이터 분석가 희망자 필독) 비즈니스 분석의 3가지 분류 비즈니스 분석가, 비즈니스 애널리틱스, 데이터 분석가 등 빅데이터를 이용해서 분석을 하는 직업이 생겨났습니다. 데이터가 에너지원이 되는 지금 시기에 데이터를 분석하고 이를 통해 의미 있는 인사이트를 도출하는 것은 어찌 보면 당연한 일입니다. 그런데 비즈니스 애널리틱스에는 3가지 분류가 있는것을 알고 계셨나요? 비즈니스 애널리틱스는 하는 일에 따라 다음의 3가지로 분류할 수 있습니다. 과거의 일을 분석하는 기술(Descriptive) 분석 미래를 예측하는 예측(Predictive) 분석 앞으로 어떻게 해야할지 제안하는 규범(Prescriptive) 분석 위의 내용을 조금 더 자세히 알아보도록 하겠습니다. 기술 분석(Descriptive Analytics) 기술 분석은 과거에 일.. 2023. 6. 24.
유명 리크루팅 회사 매니저가 챗GPT를 공부하는 4가지 이유 생성형 AI(Generative AI)를 들어보셨나요? 생성형 AI는 사람의 질문을 이해하고 질문에 알맞은 텍스트, 이미지, 여러 콘텐츠를 사용해 대답하는 인공지능입니다. 대표적으로 오픈 AI사에서 만든 챗GPT가 있습니다. 인공지능의 발전으로 여러 일자리가 위협을 받고 있습니다. 그중에서도 사람을 뽑거나 기업이 원하는 인재를 발굴하는 리크루터의 역할이 위협받을 수 있다고 합니다. 본 포스팅에서는 링크드인 블로그에 올라온 '왜 리크루팅 리더는 자기 일자리를 지키기 위해서 AI를 공부해야 하나' 라는 주제를 가진 글을 소개하겠습니다. 이 글이 꼭 리크루터에게 국한된 이야기가 아닌 모든 직업에 해당된다고 생각합니다. (본 포스팅은 여러분의 이해를 돕고 시간과 수고를 아끼기 위해 핵심만 추려내어 작성했습니다... 2023. 6. 19.
[3] 머신러닝 인트로 캐글 / Model Validation, train_test_split Model Validation :모델이 유효한지 확인해야 한다 많은 방법 중 Mean Absolute Error (MAE)로 알아본다. error = actual - predicted from sklearn.metrics import mean_absolute_error predicted_home_prices = melbourne_model.predict(X) mean_absolute_error(y, predicted_home_prices) in-samples 값을 이용하여 예측하는 경우 실제 상황에서 적용되지 않을 수 있다. 따라서 test_data가 아닌 데이터를 이용해서 모델을 테스트 해야 한다. 이것을 validation data 라고 한다. scikit-learn 라이브러리는 train_test_.. 2022. 6. 15.
[2] 머신러닝 인트로 캐글 / columns 확인, dropna, prediction target, features, sklearn columns를 확인하는 코드 # columns melbourne_data.columns missing values를 없애는 코드 # drop missing values melbourne_data = melbourne_data.dropna(axis=0) 우리가 찾고자 또는 알고자 하는 값을 y라고 한다. 가격을 알고 싶다면 이것을 prediction target 이라고 부름 y = melbourne_data.Price 모델에 사용될 열들을 features 라고 함 다 사용되거나 일부만 사용됨 melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude'] X = melbourne_data[melbourne_features].. 2022. 6. 15.
[1] 머신러닝 인트로 캐글 / pandas csv파일 읽어오기,describe() Pandas는 데이터 사이언스에서 가장 많이 사용하고 중요한 python library 관례상 pandas를 pd라고 부름 import pandas as pd pandas에서 csv파일을 읽어오는 방법과 summary를 확인하는 방법 # 파일 주소를 변수로 저장한다 melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # csv 파일을 읽어오는 명령어 melbourne_data = pd.read_csv(melbourne_file_path) # summary를 확인하는 명령어 melbourne_data.describe() describe 명령어를 사용했을 때 나오는 값 설명 count : non-missing values 몇 개.. 2022. 6. 15.
728x90
반응형