본문 바로가기

머신러닝5

Iris-Classification Iris 품종 분류하기 github.com/yiho119/Iris-Classification yiho119/Iris-Classification Contribute to yiho119/Iris-Classification development by creating an account on GitHub. github.com Pipeline - scaler와 model이 적용된 파이프라인을 생성해봤다. - 새로운 방법론을 습득했다. 학교 다닐 때 이런 것을 왜 안해봤나 싶다. - 기존 프로젝트에도 적용해보고싶은 욕심이 생겼다. Random Search 2021. 3. 6.
머신러닝: 분류 모델 성능 측정 지표 Precision (정밀도) - 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율 - 정밀도의 값은 0에서 1까지의 값을 가지며 값이 클수록 정밀도가 높은 것을 의미함 Recall (재현율) : - 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율 - 재현율의 값은 0에서 1까지의 값을 가지며 값이 클수록 재현율이 높은 것을 의미함 Accuracy (정확도) - True-True뿐만 아니라 False-False라고 예측한 경우도 고려하는 지표 - 정확도의 값은 0에서 1까지의 값을 가지며 값이 클수록 정확도가 높은 것을 의미함 F1-score - Precision과 Recall의 조화평균 - F1-score의 값은 0에서 1까지의 값을 가지며 값이 클수록 F1-score가 높.. 2021. 3. 6.
Train(학습), Validation(검증), Test(테스트) 데이터, train_test_split 전체 데이터를 학습에 전부 사용하지 않고 나누어 사용하는 이유 - 학습 데이터를 사용해 생성한 모델의 정확도를 검증하기 위해 - 학습한 모델의 성능이 좋고 나쁨을 판단하기 어려움 - 전체 데이터를 사용했을 때 과적합의 문제가 발생할 수 있음 => 그렇기에 train 데이터와 test 데이터를 분류해서 학습 데이터로 모델을 생성하고, 테스트 데이터로 모델을 평가함 train_test_split를 사용한 train/test 데이터셋 분리 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split # iris 데이터 laod X, y = load_iris(return_X_y=True) # X: 입력 데이터.. 2021. 3. 6.
머신러닝: 지도학습, 비지도학습, 강화학습 ▶ 지도학습 : 정형화된 데이터로 정답이 정해져 있는 데이터를 학습하는 것 ▶ 비지도학습 : 비정형화된 데이터로 데이터의 특성을 파악하는 것 ▶ 강화학습 : 스스로 학습하며 보상을 최대화하는 행동을 찾는 것 2021. 3. 6.
머신러닝(Machine Learning) 머신러닝(Machine Learning)이란? "머신러닝"은 인공지능(AI)의 한 분야로, 데이터 분석을 위한 모델 생성을 자동화 하여 소프트웨어가 데이터를 바탕으로 학습하고 패턴을 찾아낸다. 이를 통해 사람의 개입을 최소화 하고 빠르게 의사 결정을 내릴 수 있도록 지원한다. ▶ 도메인 지식이 있지 않아도 데이터의 특성을 학습하고 학습한 모델의 성능을 향상시키는 것 ▶ 일반적인 데이터에 대해서도 평균 이상의 성능을 나타낼 수 있는 것 ※ 대표적인 5가지의 task Classification label이 있는 데이터를 label에 맞게 잘 분류하기 위해 학습하는 일 Clustring label이 없거나 category가 무엇인지 알지 못하는 데이터를 군집별로 나누는 일 Regression 데이터의 특성에 .. 2021. 3. 6.