일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 프로그래밍
- 체크인미팅
- 도커
- 인프라
- 스프링부트
- 백엔드개발자
- RDS
- UNICON
- 프리티어
- 백엔드
- 오블완
- AWS
- 인디게임
- 개발공부
- 위키북스
- Developer
- 라피신
- 42서울
- 티스토리챌린지
- 전국대학생게임개발동아리연합회
- UNICON2023
- CICD
- UNIDEV
- 자바개발자
- 배포
- 온라인테스트
- EC2
- 스프링
- 생활코딩
- 게임개발동아리
- Today
- Total
목록Study/Python-Machine-Learning (17)
Hyun's Wonderwall
[Chapter 02] 사이킷런으로 시작하는 머신러닝 1. 사이킷런 소개와 특징 사이킷런(scikit-learn): 파이썬 머신러닝 라이브러리. import sklearn 2. 붓꽃 품종 예측하기 붓꽃의 특징을 기반으로 품종을 분류하려고 한다. 분류는 지도학습 방법 중 하나. - 붓꽃 데이터 피처: Sepal length, Sepal widtn, Petal length, Petal width - 붓꽃 데이터 품종(레이블): Setosa, Vesicolor, Virgiinica (3종류) *피처: 특징. 학습 모델에서 제공하는 입력 변수. 단순 선형 회귀에서의 X변수. *레이블(label) 데이터: 분류 결정값. 기계학습으로 예측하는 실제 항목. y=f(X)에서 y. *지도학습: 학습을 위한 다양한 피처와..
[Chapter 01] 파이썬 기반의 머신러닝과 생태계 이해 1. 머신러닝의 개념 머신러닝(Machine Learning): 데이터를 기반으로 숨겨진 패턴을 학습하고 결과를 예측하는 알고리즘 기법. 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용하여 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출해 낸다. 데이터 분석 영역은 재빠르게 머신러닝 기반의 '예측 분석(Predictive Analysis)'으로 재편되고 있다. 머신러닝의 분류 지도학습(Supervised Learning): 크게 회귀(regression)와 분류(classification) 두 유형으로 나뉘어짐. (+ 추천 시스템, 시각/음성 감지/인지, ..
AIchemist 과제 포스팅을 날려버리는 사태로 분량이 적습니다..😢 07. 문서 군집화 소개와 실습(Opinion Review 데이터 세트) 문서 군집화(Doucment Clustering) : 비슷한 텍스트 구성의 문서를 군집화 하는 것. 동일 군집에 속하는 문서를 같은 카테고리 소속으로 분류할 수 있음. *텍스트 분류 기반 문서 분류와의 차이 : 텍스트 기반 문서 분류는 사전에 결정 카테고리 값을 가진 학습 데이터 세트가 필요함. 문서 군집화는 학습 데이터 세트가 필요없는 비지도학습 기반으로 동작함. 텍스트 기반 문서 군집화를 적용하는 실습 진행! Opinion Review 데이터 세트를 이용한 문서 군집화 수행하기 내려받은 압축 파일의 topics 디렉터리 안에 리뷰 텍스트 파일들이 있음. 각 ..
[Chapter 06] 차원 축소 1. 차원 축소 개요 차원 축소: 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고 희소한(sparse) 구조를 가지게 된다. 수백 개 이상의 피처로 구성된 데이터 세트의 경우, 상대적으로 적은 차원에서 학습한 모델이 예측 신뢰도가 높다. (피처가 많을 경우 개별 피처간에 상관관계가 높을 가능성이 큰데, 선형 회귀와 같은 선형 모델에서는 입력 변수 간의 상관관계가 높으면 다중 공선성 문제로 모델의 예측 성능이 저하된다) 매우 많은 피처를 갖는 다차원 데이터 세트를 차원 축소해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있다. ..
캐글 주택 가격: 고급 회귀 기법 데이터 세트로 회귀 분석을 더 심층적으로 학습해보자 https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/ House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 이 데이터는 79개의 변수로 구성되어있고, 미국 아이오와 주의 에임스(Ames) 지방의 주택 가격 정보를 가지고 있다. 각 피처에 대한 설명은 위 링크에 있음 성능 평가는 섹션9와 동일한 RMSLE(Root Mean Squared Log Error)를 기반으로 한다. 가격이 비싼 주택일수록 예측 결과 오류가 전체 오류에 미치는 비중이 높으므로 이것을 상쇄..
[Chapter 05] 회귀 9. 회귀 실습 - 자전거 대여 수요 예측 캐글 자전거 대여 수요 예측 경연 2011.1~2012.12 동안 날짜/시간, 기온, 습도, 풍속 등의 정보를 기반으로 1시간 간격 동안의 자전거 대여 횟수가 기재되어 있다. 데이터 세트의 주요 칼럼은 아래와 같고 이 중 결정 값은 맨 마지막 칼럼인 count(대여 횟수를 의미)이다. datetime: hourly date + timestamp season: 1=봄, 2=여름, 3=가을, 4=겨울 holiday: 1=토, 일요일의 주말을 제외한 국경일 등의 휴일, 0=휴일이 아닌 날 workingday: 1=토, 일요일의 주말 및 휴일이 아닌 주중, 0=주말 및 휴일 weather: 1=맑음 2=안개, 안개+흐림 3=가벼운 눈, 가벼..
[Chapter 05] 회귀 1. 회귀 회귀(Regression) 분석: 갈톤이 수행한 연구에서 유래 (사람의 키는 평균 키로 회귀하려는 경향을 가진다는 자연의 법칙) 회귀 분석: 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 회귀: 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭 (모델링하고 예측) Y=W1*X1+W2*X2+...+Wn*Xn이라는 선형 회귀식 Y: 종속변수 X1, ..., Xn은 독립변수 W1, ..., Wn은 독립변수의 값에 영향을 미치는 회귀 계쑤(Regression coefficients) 독립변수는 피처에 해당되며 종속변수는 결정 값이다. 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 ..
10. 캐글 신용카드 사기 검출 - Kaggle 신용카드 데이터 세트 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud - 해당 데이터 세트의 레이블인 Class 속성은 매우 불균형한 분포를 가짐. - Class는 0과 1로 분류되는데, 0: 신용카드 정상 트랜잭션 / 1: 신용카드 사기 트랜잭션 - 전체 데이터의 0.172%만이 사기(레이블 값 1) + 사기 검출(Fraud Detection), 이상 검출(Anomaly Detection)과 같은 데이터 세트는 이처럼 레이블 값 극도로 불균형한 분포 가지기 쉬움. 언더 샘플링과 오버 샘플링의 이해 - 레이블이 불균형 분포인 데이터 세트를 학습시킬 때 예측 성능의 문제가 발생할 수 있음. (이상 레이블을 ..
09. 산탄데르 고객 만족 예측 - XGBoost와 LightGBM을 활용해 예측해 보자. - train.csv 는 370개의 피처로 주어진 데이터 세트. (피처 이름은 모두 익명 처리) - 클래스 레이블 명은 TARGET. 이 값이 1이면 불만을 가진 고객, 0이면 만족한 고객 - ROC-AUC(ROC 곡선 영역)으로 모델의 성능을 평가함 (갑자기 아나콘다가 안 열려서 Jupyter Notebook (anaconda3) 을 실행시켰더니 잘 되었다(?)) - 캐글에서 train.csv 다운로드 https://www.kaggle.com/c/santander-customer-satisfaction 데이터 전처리 - 사이킷런 래퍼 XGBoost를 이용할 것임 # 필요한 모듈 로딩, 학습 데이터를 DataFra..
AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 4주차 과제: 파머완 p.221-p.307 (4장 5단원~8단원, 11단원) [Chapter 04] 분류 5. GBM(Gradient Boosting Machine) 5.1. GBM의 개요 및 실습 * 부스팅 알고리즘: 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식. - AdaBoost, 그래디언트 부스트(GBM)가 대표적 * AdaBoost(에이다부스트) : 개별 분류기가 일으킨 오류 데이터에 가중치를 부여하면서 부스팅을 하는 알고리즘. 개별 약한 학습기들에 각각 가중치를 부여한 후 예측..