일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 42서울
- 라피신
- CICD
- 프리티어
- UNIDEV
- UNICON
- openAI API
- AWS
- NAT gateway
- Spring boot
- 백엔드개발자
- bastion host
- 프롬프트엔지니어링
- Redis
- spring ai
- 티스토리챌린지
- 체크인미팅
- 프로그래밍
- 인프라
- EC2
- 생활코딩
- UNICON2023
- 도커
- 캡스톤디자인프로젝트
- Route53
- 게임개발동아리
- 오블완
- 스프링부트
- 개발공부
- 전국대학생게임개발동아리연합회
- Today
- Total
목록Study/Python-Machine-Learning (18)
Hyun's Wonderwall

10. 캐글 신용카드 사기 검출 - Kaggle 신용카드 데이터 세트 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud - 해당 데이터 세트의 레이블인 Class 속성은 매우 불균형한 분포를 가짐. - Class는 0과 1로 분류되는데, 0: 신용카드 정상 트랜잭션 / 1: 신용카드 사기 트랜잭션 - 전체 데이터의 0.172%만이 사기(레이블 값 1) + 사기 검출(Fraud Detection), 이상 검출(Anomaly Detection)과 같은 데이터 세트는 이처럼 레이블 값 극도로 불균형한 분포 가지기 쉬움. 언더 샘플링과 오버 샘플링의 이해 - 레이블이 불균형 분포인 데이터 세트를 학습시킬 때 예측 성능의 문제가 발생할 수 있음. (이상 레이블을 ..

09. 산탄데르 고객 만족 예측 - XGBoost와 LightGBM을 활용해 예측해 보자. - train.csv 는 370개의 피처로 주어진 데이터 세트. (피처 이름은 모두 익명 처리) - 클래스 레이블 명은 TARGET. 이 값이 1이면 불만을 가진 고객, 0이면 만족한 고객 - ROC-AUC(ROC 곡선 영역)으로 모델의 성능을 평가함 (갑자기 아나콘다가 안 열려서 Jupyter Notebook (anaconda3) 을 실행시켰더니 잘 되었다(?)) - 캐글에서 train.csv 다운로드 https://www.kaggle.com/c/santander-customer-satisfaction 데이터 전처리 - 사이킷런 래퍼 XGBoost를 이용할 것임 # 필요한 모듈 로딩, 학습 데이터를 DataFra..

AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 4주차 과제: 파머완 p.221-p.307 (4장 5단원~8단원, 11단원) [Chapter 04] 분류 5. GBM(Gradient Boosting Machine) 5.1. GBM의 개요 및 실습 * 부스팅 알고리즘: 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식. - AdaBoost, 그래디언트 부스트(GBM)가 대표적 * AdaBoost(에이다부스트) : 개별 분류기가 일으킨 오류 데이터에 가중치를 부여하면서 부스팅을 하는 알고리즘. 개별 약한 학습기들에 각각 가중치를 부여한 후 예측..
06. 피마 인디언 당뇨병 예측 - 피마 인디언 당뇨병 세트는 북아메리카 피마 원주민의 Type-2 당뇨병 결과 데이터 - 당뇨 원인: 식습관과 유전 - 고립된 지역에서 인디언 고유의 혈통이 지속되어 왔지만, 20세기 후반에 들어서면서 서구화된 식습관으로 많은 당뇨 환자가 생겨났음 - 고립된 유전적 특성 때문에 당뇨학회에서는 피마 인디언의 당뇨병 자료에 대해 많은 연구를 했음 # 피마 인디언 당뇨병 데이트 세트는 다음 피처로 구성되어 있다 - Pregnancies: 임신횟수, Glucose: 포도당 부하 검사 수치, BloodPressure 혈압 (mm Hg), SkinThickness, Insulin: 혈청 인슐린, BMI: 체질량지수, Age: 나이, Outcome: 클래스 결정 값(0 또는 1) i..

AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 2주차 과제: 파머완 p.145-p.172 (챕터3 섹션5까지) [Chapter 03] 평가 머신러닝 프로세스: [데이터 가공/변환] -> [모델 학습/예측] -> [평가](예측을 잘 하고 있는지) 머신 러닝 모델은 여러가지 방법으로 예측 성능을 평가할 수 있음. 성능 평가 지표 - 모델이 [분류]냐 [회귀]냐에 따라 여러 종류. 회귀: 실제값과 예측값의 오차 평균값에 기반. 분류의 평가방법은 일반적으론 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반. 하지만 단순히 이러한 정확도만 가지고 판단했다가는 잘못된 평가 결과에 빠질 수 있음. 분류의 성능 평가 지표..

AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 1주차 과제: 파머완 ~128p (챕터2 섹션5) [CH1] 파이썬 기반의 머신러닝과 생태계 이해 ~ [CH2] 사이킷런으로 시작하는 머신러닝 AIchemist 1th Session(2023.9.23) - [사이킷런으로 수행하는 타이타닉 생존자 예측] 실습 진행 - 먼저 한 일 : 캐글에서 타이타닉 탑승자 데이터 다운로드 (1장에서 판다스 DF 설명할 때 내려받음) - 내려받은 탑승자 데이터에 있는 정보 : Passengerid, survived, pclass, sex, name, age, sibsp, parch, ticket, fare, cabin, embarked New! > 시각화 패키지-맷..
보호되어 있는 글입니다.