일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 자바
- 백엔드개발자
- Developer
- 설계
- 체크인미팅
- 생활코딩
- 위키북스
- 백엔드
- 프리티어
- 라피신
- 자바개발자
- EC2
- 배포
- UNICON2023
- 프로그래밍
- 도커
- UNICON
- 전국대학생게임개발동아리연합회
- 스프링부트
- CICD
- 개발공부
- 42서울
- 인프라
- AWS
- 온라인테스트
- 스프링
- 인디게임
- UNIDEV
- 게임개발동아리
- RDS
- Today
- Total
목록Study (60)
Hyun's Wonderwall
10. 캐글 신용카드 사기 검출 - Kaggle 신용카드 데이터 세트 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud - 해당 데이터 세트의 레이블인 Class 속성은 매우 불균형한 분포를 가짐. - Class는 0과 1로 분류되는데, 0: 신용카드 정상 트랜잭션 / 1: 신용카드 사기 트랜잭션 - 전체 데이터의 0.172%만이 사기(레이블 값 1) + 사기 검출(Fraud Detection), 이상 검출(Anomaly Detection)과 같은 데이터 세트는 이처럼 레이블 값 극도로 불균형한 분포 가지기 쉬움. 언더 샘플링과 오버 샘플링의 이해 - 레이블이 불균형 분포인 데이터 세트를 학습시킬 때 예측 성능의 문제가 발생할 수 있음. (이상 레이블을 ..
09. 산탄데르 고객 만족 예측 - XGBoost와 LightGBM을 활용해 예측해 보자. - train.csv 는 370개의 피처로 주어진 데이터 세트. (피처 이름은 모두 익명 처리) - 클래스 레이블 명은 TARGET. 이 값이 1이면 불만을 가진 고객, 0이면 만족한 고객 - ROC-AUC(ROC 곡선 영역)으로 모델의 성능을 평가함 (갑자기 아나콘다가 안 열려서 Jupyter Notebook (anaconda3) 을 실행시켰더니 잘 되었다(?)) - 캐글에서 train.csv 다운로드 https://www.kaggle.com/c/santander-customer-satisfaction 데이터 전처리 - 사이킷런 래퍼 XGBoost를 이용할 것임 # 필요한 모듈 로딩, 학습 데이터를 DataFra..
AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 4주차 과제: 파머완 p.221-p.307 (4장 5단원~8단원, 11단원) [Chapter 04] 분류 5. GBM(Gradient Boosting Machine) 5.1. GBM의 개요 및 실습 * 부스팅 알고리즘: 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식. - AdaBoost, 그래디언트 부스트(GBM)가 대표적 * AdaBoost(에이다부스트) : 개별 분류기가 일으킨 오류 데이터에 가중치를 부여하면서 부스팅을 하는 알고리즘. 개별 약한 학습기들에 각각 가중치를 부여한 후 예측..
06. 피마 인디언 당뇨병 예측 - 피마 인디언 당뇨병 세트는 북아메리카 피마 원주민의 Type-2 당뇨병 결과 데이터 - 당뇨 원인: 식습관과 유전 - 고립된 지역에서 인디언 고유의 혈통이 지속되어 왔지만, 20세기 후반에 들어서면서 서구화된 식습관으로 많은 당뇨 환자가 생겨났음 - 고립된 유전적 특성 때문에 당뇨학회에서는 피마 인디언의 당뇨병 자료에 대해 많은 연구를 했음 # 피마 인디언 당뇨병 데이트 세트는 다음 피처로 구성되어 있다 - Pregnancies: 임신횟수, Glucose: 포도당 부하 검사 수치, BloodPressure 혈압 (mm Hg), SkinThickness, Insulin: 혈청 인슐린, BMI: 체질량지수, Age: 나이, Outcome: 클래스 결정 값(0 또는 1) i..
AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 2주차 과제: 파머완 p.145-p.172 (챕터3 섹션5까지) [Chapter 03] 평가 머신러닝 프로세스: [데이터 가공/변환] -> [모델 학습/예측] -> [평가](예측을 잘 하고 있는지) 머신 러닝 모델은 여러가지 방법으로 예측 성능을 평가할 수 있음. 성능 평가 지표 - 모델이 [분류]냐 [회귀]냐에 따라 여러 종류. 회귀: 실제값과 예측값의 오차 평균값에 기반. 분류의 평가방법은 일반적으론 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반. 하지만 단순히 이러한 정확도만 가지고 판단했다가는 잘못된 평가 결과에 빠질 수 있음. 분류의 성능 평가 지표..
AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 1주차 과제: 파머완 ~128p (챕터2 섹션5) [CH1] 파이썬 기반의 머신러닝과 생태계 이해 ~ [CH2] 사이킷런으로 시작하는 머신러닝 AIchemist 1th Session(2023.9.23) - [사이킷런으로 수행하는 타이타닉 생존자 예측] 실습 진행 - 먼저 한 일 : 캐글에서 타이타닉 탑승자 데이터 다운로드 (1장에서 판다스 DF 설명할 때 내려받음) - 내려받은 탑승자 데이터에 있는 정보 : Passengerid, survived, pclass, sex, name, age, sibsp, parch, ticket, fare, cabin, embarked New! > 시각화 패키지-맷..
보호되어 있는 글입니다.
보호되어 있는 글입니다.
3. 넘파이 넘파이(NumPy): 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 패키지. 많은 머신러닝 알고리즘이 넘파이 기반으로 작성되어있고, 알고리즘의 입출력 데이터를 넘파이 배열 타입으로 사용함. 넘파이를 이해하는 것은 파이썬 기반 머신 러닝에서 매우 중요. 루프를 사용하지 않고 대량 데이터 연산 가능 -> 빠른 배열 연산 속도를 보장. (과학, 공학 프로그램은 대량 데이터 계산 속도가 중요; 많은 파이썬 기반 과학, 공학 패키지들이 넘파이에 의존) C/C++과 같은 저수준 언어 기반의 호환 API 제공. -> 파이썬 자체의 수행 성능 제약(느림)... 수행 성능이 매우 중요한 부분은 C/C++ 기반 코드로 작성하고 이를 넘파이에서 호출하는 방식으로 통합. (ex. 구글의 텐서..