일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 배포
- 티스토리챌린지
- 도커
- 생활코딩
- UNIDEV
- 프로그래밍
- 전국대학생게임개발동아리연합회
- RDS
- 체크인미팅
- 오블완
- CICD
- 백엔드
- EC2
- 백엔드개발자
- 개발공부
- 자바개발자
- 42서울
- Developer
- 위키북스
- 온라인테스트
- 프리티어
- AWS
- 게임개발동아리
- 인디게임
- 라피신
- UNICON
- 인프라
- 스프링
- UNICON2023
- 스프링부트
- Today
- Total
목록Study (64)
Hyun's Wonderwall
캐글 주택 가격: 고급 회귀 기법 데이터 세트로 회귀 분석을 더 심층적으로 학습해보자 https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/ House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 이 데이터는 79개의 변수로 구성되어있고, 미국 아이오와 주의 에임스(Ames) 지방의 주택 가격 정보를 가지고 있다. 각 피처에 대한 설명은 위 링크에 있음 성능 평가는 섹션9와 동일한 RMSLE(Root Mean Squared Log Error)를 기반으로 한다. 가격이 비싼 주택일수록 예측 결과 오류가 전체 오류에 미치는 비중이 높으므로 이것을 상쇄..
[Chapter 05] 회귀 9. 회귀 실습 - 자전거 대여 수요 예측 캐글 자전거 대여 수요 예측 경연 2011.1~2012.12 동안 날짜/시간, 기온, 습도, 풍속 등의 정보를 기반으로 1시간 간격 동안의 자전거 대여 횟수가 기재되어 있다. 데이터 세트의 주요 칼럼은 아래와 같고 이 중 결정 값은 맨 마지막 칼럼인 count(대여 횟수를 의미)이다. datetime: hourly date + timestamp season: 1=봄, 2=여름, 3=가을, 4=겨울 holiday: 1=토, 일요일의 주말을 제외한 국경일 등의 휴일, 0=휴일이 아닌 날 workingday: 1=토, 일요일의 주말 및 휴일이 아닌 주중, 0=주말 및 휴일 weather: 1=맑음 2=안개, 안개+흐림 3=가벼운 눈, 가벼..
[Chapter 05] 회귀 1. 회귀 회귀(Regression) 분석: 갈톤이 수행한 연구에서 유래 (사람의 키는 평균 키로 회귀하려는 경향을 가진다는 자연의 법칙) 회귀 분석: 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 회귀: 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭 (모델링하고 예측) Y=W1*X1+W2*X2+...+Wn*Xn이라는 선형 회귀식 Y: 종속변수 X1, ..., Xn은 독립변수 W1, ..., Wn은 독립변수의 값에 영향을 미치는 회귀 계쑤(Regression coefficients) 독립변수는 피처에 해당되며 종속변수는 결정 값이다. 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 ..
GDSC Ewha 5기_ Spring Boot 스터디 스터디 커리큘럼: 백기선, "스프링 기반 REST API 개발" - 선수 학습사항: (필수) 스프링 프레임워크 핵심 기술, 스프링 부트 개념과 활용 / (선택) 스프링 데이터 JPA 의 지식 1주차 과제: 섹션 0. 소개, 섹션 1. REST API 및 프로젝트 소개 섹션 0. 소개 이 강좌에서는 다양한 스프링 기술을 사용하여 Self-Descriptive Message와 HATEOAS(Hypermedia as the engine of application state)를 만족하는 REST API를 개발한다. 이 두 가지를 만족해야만 진화가 가능한 REST API, -> 클라이언트와 서버 독립적으로 진화할 수 있는 성격 달성할 수 있음. - 이 강좌에서..
10. 캐글 신용카드 사기 검출 - Kaggle 신용카드 데이터 세트 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud - 해당 데이터 세트의 레이블인 Class 속성은 매우 불균형한 분포를 가짐. - Class는 0과 1로 분류되는데, 0: 신용카드 정상 트랜잭션 / 1: 신용카드 사기 트랜잭션 - 전체 데이터의 0.172%만이 사기(레이블 값 1) + 사기 검출(Fraud Detection), 이상 검출(Anomaly Detection)과 같은 데이터 세트는 이처럼 레이블 값 극도로 불균형한 분포 가지기 쉬움. 언더 샘플링과 오버 샘플링의 이해 - 레이블이 불균형 분포인 데이터 세트를 학습시킬 때 예측 성능의 문제가 발생할 수 있음. (이상 레이블을 ..
09. 산탄데르 고객 만족 예측 - XGBoost와 LightGBM을 활용해 예측해 보자. - train.csv 는 370개의 피처로 주어진 데이터 세트. (피처 이름은 모두 익명 처리) - 클래스 레이블 명은 TARGET. 이 값이 1이면 불만을 가진 고객, 0이면 만족한 고객 - ROC-AUC(ROC 곡선 영역)으로 모델의 성능을 평가함 (갑자기 아나콘다가 안 열려서 Jupyter Notebook (anaconda3) 을 실행시켰더니 잘 되었다(?)) - 캐글에서 train.csv 다운로드 https://www.kaggle.com/c/santander-customer-satisfaction 데이터 전처리 - 사이킷런 래퍼 XGBoost를 이용할 것임 # 필요한 모듈 로딩, 학습 데이터를 DataFra..
AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 4주차 과제: 파머완 p.221-p.307 (4장 5단원~8단원, 11단원) [Chapter 04] 분류 5. GBM(Gradient Boosting Machine) 5.1. GBM의 개요 및 실습 * 부스팅 알고리즘: 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식. - AdaBoost, 그래디언트 부스트(GBM)가 대표적 * AdaBoost(에이다부스트) : 개별 분류기가 일으킨 오류 데이터에 가중치를 부여하면서 부스팅을 하는 알고리즘. 개별 약한 학습기들에 각각 가중치를 부여한 후 예측..
06. 피마 인디언 당뇨병 예측 - 피마 인디언 당뇨병 세트는 북아메리카 피마 원주민의 Type-2 당뇨병 결과 데이터 - 당뇨 원인: 식습관과 유전 - 고립된 지역에서 인디언 고유의 혈통이 지속되어 왔지만, 20세기 후반에 들어서면서 서구화된 식습관으로 많은 당뇨 환자가 생겨났음 - 고립된 유전적 특성 때문에 당뇨학회에서는 피마 인디언의 당뇨병 자료에 대해 많은 연구를 했음 # 피마 인디언 당뇨병 데이트 세트는 다음 피처로 구성되어 있다 - Pregnancies: 임신횟수, Glucose: 포도당 부하 검사 수치, BloodPressure 혈압 (mm Hg), SkinThickness, Insulin: 혈청 인슐린, BMI: 체질량지수, Age: 나이, Outcome: 클래스 결정 값(0 또는 1) i..
AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 2주차 과제: 파머완 p.145-p.172 (챕터3 섹션5까지) [Chapter 03] 평가 머신러닝 프로세스: [데이터 가공/변환] -> [모델 학습/예측] -> [평가](예측을 잘 하고 있는지) 머신 러닝 모델은 여러가지 방법으로 예측 성능을 평가할 수 있음. 성능 평가 지표 - 모델이 [분류]냐 [회귀]냐에 따라 여러 종류. 회귀: 실제값과 예측값의 오차 평균값에 기반. 분류의 평가방법은 일반적으론 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반. 하지만 단순히 이러한 정확도만 가지고 판단했다가는 잘못된 평가 결과에 빠질 수 있음. 분류의 성능 평가 지표..
AIchemist 1기 이화여대 머신러닝 입문 스터디 스터디 교재: 권철민, "파이썬 머신러닝 완벽 가이드" 1주차 과제: 파머완 ~128p (챕터2 섹션5) [CH1] 파이썬 기반의 머신러닝과 생태계 이해 ~ [CH2] 사이킷런으로 시작하는 머신러닝 AIchemist 1th Session(2023.9.23) - [사이킷런으로 수행하는 타이타닉 생존자 예측] 실습 진행 - 먼저 한 일 : 캐글에서 타이타닉 탑승자 데이터 다운로드 (1장에서 판다스 DF 설명할 때 내려받음) - 내려받은 탑승자 데이터에 있는 정보 : Passengerid, survived, pclass, sex, name, age, sibsp, parch, ticket, fare, cabin, embarked New! > 시각화 패키지-맷..