일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Route53
- 위키북스
- 자바개발자
- 라피신
- EC2
- 인디게임
- 개발공부
- 체크인미팅
- 프로그래밍
- CICD
- 전국대학생게임개발동아리연합회
- 티스토리챌린지
- 백엔드개발자
- AWS
- 인프라
- 생활코딩
- UNICON2023
- UNIDEV
- NAT gateway
- 백엔드
- 오블완
- 게임개발동아리
- 온라인테스트
- UNICON
- 프리티어
- 스프링부트
- bastion host
- VPC
- 42서울
- 도커
- Today
- Total
목록Study/Data Engineering (2)
Hyun's Wonderwall

진행 중인 프로젝트에서 서울특별시 모든 동의 이름과 각 동 간의 식별이 필요했다.임의로 지역마다 ID를 만들기보다 실제 존재하는 동별 식별번호를 사용해야겠다고 생각했다. API를 사용하기보다 파일에서 접근하는 것이 용이할 듯하여 국가기관 데이터를 찾아보았다. 행정표준코드관리시스템의 법정동코드목록조회에서 식별번호와 법정동명, 존재여부로 구성된 파일을 다운받을 수 있었다.https://www.code.go.kr/stdcode/regCodeL.do 법정동코드목록조회 - 행정표준코드관리시스템정상적으로 로그아웃하지 않았거나, 동일 사용자가 로그인한 상태입니다. 강제로 로그인 하시겠습니까? (강제 로그인 시 다시 로그인을 하셔야 합니다.)www.code.go.kr 법정동코드는 앞의 2자리까지 시/도, 다음 3..

데이터 엔지니어링 과목 프로젝트에서 네이버 플레이스의 리뷰 데이터를 수집하는 역할을 맡았다. [크롤링 방식] - 정적 크롤링(Static Crawling), 동적 크롤링(Dynamic Crawling)정적 크롤링: 서버에서 전달받은 고정된 HTML 소스코드에서 필요한 데이터를 파싱하는 방식.동적 크롤링: JavaScript 실행 이후에 생성되는 요소나, 사용자 인터랙션(스크롤, 버튼 클릭 등)을 통해 로드되는 데이터를 처리하는 방식. 일반적인 HTTP 요청만으로는 접근이 불가능한 정보를 수집할 때 사용됨.우리가 수집하려는 네이버 플레이스 리뷰 페이지는 탭 구성과 더보기 버튼 기반의 페이지네이션 구조를 가지고 있어 동적으로 데이터가 로드된다. 따라서 동적 크롤링이 필수적이다. [동적 크롤링을 위한 Pyth..