책소개
데이터 분석 무한 경쟁 ‘캐글’에서 살아남기 위한 비결 세계 최대 규모 데이터 분석 경진 대회 플랫폼인 캐글에서는 일반적이지 않은 데이터 처리 기법이 많이 활용된다. 이를 이해하고 체득하여 활용하는 것은 대회뿐만 아니라 데이터 분석 실무에서도 모델 정확도를 높이는 데 매우 유용하다. 특징(feature)을 만드는 방법, 앙상블, 평가지표, 사이킷런, xgboost 등 기존에는 잘 다루지 않았던 기법과 사례를 이 책 한 권에 정리했다. 경진 대회에 참여할 계획이 있거나, 캐글을 경험해봤지만 더 높은 상위 랭킹에 도전하고 싶다면 지금 바로 읽어보기를 권한다.
목차
CHAPTER 1 경진 대회1.1 경진 대회란?1.2 경진 대회 플랫폼1.3 경진 대회 참가부터 종료까지1.4 경진 대회의 참가 의미1.5 상위권 진입의 중요 팁CHAPTER 2 경진 대회의 평가지표2.1 경진 대회의 종류2.2 경진 대회의 데이터셋2.3 평가지표2.4 평가지표와 목적함수2.5 평가지표의 최적화2.6 평가지표 최적화 사례2.7 데이터 정보 누출CHAPTER 3 특징 생성3.1 이 장의 구성3.2 모델과 특징3.3 결측값 처리3.4 수치형 변수 변환3.5 범주형 변수 변환3.6 날짜 및 시간변수 변환3.7 변수의 조합3.8 다른 정형 데이터와의 결합3.9 집약하여 통계량 구하기3.10 시계열 데이터 처리3.11 차원축소와 비지도 학습의 특징3.12 기타 기법3.13 경진 대회의 특징 사례CHAPTER 4 모델 구축4.1 모델의 기본 이해4.2 경진 대회에서 사용하는 모델4.3 GBDT4.4 신경망4.5 선형 모델4.6 기타 모델4.7 모델의 기타 팁과 테크닉CHAPTER 5 모델 평가5.1 모델 평가란?5.2 검증 방법5.3 시계열 데이터의 검증 방법5.4 검증 포인트와 기술CHAPTER 6 모델 튜닝6.1 매개변수 튜닝6.2 특징 선택과 중요도6.3 편중된 클래스 분포의 대응CHAPTER 7 앙상블 기법7.1 앙상블이란?7.2 간단한 앙상블 기법7.3 스태킹7.4 앙상블 대상 모델의 선택 기준7.5 경진 대회의 앙상블 사례