실전 시계열 분석
- 시계열 데이터(time-series data)는 시간 순서대로 정의된 데이터를 의미합니다. 시계열 분석이란 최근 몇 개월간의 주식 시장 데이터, 기상 환경 데이터 등 과거 데이터를 기반으로 유의미한 정보를 추출하는 행위입니다. 이커머스(e-commerce) 분야에서 고객의 상품 구매 행동 패턴 변화를 알아보기 위해서도 지난 과거에 구매했던 상품들을 참고하는 것 역시 시계열 분석의 한 종류이기도 합니다.
- 이처럼 데이터를 누적하여 저장하고, 저장된 데이터를 활용하여 어떤 작업을 수행하는 것이 시계열 분석이라 할 수 있습니다. 머신러닝 & 딥러닝 어플리케이션 환경에서 데이터는 지속적으로 수집하고 활용하기 때문에 우리가 다루는 대부분의 데이터는 시계열 데이터로 확장할 수 있습니다.
- 지금 당장 시계열 데이터를 다루지 않더라도, 미래에는 시계열 데이터에 대한 처리, 분석 능력이 필요합니다. 우리가 다루는 데이터는 결국 시계열 데이터 형태로 확장될 것이기 때문이죠.
책의 구성
- [실전 시계열 분석]은 다양한 분야의 시계열 데이터를 다루고 있습니다. 헬스케어(Chapter 13), 금융(Chapter 14), 정부 또는 정책과 관련된 데이터(Chapter 15) 등 시계열 분석 방법을 활용하기 적합한 데이터를 소개합니다.
- 시계열 데이터 분석을 위해 고전적인 통계 방법과 최신의 머신러닝 & 딥러닝 방법을 사용하여 다양한 분석 방법을 소개하고 있습니다.
- 데이터 분석을 위한 모델에 대한 설명뿐만 아니라 데이터 수집, 정리, 시뮬레이션 등 전처리 단계((pre-processing)를 먼저 학습합니다.
대상 독자
- 시계열 데이터가 아직 익숙하지 않고, 처음 들어보는 독자에게 시계열 분석 분야의 입문 도서로 적합하다 생각합니다. 머신러닝 알고리즘을 개발하다 보면 데이터 수집, 관리, 학습, 평가 등 하나의 머신러닝 학습 파이프라인을 구축하는 것이 매우 중요한데, [실전 시계열 분석] 책은 빠짐없이 모두 소개하고 있습니다.
- 또한 단순한 머신러닝 모델링에 집중하는 것이 아니라 데이터 구조와 구성에 대해 살펴보며 자신만의 필요한 데이터를 구축하는 방법까지 확장할 수 있는 아이디어를 제공합니다.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.