본문 바로가기

[책이야기]/[도서리뷰]

[Review] 비즈니스를 위한 데이터과학(한빛미디어)



비즈니스를 위한 데이터 과학

(포스터 프로보스트, 톰 포셋 지음 | 강권학 역)



빅데이터?? 사물인터넷?? 과연...

요즘 IoT 사물인터넷으로부터 많은 양의 데이터들이 주는 많은 정보력과 분석의 필요성에 대해 많은


 이야기가 대두되고 있다. 특히 이런 데이터들의 양은 빅데이터라 불릴만큼 많아질 것이며, 그만큼 


빅데이터를 분석하고 분석할 환경을 만들 인재에 대해서 정부와 학계에서 발벗고 나서서 많은 지원


사업을 벌이고 있다. 과연 많은 양의 데이터로부터 정말 의미있는 정보를 얻을 수 있을까??..


누구나 빅데이터 분석에 대한 이야기를 처음 접한 사람이라면 한번쯤은 생각해볼 의문일 것이다.


빅데이터... 필자의 생각에는 충분히 이 빅데이터로부터 의미있는 정보를 얻을수 있다. 단, 그만큼의


분석력과 분석 계획 및 목표가 명확하다면 말이다..



비즈니스를 위한 데이터 과학

 필자가 맨 처음 이 책을 펼쳐 목차를 보고 사실 좀 아쉬운 감이 있었다. 바로 챕터간 연관성


이 부족하다고 생각했기 때문이다. 사실 공부를 하는 학생의 입장에서 보면 각 챕터의 연관성은 


곧 공부의 흐름이기 때문에 중요하다고 생각한다. 이 목차가 각각의 연관성을 가지고 잘 배치가 


되어있다면 학생의 이해도는 높아져 정보의 흡수력이 높아질 것이다. 하지만 반대로 목차의 배치가 


연관성이 부족하게 배치가 되어있다면 이대로 공부했던 학생의 이해도는 떨어져 여러번 책을 


읽어봐야 할꺼 같다는 생각이 든다. 물론 책이 전체적으로 이상하다 그런게 아니라 각 목차들이 


관성이 조금 떨어지게 배치되었다는 것이다. 즉, 이 책은 초보자들에게는 약간 어려울 수 있다고


생각한다.


물론 내용은 아주아주 명쾌하고 하나하나 단어들의 설명이 자세해서 좋다. 


아래는 이 책의 목차이다.


1장. 개요 : 데이터 분석적 사고 방식
    1.1 데이터가 제공하는 무한한 기회 
    1.2 예 : 허리케인 프란시스 
    1.3 예제 : 고객 이탈 예측 
    1.4 데이터 과학, 데이터 공학, 데이터 주도 의사 결정 
    1.5 데이터 처리와 '빅 데이터' 
    1.6 빅 데이터 1.0에서 빅 데이터 2.0으로 
    1.7 전략적 자산으로서의 데이터 및 데이터 과학 능력 
    1.8 데이터 분석적 사고 
    1.9 이 책에 대하여 
    1.10 다시 보는 데이터 마이닝과 데이터 과학 
    1.11 데이터 과학과 데이터 과학자의 일은 화학과 시험관의 관계 
    1.12 요약 


2장. 비즈니스 문제와 데이터 과학 해결책
    2.1 비즈니스 문제에서 시작해 데이터 마이닝 작업으로 
    2.2 감독 방법과 자율 방법 
    2.3 데이터 마이닝과 그 결과 
    2.4 데이터 마이닝 프로세스 
    2.5 데이터 과학팀을 관리한다는 것은? 
    2.6 그 외 분석 기법 및 기술 
    2.7 요약 


3장. 예측 모델링 개요 : 연관성에서 감독 세분화까지
    3.1 모델, 유도, 예측 
    3.2 감독 세분화 
    3.3 세분화 과정의 시각화 
    3.4 규칙 집합으로서의 트리 
    3.5 확률 추정 
    3.6 사례 : 트리 유도로 고객 이탈 문제 해결하기 
    3.7 요약 


4장. 데이터에 대한 모델 적합화
    4.1 수학 함수를 통한 분류 
    4.2 수학 함수를 이용한 회귀 분석 
    4.3 계층 확률 추정과 로지스틱 회귀 분석 
    4.4 사례 : 로지스틱 회귀 분석과 트리 유도 비교 
    4.5 비선형 함수, 지원 벡터 기계, 신경망 
    4.6 요약 


5장. 과적합화 문제 해결
    5.1 일반화 
    5.2 과적합화 
    5.3 과적합화 검사 
    5.4 사례 : 선형 함수 과적합화 
    5.5 * 사례 : 왜 과적합화가 문제인가? 
    5.6 예비 데이터 평가에서 교차 검증까지 
    5.7 다시 모델링한 고객 이탈 문제 
    5.8 학습 곡선 
    5.9 과적합화 회피와 복잡도 제어 
    5.10 요약 


6장. 유사도, 이웃, 군집
    6.1 유사도와 거리 
    6.2 최근접 이웃 추론 
    6.3 유사도 및 이웃에 관한 주요 세부 사항 
    6.4 군집화 
    6.5 비즈니스 문제 해결과 데이터 탐사 문제 
    6.6 요약 


7장. 결정 분석적 사고 1 : 좋은 모델은?
    7.1 분류자 평가 
    7.2 모델 평가에 대한 일반적인 원리 
    7.3 핵심 분석 프레임워크 : 기댓값 
    7.4 평가, 기준선 성능, 데이터 투자의 영향 
    7.5 요약 


8장. 모델 성능 시각화
    8.1 분류 대신 서열화하기 
    8.2 수익 곡선 
    8.3 ROC 그래프와 곡선 
    8.4 ROC 곡선 하위 영역(AUC) 
    8.5 누적 응답 곡선과 향상도 곡선 
    8.6 예제 : 고객 이탈 모델링에 대한 성능 분석 
    8.7 요약 


9장. 증거와 확률
    9.1 예제 : 온라인 고객 광고 타겟팅 
    9.2 증거의 통계적 조합 
    9.3 데이터 과학에 베이즈 규칙 응용 
    9.4 증거 '향상도' 모델 
    9.5 예제 : 페이스북 '좋아요'의 증거 향상도 
    9.6 요약 


10장. 텍스트 표현 및 마이닝
    10.1 텍스트가 중요한 이유 
    10.2 텍스트가 어려운 이유 
    10.3 텍스트 표현법 
    10.4 예제 : 재즈 음악가 
    10.5 * IDF와 엔트로피의 관계 
    10.6 단어 주머니보다 복잡한 표현들 
    10.7 예제 : 주가 변동을 예측하기 위한 뉴스 기사 마이닝 
    10.8 요약 


11장. 결정 분석적 사고 2 : 분석 공학
    11.1 자선 단체 후원할 가능성이 높은 후원자 타겟팅 
    11.2 훨씬 더 복잡한 고객 이탈 문제 
    11.3 요약 


12장. 기타 데이터 과학 작업과 기법
    12.1 동시 발생과 연관성의 발견 
    12.2 프로파일링 : 전형적인 행동의 발견 
    12.3 연결 예측과 친구 추천 
    12.4 데이터 축소, 잠재 정보, 영화 추천 
    12.5 편중, 편차, 조합 기법 
    12.6 데이터 주도 인과 관계 설명과 바이럴 마케팅 예제 
    12.7 요약 


13장. 데이터 과학과 비즈니스 전략
    13.1 돌아온 데이터 분석적 사고 
    13.2 데이터 과학으로 경쟁 우위 획득 
    13.3 데이터 과학으로 경쟁 우위 유지 
    13.4 데이터 과학자 및 팀의 영입과 육성 
    13.5 데이터 과학 사례 연구 조사 
    13.6 모든 창조적인 아이디어의 수용 
    13.7 데이터 과학 프로젝트 제안서 평가 
    13.8 기업의 데이터 과학 성숙도 


14장. 결론
    14.1 데이터 과학의 기본 개념 
    14.2 데이터가 할 수 없는 일 : 사람이 중심에 
    14.3 개인 정보 보호, 윤리, 데이터 마이닝 
    14.4 데이터 과학에 대한 남은 이야기 
    14.5 마지막 사례 : 크라우드 소싱에서 클라우드 소싱으로 
    14.6 책을 마치며 


부록 A.1 제안서 검토 가이드
부록 A.2 또 다른 제안서 예제

부록 A.3 용어 정리 

 

내용면으로 봐서는 너무나 이책은 자세하다. 용어 하나하나에 대한 정의와 설명이 세세하게 잘 되어있다. 마치 용어사전을 보는 것 같이 정의와 쓰임세들이 잘 나와있다. 아래의 그림과 같이 친절하게 하나하나 설명이 나와있는 것을 볼 수 있다.





이 책에서 아쉬운 점이 하나 더 있다. 처음부터 끝까지 약간 딱딱한 느낌이 든다. 많은 수식과 모델링 


개념들 그리고 다양한 유사도 비교를 포함한 알고리즘들에 대해선 설명이 잘 되어있다. 하지만 이런 


개념들로만 끝나있다. 실제 약간의 소스들을 이용한 구현부분이나 활용된 사례들이 좀 들어가 있다면 


보기 좋지 않을까라는 생각이 든다. 



필자는 중간쯤 읽다가 내가 수학책을 읽고 있는 것인지 헤깔리기도 


헀다..;; 아마 비즈니스라는 단어가 제목에 들어갔기 때문에 이렇게 딱딱한 느낌이 들게 만들지 않았나 


라는 생각도 들었다.





아!! 그리고 처음부터 끝까지 흑백이다. 조금 컬러풀하게 나와도 되는 부분에서도 흑백이라서 눈은 

즐겁지 못하다.


하지만 이 책은 데이터 분석 개념서로써 많은 마이닝 알고리즘들에 대해서 다루지는 못했지만 각각의 


기본 개념 설명은 아주 충실하다. 표과 설명을 위한 그림도 충실히 들어가 있기 때문에 어느정도 데이터 


분석에 대한 기본 개념이 있는 사람이라면 한번쯤 읽어봐도 좋을꺼 같다. 






 서평을 마치고..

위에서 언급했던 이 책의 장점과 단점을 나열하자면 아래와 같다.


[장점]

- 용어 하나하나에 대한 정의와 설명이 세세하게 잘 되어있다. 마치 용어사전을 보는 것 

  같이 정의와 쓰임세들이 잘 나와있다.


- 데이터 분석 개념서로써 많은 마이닝 알고리즘들에 대해서 다루지는 못했지만 각각의 

  기본 개념 설명은 아주 충실하다.


표과 설명을 위한 그림도 충실히 들어가 있기 때문에 어느정도 데이터 분석에 대한 기본

   개념이 있는 사람이라면 한번쯤 읽어봐도 좋을꺼 같다.



[단점]

각 목차들이 연관성이 조금 떨어지게 배치되어 데이터 분석을 처음 접하는 사람에게는 

   전체적으로 이해가 어려울 수 있다.


조금 컬러풀하게 나와도 되는 부분에서도 흑백이라서 눈은 즐겁지 못하다. 게다가 수식이 

   많아서 그런지 조금 지루하고 딱딱하게 느낄수 있다. 



이로써 이책의 리뷰를 마치고자 한다. 필자는 보안전공이다. 하지만 데이터 분석이라는 분야는 


데이터를 항상 다루고 접하는 모든 연구원들이라면 알아두어야 하는 내용이라 생각한다. 


그런 의미에서 막 데이터 분석 공부에 빠진 사람들에게 이 책은 자신의 지식을 좀더 촘촘히


다듬어서 빈틈이 없게 만들어줄 마감재 역할을 해줄 것이라 생각한다.









반응형