본문 바로가기

[책이야기]/[도서리뷰]

[Review] 데이터과학 입문: 구글, MS, 이베이 데이터과학자에게 배우다



데이터과학 입문: 구글, MS, 이베이 데이터과학자에게 배우다

(레이철 슈트, 캐시 오닐 지음 | 윤영민, 허선, 전희주, 김정일, 류자현 역)



"데이터과학 입문"이라는 이 책에 대해..

   이 책은 표지에서도 나와있지만 컬럼비아 대학교 데이터과학 대학원 수업에서 교재로 사용된 서적으로 이 책의 서평에 나와있었다. 사실 이전에도 이 책의 출판 소식을 보면서 내심 이 책에 많은 기대를 가지고 필자의 손에 들어오기만을 기다렸다. 막상 받아보니 기대에 못 미친 것도 있고 기대이상인 인 부분도 있었다. 그리고 끝까지 읽어보면서 책의 내용과 나의 공부방향에 대해 많은 생각을 가지게 해준 책이였다. 이제 이 책을 차근차근 리뷰해보도록 하자.



"데이터과학 입문"

   먼저 목차를 보면 아래와 같다.


CHAPTER 1 소개: 데이터과학이란 무엇인가?
    1.1 빅데이터와 데이터과학 열풍
    1.2 열풍을 넘어서
    1.3 왜 지금?
    1.4 현재의 풍경(약간의 역사와 함께)
    1.5 데이터과학 프로필
    1.6 사고 실험: 메타 정의
    1.7 데이터과학자는 정말로 어떤 직업인가?


CHAPTER 2 통계적 추론, 탐색적 데이터분석과 데이터과학 과정
    2.1 빅데이터 시대의 통계적 사고
    2.2 탐색적 데이터분석
    2.3 데이터과학 과정
    2.4 사고 실험: 여러분은 혼돈을 어떻게 시뮬레이션할 것인가?
    2.5 사례 연구: 리얼다이렉트


CHAPTER 3 알고리즘
    3.1 기계학습 알고리즘
    3.2 세 가지 기본 알고리즘
    3.3 연습문제: 기본적인 기계학습 알고리즘들
    3.4 전체 요약
    3.5 사고 실험: 통계로봇


CHAPTER 4 스팸 필터, 나이브베이즈, 경합
    4.1 사고 실험: 예제로 배우기
    4.2 나이브베이즈
    4.3 좀 더 멋있게: 라플라스 평활
    4.4 나이브베이즈와 k-NN의 비교
    4.5 코드 예시
    4.6 웹스크래핑: 기사분류를 위한 나이브베이즈

CHAPTER 5 로지스틱 회귀
    5.1 사고 실험
    5.2 분류기
    5.3 M6D 로지스틱 회귀 사례연구
    5.4 Media 6 Degrees 연습문제

CHAPTER 6 시간기록과 금융 모형화
    6.1 카일 티그와 티비태그
    6.2 시간기록
    6.3 캐시 오닐
    6.4 사고 실험
    6.5 금융 모형화
    6.6 연습문제: 티비태그와 시간기록 사건 데이터

CHAPTER 7 데이터에서 의미 추출하기
    7.1 윌리엄 커키어스키
    7.2 캐글모형
    7.3 사고 실험: 로봇 평가자의 윤리적 함축성은 무엇인가?
    7.4 특징 선택
    7.5 데이비드 허페이커: 사회연구에 대한 구글의 하이브리드 접근법

CHAPTER 8 추천 엔진: 대규모 사용자 대면 데이터 상품
    8.1 현실 세계의 추천 엔진
    8.2 사고 실험: 필터 버블
    8.3 연습문제: 추천 시스템 만들기

CHAPTER 9 데이터 시각화와 사기 탐지
    9.1 데이터 시각화의 역사
    9.2 다시 한 번, 데이터과학이란 무엇인가?
    9.3 데이터 시각화 프로젝트의 사례
    9.4 마크의 데이터 시각화 프로젝트
    9.5 데이터과학과 위험
    9.6 스퀘어 사의 데이터 시각화
    9.7 이언의 사고 실험
    9.8 참고사항

CHAPTER 10 소셜네트워크와 데이터 저널리즘
    10.1 모닝사이드 애널리틱스에서의 소셜네트워크 분석
    10.2 소셜네트워크 분석
    10.3 소셜네트워크의 용어들
    10.4 사고 실험
    10.5 모닝사이드 애널리틱스
    10.6 통계적 관점으로 본 소셜네트워크 분석의 배경
    10.7 데이터 저널리즘

CHAPTER 11 인과성
    11.1 상관은 인과관계를 함축하지는 않는다
    11.2 OK 큐피트의 시도
    11.3 황금 기준: 확률적 임상실험
    11.4 A/B 검정
    11.5 차선책: 관찰적 연구
    11.6 세 가지의 조언

CHAPTER 12 역학
    12.1 매디건의 배경
    12.2 사고 실험
    12.3 현대 학술 통계학
    12.4 의학 문헌과 관찰 연구
    12.5 계층화는 교란변수 문제를 해결하지 않는다
    12.6 더 나은 방법은 없을까?
    12.7 연구 실험
    12.8 사고 실험을 마치며

CHAPTER 13 데이터경진대회의 교훈 : 데이터 누출과 모형 평가
    13.1 클라우디아의 데이터과학자 프로필
    13.2 데이터마이닝 경진대회
    13.3 좋은 모형 개발자가 되는 방법
    13.4 데이터 누출
    13.5 누출을 피하는 방법
    13.6 모형 평가하기
    13.7 알고리즘 선택
    13.8 마지막 예
    13.9 사고를 나누기

CHAPTER 14 데이터엔지니어링: 맵리듀스, 프리젤, 하둡
    14.1 데이비드 크로셔에 대해
    14.2 사고 실험
    14.3 맵리듀스
    14.4 단어빈도수 문제
    14.5 맵리듀스의 다른 예
    14.6 프리젤
    14.7 조시 윌스에 대해
    14.8 사고 실험
    14.9 데이터과학자가 된다는 것
    14.10 경제성 살펴보기: 하둡
    14.11 다시 조시에게: 워크플로
    14.12 하둡을 시작하려면?

CHAPTER 15 수업에 대한 학생들의 소감
    15.1 과정적 사고
    15.2 더 이상 순진하지 않다
    15.3 도와주기
    15.4 여러분의 마일리지는 다를 수 있다
    15.5 다리와 터널을 잇는 길들
    15.6 우리 작업의 일부

CHAPTER 16 차세대 데이터과학자, 교만, 그리고 윤리
    16.1 지금까지 무엇을 학습했는가?
    16.2 다시 한 번, 데이터과학이란 무엇인가?
    16.3 차세대 데이터과학자란?
    16.4 윤리적인 데이터과학자 되기
    16.5 경력에 관한 조언

 위의 차례들만 보아도 저자분이 학생들에게 어떤 내용들을 가르쳐주고 싶은지 얼마나 다양하고 많은 내용들을 담고자 했는지를 알 수 있다. 그리고 책의 내용들 살펴보자면 책을 몇 장 넘겨보면 역자와 필자의 말들이 나오고, 이후에 학습자를 위한 가이드가 아래와 같이 나온다.



  위의 사진과 같이 이 책의 내용, 목표 그리고 책을 읽는 방법 등과 같이 학습자를 위한 내용들이 나와있다. 그런데 책을 읽다보면 이 뿐만이 아니라 학습자를 위한 다양한 부가적인 정보들과 내용들이 다양하다. 주제에 대한 연습문제와 용어 설명, 사례 연구 등 학습자의 이해를 돕기 위한 정보들을 많이 책 내용에 넣어두었다.



 필자도 읽는 내내 이런 내용들을 접하면서 해당 주제에 대해 좀 더 이해를 하기가 쉬웠었다. 확실히 이 책의 주제들은 하나같이 데이터 과학에 대한 입문자들이 보기에는 어려운 내용들이 많다. 하지만 저자는 이런 어려운 주제들을 접했을 때 학습자가 쉽게 지치거나 포기하지 않도록 재미있고 부가적인 내용들을 추가함으로써 이해도를 높이고자 노력했다는 것이 책을 읽으면서 느껴졌다.



  하지만 읽으면서 알고리즘이나 특정 사례에 대한 설명들이 어렵거나 약간 부족하게 느껴졌다. 게다가 아래와 같은 연습문제를 포함한 다양한 지문에서 제시된 예제 코드들의 설명이 부족하거나 아예 설명이 없고 소스 내 주석만 있는 경우가 많았다. 또한 예제 코드들이 어떤 때는 R 언어로 되어있거나 파이썬 혹은 쉘 코드로 짜여져 있어서 이런 언어들에 대한 기본이 부족한 학습자가 볼 경우 이해가 어려울 수 있다는 단점이 존재할 것 같았다. 



  이외에 이런 단점들을 제외하면 이 책은 정말 데이터 과학에 대한 전반적인 이론적 내용들을 충실히 다루었다고 생각하며, 이 책을 접하며 데이터 과학을 공부하는 학습자들을 배려하는 부가적인 내용들이 많아 데이터 과학 분야의 교과서라는 이름이 아깝지 않다는 생각을 개인적으로 가졌었다. 



리뷰를 마치며..

  위에서 언급했던 장/단점들을 나열하면 아래와 같다. 

[장점]

- 학습자를 위한 가이드가 잘 나와있고, 내용 역시 데이터 과학에 대한 알고리즘부터 관련 사례정보, 하둡까지 다양하게 나와있다.

- 연습문제와 사고실험, 사례연구 등 학습자의 이해를 돕기위한 부가적인 정보들이 많다.


[단점]

- 연습문제를 포함한 다양한 지문에 나오는 코드들에 대해 문법적으로나 내용적으로 설명이 부족하다.

- 파이썬, R, 쉘코드 등 한가지의 언어가 아닌 다양한 언어들이 예문으로 나와 이런 언어들의 기본이 부족한 학습자가 볼 경우 이해가 어렵다.

- 일부 알고리즘이나 주제에 대한 설명들이 약간 부족하거나 어렵게 나와있는 것들이 있다.







반응형