본문 바로가기
Study/머신러닝

[1-1] 의사 결정 나무

by 투말치 2020. 7. 10.

목차

    반응형

     

    - 의사 결정 나무 : 지도 학습의 분류에 해당하는 모델로, 연속적인 질문을 통해 예측 결과를 제공하는 예측 모델

    - 지도 학습 : 정답을 알려주고 학습하게 하는 것. 과거의 데이터를 가지고 미래의 사건을 예측해야 할 때 주로 사용된다. 

    - 지도 학습의 절차 : 학습 데이터에서 특징 추출 -> 라벨 값(정답 데이터)이 추가되어 모델 학습

     

    *의사 결정 나무의 알고리즘

     

    1. CART

    - 지니 계수 or 분산 감소량을 기준으로 데이터를 분류하는 알고리즘

    - 두 개의 가지로만 분할한다.

     

    1-1. 지니 계수란?

    - 경제적 불평등을 계수화한 것

    - 완전 평등하면 0, 완전 불평등하다면 1값을 가진다.

    - 의사 결정 나무는 같은 특징을 가지는 데이터끼리 (비슷한 데이터) 묶으면서 분류해야한다. 그러면 지니 계수는 분류 과정에서 어떻게 사용될까?

    => 결론을 먼저 말하자면, 의사결정나무는 지니 계수가 높은 속성을 기준으로 분할한다

    그렇다면 왜 지니 계수가 높은 속성을 기준으로 분할하는가?

    지니 계수가 높다는 것은 비슷하지 않은 데이터들이 함께 있다는 의미라서 지니 계수가 높은 속성을 기준으로 분할하는 것이다. 지니 계수가 낮으면 비슷한 데이터끼리 모여있는 것이니 굳이 그걸 기준으로 나눌 필요가 없다. 

     지니 계수가 높은 속성을 기준으로 분할한다는 것지니 계수가 낮을 수록 잘 한 분류라는 것이 다른 말이라는 것을 기억하자. 

     

     

    2. C4.5

    - gain ratio가 최대인 Attribute를 선택해서 해당 기준으로 분류한다.

    - CART와 다르게 세 개의 가지로 분할이 가능하다.

    - GainRatio(A) = InfoGain(A)/SplitInfo(A)

     

    2-1. 정보이득(InfoGain)이란?

    - 자식노드의 데이터 불순도가 작을수록 커지는 값

    - 불순도가 작을 수록 잘 한 분류이기 때문에 정보이득이 최대가 되는 속성을 기준으로 분류한다.

    - 정보이득 = 분기이전엔트로피 - 분기이후엔트로피

    - 엔트로피가 1이면 불순도가 최대(데이터가 반반존재), 0이면 불순도가 최소(하나의 데이터만 존재)라는 뜻이다.

     

     

     

     

     

     

     

     

    참고자료

    https://hororolol.tistory.com/347

     

    [Data Mining] Ch4. Classification: Basic concepts, Decision trees, and Model evaluation (2)

    Gini Index (IBM intelligent miner) 어떤 노드에 대응되는 트레이닝 데이터의 불순도의 정도를 측정하는 지표 이 값이 크면 불순도가 큰 것. 즉, 이 값이 작을수록 분류를 잘했다고 판단 가능 [부모의 gini

    hororolol.tistory.com

    책 : 실무가 훤히 보이는 머신러닝 & 딥러닝(마창수 · 최재철)

    반응형