×
Crocus
공부한 내용을 정리하는 블로그로 시작한
Crocus는 2014년 1월 14일 부터 시작하여
현재 월 6만명, 총 1,499,763명의 방문자 수를 기록하고 있습니다.
Donation
이제 많은 사용자들이 이용하는 만큼
더 다양한 서비스 개발/제공을 위해 후원금을 모금하고자 합니다.
후원을 해주시는 분들은 Donators 명단에 성명, 후원금을 기입해드리며
Crocus 블로그가 아닌 다른 곳에 정리해둔 저만의 내용을 공유해 드리고자 합니다.
Account
예금주 : 고관우
신한은행 : 110-334-866541
카카오뱅크 : 3333-01-7888060

👉 후원 페이지 바로가기 Donators
익명 : 5000원(Crocus응원합니다.)
busyhuman: 5000원(유용한 지식 감사합니다.)
익명 : 5000원(알고리즘 학습러)

http://www.dodomira.com/2016/05/29/564/

위의 블로그에서 의사 결정트리 및 프루닝에 관해 잘 설명해주셔서 필자는 그냥 코딩한 것들을 올려보고자 한다.



German credit 데이터를 이용하여 의사 결정트리 생성 및 프루닝을 다뤄본다.


GermanCredit.csv

 


1
2
3
4
5
6
7
8
9
10
11
12
13
df <- read.csv('C:/Users/kkw56/Documents/R/GermanCredit.csv', header = TRUE, stringsAsFactors = FALSE, na.strings="")
 
tmp <- factor()
for(i in 1:length(df$RESPONSE)){
    if(df$RESPONSE[i] == 1){
        tmp <- c(tmp, "YES")
    }
    else{
        tmp <- c(tmp, "NO")
    }
}
 
df$RESPONSE <- as.factor(tmp)
cs


df의 RESPONSE를 factor로 바꾸어 진행한다.(의사 결정 트리에 이용하기 위해)



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
library(caret)
 
set.seed(55)
 
intrain <- createDataPartition(y = df$RESPONSE, p = 0.8, list = FALSE)
 
train <- df[intrain,]
test <- df[-intrain,]
 
library(tree)
treemod <- tree(RESPONSE~. , data = train)
plot(treemod)
text(treemod)
 
treepred <- predict(treemod, test, type='class')
confusionMatrix(treepred, test$RESPONSE)
 
cs


train에는 intrain에 있는 값들을 넣어주고 test에는 intrain에 없는 값들을 넣어준다.

즉, df$RESPONSE의 80퍼센트가 train에 들어가게 되고 20퍼센트가 test에 들어가게 된다.


그리고 의사결정트리를 생성해주고 마지막 treepred부분에서 현재 의사결정트리가 가지는 정확도등등을 받을 수 있다.


1
2
3
4
5
6
7
8
9
10
# 프루닝 과정
cv.trees <- cv.tree(treemod, FUN=prune.misclass)
plot(cv.trees)
 
prune.trees <- prune.misclass(treemod, best=4)
plot(prune.trees)
text(prune.trees, pretty=0)
 
treepred <- predict(prune.trees, test, type='class')
confusionMatrix(treepred, test$RESPONSE)
cs


위의 과정을 프루닝한 그래프를 보면 4일때가 최상이고 프루닝 후 의사결정트리 및 정확도를 파악할 수 있다.





프루닝 후 결과가 좀더 향상된 것을 알 수 있다.