반응형

http://www.dodomira.com/2016/05/29/564/

위의 블로그에서 의사 결정트리 및 프루닝에 관해 잘 설명해주셔서 필자는 그냥 코딩한 것들을 올려보고자 한다.



German credit 데이터를 이용하여 의사 결정트리 생성 및 프루닝을 다뤄본다.


GermanCredit.csv

 


1
2
3
4
5
6
7
8
9
10
11
12
13
df <- read.csv('C:/Users/kkw56/Documents/R/GermanCredit.csv', header = TRUE, stringsAsFactors = FALSE, na.strings="")
 
tmp <- factor()
for(i in 1:length(df$RESPONSE)){
    if(df$RESPONSE[i] == 1){
        tmp <- c(tmp, "YES")
    }
    else{
        tmp <- c(tmp, "NO")
    }
}
 
df$RESPONSE <- as.factor(tmp)
cs


df의 RESPONSE를 factor로 바꾸어 진행한다.(의사 결정 트리에 이용하기 위해)



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
library(caret)
 
set.seed(55)
 
intrain <- createDataPartition(y = df$RESPONSE, p = 0.8, list = FALSE)
 
train <- df[intrain,]
test <- df[-intrain,]
 
library(tree)
treemod <- tree(RESPONSE~. , data = train)
plot(treemod)
text(treemod)
 
treepred <- predict(treemod, test, type='class')
confusionMatrix(treepred, test$RESPONSE)
 
cs


train에는 intrain에 있는 값들을 넣어주고 test에는 intrain에 없는 값들을 넣어준다.

즉, df$RESPONSE의 80퍼센트가 train에 들어가게 되고 20퍼센트가 test에 들어가게 된다.


그리고 의사결정트리를 생성해주고 마지막 treepred부분에서 현재 의사결정트리가 가지는 정확도등등을 받을 수 있다.


1
2
3
4
5
6
7
8
9
10
# 프루닝 과정
cv.trees <- cv.tree(treemod, FUN=prune.misclass)
plot(cv.trees)
 
prune.trees <- prune.misclass(treemod, best=4)
plot(prune.trees)
text(prune.trees, pretty=0)
 
treepred <- predict(prune.trees, test, type='class')
confusionMatrix(treepred, test$RESPONSE)
cs


위의 과정을 프루닝한 그래프를 보면 4일때가 최상이고 프루닝 후 의사결정트리 및 정확도를 파악할 수 있다.





프루닝 후 결과가 좀더 향상된 것을 알 수 있다.

반응형