R 과 데이터분석/[활용] 공동주택 가격 분석

[R 데이터분석] 공동주택 가격현황분석 - (4) 교차분석

JoyfulS 2019. 11. 28. 16:43

 

R을 이용해 공동주택 가격에 대한 통계분석을 시도해보았습니다.

이번 게시물에서는

 

1. 공동주택에 대한 설명

2. 사용한 데이터에 대한 소개

3. 데이터 전처리

4. EDA

5. 가격의 통계분석

6. 교차분석

7. 추가상관분석 & 회귀분석

 

에 대해 다뤄보겠습니다.

 

 

>> 이전 게시물

[R 데이터분석] 공동주택 가격현황분석 - (3) EDA 및 통계분석

 

>> 사용 데이터 파일은 다음 링크를 통해 다운 받으실 수 있습니다.

https://drive.google.com/file/d/1DzOminjLAGnGlEPIj7RkbtYG_U3VMO3y/view?usp=sharing

 

 


##########################
##  교차분석 (지역 & 건축년대)
##########################

 

 

CrossTable(x=gd1$시도명, y=gd1$건축년대, chisq = T) 

CrossTable 출력결과

# 핵심정보 요약 
#               1930 |      1960 |      1970 |      1980 |      1990 |      2000 |      2010 | 
# 서울특별시   0.000 |     0.289 |     0.390 |     0.290 |     0.156 |     0.210 |     0.177 |   
# 부산광역시   0.000 |     0.620 |     0.205 |     0.073 |     0.062 |     0.065 |     0.115 |  

 

# 1970년대에 건축된 주택 중 약 39%가 서울에 위치하므로,

# 1970년대 서울시 내에 건축된 건물들 '구' 단위로 살펴보자!! (비싼 지역 확인)

 

length(gd1_서울$시군구명) 


par(mfrow = c(2,1)) 

gd1_서울 <- filter(gd1, 시도명=="서울특별시") 

CrossTable(x=gd1_서울$시군구명, y=gd1_서울$건축년대) 

gd1_서울1970 <- filter(gd1_서울, gd1_서울$건축년대 == 1970) 

gd1_서울1970_mean <- tapply(gd1_서울1970$보증금,gd1_서울1970$시군구명,mean) 
gd1_서울1970_mean <- sort(gd1_서울1970_mean, decreasing = T) 
gd1_서울1970_mean 
barplot(gd1_서울1970_mean, 
        col = rainbow(20), 
        ylim = c(0,120200), 
        xlab = "서울 시군구명", ylab="가격(만원)", 
        main="서울 1970년대 건축된 주택의 시군구별 가격 평균") 


gd1_서울_mean <- tapply(gd1_서울$보증금,gd1_서울$시군구명,mean) 
gd1_서울_mean <- sort(gd1_서울_mean, decreasing = T) 
gd1_서울_mean 
barplot(gd1_서울_mean, 
        col = rainbow(20), 
        ylim = c(0,120200), 
        xlab = "서울 시군구명", ylab="가격(만원)", 
        main="서울 주택의 시군구별 가격 평균") 

 



# 서울을 제외한, 건축년대별 가격 평균 

gd1_서울외 <- filter(gd1, 시도명!="서울특별시") 

byear_mean_1_서울외 <- tapply(gd1_서울외$보증금,gd1_서울외$건축년대,mean) 
byear_mean_1_서울외 <- sort(byear_mean_1_서울외, decreasing = T) 
byear_mean_1_서울외 
barplot(byear_mean_1_서울외, 
        col = c('orangered', 'seagreen', 'royalblue'), 
        ylim = c(0,40000), 
        xlab = "건축년대", ylab="가격(만원)", 
        main = "서울을 제외한 '매매'의 건축년대별 가격 평균")

 

 

 

 

 

##########################
##  교차분석 (평수 & 건축년대)
##########################

# 연대별로 건축 당시 선호했던 평수가 있을까?


# 1) 교차분할표 생성  
table(gd1$건축년대, gd1$평형분류) # 빈도보기

# 2) package를 이용한 교차분할표 생성
install.packages("gmodels") # gmodels 패키지 설치
library(gmodels) # CrossTable() 함수 사용

CrossTable(x=gd1$건축년대, y=gd1$평형분류, chisq = T)

 



 

 

 

>> 다음 게시물

[R 데이터분석] 공동주택 가격현황분석 - (5) 상관, 회귀분석