[R 데이터분석] 공동주택 가격현황분석 - (4) 교차분석
R을 이용해 공동주택 가격에 대한 통계분석을 시도해보았습니다.
이번 게시물에서는
1. 공동주택에 대한 설명
2. 사용한 데이터에 대한 소개
3. 데이터 전처리
4. EDA
5. 가격의 통계분석
6. 교차분석
7. 추가상관분석 & 회귀분석
에 대해 다뤄보겠습니다.
>> 이전 게시물
[R 데이터분석] 공동주택 가격현황분석 - (3) EDA 및 통계분석
>> 사용 데이터 파일은 다음 링크를 통해 다운 받으실 수 있습니다.
https://drive.google.com/file/d/1DzOminjLAGnGlEPIj7RkbtYG_U3VMO3y/view?usp=sharing
##########################
## 교차분석 (지역 & 건축년대)
##########################
CrossTable(x=gd1$시도명, y=gd1$건축년대, chisq = T)
# 핵심정보 요약
# 1930 | 1960 | 1970 | 1980 | 1990 | 2000 | 2010 |
# 서울특별시 0.000 | 0.289 | 0.390 | 0.290 | 0.156 | 0.210 | 0.177 |
# 부산광역시 0.000 | 0.620 | 0.205 | 0.073 | 0.062 | 0.065 | 0.115 |
# 1970년대에 건축된 주택 중 약 39%가 서울에 위치하므로,
# 1970년대 서울시 내에 건축된 건물들 '구' 단위로 살펴보자!! (비싼 지역 확인)
length(gd1_서울$시군구명)
par(mfrow = c(2,1))
gd1_서울 <- filter(gd1, 시도명=="서울특별시")
CrossTable(x=gd1_서울$시군구명, y=gd1_서울$건축년대)
gd1_서울1970 <- filter(gd1_서울, gd1_서울$건축년대 == 1970)
gd1_서울1970_mean <- tapply(gd1_서울1970$보증금,gd1_서울1970$시군구명,mean)
gd1_서울1970_mean <- sort(gd1_서울1970_mean, decreasing = T)
gd1_서울1970_mean
barplot(gd1_서울1970_mean,
col = rainbow(20),
ylim = c(0,120200),
xlab = "서울 시군구명", ylab="가격(만원)",
main="서울 1970년대 건축된 주택의 시군구별 가격 평균")
gd1_서울_mean <- tapply(gd1_서울$보증금,gd1_서울$시군구명,mean)
gd1_서울_mean <- sort(gd1_서울_mean, decreasing = T)
gd1_서울_mean
barplot(gd1_서울_mean,
col = rainbow(20),
ylim = c(0,120200),
xlab = "서울 시군구명", ylab="가격(만원)",
main="서울 주택의 시군구별 가격 평균")
# 서울을 제외한, 건축년대별 가격 평균
gd1_서울외 <- filter(gd1, 시도명!="서울특별시")
byear_mean_1_서울외 <- tapply(gd1_서울외$보증금,gd1_서울외$건축년대,mean)
byear_mean_1_서울외 <- sort(byear_mean_1_서울외, decreasing = T)
byear_mean_1_서울외
barplot(byear_mean_1_서울외,
col = c('orangered', 'seagreen', 'royalblue'),
ylim = c(0,40000),
xlab = "건축년대", ylab="가격(만원)",
main = "서울을 제외한 '매매'의 건축년대별 가격 평균")
##########################
## 교차분석 (평수 & 건축년대)
##########################
# 연대별로 건축 당시 선호했던 평수가 있을까?
# 1) 교차분할표 생성
table(gd1$건축년대, gd1$평형분류) # 빈도보기
# 2) package를 이용한 교차분할표 생성
install.packages("gmodels") # gmodels 패키지 설치
library(gmodels) # CrossTable() 함수 사용
CrossTable(x=gd1$건축년대, y=gd1$평형분류, chisq = T)
>> 다음 게시물
[R 데이터분석] 공동주택 가격현황분석 - (5) 상관, 회귀분석