본문 바로가기
R 과 데이터분석/기초 문법 ~ 머신러닝

[R 데이터분석] 10장. 통계분석절차와 통계지식

by JoyfulS 2019. 9. 13.

# chap10_Hypothesis_Test

 

# 통계분석절차와 통계지식

 

 

 

# 통계분석 절차 (feat. 논문/보고서 작성을 위한 통계분석 절차)

 - 연구조사 -> 가설 설정 -> 유의수준 결정 -> 측정도구 선정 -> 데이터 수집 -> 데이터 코딩/프로그래밍 -> 통계분석 수행(R,SPSS,SAS 등 활용)

 

0. 연구조사

 - 연구문제 선정 : 연구의 독창성, 검증가능성, 결과의 실용성, 구체성, 경제성(소요비용, 노력) 등을 선정 기준으로 삼음

 - 예비조사 : 연구 문제에 대한 사전 지식 획득, 변수 규명, 가설 도출 등을 위해 실시하는 조사(문헌조사, 전문가 조사, 사례 조사 등)

 - 연구모형 : 연구문제에서 개념과 변수를 식별하는 과정으로 독립변수와 종속변수 형태로 기술

 

1. 가설 설정

 - 가설(Hypothesis) : 어떤 사건을 설명하기 위한 가정  

 - 가설의 유형 : 귀무가설(영가설) : '두 변수는 관계가 없다/ 차이가 없다'와 같은 부정적 형태의 진술

                     연구가설(대립가설) : '두 변수 사이에는 차이가 있다/ 효과가 있다'와 같은 긍정적 형태의 진술

 

2. 유의수준과 임계값 결정

 - 사회과학분야 임계값 : 알파 = 0.05 ( p < 0.05, 95% 신뢰도)

 - 의생명분야 임계값 : 알파 = 0.01 ( 99% 신뢰도 )

 - 유의수준(Significant level) : 가설 채택 또는 기각 기준 (분석 결과가 유의수준 이내 -> 가설 채택)

 - p값 < 알파 : 연구가설 채택 (귀무가설 기각)

 - p값 >= 알파 : 연구가설 기각 (귀무가설 채택)

 - 단정적 표현은 금지!  ex) p<0.01 이면 통계적으로 매우 유의하다/ p<0.05 이면 통계적으로 유의적인 차이를 보인다.

 

3. 측정도구 선정

 - 가설에 나오는 변수를 무엇으로 측정할 것인가? 변수 추출 -> 변수의 척도를 고려하여 측정도구 선정!

 

4. 데이터 수집

 - 선정된 측정도구를 이용하여 설문 문항 작성(설문지 작성), 조사응답자 대상 설문 실시 & 회수

 - 정형/비정형 데이터 수집(DB, Web, SNS 등)

 

5. 데이터(설문지) 코딩

 - 통계분석 프로그램(Excel, R, SPSS, SAS 등)에 데이터 입력

 - 데이터 전처리(미응답자, 잘못된 데이터 등 처리)

 

6. 통계분석 수행

 - 전문 통계분석 프로그램(R, SPSS, SAS) 분석 단계

 - 통계분석 방법을 계획하지 않고 데이터를 수집할 경우 실패 확률 높음

 

7. 결과분석

 - 연구목적과 연구가설에 대한 분석 및 검증 단계

 - 인구통계학적 특성 반영

 - 주요 변인에 대한 기술통계량 제시

 - 연구가설에 대한 통계량 검정 및 해석

 - 연구자 의견 기술(논문/보고서 작성)

 

-----------------------------------------------------------------------------------------------------------------------------

 

# 통계 사전 지식

 

1. 통계학이란?

 - 논리적 사고와 객관적인 사실에 의거하여 확률 기반 인과관계를 규명

 - 특히 연구목적에 의해 설정된 가설들에 대하여 분석결과가 어떤 결과를 뒷받침하고 있는지를 통계적 방법으로 검정

 - 사회학, 경제학, 경영학, 정치학, 교육학, 공학, 의생명 등 대부분의 모든 학문 분야에서 폭넓게 이용

 

2. 모집단과 표본

 - 전수조사 : 모집단 내에 있는 모든 대상 조사 (ex. 인구조사), 모집단의 특성 정확히 반영, but 시간과 비용 많이 소모되는 단점...

 - 표본조사 : 모집단으로부터 추출된 표본을 대상으로 분석 (ex. 선거 여론조사, 마케팅조사, 안전성 검사), 모집단의 특성을 반영하지 못하는 표본은 무용지물

 

3. 추정과 검정

 - 통계적 추정 : 모집단의 특성을 대표하는 표본 추출 -> 표본을 이용해 모집단의 특성을 나타내는 각종 모수를 예측

 - 검정(test) : 표본에 의해서 구해진 통계량으로 가설 채택/기각하는 과정  

 - 추정 방법  
   1) 점 추정 : 제시된 한 개의 값과 검정통계량을 직접 비교하여 가설 기각유무를 결정  
    ex) 우리나라 중학교 2학년 남학생 평균키는 165.2cm로 추정 
   2) 구간 추정 : 신뢰구간과 검정통계량을 비교하여 가설 기각유무 결정  
     신뢰구간 : 오차범위에 의해서 결정된 하한값과 상한값의 범위  
    ex) 우리나라 중학교 2학년 남학생 평균키는 164.5 ~ 165.5cm로 추정 




+ 추가 내용 필요

댓글