# chap10_Hypothesis_Test
# 통계분석절차와 통계지식
# 통계분석 절차 (feat. 논문/보고서 작성을 위한 통계분석 절차)
- 연구조사 -> 가설 설정 -> 유의수준 결정 -> 측정도구 선정 -> 데이터 수집 -> 데이터 코딩/프로그래밍 -> 통계분석 수행(R,SPSS,SAS 등 활용)
0. 연구조사
- 연구문제 선정 : 연구의 독창성, 검증가능성, 결과의 실용성, 구체성, 경제성(소요비용, 노력) 등을 선정 기준으로 삼음
- 예비조사 : 연구 문제에 대한 사전 지식 획득, 변수 규명, 가설 도출 등을 위해 실시하는 조사(문헌조사, 전문가 조사, 사례 조사 등)
- 연구모형 : 연구문제에서 개념과 변수를 식별하는 과정으로 독립변수와 종속변수 형태로 기술
1. 가설 설정
- 가설(Hypothesis) : 어떤 사건을 설명하기 위한 가정
- 가설의 유형 : 귀무가설(영가설) : '두 변수는 관계가 없다/ 차이가 없다'와 같은 부정적 형태의 진술
연구가설(대립가설) : '두 변수 사이에는 차이가 있다/ 효과가 있다'와 같은 긍정적 형태의 진술
2. 유의수준과 임계값 결정
- 사회과학분야 임계값 : 알파 = 0.05 ( p < 0.05, 95% 신뢰도)
- 의생명분야 임계값 : 알파 = 0.01 ( 99% 신뢰도 )
- 유의수준(Significant level) : 가설 채택 또는 기각 기준 (분석 결과가 유의수준 이내 -> 가설 채택)
- p값 < 알파 : 연구가설 채택 (귀무가설 기각)
- p값 >= 알파 : 연구가설 기각 (귀무가설 채택)
- 단정적 표현은 금지! ex) p<0.01 이면 통계적으로 매우 유의하다/ p<0.05 이면 통계적으로 유의적인 차이를 보인다.
3. 측정도구 선정
- 가설에 나오는 변수를 무엇으로 측정할 것인가? 변수 추출 -> 변수의 척도를 고려하여 측정도구 선정!
4. 데이터 수집
- 선정된 측정도구를 이용하여 설문 문항 작성(설문지 작성), 조사응답자 대상 설문 실시 & 회수
- 정형/비정형 데이터 수집(DB, Web, SNS 등)
5. 데이터(설문지) 코딩
- 통계분석 프로그램(Excel, R, SPSS, SAS 등)에 데이터 입력
- 데이터 전처리(미응답자, 잘못된 데이터 등 처리)
6. 통계분석 수행
- 전문 통계분석 프로그램(R, SPSS, SAS) 분석 단계
- 통계분석 방법을 계획하지 않고 데이터를 수집할 경우 실패 확률 높음
7. 결과분석
- 연구목적과 연구가설에 대한 분석 및 검증 단계
- 인구통계학적 특성 반영
- 주요 변인에 대한 기술통계량 제시
- 연구가설에 대한 통계량 검정 및 해석
- 연구자 의견 기술(논문/보고서 작성)
-----------------------------------------------------------------------------------------------------------------------------
# 통계 사전 지식
1. 통계학이란?
- 논리적 사고와 객관적인 사실에 의거하여 확률 기반 인과관계를 규명
- 특히 연구목적에 의해 설정된 가설들에 대하여 분석결과가 어떤 결과를 뒷받침하고 있는지를 통계적 방법으로 검정
- 사회학, 경제학, 경영학, 정치학, 교육학, 공학, 의생명 등 대부분의 모든 학문 분야에서 폭넓게 이용
2. 모집단과 표본
- 전수조사 : 모집단 내에 있는 모든 대상 조사 (ex. 인구조사), 모집단의 특성 정확히 반영, but 시간과 비용 많이 소모되는 단점...
- 표본조사 : 모집단으로부터 추출된 표본을 대상으로 분석 (ex. 선거 여론조사, 마케팅조사, 안전성 검사), 모집단의 특성을 반영하지 못하는 표본은 무용지물
3. 추정과 검정
- 통계적 추정 : 모집단의 특성을 대표하는 표본 추출 -> 표본을 이용해 모집단의 특성을 나타내는 각종 모수를 예측
- 검정(test) : 표본에 의해서 구해진 통계량으로 가설 채택/기각하는 과정
- 추정 방법
1) 점 추정 : 제시된 한 개의 값과 검정통계량을 직접 비교하여 가설 기각유무를 결정
ex) 우리나라 중학교 2학년 남학생 평균키는 165.2cm로 추정
2) 구간 추정 : 신뢰구간과 검정통계량을 비교하여 가설 기각유무 결정
신뢰구간 : 오차범위에 의해서 결정된 하한값과 상한값의 범위
ex) 우리나라 중학교 2학년 남학생 평균키는 164.5 ~ 165.5cm로 추정
+ 추가 내용 필요
'R 과 데이터분석 > 기초 문법 ~ 머신러닝' 카테고리의 다른 글
[R 데이터분석] 12장. 교차분석과 카이제곱검정 (0) | 2019.09.13 |
---|---|
[R 데이터분석] 11장. 기술통계분석 (0) | 2019.09.13 |
[R 데이터분석] 9장. 정형(DB데이터)과 비정형 데이터 처리 (0) | 2019.09.13 |
[R 데이터분석] 8장. 고급시각화 (0) | 2019.09.13 |
[R 데이터분석] 7장. EDA & 데이터 전처리 (0) | 2019.09.13 |
댓글