본문 바로가기
카테고리 없음

사회조사 분석사 2급 필기 합격노트

by Choose Me 2023. 8. 28.
SMALL

안녕하세요. 23년 7월에 사회조사 분석사 2급 필기를 취득하였습니다. 사회조사분석사는 상경계 학생들에겐 통계역량 어필을 하기 위래 가지고 있어야하고, 수학과나 통계학과 학생들에겐 필수로 가지고 있어야 하는 자격증입니다.

1급 응시자격은 1) 2급 보유 2) 실무 경력 3년 이며, 2급 응시자격은 제한이 없기에 많은 취준생 분들이 준비하실 거라고 생각합니다.

쉬운 자격증에 속하는 편이지만, 저는 2번 응시해서 합격했었고 그래서 비전공자의 입장에서 좀 더 도움이 될 거라고 생각합니다.

# 본문으로 들어가기 전에, 사조사 2급 필기에 대한 모든 내용을 담아두었으니, 독학으로 공부하시는 분들은 문제집과 이 글을 함께 공부하신다면 충분히 합격하실 거라 예상해봅니다.

 

시작하기에 앞서, 지식을 탐구하는 방법에는 여러가지가 있는데

① 관습에 의한 방법: 사회적 관습을 그대로 수용

② 권위에 의한 방법: 권위자나 전문가의 의견을 수용

③ 직관에 의한 방법: 확실한 명제를 토대로 대상에 대한 직접적인 인식을 추구

④ 신비에 의한 방법: 신, 예언자, 초자연적인 존재로부터 지식을 습득

⑤ 과학에 의한 방법: 가설을 세우고 수집, 분석하여 일반적인 이론을 도출하는 과정을 통해 지식을 습득

챕터1은 이 중 과학에 의한 지식 탐구 방법에 대해 설명하고 있는 장이다.

1장. 전반적 개념 설명

  1. 과학적 방법
  1. 의의: 이론 -> 가설 -> 관찰 및 검증을 통해 현상을 일반화하고 이론으로 정립한다.
  2. 특징

① 재생가능성: 동일한 조건 하에 동일한 결과가 나타나야 함

② 경험성: 인간의 감각에 의해 지각될 수 있는 연구대상이어야 함

③ 인과성: 모든 현상과 사건에는 원인과 결과가 있다는 전제를 바탕으로 함

④ 객관성: 표준화된 도구와 절차를 통해 누구나 납득할 수 있는 결과가 나타나야 함

⑤ 상호주관성: 연구자들의 주관이 개입하더라도 같은 해석에 도달해야 함

⑥ 체계성: 연구는 일정한 틀, 순서, 원칙에 입각하여 진행되어야 함

⑦ 변화가능성: 기존의 연구결과는 언제든지 비판되고 수정될 수 있음

⑧ 간결성: 적은 변수로 많은 현상을 설명할 수 있어야 하며, 이론이 간결하게 설명되어야 함

⑨ 반증가능성: 연구는 실험이나 관찰에 의해 반증될 수 있음

  1. 논리 전개 방식

(1) 연역법:

  • 일반적인 원리를 우선 제시하고 이를 뒷받침할 현상을 통해 검증해내는 방식

(예_모든 사람은 죽는다, 나는 사람이다 => 나는 죽는다.)

  • 장점: 실제 연구 없이 이론을 논리적으로 검증함
  • 단점: 새로운 이론을 형성하는 것이 어려움
  • 특징: 가설설정 -> 조작화 -> 관찰, 경험 -> 검증의 과정을 거침

(2) 귀납법:

  • 여러 현상으로 부터 일반적인 원리를 이끌어내는 방식

(예_ 까마귀 1은 까맣다, 까마귀 2는 까맣다, ..., 까마귀 999는 까맣다 => 까마귀는 까맣다)

  • 장점: 새로운 일반화나 법칙을 도출할 수 있음
  • 단점: 이론적 배경없이 변수를 의미있게 선택하기 어려움, 오류가 있을 수 있음
  • 특징: 주제선정 -> 관찰 -> 유형의 발견 -> 임시결론의 과정을 거침

(3) 연역법과 귀납법의 관계

  • 서로 대비되는 장, 단점으로 인해 상호보완적인 관계를 가짐
  1. 사회과학

원래 챕터명은 과학에 있어서의 가치와 윤리인데..

담고 있는 내용이 제목과 하등상관이 없어 보여서 맘대로 바꿈

  1. 사회과학과 자연과학

(1) 사회과학 (2) 자연과학

① 일반화가 용이하지 않음  
② 명확한 결론을 내리기 어려움  
③ 인간의 형태와 사고를 대상으로 함  
④ 사회문화적 특성에 영향을 받음  
⑤ 기존 이론과 단절되지 않음  
⑥ 독창적이고 유일한 성격의 학문  
⑦ 연구자의 주관, 가치관에 영향을 받음 ① 일반화가 용이함
② 명확한 결론을 얻을 수 있음  
③ 동식물이나 자연현상을 대상으로 함  
④ 사회문화적 특성에 영향을 거의 받지 않음  
⑤ 기존 이론과는 전혀 다른 새로운 이론이 대두됨  
⑥ 누적되는 성격의 학문  
⑦ 연구자의 주관, 사회적 지위에 양향을 받지 않음  

우리가 일반적으로 과학이라 칭하는 자연과학과 비교했을 때,

사회과학은 이와 거의 반대되는 특성을 가진다.

  1. 사회과학의 패러다임

① 실증주의적 패러다임

  • 실험, 자연과학의 원리를 사용
  • 가치중립성, 객관성, 정확성, 일반화를 중시함
  • 경험적인 관찰을 사용함
  • 구조화된 양적방법을 고수함

② 해석주의적 패러다임

  • 개인의 다양한 경험과 주관을 해석
  • 보편상대주의, 타당성을 중시함
  • 주로 분석대상은 언어, 말, 행위
  • 비조작적, 불개입적, 질적방법을 선호함 (있는 그대로 관찰하고 해석)

③ 비판사회과학적 패러다임(갈등패러다임)

  • 억압받는 집단의 권한을 강화하기 위한 연구를 함
  1. 사회과학의 윤리

(1) 윤리의 의의: 선악의 속성이나 도덕적 의무를 결정하는 일련의 지침

(2) 과학적 방법의 윤리문제

① 연구자의 가치중립

② 연구 내용상의 윤리문제: 사회에 해를 끼치기보다는 이익을 주는 연구

③ 연구 과정상의 윤리문제: 연구대상자의 비밀보장, 인간조작에 대한 위험 관리

④ 연과 결과상의 윤리문제: 개인 프라이버시 보장, 연구결과에 대한 책임이나 이익 분배

2장. 조사연구

  1. 과학적 연구의 과정
  1. 문제정립: 연구의 목적, 중요성, 이론적 의의 등에 대해 논리적으로 정립하는 단계. 예비조사 가능
  2. 가설구성: 둘 이상의 변수 간 관계를 잠정적으로 서술하는 단계. 변수를 측정할 척도를 고려함
  3. 연구설계: 연구실시 계획을 구상하는 단계. 변수, 표본집단, 통계적 방법, 자료수집방법 등 고려함
  4. 자료수집: 분석에 활용할 수 있도록 자료를 수집하고 정리하는 단계
  • 자료수집방법- 질문지, 면담, 참여관찰, 기존 문서 수집 등
  1. 자료분석, 해석: 수집된 자료를 바탕으로 가설을 평가하는 단계
  • 분석방법은 앞단계에서 미리 정해지는 경우가 많음
  1. 보고서 작성: 분석결과를 해석하고 이론을 형성하여 발표하는 단계
  1. 과학적 연구의 분석단위
  1. 분석단위: 자료수집 시 표본의 크기를 결정하는데 사용되는 기본 단위

*분석단위의 요건 ⓐ 적합성 ⓑ명료성 ⓒ측정가능성 ⓓ비교가능성

  1. 분석단위의 분류

① 개인: 개개인의 특성 연구

② 집단: 사회집단 연구(예_가족, 학급, 학과)

③ 조직: 조직 자체의 특성 또는 조직을 구성하는 개인을 연구 (예_기업, 학교)

④ 사회적 가공물/생성물: 문화적 요소나 사회적 상호작용 연구 (예_노래, 서적/결혼, 사회활동)

⑤ 지역사회/지방정부/국가: 행정학이나 정책연구 (예_행정동, 지방자치단체, 국가)

  1. 분석단위의 오류

① 생태학적 오류: 집단의 결과를 개인에게 적용함으로써 발생하는 오류

(예_한 학급의 성적이 낮을 때, 그 학급의 모든 학생의 성적이 좋지 못할 것이라 단정)

② 개인주의적 오류: 개인의 결과를 집단에 적용함으로써 발생하는 오류

(예_한 학생의 성적이 우수할 때, 그 학생의 학급의 성적도 좋을 것이라 단정)

③ 환원주의적 오류: 넓은 범위의 현상을 설명할 때, 필요한 변수를 지나치게 한정함으로써 발생하는 오류

(예_인류문화에 대한 연구에 개인의 사회학적 변수만 고려)

→ 생태학적 오류...왜 저렇게 이름 붙였을까 이해 안됨

  1. 과학적 조사연구의 유형
  1. 조사연구

-의미: 어떤 현상을 과학적, 논리적 절차에 의해 조사하여 정확하게 기술하는 것

-목적: 연구 문제의 성격에 따라 탐색, 기술, 설명으로 구분함

  1. 방법에 의한 분류

(1) 질적연구

① 인간의 행태를 이해하려는 현상학적 연구

② 자연주의적, 비통제적 관찰

③ 주관적, 해석적, 탐색적, 서술적, 귀납적

④ 과정지향적

⑤ 일반화 불가능(단일사례연구)

⑥ 소규모 분석에 유리함

⑦ 동태적 현상을 가정함

(2) 양적연구

① 사회현상의 원인을 탐구하는 논리실증주의적 연구

② 통제적 관찰

③ 객간적, 확증적, 기술적, 추론적, 연역적

④ 결과지향적

⑤ 일반화 가능(복수사례연구)

⑥ 대규모 분석에 유리함

⑦ 안정적 현상을 가정함

+최근에는 질적연구와 양적연구의 장점을 혼합하는 것이 적합하다는 의견이 많다.

다양한 목적을 충족하고, 결론의 의미를 분명하게 해주기 때문이다.

  1. 접근방법에 의한 분류

(1) 횡단적 연구

① 일정 시점에 다른 집단의 차이를 측정함

② 표본조사에 해당함

③ 측정이 한 번 이루어짐

④ 정태적

⑤ 표본의 크기가 클수록 좋음

⑥ 예시

-여론조사, 현황조사

(2) 종단적 연구

① 일정 기간 변화하는 상황을 조사함

② 현장조사에 해당함

③ 측정이 반복적으로 이루어짐

④ 동태적

⑤ 표본의 크기가 작을수록 좋음

⑥ 예시

  • 추세조사: 동일한 모집단 내에서 여러 시기에 걸쳐 표본을 추출하여 계속적으로 연구하는 방법(예_여론조사)
  • 코호트조사: 특정 경험을 같이 하는 집단을 대상으로 비교, 연구하는 방법(예_특목고 학생의 자존감조사)
  • 패널조사: 패널(특정 응답자 집단)에게서 지속적으로 원하는 정보를 획득하는 방법(예_홈쇼핑 고객 패널조사)
  1. 목적에 의한 분류

(1) 탐색적 연구

① 연구 및 가설 설계 전 실시하며 개념의 타당도를 검증하기 위해 실시함

② 정확한 연구 및 가설 설계를 위한 명제 정립을 목적으로 함

③ 융통성있게 운영되며 수정 가능함

④ 문헌연구, 경험자연구, 사례연구 등

(2) 기술적 연구

① 연구 및 가설 설계 후 실시하며 현상을 정확하게 기술하기 위해 실시함

② 어떤 사건이나 현상의 크기, 비율, 수준 등 통계적인 자료를 수집함

③ 계획적이고 체계적으로 이루어짐

④ 빈도파악, 특성파악, 변수 간 상관관계 파악 등

(예_대도시 인구의 연령별 분포는 어떠한가)

(3) 설명적 연구(=진단적조사, 인과적조사, 예측적조사, 가설검증적 조사)

① 어떤 사실 간의 인과관계를 규명하거나 미래를 예측하는 조사

② 현상에 대한 단순한 기술이 아닌 인과론적 설명이라는 점에서 기술적 조사와 구분됨

③ 사회적 문제의 발생 원인을 밝히고 이를 해결하기 위해 활용됨

  1. 응용수준에 의한 분류

(1) 순수연구: 지식 자체만을 순수하게 획득하려는 연구, 현장 응용도가 낮음

(2) 응용연구: 사회적 문제 해결과 개선을 위한 연구, 현장 응용도가 높음

(3) 평가연구: 사회정책이나 프로그램의 효과를 평가하기 위한 연구

  1. 대상의 범위에 의한 분류(전수조사와 표본조사)

(1) 전수조사

  • 의미: 연구대상 전부를 조사하는 것
  • 단점: 경제성과 신속성이 떨어짐
  • 국세조사, 인구조사 등

(2) 표본조사

  • 의미: 연구대상 중 일부분을 선출하여 조사하는 것(연구대상 전체: 모집단, 선출대상: 표본)
  • 단점: 표본의 대표성 문제
  • 대부분의 조사는 표본조사에 해당함
  1. 기타 연구

(1) 서베이 조사(설문조사)

① 기술적 연구의 일종, 표본조사에 해당

② 설문지같은 표준화된 조사도구 활용

③ 정확성이 높은 자료를 풍부하게 수집할 수 있음

④ 시간과 비용이 많이 들고, 고도의 지식과 기술을 필요로 함

⑤ 면접조사, 우편조사, 집합조사, 전화조사, 통제관찰 등

(2) 사례조사

① 종단적 연구 방법, 탐색적 연구에 적합

② 특정 사례를 조사하여 실증적인 분석을 행함

③ 조사대상을 구체적이고 상세하게 연구할 수 있음

④ 대표성, 일반화 가능성이 낮으며 자료의 신뢰성을 확보하기 어려움

(3) 현지조사

① 현장에 나가서 직접 자료를 수집하는 조사

② 상황을 있는 그대로 조사하며, 인위적인 조작이 배제됨

③ 변수를 내포하고 있어 혼란을 가져올 수 있음

④ 조사자의 개인 성향에 따라 결과가 달라질 수 있음

(4) 실험조사

① 독립변수가 종속변숭 영향을 미치는 인과관계에 대한 가설을 검증하는 조사

② 변수를 의도적으로 통제하고 관찰함

③ 현지실험: 현실적인 상황속에서 변수를 조작하여 진행함, 외적 타당도가 높음

④ 실험실실험: 모든 외부 변수를 최소화 하여 진행함, 내적 타당도가 높아도 외적 타당도가 낮음

(5) 미시조사: 개인이나 개별적인 개체를 분석단위로 함

(6) 거시조사: 큰 지역이나 집합체를 분석단위로 함

3장. 조사연구의 설계

  1. 조사설계의 이해
  1. 조사설계의 개념: 가설을 평가하기 위한 구조, 계획, 전략
  2. 조사설계의 핵심구성요소

① 조사대상(who)

② 조사항목(what)

③ 조사방법(how)

  1. 인과관계를 만족하는 조건

① 시간적 선후관계: 원인 먼저 발생 -> 결과 나중 발생

② 동시변화성의 원칙: 원인 변화 -> 결과 변화 (항상 같이 일어남)

③ 비허위적 관계: 외부 영향력을 배제한 상태에서 두 변수만의 관계 관찰이 가능해야 함

  1. 조사설계의 타당도

타당도 설명하기 전에 먼저 알아야 하는 것

*실험집단과 통제집단이란?

  • 실험집단: 실험법에서 실험의 대상이 되는 집단. 독립변수가 영향을 미치도록 설계됨. 필수적이며, 2개 이상일 수 있음
  • 통제집단: 실험집단의 비교 대상이 되는 집단. 독립변수를 통제함. 선택적임

예를 들어 '사과를 먹은 사람과 귤을 먹은 사람 중에 누가 잠을 오래잘까?'라는 실험이면,

  • 독립변수: 사과, 귤
  • 종속변수: 수면시간
  • 실험집단1: 사과를 먹은 집단
  • 실험집단2: 귤을 먹은 집단
  • 통제집단:사과도 귤도 먹지 않은 집단
  1. 내적 타당도

(1) 정의: 각 변수의 인과관계 충족정도=종속변수의 변화가 독립변수에 의한 것이라고 확신할 수 있는 정도

(2) 내적 타당도 저해요인

① 역사요인(외부사건): 연구기간 동안 예상치않았던 사건이 일어나는 경우

② 성숙, 시간의 경과: 시간의 흐름에 따라 변화가 일어나는 경우

③ 통계적 회귀: 극단적 특성을 가진 연구대상이 재측정에서 평균값으로 수렴되는 경우

④ 검사요인(주시험효과, 테스트효과): 반복되는 측정으로 연구대상에게 나타나는 학습효과

⑤ 선별요인(선택요인): 연구자가 실험집단과 통제집단을 선발할 때 편견을 가지는 경우

⑥ 도구요인: 측정도구가 달라지는경우

⑦ 상실요인: 특정 연구대상이 탈락하는 경우

⑧ 모방: 실험집단과 통제집단 사이에 모방심리가 발생하는 경우

(3) 내적 타당도 상승요인

① 무작위할당: 연구대상을 실험집단과 통제집단에 무작위로 할당함으로써, 두 집단의 동질성을 확보함

② 짝짓기(Matching): 실험집단과 통제집단의 특성(연령, 성별 등)을 동일하게 배합하는 방법

  1. 외적 타당도

(1) 정의: 연구 결과를 일반화할 수 있는 정도

(2) 외적 타당도 저해요인

① 호손효과(반응효과): 실험대상자가 실험을 인지하여 결과에 영향을 미치는 경우

② 플라시보 효과(위약효과)

③ 검사의 상호작용 효과: 사전검사로 인해 실험 대상자의 관심이 증가 또는 감소하는 경우

④ 표본의 편중

(3) 외적 타당도 상승요인

① 표본의 대표성 확보: 무작위할당을 통해 표본이 모집단의 특성을 충분히 반영하도록 함

② 조사반응성(호손효과) 통제

  1. 실험적 조사설계의 이해
  1. 실험적 조사설계의 의의

① 엄격히 통제된 상황에서 변수 사이의 인과관계를 검증

② 연구가설의 진위여부를 확인하는 구조화된 절차

③ 실험의 내적 타당도를 확보

④ 실험의 검증력을 극대화

  1. 실험적 조사설계의 특징

① 독립변수와 종속변수 설정

② 실험집단과 통제집단 구분

③ 사전검사와 사후검사 실시

  1. 실험적 조사설계의 구성요소

① 외생변수의 통제: 독립변수 이외에 종속변수에 영향을 미칠 수 있는 변수를 통제

② 무작위할당: 실험집단과 통제집단의 동질성 확보

③ 독립변수 조작: 인과관계 입증을 위해 독립변수의 조작 필요

  1. 실험적 조사설계의 기본절차

① 대상선정

② 실험환경선정

③ 무작위 표본추출

④ 무작위할당

⑤ 사전검사: 실험집단, 통제집단에 실시

⑥ 실험조치: 실험집단에 실시

⑦ 사후검사: 실험집단과 통제집단에 실시

⑧ 비교 검증: 사전, 사후검사 결과 간 의미있는 변화를 비교, 검증

  1. 실험적 조사설계의 유형

1) 순수실험설계(진실험설계): 실험설계의 모든 조건을 갖춘 유형

  • 외생변수 통제 O
  • 독립변수 조작 O

(1) 통제집단 사전사후검사설계(통제집단 전후비교설계)

  • 사전사후검사 O
  • 통제집단 독립변수 적용X

(2) 통제집단 사후검사설계(통제집단 후비교설계)

  • 사전검사 X (실험집단과 통제집단의 동질성 확신 어려움)
  • 통제집단 독립변수 적용X

(3) 솔로몬 4집단 설계

  • 사전검사를 한 집단과 안한 집단을 섞어 실험집단, 통제집단 선별
  • 2집단은 사전검사 O + 2집단은 사전검사 X
  • 통제집단 독립변수 적용X

솔직히 뭔 소린지 모르겠으면 정상

(4) 요인설계

  • 독립변수가 복수인 경우 적용하는 방법
  • 개별 독립변수와 종속변수, 복수 독립변수와 종속변수의 인과관계 검증

2) 유사실험설계(준실험설계): 실험설계 요소 중 1~2가지가 결여된 유형

  • 외생변수 통제, 무작위할당, 독립변수 조작 중 일부 X

(1) 비동일 통제집단 설계

  • 무작위할당 X (임의할당)
  • 실험집단 독립변수 적용O

(2) 단순시계열설계

  • 실험 전후 정기적으로 실험집단을 검사하여 결과를 비교하는 방법
  • 통제집단 X (당연히 무작위할당 X)
  • 실험집단 독립변수 적용 O

(3) 복수시계열설계

  • 실험을 반복적으로 실시하고 정기적으로 실험집단을 검사하여 결과를 비교하는 방법
  • 무작위 할당 X
  • 실헙집단 독립변수 적용 O

(단순시계열설계에 비해서는 높으나 도구요인, 상실요인 영향을 받을 수 있음)


(4) 회귀불연속설계

  • 실험집단과 통제집단에 대해 회귀분석을 실시한 후 불연속의 정도를 실험의 효과로 간주하는 방법 (뭔 소리야)

3) 전실험설계(원시실험설계): 실험설계 요소를 갖추기 어려운 경우에 실시하는 유형

  • 무작위 할당 X
  • 내적, 외적 타당도 ↓

(1) 단일사례연구

  • 단일집단에 실험집단과 통제집단 구분없이 실험한 후 결과를 평가하는 방법
  • 종속변수 개입의 효과를 관찰하는 것이 주요 목적
  • 사전검사X

(2) 단일집단 사전사후검사설계

  • 단일집단에 실험전후 사전사후검사를 실시하여 종속변수의 인과관계를 평가하는 방법
  • 사전사후검사O

(3) 고정집단 비교설계

  • 무작위할당 X
  • 실헙집단 독립변수 적용 O

(통제집단 후비교설계에서 무작위할당을 제외한 형태)


4) 사후실험설계

  • 연구대상을 조건에 따라 설계하기 어려운 경우
  • 독립변수 통제가 윤리적으로 바람직하지 않을 때 활용
  • 실제상황에서 검증하므로, 현실성 높은 결과를 얻을 수 있음

4장. 연구의 요소

  1. 개념
  1. 개념이란?
  • 일정하게 관찰된 현상을 추상적 용어로 표현한 것
  • 어떤 현상이나 사상을 체계적으로 인지하고, 다른 사람에게 정확하게 전달하기 위해 필요
  1. 개념의 조건

① 한정성

② 명확성

③ 통일성: 누구에게나 통일적으로 사용되어야 함

④ 범위의 고려: 개념이 나타내는 범위를 정할 수 있어야 함

⑤ 체계적 의미: 이론과 명제로 취급되어야 함

  1. 개념의 구체화 과정

(1) 개념적 정의(사전적 정의)

  • 연구대상, 사람, 사물, 행태, 속성, 현상 등을 개념적으로 정의하는 것
  • 하나의 개념 정의를 위해 다른 개념을 사용하는 등 추상적, 일반적, 주관적임

(2) 조작적 정의

  • 추상적인 개념들을 측정할 수 있도록 구체화, 수량화한 것
  • 현실세계과 개념적 정의를 연결하는 역할

(3) 재개념화

  • 주된 개념을 정리, 분석하여 명백히 재규정하는 것
  • 개념의 보편성, 일반성, 정밀성, 명백성 확보
  1. 이론
  1. 이론이란?
  • 사실과 사실 간의 관계에 논리의 연관성을 부여하는 것
  • 평가기준: 정확성, 일반성, 간명성, 인과성
  1. 이론의 기능

① 과학의 주요방향 결정

② 현상의 개념화 및 분류화

③ 요약

④ 사실의 예측 및 설명

⑤ 지식의 확장

⑥ 지식의 결함 지적

  1. 변수
  1. 변수란?
  • 경험적 속성에 계량적 수치를 부여하는 것

(속성: 연봉 4000만원, 18세 / 변수: 소득, 연령)

  1. 변수의 종류

(1) 변수간의 기능적 관계에 따른 분류

① 독립변수: 원인변수, 실험에서 연구자에 의해 조작되는 변수

② 종속변수: 결과변수, 독립변수의 영향을 받아 전제된 결과를 나타내는 변수

③ 외생변수: 실험변수가 아니면서 종속변수에 영향을 주는 변수, 최대한 제거해야 함

④ 매개변수: 독립변수와 종속변수 사이에서 매개자 역할을 하여 관계성을 높이는 변수

⑤ 선행변수: 독립변수에 영향을 주는 변수, 독립변수 없이 선행변수-종속변수끼리는 영향도 낮음

⑥ 억압변수: 독립변수와 종속변수 간의 관계를 (있는데) 없는 것처럼 보이게 하는 변수

⑦ 허위변수: 독립변수와 종속변수 간의 관계를 (없는데) 있는 것처럼 보이게 하는 변수

⑧ 왜곡변수: 독립변수와 종속변수의 관계를 왜곡시키는 변수, 특히 정반대의 결과를 나타나게 함

⑨ 조절변수: 독립변수가 종속변수에 미치는 영향을 강화하거나 약화시키는 변수

⑩ 통제변수: 외생변수를 통제하는 변수

(2) 변수의 속성에 따른 분류

① 이산변수(불연속변수)

  • 성격에 따라 별개의 카테고리로 분류되는 변수
  • 값과 값 사이가 분리되어있어 사이 값이 아무런 의미를 가지지 않음
  • 명목척도, 서열척도(예_성별, 종교, 학력 등)

② 연속변수

  • 변수의 양적 정도에 따라 구별되는 변수
  • 값과 값 사이가 연결되어있어 사이 값이 의미를 가짐
  • 등간척도, 비율척도(예_소득, 연령, 산업재해율 등)

③ 더미변수(지시변수, 가변수)

  • 질적 변수를 수치로 변환한 변수
  • 0 또는 1의 어느 한 쪽 값을 취함(예_고등교육 유무, 보험가입 여부 등)

④ 이분변수

  • 변수의 특성이 둘로 나누어지는 질적 변수(예_성별)

⑤ 잠재변수

  • 직접적으로 관찰되거나 측정되지 않는 변수(예_지능, 태도, 만족도)

⑥ 관찰변수

  • 직접적으로 관찰되는 측정변수
  • 잠재변수에 대한 조작정 정의
  1. 가설
  1. 가설이란?
  • 변수 간의 관계를 검정 가능한 형태로 서술한 문장
  • 연구자가 제기한 문제의 해답을 내리기 위한 특정 현상에 대한 잠정적 설명
  1. 가설의 조건과 평가기준

① 경험적 검증가능성

  • 실증조사를 통해 옳고 그름을 판단할 수 있어야 함

② 간결성

  • 간단명료하게 표현되어야 함
  • 동의어 반복X
  • 간결한 논리

③ 계량화 가능성

  • 통계적인 분석이 가능해야 함

④ 입증의 명백성

  • 가설에 포함된 개념을 명백하게 대표해야 함

⑤ 개연성

  • 개연성이 높을 수록 좋은 가설임
  • 동일분야 다른 가설과의 연관이 있어야 함
  • 검증결과를 광범위하게 이용할 수 있어야 함

⑥ 가치중립성

  • 연구자의 가치, 편견, 주관적 견해가 배제되어야 함
  1. 가설의 종류

① 식별가설

  • 어떤 사실을 묘사하기 위한 가설
  • '무엇은 ~이다.'의 형식으로 표현됨(비교X)

② 설명적 가설

  • 사실과 사실 간의 관계를 설명해주는 가설
  • '~하면 ~하다.' 또는 '~할수록 ~하다.'의 형식으로 표현됨

③ 연구가설

  • 연구문제에 대한 잠정적 대답 (얻고자 하는 결과)
  • 'A는 B보다 ~이다.' 또는 'A는 B와 관계가 있다.'의 형식으로 표현됨

④ 통계적 가설

  • 둘 이상의 집단 간 차이나 관계를 설명해주는 가설
  • 표본을 통해 모집단의 확률분포를 예상함
  • 귀무가설과 대립가설로 구분됨

⑤ 귀무가설(영가설)

  • 연구가설과 반대의 입장을 취하는 가설
  • 귀무가설은 직접 검증을 거쳐야하는 반면, 연구가설은 귀무가설이 채택될 수 없을 때 자동으로 받아들여짐

(연구가설을 'A는 B와 관계가 있을 것이다.' 라고 했다면

귀무가설은 'A와 B는 아무 관계가 없을 것이다.'가 되는 것이고,

만약 귀무가설을 검증하지 못해서 직접 채택되지 못할 땐

연구가설은 검증없이 자동으로 받아들여짐)

⑥ 대립가설(작업가설)

  • 영가설에 대립되는 가설(=연구자가 주장하는 가설, 연구가설)
  • 영가설이 거짓일 때 채택됨

1장. 전반적 개념

  1. 자료
  1. 자료란?
  • 보고서에 직간접적으로 이용되는 정보
  • 연구문제 해결과 조사목적 달성을 위해 정보수집이 필요함
  1. 자료의 종류

(1) 1차 자료

  • 연구자사 직접 수집하는 자료
  • 설문지, 면접조사법이 일반적이며 관찰방법도 가능함
  • 직접 수집한 자료로서 정확도, 타당도, 신뢰도 등이 평가됨
  • 의사결정이 필요한 시기에 적절히 사용 가능함
  • 시간과 비용이 많이 소요되므로 2차 자료 수집 후 부족한 부분에서 활용함

(2) 2차 자료

  • 개인, 집단, 조직, 기관에 의해 이미 만들어진 방대한 자료
  • 연구목적을 위해 사용될 수 있는 기존의 모든 자료를 의미
  • 자료의 수집과 분류과정의 통제가 불가능함
  • 연구목적의 적합성, 정확성, 일치성 등이 평가됨
  • 시간과 비용을 절감할 수 있지만 신뢰도와 타당도가 낮음

(3) 3차 자료

  • 종합연구를 수행하기 위한 기초 자료
  • 종합연구: 동일 문제의 경험적 연구논문들을 기반으로하는 연구

자료조사

  1. 자료조사의 유형

(1) 문헌조사: 관련 분야의 참고문헌을 조사하는 방법. 출처와 사용의도를 명백히 해야 함

(2) 예비조사(파일럿 조사): 연구문제에 대한 지식이 없는 경우 본조사에 앞서 소규모로 시행하는 조사

(3) 사전조사: 본조사와 같은 조건 하에서 소규모로 실시하는 조사

→ 사전조사는 예비조사에 비해 형식을 더 갖춘 것임

  1. 자료조사 선택 시 유의사항

① 상황에 따라 조사유형 및 내용을 탄력적으로 이용해야 함

② 응답자의 입장에서 질문지의 양이 적절해야 함

③ 면접조사는 복잡한 정보를 수집하기에 용이함

④ 우편조사는 비밀보장이 필요한 경우 유용함

⑤ 전국적 규모는 보통 전화조사-면접조사-우편조사 순으로 실시함

2장. 자료수집방법의 종류

  1. 관찰법
  1. 관찰법이란?
  • 피관찰자의 행동이나 태도를 관찰하여 자료를 수집하는 귀납적 방법
  1. 관찰법의 특징

① 행태가 발생하는 자연적인 맥락 파악 가능

② 다른 연구에서 얻은 자료와 비교하여 규칙성과 재발가능성 파악 가능

③ 복잡한 사회적 맥락이나 상호작용 연구에 적합함

④ 체계적으로 기획, 기록되어야 하며 타당도와 신뢰도 검증이 가능해야 함

  1. 관찰의 분류

상황이 인공적인가? YES: 인위적 관찰

  NO: 자연적 관찰
관찰시기가 행동발생시기와 일치하는가? YES: 직접관찰
  NO: 간접관찰
관찰대상이 관찰사실을 알고 있는가? YES: 공개적 관찰
  NO: 비공개적 관찰
관찰조건이 표준화 되어있는가? YES: 통제관찰(체계적) - 질문지, 조사표
  NO: 비통제관찰(비체계적) - 탐색적 조사
관찰도구가 무엇인가? 오디미터: TV 시청률 조사
  사이코갈바노미터: 심리적 변동에 의한 생체변화 조사
  퓨필로미터: 자극에 대한 동공 크기 변화 조사
  모션 픽처 카메라: 영상촬영을 통한 태도 관찰 조사
  1. 관찰의 종류

(1) 참여관찰

  • 관찰대상 집단에 침투하여 함께 생활하며 관찰하는 방법
  • 피관찰자와 깊이 있는 접촉이 가능하며, 자연스러운 관찰이 가능함
  • 동조현상으로 객관성을 상실할 수 있음
  • 표준화 어려움
  • 대규모 모집단에 대한 기술 어려움
  • 비공개적 관찰의 경우 윤리적 문제가 발생할 수 있음

(2) 비참여관찰

  • 관찰대상에게 관찰사실과 내용을 알리고 관찰하는 방법
  • 객관적인 입장에서 정확한 관찰이 가능함
  • 피관찰자의 행위에 자연성을 해칠 수 있음

(3) 준참여관찰

  • 관찰대상에게 관찰사실을 알리고 생활 일부에 참여하여 관찰하는 방법
  • 참여관찰의 단점과 비참여관찰의 단점을 극복함

(4) 참여자와 관찰자

관찰자 신분공개 X 관찰자 신분공개 O

참여 완전 참여자 관찰자적 참여자 (관찰<참여)
관찰 완전 관찰자 참여자적 관찰자 (관찰>참여)
  1. 관찰에서 발생하는 오류

(1) 지각과정상의 오류: 각 관찰자가 현상의 강도 또는 질적 양상을 다르게 지각하는 것

① 주요 특징

  • 관찰자마다 감각, 상상의 정도가 다르기 때문에 나타남
  • 관찰대상이 많거나 현상이 복잡한 경우 나타남

② 감소방법

  • 객관적 관찰도구 사용
  • 혼란을 야기하는 영향 통제
  • 관찰기간 축소
  • 관찰단위 확대, 명세화(명확하고 자세히 함)
  • 훈련을 통한 관찰기술 향상
  • 복수의 관찰자 투입

(2) 인식과정상의 오류: 각 관찰자의 준거틀 차이로 인해 사실을 다르게 인식하는 것

① 주요 특징

  • 관찰자마다 과거 경험, 지적 능력, 인식과 추리능력이 다르기 때문에 나타남

② 감소방법

  • 이론적 개념 명확화
  • 사고의 규칙성 부여
  • 관찰과 기록사이의 텀 단축
  • 관찰자의 주관을 배제하는 지적 자기인식 필요
  • 면접조사법, 질문법 등 다른 자료수집방법 병행
  1. 관찰법의 장.단점

(1) 장점

① 즉각적 자료수집이 가능함

② 응답과정에서 발생하는 오차 감소

③ 비언어적 자료로 조사가 가능함

④ 연구대상자가 인식하지 못한 문제도 관찰 가능함

⑤ 연구대상자가 비협조적이거나 면접을 거부할 경우 효과적(유아, 동물 등)

(2) 단점

① 연구대상자가 관찰 사실을 알고 있을 때, 평소 행동과 다른 양상을 보일 수 있음

② 결과를 일반화하기 어려움(변화의 비교가 없기 때문)

③ 선택적 관찰이 일어남

④ 시간과 비용이 많이 소요됨

  1. 면접조사법
  1. 면접조사법이란?
  • 연구자와 응답자가 대면한 상태에서 미리 마련한 질문에 대해 묻고 답하는 방법
  1. 면접조사법의 종류

| (1) 표준화 면접 신뢰도↑ 타당도↓ | - 준비된 조사표에 따라 모든 응답자에게 동일한 질문 순서와 내용으로 실시

  • 정확하고 체계적인 자료를 얻고자 할 때 적합함
  • 반복적인 면접이 가능함
  • 면접결과 계량화가 용이함
  • 면접의 유연성이 낮으며 깊이 있는 측정이 어려움
  • 피면접자의 자율성이 낮음 | | --- | --- | | (2) 비표준화 면접 신뢰도↓ 타당도↑ | - 질문순서 내용을 정하지 않고 면접상황에 따라 자유롭게 응답자와 상호작용
  • 표준화 면접에서 필요한 변수를 찾아낼 때 적합함
  • 반복적인 면접 불가능함
  • 면접결과 계량화가 어려움
  • 면접의 유연성이 높으며 깊이 있는 측정이 가능함 | | (3) 반표준화 면접 | - 일정 중요 질문을 표준화하고 나머지를 비표준화하는 방법
  • 사실과 가설을 확인하고, 새로운 사실이나 가설을 발견할 수 있음
  • 예시: 초점집단면접조사법, 임상면접조사법 |

(4) 반복적 면접(패널면접)

  • 일정한 시간을 두고 동일한 질문을 반복하거나, 동일한 응답자에게 반복적으로 면접을 실시하는 방법
  • 응답자들의 태도 및 의견의 변화 상태를 연구함
  • 반복에 따른 왜곡(검사효과)가 있을 수 있음
  • 응답자 추적을 위한 추가적인 비용이 소모됨

(5) 집중면접(Focused Interview)

  • 응답자에게 영향을 주는 요인에 어떤 것이 있고, 그로 인해 어떤 결과가 초래되는지 스스로 밝히도록 도와주는 면접
  • 응답자가 경험한 현상의 영향에 대해 집중적으로 질문함
  • 응답자들의 상황에 따라 일정한 가설을 만든 후 경험에 입각하여 가설의 유의성을 검증하도록 함

(6) 심층면접(Depth Interview)

  • 일대일 면접을 통해 응답자의 심리를 조사하는 방법
  • 어떤 주제에 대한 응답자의 생각, 느낌을 자유롭게 이야기하여 태도를 파악하는 방법
  • 면접자의 능력에 크게 의존하는 방법으로 숙련된 면접능력과 분석능력이 요구됨
  • 비표준화면접방법을 사용함

(7) 비지시면접

  • 공포감 없이 자유롭게 응답할 수 있는 분위기를 마련한 다음 면접을 실시하는 방법
  • 비표준화면접방법을 사용하며, 면접자의 영향을 최소화함

(8) 초점집단면접(표적집단면접, Focused Group Interview)

  • 동질의 소수집단을 대상으로 특정 주제에 대해 자유롭게 토론하도록 하는 방법
  • 응답자는 솔직한 자신의 의견을 표명할 수 있음
  • 저렴한 비용으로 신속한 수행이 가능함
  • 높은 타당도를 가짐
  • 면접결과를 체계적으로 분석하기 어려움
  • 특정집단이므로 결과를 일반화하기 어려움

(9) 델파이조사

  • 익명 집단의 상호작용을 통해 의견을 조정, 통합하거나 개선시키기 위한 방법
  • 전문가에게 받은 의견을 응답자에게 보내 원하는 결과를 얻을 때까지 반복함
  • 하향식 의견도출로 문제를 해결하려는 미래 예측 기법
  1. 면접의 과정(순서 유의)

(1) 준비작업

① 라포형성: 면접자와 응답자 간 친밀감 및 유대감 고취

② 공포감, 불안감 배제

③ 일정한 소개과정: 면접자 신분소개 및 면접의 목적을 밝히는 과정

④ 연구의 중요성 인식: 성의 있는 응답을 이끌어낼 수 있도록 연구의 중요성을 인식시키는 과정

⑤ 동기 부여: 응답자가 면접에 참여하고자 하는 동기를 부여하는 과정

⑥ 적절한 상황 도출

(2) 면접자 교육

① 면접지침을 면접자에게 배포

② 면접자의 질문지 숙지

③ 사전교육을 통한 면접자의 편향 제거

④ 면접자에 대한 통제

⑤ 예외적인 상황에 대한 교육

⑥ 면접자의 숙련도 강화

⑦ 면접자의 주관 배제 후 응답을 그대로 기록

⑧ 프로빙 기술 학습

(응답자의 대답이 불충분할 때 탐색질문을 하여 충분한 대답을 유도하는 과정)

(3) 면접실시

① 복장이나 언어사용에 유의

② 문항은 하나도 빠짐없이 묻기

(4) 면접기록

① 정확한 기록이 중요

② 면접 도중 즉시 기입하는 것이 바람직

(5) 면접종결

① 응답자에 대한 감사표시

② 응답자와의 상호 긍정적인 감정 유지

  1. 면접조사의 장.단점

(1) 장점

① 응답률이 매우 높음

② 응답자와의 상호작용을 통해 응답의 오류를 줄일 수 있음

③ 장기간에 걸친 상세한 조사가 가능함

④ 비언어적 행위 관찰 가능함

⑤ 복잡한 질문지 사용이 가능함

(2) 단점

① 비용과 시간이 많이 소모됨

② 방문 계획 시간을 엄수해야 함

③ 라포형성이 안된 경우 조사 외적인 요인으로 오류가 개입될 수 있음

④ 익명성이 결여되어 민감한 사안의 조사가 어려움

⑤ 면접자의 편향(Bias)이 발생할 수 있음

⑥ 면접자의 주관이 개입될 수 있음

  1. 전화조사법
  1. 전화조사법이란?
  • 전화로 질문하고 응답자의 대답을 기록하는 자료 수집 방법
  1. 전화조사법의 특징
  • 질문이 복잡하지 않아야하며, 예/아니오로 간단히 대답할 수 있어야 함
  • 빠른 시간 안에 개략적인 여론 확인이 가능함
  • 다른 방법으로 접근이 어려운 경우 용이함
  • 응답자가 대답할 준비가 되어있지 않은 경우가 많음
  1. 전화조사법의 표본추출 방법

(1) 전화번호부에 의한 추출

  • 지역번호, 가나다순 등 일정한 규정에 따라 추출(체계적)

(2) 간접표본추출

  • 일정한 간격마다 추출(체계적) 또는 난수표에서 추출(임의적)
  • 모든 번호의 추출 확률이 동일함
  • 등록되지 않았거나 원하지 않는 번호가 추출될 수 있음
  • 응답자의 이름, 연령에 대한 사전지식 없이 이루어짐
  1. 전화조사법의 장.단점

(1) 장점

① 적은 비용으로 단시간에 조사가 가능함(신속성, 경제성)

② 직접 면접이 어려운 경우 용이하며 응답률이 높음

③ 외모에 대한 편견을 통제할 수 있음

④ 자동화를 통한 효율성, 통일성 극대화 가능함

(2) 단점

① 소요시간과 분량이 제한됨

② 많은 내용을 수집하기 어려움

③ 모집단이 불완전함

④ 비언어적 관찰과 보조도구 사용이 불가능함

⑤ 응답을 회피하거나 무성의하게 응답할 수 있음

⑥ 표본의 대표성에 문제가 있을 수 있음

  1. 우편조사법
  1. 우편조사법이란?
  • 질문지를 응답자에게 보내 답하도록 한 뒤, 다시 돌려받아 자료를 수집하는 방법
  1. 우편조사법에 영향을 미치는 요소

① 조사에 대한 사전예고

② 연구목적과 응답의 중요성 인식

③ 엽서, 전화, 면접 등 지속적인 추가 접촉

④ 익명성 보장

⑤ 질문지 간단명료성, 가독성

⑥ 답변에 대한 리워드

⑦ 응답률이 높은 모집단과 표본 검토

⑧ 응답집단의 동질성 확보

  1. 우편조사법의 장.단점

(1) 장점

① 최소의 경비와 노력으로 광범위한 지역 조사가 가능함

② 면접조사에 비해 다양한 대상이 포함됨

③ 외모에 대한 편견 통제 가능함

④ 응답자에게 충분한 시간적 여유 제공

⑤ 응답자의 익명성 보장

⑥ 조사자의 특성에 따른 영향이 적음

(2) 단점

① 낮은 회수율과 신속성

② 응답자의 추가설명이나 해명의 기회가 없음

③ 질문지의 단순성이 요구됨

④ 오기입이나 불기입이 발생할 수 있음

⑤ 비언어적 정보 수집 불가능

⑥ 무자격자의 응답 통제 불가능

⑦ 주위환경과 응답시기 통제 불가능

  1. 집단조사법
  1. 집단조사법이란?
  • 대상자를 한자리에 모아 질문지를 일제히 배부하고 응답하도록 하는 방법
  1. 집단조사법의 장.단점

(1) 장점

① 응답조건이 동등함

② 응답자들과 상호작용을 통한 누락, 오류 감소 가능

(2) 단점

① 물리적 공간 필요

② 집단상황이 응답을 왜곡시킬 가능성 존재

③ 오기입 발생 가능

④ 표본이 모집단을 적절하게 대표할 수 없음

⑤ 조사대상자의 수준이 동일하다고 가정하는 오류를 범할 수 있음

  1. 온라인조사
  1. 온라인조사란?
  • 통신망을 통한 여러형태의 사회 조사
  • 인터넷조사, 전자우편조사, 웹조사, 다운로드조사 등
  1. 온라인조사의 유형

(1) 회원조사(Member Survey)

  • 사전에 확보된 회원 DB를 활용하여 조사에 응답하도록 하는 방법
  • 응답자의 대표성을 확보하기 어려움

(2) 방문자조사(Visitor Survey)

  • 특정 사이트를 개설하고 설문지를 게시한 뒤, 방문자가 조사에 참여하도록 하는 방법
  • 관심이 높거나 반대의사가 뚜렷한 집단이 참여할 경우 신뢰성 확보가 어려움

(3) 전자우편조사(e-mail Survey)

  • 이메일 주소록 대상자에게 전자우편을 송신한 후 응답을 확보하는 방법
  • 주소록 대상자 확보가 어려움

(4) 전자설문조사(Electronic Survey)

  • 회원조사와 방문조사의 중간 유형으로, 회원 DB를 대상으로 하며 설문지를 게시하는 형태
  • 일반적인 모집단의 특성을 갖는 것으로 생각할 수 있음
  1. 온라인조사의 장.단점

(1) 장점

① 시공간의 제약이 적음

② 신속하며 쌍방향 소통이 가능함

③ 비용이 적게 들며, 비용없이 추가조사가 가능함

④ 멀티미디어 자료의 활용이 가능함

⑤ 구조화된 설문지 작성이 용이함

⑥ 응답자의 범위가 넓음

(2) 단점

① 표본의 대표성 문제 (인터넷을 사용할 수 있는 사람만을 대상으로 함)

② 컴퓨터 사용 고정비용 발생

③ 프라이버시 보호에 각별한 주의 필요

④ 응답자에 대한 통제가 어려움

⑤ 응답률과 회수율이 낮음

⑥ 중복 조사 가능성

⑦ 모집단을 규정하기 어려움

  1. 내용분석법
  1. 내용분석법이란?
  • 문서화된 매체를 중심으로 연구대상에 필요한 자료를 수집하는 방법
  • 객관적, 체계적, 수량적 연구 방법
  1. 내용분석법의 특징
  • 문헌연구의 일종으로 비개입적임
  • 메시지를 분석대상으로 함
  • 양적연구 + 질적연구
  • 질적인 자료를 양적인 자료로 바꾸는 과정
  • 포괄성, 상호배타성 확보 필요
  • 인간의 모든 형태의 의사소통기록물 활용 가능
  1. 내용분석법의 절차

연구문제와 가설 설정 → 자료의 표본추출 → 분석 카테고리 설정 → 분석단위 결정 → 집계체계 선정 및 실제 분석 → 연구보고서 작성

  1. 내용분석법의 장.단점

(1) 장점

① 다양한 심리적 변수를 효과적으로 측정함(가치, 태도, 창의성, 인간성 등)

② 관찰로는 불가능한 가치문제에 대한 연구 가능함

③ 측정방법의 타당성 조사를 위해 사용될 수 있음

④ 실험적 연구의 결과 또는 개방형 질문의 결과에 대한 내용분석이 가능함

⑤ 실패 시 위험부담이 적음

⑥ 비용과 시간이 절약됨

(2) 단점

① 분류 범주의 타당성 확보가 어려움

② 신뢰도 확보가 어려움

③ 자료가 제한된 경우가 많음

  1. 내용분석법과 관련된 용어

(1) 부호화

  • 주어진 정보를 표준적인 형태로 변환하는 과정
  • 예_한 소설이 얼마나 낭만적인지 부호화하기 위해 '사랑'이라는 단어 사용횟수를 조사함)

(2) 범주

  • 내용의 특징을 분류하는 체계, 항목의 특성을 파악하기 위한 개념적인 틀
  • 포괄적이며 상호배타적

1장. 질문지의 설계

  1. 질문지법
  1. 질문지법이란?
  • 응답자가 스스로 답할 수 있도록 고안된 질문지를 이용한 조사연구
  1. 질문지법의 특징
  • 질문지는 상호 연결된, 논리적 질문으로 구성됨
  • 문항은 조직적/비조직적, 개방적/폐쇄적으로 분류
  • 응답자의 기록에 의존함
  • 질문지 작성 시, 필요한 정보의 종류와 측정방법, 분석기법을 고려해야함
  1. 질문지법의 장.단점

(1) 장점

  • 현장연구원 필요X
  • 익명성 보장
  • 표준화된 질문
  • 모든 응답자에게 동일하게 적용 가능
  • 조사자의 편견 배제 가능
  • 응답자에게 접근이 용이함
  • 시간과 비용 절약

(2) 단점

  • 질문에 대한 설명이 어려움
  • 질문 응답률, 질문지 회수율 낮음
  • 비언어적 행위 기록 불가능
  • 복합적인 질문지 형식 사용 불가능
  • 질문지에 대한 통제 어려움
  • 응답자에 대한 통제 어려움(누가 응답했는지 확신X)
  • 응답에 대한 신뢰도 낮음(교육수준, 월수입 등)
  1. 질문의 형태
  1. 질문형식에 따른 분류

(1) 직접질문

  • 응답자의 태도나 의견을 직접적으로 묻는 형식
  • 간편하지만, 응답자가 당황하거나 기억하지 못하는 경우 효과적이지 못함

(2) 간접질문

  • 응답자가 조사자의 직접적인 의도를 파악하지 못하도록 묻는 형식
  • 응답자가 진실한 응답을 회피하거나 거짓으로 답할 수 있는 경우 활용함
  • 특별한 심리적 저항 없이 직접설문이 가능한 경우 필요없음
  • 신뢰도, 타당도에 각별한 주의가 필요함
  • 객관적인 응답 해석이 요구됨

*** 간접질문의 유형**

a. 투사법: 간접적인 자극물(단어, 문장, 그림, 이야기 등)을 사용해서 응답자의 의견이 투사되도록 하는 방법

b. 정보검사법: 주제에 대해 가지고 있는 정보의 양과 종류를 파악하여 응답자의 의견을 찾아내는 방법

c. 단어연상법: 주제와 관련된 단어, 그림, 문장을 여러 개 제시하고 체크하도록 하는 방법, 각 항목에 할당된 점수를 합산하여 응답자의 태도를 파악함

d. 오류선택법: 어떤 질문에 대한 틀린 답을 여러 개 제시하고 그 것을 선택하도록 하는 방법

e. 토의완성법: 미완성된 문장을 제시하고 그것을 빠른 속도로 완성하도록 하는 방법

  1. 질문내용에 따른 분류

(1) 사실질문: 객관적 사실에 대한 정보를 묻는 방법(학력, 가정환경, 습관 등)

(2) 태도/견해질문

  • 태도: 특정한 주제에 대한 선입견, 아이디어, 감상, 선호
  • 견해: 태도에 대한 언어적 표현
  • 질문 문항이 사실질문에 비해 어렵고, 용어의 사용이나 문장 순서 등에 민감한 변화를 보임
  1. 문항구조, 질문형식에 따른 분류

이 밑에 나오는 유형들 다 같은 선상에 두고 쭉 나열할 게 아니라...

개방형-폐쇄형 질문이 상위

나머지를 폐쇄형 질문 하위개념으로 넣어야 할 것 같다.

(1) 개방형 질문: 응답자가 자유롭게 응답하도록 된 질문

*장점

  • 탐색적으로 사용 가능함
  • 특정 집단의 행태에 대한 통찰력을 얻을 수 있음
  • 응답자의 견해에 대한 정확한 파악 가능
  • 응답범주의 수적 제한이 없음

*단점

  • 응답 분류, 코팅, 통계적 분석이 어려움
  • 응답이 내포하는 의미나 중요성을 다르게 파악할 수 있음
  • 해석자의 편견(bias)이나 주관이 개입될 소지가 있음
  • 응답에 시간이 많이 소요되며, 응답률이 상대적으로 낮음

*적합한 활용

  • 문제의 핵심을 알고자하는 예비조사나 탐색적 조사에 활용
  • 표본에 대한 정보를 가지고 있지 않을 때
  • 응답자의 지식 수준이 높아 독자적으로 응답이 가능할 때
  • 응답자에 대한 사전지식이 부족하여, 응답을 예측할 수 없을 때
  • 깊이 있는 내용을 다룰 때
  • 조사 규모가 적을 때

(2) 폐쇄형 질문: 한정된 선택지를 주고 응답하도록 된 질문

*장점

  • 응답 분류, 코딩, 통계적 분석이 간편함
  • 측정의 통일성을 통해 신뢰도를 높일 수 있음
  • 응답에 시간이 적게 소요되며, 비교적 응답률을 높일 수 있음

*단점

  • 질문자가 적절한 응답지를 제시하기 어려움
  • 응답항목의 구성, 배열, 누락에 큰 영향을 받음
  • 응답자의 의견을 충분히 반영하기 어려움
  • 응답자의 편견(bias)이 발생할 수 있음

*적합한 활용

  • 응답의 내용이 한정적일 때
  • 응답을 예측할 수 있을 때
  • 응답을 동일한 단위로 나타낼 수 있을 때

(3) 양자택일형 질문: 두 개만의 선택지를 주고 응답하도록 된 질문, 간혹 '모르겠다.' 문항이 추가되기도 함

*장점

  • 응답 분류, 코딩, 처리가 매우 간편함
  • 신속한 응답이 가능함
  • 조사자에 의한 영향을 배제할 수 있음

*단점

  • 중도의 의견을 반영하기 어려움
  • 극단 외의 더 중요한정보를 잃을 수 있음

*적합한 활용

  • 응답의 범주를 예/아니오로 나눌 수 있을 때

(4) 선다형 질문: 몇 가지의 선택지을 미리 정하여 주고 응답하도록 된 질문

*선택지의 특징(유의사항)

  • 선택지가 많은 경우 혼란을 야기할 수 있으므로 3~5개가 적합함
  • 논리적이어야 함
  • 내용을 총망라해야 함
  • 각각 상호배타적이며 중복되지 않아야함
  • 구체적으로 표현되어야 함
  • 하나의 기준을 제시해야 함

(5) 체크리스트형 질문: 몇 가지 선택지 중 원하는 것을 선택하도록 된 질문

  • 선다형 질문의 일종으로, 3~5개보다 더 충분한 단어를 제시함

(6) 서열식 질문: 몇 가지의 선택지에 대해 중요도, 선호도 등 순서를 매기도록 된 질문, 보통 10개 이내

  • 예) 다음 항목에 대해 영향도가 큰 순서대로 1~4위까지 순위를 적어주세요.

(7) 평정식 질문: 몇 가지 선택지에 대해 응답의 강도를 요구하는 질문

  • 예) 다음 항목의 흥미도는 어느 수준인지 1~10까지의 점수로 표시해주세요.

(8) 어의차형 질문: 서로 반대되는 형용사를 양극에 두고 가중치를 매기도록 된 질문

  • 응답자의 주관적 반응을 평가하는 '평가질문'의 변형
  • 예) 다음 대상에 대해 어떻게 생각하십니까?

2__1__0__-1__-2

친절 불친절

적극적 소극적

능숙 미숙

  1. 질문의 작성
  1. 질문작성 준비
  • 문제의 명백한 규정, 자료조사, 가설 설정, 표본 결정이 완료되어야 함
  • 질문의 내용, 개수를 결정하는 근거는 연구에 있음
  • 근거가 충분하지 않은 경우 직접관찰, 면접을 통한 예비조사가 필요함
  • 예비조사를 통해 가설이 수정되고, 새로운 질문이 생성될 수 있음
  1. 질문지작성 절차

필요한 정보 결정 -> 자료 수집방법 결정 -> 개별항목 내용 결정 -> 질문 형태 결정 -> 개별항목 결정 -> 질문순서 결정 -> 질문지 초안 완성 -> 사전조사 -> 질문지 완성

  1. 질문작성 유의사항

(1) 질문내용

  • 질문이 명료하고 구체적인가?
  • 반드시 필요한 질문인가?
  • 응답자가 응답할 수 있는가?
  • 이중적 응답을 요구하고 있지 않은가?
  • 질문이 원하는 반응을 유도하고 있지 않은가?(유도질문X)
  • 질문이 응답형태에 의해 영향받고 있지 않은가?
  • 유사응답문항(일정한 방향으로 응답되는 질문)을 변화 있게 구성했는가?

(2) 질문배열

  • 민감한 질문은 후반부에 배열
  • 계속해서 기억이 필요한 질문은 전반부에 배열
  • 시작부는 흥미를 유발할 수 있는 문항으로 배열
  • 논리적 순서에 의거하여 배열
  • 신뢰도를 묻는 질문은 분리하여 배열
  • 동일한 척도항목은 모아서 배열
  • 질문은 길이와 유형에 따라 변화 있게 배열
  • 여과질문을 적절하게 배열(여과질문: 한 질문에 연관된 다음 질문)
  • 초반부는 일반적 질문, 이후 보다 특수한 질문, 후반부는 가장 세부적이고 특수한 질문으로 배열
  • 앞선 질문의 연상작용(이전효과)을 일으키는 질문은 떨어뜨려 배열
  • 인적사항은 가능한 후반부에 배열

(3) 질문용어

  • 간결성, 구체성, 신축성, 명확성, 중립성을 띄는 용어를 균형있게 사용한다.
  • 다양하게 해석될 수 있는 용어는 피한다.
  • 불필요한 전문용어 사용은 삼간다.
  • 도덕적 규범이 내제되어 있는 용어는 피한다. (솔직한 대답을 저해함)
  • 지방이나 계층에 따라 의미가 다른 용어는 피한다.

(4) 질문의 수

  • 전체 질문의 수는 적절해야 한다.

(*지나치게 많음 -> 피상적 결과 도출

지나치게 적음 -> 결과의 타당성 저해)

  • 보통 여론조사는 대략 30문항 정도이다.
  • 한 변수에 관련된 질문은 보통 3~4문항 정도이다.
  1. 질문지의 검증
  1. 예비조사(Pilot Test)

(1) 예비조사란?

  • 연구문제를 정확히 모를 때, 핵심 요소를 파악하기 위해 실시하는 탐색적 성격의 조사

(2) 예비조사의 목적

  • 연구문제의 특정화
  • 가설의 명확화
  • 조사표 작성을 위한 기초자료 제공

(3) 예비조사의 방법

  • 조사대상은 대표성 있는 대상으로 유의하여 선정
  • 조사목적과 조사대상의 특성에 따라 폭과 깊이를 다르게 하여 자료 수집
  • 조사원 재량권 부여 (신축성↑)
  • 개방형 질문형식 사용
  1. 사전조사(Pre-test)

(1) 사전조사란?

  • 본조사 전에 질문지가 잘 구성되어 있는지 시험해보기 위해 실시하는 조사
  • 모집단과 유사한 소규모 표본을 대상으로 질문문항의 타당성과 신뢰성을 검사하는 과정
  • 확률추출과정을 거치지 않음(일반화 목적이 없으므로)

(2) 사전조사의 목적

① 질문어구의 시정

  • 응답내용의 일관성이 있는지
  • 조건부 대답, 무응답의 비중이 높으면 수정필요
  • 응답이 어느 한쪽으로 치우치지는 않는지
  • '기타'에 응답이 많으면 예시 수정필요
  • 질문 순서가 바뀌었을 때 응답이 바뀌진 않는지

② 본조사에 필요한 자료수집

  • 면접시간
  • 응답자의 장소 및 분위기
  • 응답 소요시간
  • 응답자의 이동률
  • 현지 관서와의 관계

+) 예비조사 vs 사전조사 비교

예비조사 사전조사

시점 연구 초기단계 설문지 작성 후-본조사 전
목적 조사문제 규명, 가설 명확화 설문지의 타당성, 신뢰도 검증
형식 비조직적 조사(탐색적) 조직적 조사(기술적)
  1. 질문지의 완성
  1. 표지 및 안내문

(1) 표지 및 안내문이란?

  • 응답자에게 조사의 당위성을 설명하고 협조를 구함으로써 응답률을 제고시키는 역할을 하는 글
  • 질문지 작성의 마지막 과정
  • 간결하며 설득력이 있어야 효과적임

(2) 작성 시 유의사항

  • 조사자, 연구기관에 대한 신분을 밝힌다.
  • 조사의 목적, 조사의 중요성에 대해 설명한다.
  • 응답자가 소수의 표본으로서 많은 사람들의 견해를 대표한다는 점을 인식시킨다.
  • 응답자와 응답내용에 대한 비밀보장이 이루어짐을 확신시킨다.

2장. 자료의 정리

  1. 자료의 편집
  1. 편집이란?
  • 수집된 자료를 검토하며, 필요에 따라 정해진 원칙에 따라 사전코딩하는 것
  • 자료처리의 1단계로 자료의 오기, 누락 등을 시정한다.
  1. 편집의 목적
  • 연구에 사용된 개념이 정확하고 일관성있는지 검토
  • 조사에서 발생한 체계적 오차의 원인을 밝힘
  • 코딩을 위해 자료가 분명하고 간단하도록 정리
  1. 편집의 조건

(1) 완전성: 조사대상과 연관된 것은 전부 포함하되, 결격사유에 해당하는 것은 제외한다.

(2) 일관성

① 이론적 일관성: 질문끼리의 응답이 이론적으로 일치해야 한다.

② 개념적 일관성: 어떤 개념이 모든 응답자에게 동일한 의미로 해석되어야 한다.

③ 관리적 일관성: 조사원에 대한 지도 관리가 일관성있어야 한다.

(3) 명확성: 자료는 분명하고 알기 쉬워야 한다.

  1. 편집과정에서 유의사항
  • 개방형 응답항목은 코딩 과정에서 분류될 수 있도록 사전에 처리
  • 완결되지 않은 응답은 결측자료로 처리
  1. 자료의 보완
  1. 보완이란?: 누락되거나 미수집된 자료를 삭제 또는 보완하는 과정

① 삭제: 소극적 방법. 사례의 수가 충분한 경우 시행

② 보완: 적극적 방법. 보완자료에서 오차가 발생할 수 있음

  1. 보완의 방법

(1) 평균치삽입법(Inserting Means Approach)

  • 변수의 평균치를 계산하여 누락된 사례의 변수값으로 사용하는 방법
  • 전 사례에 오차가 무작위로 분포되어 있고, 사례의 수가 충분하지 않은 경우 시행

(2) 보삽법(Interpolation Method)

  • 전, 후 시점 자료의 평균치를 사용하는 방법
  • 인구나 정부예산처럼 심한 변동을 겪지 않는 변수를 추정하는 경우 유용

(3) 평가치추정법(Estimating Values Approach)

  • 작은 오차를 감수하며 원래의 값을 추정해가는 방법
  • 가장 세련된 방법

1장. 전반적 개념

  1. 표본추출(Sampling) 일반
  1. 표본추출이란?
  • 모집단(Population)에서 표본(Sample)을 선택(Selection)하는 행위
  • *참고: 표집은 표본을 선택하는 과정
  1. 표본추출의 특징

① 대표성 확보: 표본의 특성이 모집단의 특성을 대표할 수 있어야 함(=일반화)

② 적절성 확보: 적은 비용으로 높은 정확성을 가질 수 있는 적절한 표본크기를 선정해야 함

③ 표본추출의 오차: 표본추출과정에서 무조건 발생함

  1. 표본추출의 목적
  • 모집단 전체를 연구할 때보다 시간과 비용을 절감할 수 있음
  • 표본의 특성인 통계를 이용하여 모집단의 특성을 추론하기 위함
  1. 표본추출의 장.단점

(1) 장점

  • 시간과 비용 절감
  • 신속한 처리
  • 모집단 전체 조사가 불가능한 경우 유용
  • 비표본오차 감소
  • 조사대상 오류 감소
  • 정확도 향상
  • 다방면의 정보획득

(2) 단점

  • 표본의 대표성 문제
  • 표본추출오차 발생
  • 모집단 크기가 작은 경우 무의미함
  • 전문지식 필요
  • 특정성격의 조사대상에겐 적용 어려움
  • 비표본오차 - 조사 설계, 집계, 정리 등에서 발생하는 오차 - 조사대상이 너무 많을 때 발생
  • 한마디로 표본오차의 반대의미. 표본오차 뜻은 뒤에 나옴
  1. 표본추출의 주요 개념

(1) 요소(Element): 정보수집, 분석의 기본이 되는 단위(Unit)

(2) 모집단(Population): 조사대상이 되는 집단

  • 명확하고 한정적으로 구성되어야 함 (예_우리나라 사람 전체 X, 2021년 대한민국 거주자 O)
  • 유한모집단: 전체 표본추출단위수를 계산할 수 있는 모집단
  • 무한모집단: 표본추출단위수가 무한한 모집단(예_동전던지기)

(3) 표본추출단위(Sampling Unit): 자료가 수집되는 대상의 요소(=단위)

  • 1단계 표본에서는 표본추출단위=요소지만, 다단계 표본에서는 상이하게 적용될 수 있음

(4) 표집틀(Sampling Frame): 표본추출단위가 수록된 목록

  • 표집틀과 모집단이 일치하지 않으면 표집틀 오차가 발생함
  • 포괄성, 추출확률, 효율성을 봄
  • 쉽게 말하면, 표본 뽑는 명단임.

예를 들어, 표본이 'A아파트 거주자'면 '주민등록상 A아파트 거주자 명단'이 표집틀이 됨

(5) 표집간격(Sampling Interval): 추출되는 표본사이의 간격

  • 공식: 모집단의 크기 ÷ 표본의 크기

(6) 표집율(Sampling Ratio): 모집단에서 표본이 선택되는 비율

  • 공식: 표본의 크기 ÷ 모집단의 크기

(7) 표본오차(Sampling Error): 표본의 측정값이 모집단의 수치와 다른 정도

  • 그니까, 표본을 잘못 뽑아서 모집단을 충분히 일반화하지 못한다는 것

(8) 통계량(Statistics): 표본에서 얻은 변수의 값을 요약하고 묘사한 것

(9) 모수(Parameter): 모집단의 특성을 나타내는 수치

  • 모평균, 모분산, 모표준편차, 모비율, 모상관관계 등
  • 흔히 모수가 부족하다...이럴 때 쓰는 뜻이랑 완전 다름

(10) 변수(Variable): 요소마다 다르게 가지는 값 (↔상수)

(11) 계층(Strata): 모집단의 특성을 구분해놓은 부분 집합

(12) 편의(Bias): 실제 상태와 다르게 나타나는 평균적 차이

(13) 표본분포(Sampling Distribution): 표본의 특성을 나타내는 대표값(표본 통계량)의 확률분포

  • 아직 이해하기 어려운데..

표본을 뽑으면 얻을 수 있는 평균, 분산, 중위값 이런 대표값들을 표본 통계랑이라고 하는 거고.

표본을 1번 뽑으면 표본 통계량을 1번 얻고, 2번 뽑으면 2번, n번 뽑으면 n번 얻겠지요.

1번 뽑는 것 보다 n번 뽑은 값의 확률분포를 보는 게 더 정확할테니 이런 개념이 있는 거고.

그걸 바탕으로 모수(parameter)를 보다 정확하게 추측할 수 있게 되는 거임!

  1. 표보조사설계의 절차
  1. 모집단 확정
  • 연구대상, 표본단위, 연구범위, 기간 등을 명확히 한정하여 모집단을 설정한다.
  1. 표집틀 선정
  • 모집단의 구성요소를 모두 포함하되, 각 요소가 이중으로 포함되지 않아야 한다.
  1. 표집방법 결정
  • 표집방법에는 확률표본추출방법과 비확률표본추출방법이 있다. (다음장에 자세히 나옴)
  1. 표집크기 결정
  • 모집단의 성격, 시간, 비용, 조사원의 능력, 표본오차 등을 고려하여 결정한다.
  1. 표본추출
  • 모집단의 일반화 가능성을 염두에 두고 표집방법에 따라 표본을 추출한다.

2장. 표본추출의 형태

  1. 확률표본추출 무작위 추출, 표본오차 추정 가능, 표본의 대표성 확보, 표집틀 존재, 많은 시간과 비용

1) 단순무작위 표본추출: 가장 기본적 유형으로, 조작없이 표본을 무작위로 추출하는 방법

(1) 표본추출방법

  • 모집단과 표집틀 작성
  • 각 구성요소에 고유번호 부여
  • 표본의 크기 결정
  • 규정된 표본의 수만큼 추출(난수표, 추첨법, 컴퓨터 등 활용)

(2) 유의사항

  • 모집단에 대한 정확한 정의와 완전한 표집틀 구비를 전제조건으로 함
  • 표본추출 중 모집단이 변하면 안 됨
  • 표본추출 중 표본 선정방법이 변하면 안 됨
  • 모집단을 형성하는 각 표본추출단위는 독립되어야 함

(3) 장점

  • 표본의 대표성이 있음
  • 표본오차 계산이 용이함
  • 적용하기 쉬움
  • 모집단에 대한 사전지식 필요없음
  • 다른 표본추출방법 간의 효과를 계산하는 준거가 됨

(4) 단점

  • 표본의 규모가 커야함
  • 표집틀 작성 어려움
  • 모집단에 대해 가지고 있는 지식 활용 불가함

2) 계통적 표본추출(체계적 표본추출): 일정한 표집간격에 따라 표본을 추출하는 방법

(1) 표본추출방법

  • 표본간격 K를 설정 (K=모집단의 수 ÷ 표본의 수)
  • 무작위로 첫 번째 표본을 선정
  • 첫 번째 표본 이후 동일한 간격(K)으로 표본을 추출
  • 예) 모집단 1000명, 표본 100명일 경우 표본간격(K)은 10 ➡️ 첫 번째 표본이 3번째로 선정되었다면, 3, 13, 23, 33, ... 993 표본으로 추출

(2) 유의사항

  • 첫 번째 표본은 반드시 무작위로 선정
  • 표집틀의 배열은 체계없이 무작위로 배열

(3) 장점

  • 단순무작위표본추출에 비해 시간이 덜 소비됨
  • 이해가 쉽고 수행이 용이함
  • 모집단 전체를 공평하게 추출하므로, 대표성이 높을 수 있음

(4) 단점

  • 모집단의 배열이 주기성을 띌 경우 대표성의 문제가 발생함
  • 모집단에 대한 사전지식이 필요함

3) 층화표본추출: 모집단을 몇 개의 계층(Strata)으로 나눈 후 단순무작위표본추출 하는 방법

(1) 표본추출방법

  • 모집단을 두 개 이상의 상호배타적 계층으로 분리(예_남자/여자)
  • 계층의 구성비에 따라 각각 무작위 표본 추출(예_모집단 비율이 남자4:여자6이면 표본도 동일한 비율로 추출)
  • 각 계층에서 추출된 표본을 합산

(2) 유의사항

  • 층화기준은 분석대상이 되는 변수와 관계를 가져야 함(예_학년별 독서량 조사 시, 층화기준은 학년이 적합)
  • ****계층 내 동질성, 계층 간 이질성 확보 (↔집락표본추출과 반대)
  • 정확하고 이용가능한 자료를 바탕으로 층화
  • 층화기준이 너무 많으면 곤란

(3) 장점

  • 모집단 구성 계층을 골고루 포함 가능
  • 계층이 모집단의 특수속성과 일치하여 대표성 보장
  • 층화가 잘되면 단순무작위표본추출보다 적은 표본으로 대표성 확보 가능
  • 단순무작위표본추출 ,계통적 표본추출에 비해 시간, 경비 절감
  • 각 계층의 특성 비교가능

(4) 단점

  • 각 계층에 대한 정확한 정보 필요
  • 층화기준이 되는 명부 필요, 명부 작성 시 시간, 경비 필요
  • 특별한 통계적 조작이 필요하여 상대적으로 복잡함

(5) 상세유형

① 비례층화표본추출: 각 계층의 크기에 비례하여 표본을 할당하여 추출하는 방법

  • 모집단을 정당하게 대표하는 표본 추출이 가능함
  • 계층이 많은 경우 비례 추출이 어렵고, 각 계층 간 비교도 어려움

② 비비례층화표본추출: 각 계층의 크기에 상관없이 같은 수의 표본을 추출하는 방법

  • 모집단의 특성보다는 각 부분집단의 특성을 보고자할 때 사용됨
  • 계층의 특성이 중요한 경우 표본의 유효성을 높임

③ 최적분할 비비례층화표본추출방법: 각 계층에 표본을 할당할 때 통계량의 표준오차가 최소가 되도록 하는 방법

  • 동질적인 층에서는 적게, 이질적인 층에서는 많게 표본을 선정
  • 계층 또는 변수에 대한 사전지식이 요구되며, 현실적으로 적용 어려움
  • 예를 들면, 임원-사원으로 층화했을 때

임원 계층은 수가 적으니 표본을 많이 뽑고, 사원 계층은 수가 많으니 표본을 적게 뽑아서

결과의 정확도를 높이는 방법으로 보면 될 듯

4) 집락표본추출(군집표본추출): 모집단을 몇 개의 계층으로 나눈 후 무작위로 한 계층을 선택하여 그 계층을 조사하는 방법

(1) 표본추출방법

  • 집락(계층)의 수를 결정
  • 무작위로 일정 수의 집락을 선정
  • 각각 선정된 집락 내의 구성원 전수조사 또는 표본조사

(2) 유의사항

  • 집락 내 이질성, 집락 간 동질성 확보 (↔층화표본추출과 반대)
  • 최종 표본추출단위는 집락

(3) 장점

  • 모집단에 비해 규모가 작은 집락 안에서 표본을 추출하므로 시간, 비용 절감 가능함
  • 전체 모집단의 목록이 필요 없음
  • 집락의 성격과 모집단의 성격 파악 가능

(4) 단점

  • 동일한 크기일 경우 단순무작위표본추출, 층화표본추출에 비해 표본오차가 큼
  • 집락이 동질적이면 오차 개입가능성 높음
  • 단순무작위표본추출에 비해 집락을 과대, 과소 표현할 위험
  • 각 집락에 구성요소가 중복으로 포함되거나 결여될 위험

∴ 층화표본추출이랑 집락표본추출은 공통적으로 "모집단을 몇 개의 계층으로 나누는 것"에서 시작함

이후 층화는 '모든' 계층에서 '표본'을 무작위로 추출해서 조사한다면, 집락은 '일부' '계층'을 무작위로 선정하고, 그 계층을 전수 or 일부 조사한다는 것에서 차이가 있음

5) 연속표본추출: 표본추출 중 이미 추출된 자료만으로 충분한 경우 추출을 중지하고 진행하는 방법

(1) 장점

  • 모집단의 성격 파악을 용이하게 함
  • 불필요한 자료 수집 방지

(2) 단점

  • 한정적인 경우에만 사용 가능(매우 적은 표본으로 모집단을 대표할 수 있을 때)
  • 표본추출 오류의 위험성이 높음
  1. 비확률표본추출 인위적 추출, 표본오차 추정 불가능, 표본의 대표성 확보 어려움, 표집틀 부족, 적은 시간과 비용

1) 할당표본추출: 모집단을 몇 개의 범주로 나눈 후 작위적으로 표본을 추출하는 방법

(1) 표본추출방법

  • 연구문제와 관련있는 기준으로 모집단을 범주(계층) 분류
  • 각 범주의 표본수(할당량) 결정
  • 각 범주에서 할당량만큼 표본 추출
  • 조사원의 임의적 판단에 의해 표본 추출
  • 층화표본추출에서 무작위만 아닌 거.

*할당범주: 모든 경우의 수를 곱하여 계산

예) 15개 시도, 5개의 연령층, 성별로 할당표집을 할 때 할당범주는 15x5x2=150

(2) 유의사항

  • 각 범주에 할당된 비율이 정확해야 함
  • 모집단의 구성 비율은 최신버전으로 유지

(3) 장점

  • 비확률표본추출방법 중 가장 정교한 방법
  • 무작위표본추출에 비해 적은 시간과 비용
  • 비교적 표본의 대표성이 높음

(4) 단점

  • 조사자의 편견(Bias) 개입 가능성
  • 무작위의 결여로 일반화에 문제가 있음
  • 분류방법이나 변수에 대한 지식 필요

2) 유의표본추출(판단표본추출): 조사자의 판단과 전략에 따라 모집단을 대표하는 표본을 추출하는 방법

(1) 유의사항

  • 조사자의 주관적 판단에 의거하므로, 판단의 타당성이 중요
  • 본조사보다는 예비조사, 사전조사에 주로 사용

(2) 장점

  • 적은 비용, 편리함
  • 모집단에 대한 지식이 있는 경우 표본추출의 정확도 높음
  • 조사목적을 충족시키는 요소를 정밀하게 고려 가능

(3) 단점

  • 표본의 대표성을 확신할 수 없음
  • 표본오차의 산정이 불가함

3) 임의표본추출(편의표본추출): 편리성에 기준을 두고 임의로 표본을 추출하는 방법

(1) 장점

  • 편리하고 경제적임

(2) 단점

  • 연구자의 편견 개입
  • 일반화 가능성 낮음

4) 누적표본추출(눈덩이표본추출): 소수의 인원을 표본으로 추출한 후, 그 주위 사람을 조사하는 방법

(1) 장점

  • 응답자의 신분 노출없이 조사 가능
  • 시간과 비용 절감
  • 특수한 모집단의 전체 구성원 파악이 어려울 때 유용

(2) 단점

  • 일반화 가능성 낮음
  • 계량화 곤란함
  • 최초의 표본 추출이 어려움
  • 표본의 대표성 확보 어려움

3장. 표본의 크기와 오차

  1. 표본의 크기
  1. 표본의 크기
  • 모집단으로 부터 표본추출단위의 수를 몇 개로 하는 것이 적절한가
  • 표본크기가 커질 수록 모수와 통계치의 유사성, 대표성은 증가함
  • 적은 비용으로 모수를 정확하게 알아낼 수 있는 크기 선정이 중요
  1. 표본의 크기 결정방법
  • 신뢰수준(Z)² × 모표준편차(σ)² ÷ 허용오차(e)²
  1. 표본의 크기에 영향을 미치는 요소

(1) 가용 자원: 시간, 비용, 인적자원 등

(2) 이론과 조사설계: 잘 구성된 이론, 조사설계방법의 경우 적은 표본으로 유효한 결과 도출이 가능함

(3) 모집단의 변이성: 변이성이 높을 수록 표본의 크기가 커야함

(4) 조사결과 분석방법

(5) 집단별 통계치 필요성

(6) 카테고리 다양성: 다양할 수록 표본의 크기가 커야함

(7) 위험성

  1. 오차

1) 표본추출오차 2) 비표본추출오차

- 표본추출 과정에서 발생하는 오차  
  • 표본의 크기가 증가할 수록 작아짐
  • 완전히 없애는 것은 불가능 | - 표본추출 이외의 과정에서 발생하는 오차
  • 측정상의 오차를 의미함
  • 체계적 오차, 비체계적 오차, 불포함 오차 등
  • 표본조사와 전수조사에서 모두 나타날 수 있음
  • 완전히 없애는 것은 불가하나 훈련으로 감소 가능 | | - 표본추출오차와 비표본추출오차는 상호독립적인 관계
  • 둘 중 하나라도 커지면 전체 오차는 커지며 대표성에 문제가 발생함 | |

*불포함 오차: 표본체계가 완전하지 않아 발생하는 오류

  • 직접 발견이 어려워 통제가 힘들다.
  • 타 조사결과와 비교하거나 전문가의 경험에 의존하여 줄여야만 한다.

1장. 측정과 변수

  1. 측정
  1. 측정이란?
  • 일정한 규칙에 따라 개념이나 변수에 수치를 부여하는 것
  1. 측정의 역할
  • 표준화된 묘사 (예_거리, 중량, 지능)
  • 간편한 묘사(예_대소(大小)비교, 고유번호, 전화번호 등)
  • 가설에 대한 경험적 검증
  1. 측정의 기능
  • 추상적인 개념과 경험적인 현실을 연결
  • 현상의 통계적 분석
  • 가설에 대한 경험적 검증
  1. 측정의 유형

① 본질측정: 속성의 본질적 법칙에 따라 숫자를 부여

② 추론측정: 관련된 다른 사물이나 사건의 속성을 측정

③ 임의측정: 어떤 속성과 측정값 간 관계가 있다고 가정하고 측정

  1. 개념적 정의와 조작적 정의

(1) 개념화(개념적 정의): 개념을 명확하게 하는 것으로 측정과정의 첫 단계

(2) 조작화(조작적 정의): 분석 단위를 카테고리별로 분류하는 것으로 측정과정의 마지막 단계

  1. 지표(Indicator)
  • 어떤 것의 상태 및 특성을 나타내는 표시물
  • 상대적이며 확률적
  • 신뢰성, 타당성, 체계성을 확보해야 함
  • 속성 자체뿐만 아니라 속성의 관계도 나타내야 함
  1. 지수(Index)
  • 두 개 이상의 지표가 모여 만들어진 복합측정치
  • 지표보다 변수의 속성을 파악하기 용이함
  • 변수에 대한 양적측정치를 제공하여 정확성 제고
  • 측정대상의 속성을 객관화
  1. 변수
  1. 변수란?
  • 두 가지 이상으로 분류할 수 있는 개념, 사상에 계량적 수치를 부여한 것
  1. 변수의 종류

(1) 변수 간의 기능적 관계에 따른 분류

① 독립변수: 원인변수, 실험에서 연구자에 의해 조작되는 변수

② 종속변수: 결과변수, 독립변수의 영향을 받아 전제된 결과를 나타내는 변수

③ 외생변수: 실험변수가 아니면서 종속변수에 영향을 주는 변수, 최대한 제거해야 함

④ 매개변수: 독립변수와 종속변수 사이에서 매개자 역할을 하여 관계성을 높이는 변수

⑤ 선행변수: 독립변수에 영향을 주는 변수, 독립변수 없이 선행변수-종속변수끼리는 영향도 낮음

⑥ 억압변수: 독립변수와 종속변수 간의 관계를 (있는데) 없는 것처럼 보이게 하는 변수

⑦ 허위변수: 독립변수와 종속변수 간의 관계를 (없는데) 있는 것처럼 보이게 하는 변수

⑧ 왜곡변수: 독립변수와 종속변수의 관계를 왜곡시키는 변수, 특히 정반대의 결과를 나타나게 함

⑨ 조절변수: 독립변수가 종속변수에 미치는 영향을 강화하거나 약화시키는 변수

⑩ 통제변수: 외생변수를 통제하는 변수

(2) 변수의 속성에 따른 분류

① 이산변수(불연속변수)

  • 성격에 따라 별개의 카테고리로 분류되는 변수
  • 값과 값 사이가 분리되어있어 사이 값이 아무런 의미를 가지지 않음
  • 명목척도, 서열척도(예_성별, 종교, 학력 등)

② 연속변수

  • 변수의 양적 정도에 따라 구별되는 변수
  • 값과 값 사이가 연결되어있어 사이 값이 의미를 가짐
  • 등간척도, 비율척도(예_소득, 연령, 산업재해율 등)

③ 더미변수(지시변수, 가변수)

  • 질적 변수를 수치로 변환한 변수
  • 0 또는 1의 어느 한 쪽 값을 취함(예_고등교육 유무, 보험가입 여부 등)

④ 이분변수

  • 변수의 특성이 둘로 나누어지는 질적 변수(예_성별)

⑤ 잠재변수

  • 직접적으로 관찰되거나 측정되지 않는 변수(예_지능, 태도, 만족도)

⑥ 관찰변수

  • 직접적으로 관찰되는 측정변수
  • 잠재변수에 대한 조작정 정의
  1. 측정의 수준

명목수준, 서열수준, 등간수준, 비율수준에 대한 개념, 특징은

[조사방법론Ⅱ] - 챕터3 - 2장 척도에서 자세히 나오므로 간략하게 적고 넘어감

  1. 명목수준의 측정

(1) 개념: 특징에 명목상의 이름을 부여하는 것

(2) 특징: 가장 낮은 수준의 측정 (예_성별, 인종, 종교)

(3) 측정의 속성

① 실증적 원칙: 유사한 분석단위는 동일 범주로, 상이한 것은 타 범주로 할당해야 함

② 완전성(총망라성): 분석 단위를 빠짐없이 범주들 가운데 하나에 할당해야 함

③ 상호배타성: 분석 단위가 이중적으로 할당되지 않아야 함

  1. 서열수준의 측정

(1) 개념: 명목척도에 서열상 순서, 관계를 부여하는 것

(2) 특징: 서열 간 동등한 간격이 있지는 않아 계산이 불가능함(예_석차, 사회계층)

(3) 측정의 속성

① 실증적 원칙: 유사한 분석단위는 동일 범주로, 상이한 것은 타 범주로 할당해야 함

② 완전성(총망라성): 분석 단위를 빠짐없이 범주들 가운데 하나에 할당해야 함

③ 상호배타성: 분석 단위가 이중적으로 할당되지 않아야 함

④ 이행성: A>B 이고 B>C 인 경우 A>C 임

⑤ 비대칭성: A>B 이고 B>C인 경우 C는 A보다 클 수 없음

  1. 등간수준의 측정

(1) 개념: 서열척도에 간격이 일정한 서열을 부여하는 것

(2) 특징: 서열 간의 간격 측정(+, -)이 가능하나 절대 '0'은 없음 (예_IQ점수, 온도)

(3) 측정의 속성

① 실증적 원칙: 유사한 분석단위는 동일 범주로, 상이한 것은 타 범주로 할당해야 함

② 완전성(총망라성): 분석 단위를 빠짐없이 범주들 가운데 하나에 할당해야 함

③ 상호배타성: 분석 단위가 이중적으로 할당되지 않아야 함

④ 이행성: A>B 이고 B>C 인 경우 A>C 임

⑤ 비대칭성: A>B 이고 B>C인 경우 C는 A보다 클 수 없음

⑥ 부가성: (A-B) + (B-C) = (B-C) + (C-D)

  1. 비율수준의 측정

(1) 개념: 등간척도에 비례수준을 부여하는 것

(2) 특징: 서열 간의 간격 측정(+, -, ×, ÷)이 가능하며 절대 '0'이 있음(예_소득, 인구수)

(3) 측정의 속성

① 실증적 원칙: 유사한 분석단위는 동일 범주로, 상이한 것은 타 범주로 할당해야 함

② 완전성(총망라성): 분석 단위를 빠짐없이 범주들 가운데 하나에 할당해야 함

③ 상호배타성: 분석 단위가 이중적으로 할당되지 않아야 함

④ 이행성: A>B 이고 B>C 인 경우 A>C 임

⑤ 비대칭성: A>B 이고 B>C인 경우 C는 A보다 클 수 없음

⑥ 부가성: (A-B) + (B-C) = (B-C) + (C-D)

⑦ 절대적 0

2장. 측정의 신뢰도와 타당도

  1. 신뢰도
  1. 신뢰도란?
  • 일관성 있게 측정하는 능력, 반복하여 동일한 결과를 얻는 정도
  • 유사표현: 신빙성, 안정성, 일관성, 예측성
  1. 신뢰도 검증방법

(1) 재검사법(Retest Method)

  • 동일한 대상, 동일한 측정도구로 상이한 시간에 두 번 측정하는 방법
  • 안정성계수(Coefficient of Stability) -1.00 ~ +1.00 척도를 사용
  • 적용이 간편하고, 측정도구 자체를 직접 비교 가능
  • 두 번째 검사의 텀이 짧으면 학습효과, 길면 심경의 변화에 영향받을 수 있음
  • 척도 항목수를 늘리거나 무작위추출법으로 대상을 선택하여 보완

(2) 복수양식법(Multiple Forms Technique)(=대안법, 평행양식법)

  • 동일한 대상에 두 개 이상의 유사한 측정도구를 사용하여 측정하는 방법
  • 외생변수 영향 극복 가능
  • 두 개의 동등한 측정도구 개발이 어려움 -> 신뢰성의 문제인지, 도구 동등성의 문제인지 파악 어려움

(3) 반분법(Split-half Method)

  • 측정도구를 반으로 나누어 측정하는 방법(보통 문항의 홀수번, 짝수번으로 나눔)
  • 한 번의 측정으로 신뢰도 추정 가능
  • 측정도구의 단일성 필요하며 어려움
  • 특정 단일문항의 신뢰도 검증 불가능

** Spearman-Brown 예측공식*

  • 두 부분의 측정결과를 비교하여 상관계수를 계산함
  • 전체 질문지 신뢰도 > 짝수 질문지 신뢰도 > 홀수 질문지 신뢰도 를 전제로 함

(4) 관찰자 신뢰도

  • 관찰의 안정성을 기초로 한 측정 방법

① 재검사적 관찰자 신뢰도: 한 관찰자가 시간 간격을 두고 반복관찰한 후 결과 비교

② 대안적 관찰자 신뢰도: 두 명 이상 관찰자가 각각 관찰한 후 결과 비교

(5) 내적 일관성 분석법(Internal Consistenct Method)

  • 측정할 수 있는 모든 조합의 상관관계 평균값을 산출해 신뢰도를 측정하는 방법
  • 신뢰성을 저해하는 항목을 찾아 배제함

** Cronbach's α Coefficient*

  • 척도를 구성하는 항목 간에 나타난 상관관계 값을 평균처리한 것
  • 문항의 수가 많을 수록 값이 커짐
  • 0~1의 값을 가지며, 0.6 이상을 유의미한 수준, 0.8 이상을 신뢰도가 높은 수준으로 봄

spss돌릴 때 실제로 몇 번 썼던 거 같음 크론바하

  1. 신뢰도 제고방법

(1) 항목을 명확히 구성: 누구에게나 동일하게 이해되는 항목 구성

(2) 측정상황 일관성 유지: 표준화된 측정도구, 동일한 조건 하에 측정

(3) 측정항목 추가 사용: 동일한 종류의 항목을 추가로 사용

(4) 대조항목 비교, 분석

(5) 조사자의 주관 제외

(6) 신뢰성 인정된 기존 측정도구 활용

(↔ 측정수단의 비신뢰성, 대상의 비신뢰성, 관찰자의 비신뢰성)

  1. 타당도
  1. 타당도란?
  • 측정하고자 한 것을 제대로 반영하는 정도
  1. 조사설계의 타당도

(1) 내적 타당도: 실험의 인과조건의 충족 정도

(2) 외적 타당도: 실험결과가 일반화될 수 있는 정도

  1. 타당도의 평가

(1) 내용타당도(Content Validity)(=표면타당도, 액면타당도)

  • 측정항목이 연구자가 의도한 대로 실제 측정하고 있는가
  • 논리적인 분석과정으로 주관적인 성격을 띔
  • 전문가 자문, 패널토의, 워크숍 등을 통해 타당도에 관한 의견을 수렴
  • 통계적 검증이 이루어지지 않음
  • 측정하고자 하는 속성과 설계된 항목의 속성 간의 상응관계 정도 파악 불가능

(2) 기준타당도(Criterion Validity)(=기준관련타당도, 실용적 타당도, 경험적 타당도)

  • 계량화를 통해 타당도를 확인하는 방법
  • 기존에 신뢰도와 타당도가 검증된 측정도구에 대한 결과를 기준으로 함

① 동시적 타당도(Concurrent Validity)

  • 기존에 타당도를 보장받은 검사와의 유사성에 의해 검증하는 방법
  • 계량화를 통해 객관적 정보 제공
  • 기존 검사에 의존할 수 밖에 없음
  • 응답자 집단이 이질적일 때 타당도 계수가 높아짐

② 예측적 타당도(Predictive Validity)

  • 미리 예측한 것과 실제 결과 간의 관계를 측정하는 방법
  • 채용, 선발, 배치 등 목적으로 사용 가능
  • 실제 타당도 검증까지 오랜 시간이 소요됨
  • 인적성검사 높은 사람이 업무를 잘한다는 전제로 채용했는데 실제로 일 잘한다? 그럼 예측적 타당도 높단 소리임

(3) 개념타당도(Construct Validity)(=구조적 타당도, 구성 타당도)

  • 미리 개념화된 인간의 심리적 특성을 제대로 측정하였는가를 확인하는 방법
  • 측정값 자체보다는 측정하고자 하는 속성에 집중함
  • 계량적으로 검증하므로 과학적이고 객관적
  • 측정방법: 다중속성-다중측정 방법, 요인분석, 이론적 구성개념 등 (이런 게 있다 정도만 알아두자)

① 이해타당도(Nomological Validity)

  • 특정개념에 대해 체계적, 논리적으로 이해하고 있는가
  • 예) 지능을 창의력, 판단력, 상황대처능력으로 정의할 때, 검사가 그러한 속성을 잘 반영하고 있는지 보는 것

② 수렴타당도(Convergent Validity)

  • 동일한 개념을 서로 다른 방법으로 측정해도 측정값들이 높은 상관관계를 보이는가

③ 판별타당도(Discriminant Validity)

  • 서로 다른 개념을 동일한 방법으로 측정하면 측정값들의 상관관계가 낮은가
  • 수렴타당도와 판별타당도는 다른 검사와의 상관관계를 비교하는 방법임

같은 개념이면 다른 검사지로 해도 결과가 비슷해야 되고(수렴)

다른 개념이면 동일 검사지로 했을 때 결과가 차이나게 나와야 됨(판별)

  1. 신뢰도와 타당도 비교
  1. 상호관계
  • 타당도는 신뢰도의 충분조건, 신뢰도는 타당도의 필요조건
  • 타당도가 높으면 신뢰도가 높지만, 신뢰도가 높다고 무조건 타당도가 높은 건 아니란 소리
  1. 신뢰도와 타당도의 측정

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MDhfNTEg/MDAxNjI4NDEyNTIxMzE1.mqYT9g23aGdEkxeq2Uc7630S7de20sisZ6ZdGC2zSG0g.3JfOWirhm4xfXUxNexIX6jLjkzxpMwi6yzSfh-BQ1N8g.JPEG.sinna7868/그림1.jpg?type=w800

(1) 신뢰도와 타당도가 모두 높은 경우

(2) 신뢰도와 타당도가 모두 낮은 경우

(3) 신뢰도는 높지만 타당도는 낮은 경우

  • 신뢰도는 과녁의 같은 부분을 연달아 맞출 수 있느냐(=안정성, 일관성), 타당도는 과녁의 중앙을 맞출 수 있느냐
  1. 신뢰도와 타당도에 영향을 미치는 요인
  1. 검사지의 길이
  2. 질문방식: 개방형질문 vs 폐쇄형 질문
  3. 측정환경: 대인면접 vs 자기기입식
  4. 측정절차: 절차의 명확성
  5. 문화적 요인: 당시 문화에서 벗어난 단어나 구절 등
  6. 기계적 요인: 질문지 오탈자, 페이지 누락, 면접자의 실수 등
  7. 개인적 요인

① 연령, 성별, 성숙도

② 사회, 경제적 지위: 직업, 교육수준, 소득, 윤리적 배경 등

③ 기억력

  1. 사회적 요인: 사회적으로 바람직하다고 통용되는 문제 등
  2. 조사자의 해석: 해석의 객관성

3장. 측정상의 오차

  1. 측정오차
  1. 측정오차란?
  • 실제 측정대상의 실태와 조사자가 측정한 결과 간의 불일치 정도
  • 측정오차는 신뢰도와 타당도의 문제에 해당함
  • 모든 현상은 변화하므로, 시간의 흐름에 따라 측정오차가 발생하기도 함
  1. 측정오차의 근원

(1) 측정자에 의한 오차

  • 측정도구, 측정방법의 문제
  • 분석과정상의 문제

(2) 측정대상에 의한 오차

  • 고정반응: 극단적인 값을 피하려고 중도값을 선택하는 경향
  • 오표기
  • 사회적 편향

(3) 환경적 요인에 의한 오차

  • 시간, 장소의 제약
  • 문화적 차이
  • 사회학적 차이
  1. 측정오차의 종류

(1) 체계적 오차(Systematic Error)

  • 자료수집방법이나 수집과정에서 개입되는 오차
  • 타당도와 반비례 관계
  • 오차 값이 특정 방향으로 기울어짐(→ 위에 그림 (3)번)
  • 표준화된 측정도구 사용으로 통제 가능
  • 주로 지식, 교육, 신분, 특수정보, 인간성 등에 의한 오차

(2) 비체계적 오차(Random Error)(=무작위적 오차)

  • 측정과정에서 우연히, 일시적 사정에 의해 나타나는 오차
  • 신뢰도와 반비례 관계
  • 오차 값이 다양하게 분산되어 있음(→ 위에 그림 (2)번)
  • 통제하기 어려운 상황에서 발생
  • 상호간의 영향에 의해 상쇄되기도 함

*분류

| 체계적 오차 | 사회, 경제적 특성 | ① 선행효과: 고학력자일수록 앞쪽 답을 선택 ② 후행효과: 저학력자일수록 뒤쪽 답을 선택 | | --- | --- | --- | | | 개인적 성향 | ① 관용의 오차: 무조건 긍정의 답 선택 ② 가혹의 오차: 무조건 부정의 답 선택 ③ 중앙집중의 오차: 무조건 중립의 답 선택 ④ 대조의 오차: 자신과 상반되는 것으로 다른 사람을 평가 ⑤ 후광효과: 한 가지 속성에 강한 인상을 받아 이를 토대로 전체 속성을 평가 | | 비체계적 오차 | | ① 측정자에 의한 오차: 측정자의 건강, 감정상태 등의 영향 ② 측정대상에 의한 오차: 측정대상의 피로, 긴장상태 등의 영향 ③ 측정상황에 의한 오차: 시간, 장소, 분위기 등 |

  1. 측정오차를 줄이는 방법

(1) 측정도구 명확화

(2) 측정 항목 수 증가

(3) 측정방식 일관성 유지

(4) 조사자에 대한 사전훈련

(5) 신뢰도 높은 측정도구 사용

(6) 응답자를 배려한 환경, 분위기

(7) 중요한 것은 2회 이상 유사질문 시행

(8) 응답자가 잘 모르는 내용은 배제

1장. 척도의 의미

  1. 척도(Scale)
  1. 척도란?
  • 측정도구로서 일정한 규칙에 따라 체계화된 기호 또는 숫자
  1. 척도의 특징
  • 연속성
  • 속성과 1:1 관계 (하나의 속성만을 설명해야 함)
  • 속성의 양적 표현
  • 속성의 객관화, 명확화
  • 반드시 숫자는 아님
  1. 척도의 필요성
  • 여러 개의 지표를 하나의 점수로 표시
  • 복합적인 개념을 측정 가능하게 함
  • 측정오류 감소
  • 측정의 신뢰도와 타당도 증가
  • 통계적 활용 용이하게 함
  • 참고

지표점수 < 지수점수 < 척도점수 순으로 많은 정보 전달

  1. 척도의 조건

① 신뢰성: 반복해도 동일하게 측정되어야 함

② 타당성: 속성을 대표할 수 있어야 함

③ 유용성: 실제적 활용이 가능해야 함

④ 단순성: 계산과 이해가 용이해야 함

  1. 척도 구성방법

| (1)비교척도 | 서열척도 | ① 쌍대비교: 두 개씩 쌍을 이뤄 그 중에 선택하게 함 (이상형 월드컵) | | --- | --- | --- | | | | ② 순위법: 각 항목에 순위를 매기게 함 | | | 비율척도 | ③ 고정총합법: 일정한 값을 주고 항목에 점수를 배당하게 함 (각 항목의 선호 정도를 합계가 100이 되도록 나타내시오.) | | | | ④ 비율분할법: 한 항목의 점수를 기준으로 다른 항목에 점수를 매기게 함 (사과의 점수가 100점일 때, 바나나와 오렌지의 점수를 나타내시오.) | | (2) 비비교척도 | 등간척도 | ① 단일평정법 | | | | ② 연속평정법 | | | | ③ 항목평정법 |

  • 평정법이라는 건 '일정한 점수표(등간척도)에 따라 평가하는 방식'인데..

단일, 평정, 항목평정법은 찾아봐도 자료가 안나와서 생략합니다.

대충 뉘앙스로 짐작은 되는데..정확하진 않으니, 저게 비비교척도라는 것만 알아두겠음

  1. 척도화(Scaling)
  1. 척도화란?
  • 측정을 위한 척도의 수립과정
  • 네 가지 기본적인 척도 유형이 근본적인 기준이 됨(명목, 서열, 등간, 비율)
  1. 척도화의 전제

① 내용의 모집단

② 척도분석

③ 단일차원: 척도를 나타내는 문항은 공통적 속성을 나타내야 함

④ 연속체: 척도를 무한히 많은 범주로 나눌 수 있음

2장. 척도의 종류

  1. 명목척도

(1) 개념: 특징에 명목상의 이름을 부여한 척도

(2) 특징: 가장 낮은 수준의 측정 (예_성별, 인종, 종교)

(3) 측정의 속성

① 실증적 원칙: 유사한 분석단위는 동일 범주로, 상이한 것은 타 범주로 할당해야 함

② 완전성(총망라성): 분석 단위를 빠짐없이 범주들 가운데 하나에 할당해야 함

③ 상호배타성: 분석 단위가 이중적으로 할당되지 않아야 함

(4) 산출가능한 자료

① 최빈값(가장 많이 나온 값)

  • [비모수통계] 빈도차이검증 교차분석(카이제곱분석)
  1. 서열척도

(1) 개념: 명목척도에 서열상 순서, 관계를 부여한 척도

(2) 특징: 서열 간 동등한 간격이 있지는 않아 계산이 불가능함(예_석차, 사회계층)

(3) 측정의 속성

① 실증적 원칙: 유사한 분석단위는 동일 범주로, 상이한 것은 타 범주로 할당해야 함

② 완전성(총망라성): 분석 단위를 빠짐없이 범주들 가운데 하나에 할당해야 함

③ 상호배타성: 분석 단위가 이중적으로 할당되지 않아야 함

④ 이행성: A>B 이고 B>C 인 경우 A>C 임

⑤ 비대칭성: A>B 이고 B>C인 경우 C는 A보다 클 수 없음

(4) 산출가능한 자료

① 최빈값(가장 많이 나온 값)

② 중앙값

  • [비모수통계] 교차분석(카이자승분석), 순위상관관계분석, 연속성검증 등
  1. 등간척도

(1) 개념: 서열척도에 간격이 일정한 서열을 부여한 척도

(2) 특징: 서열 간의 간격 측정(+, -)이 가능하나 절대 '0'은 없음 (예_IQ점수, 온도)

(3) 측정의 속성

① 실증적 원칙: 유사한 분석단위는 동일 범주로, 상이한 것은 타 범주로 할당해야 함

② 완전성(총망라성): 분석 단위를 빠짐없이 범주들 가운데 하나에 할당해야 함

③ 상호배타성: 분석 단위가 이중적으로 할당되지 않아야 함

④ 이행성: A>B 이고 B>C 인 경우 A>C 임

⑤ 비대칭성: A>B 이고 B>C인 경우 C는 A보다 클 수 없음

⑥ 부가성: (A-B) + (B-C) = (B-C) + (C-D)

(4) 산출가능한 자료

① 최빈값(가장 많이 나온 값)

② 중앙값

③ 산술평균

④ 표준편차

  • [모수통계] t검증, 분산분석(F검증), 상관관계분석
  1. 비율척도

(1) 개념: 등간척도에 비례수준을 부여한 척도

(2) 특징: 서열 간의 간격 측정(+, -, ×, ÷)이 가능하며 절대 '0'이 있음(예_소득, 인구수)

(3) 측정의 속성

① 실증적 원칙: 유사한 분석단위는 동일 범주로, 상이한 것은 타 범주로 할당해야 함

② 완전성(총망라성): 분석 단위를 빠짐없이 범주들 가운데 하나에 할당해야 함

③ 상호배타성: 분석 단위가 이중적으로 할당되지 않아야 함

④ 이행성: A>B 이고 B>C 인 경우 A>C 임

⑤ 비대칭성: A>B 이고 B>C인 경우 C는 A보다 클 수 없음

⑥ 부가성: (A-B) + (B-C) = (B-C) + (C-D)

⑦ 절대적 0

(4) 산출가능한 자료

① 최빈값(가장 많이 나온 값)

② 중앙값

③ 산술평균

④ 표준편차

⑤ 기하평균

⑥ 조화평균

  • [모수통계] 모든 모수통계

3장. 척도의 구성

  1. 평정척도

(1) 개념

  • 연속성을 전제로 일정한 등급방식에 의해 평가한 척도(예_학점, 태도점수)

(2) 특징

  • 비표준화된 관찰법(심리평가 등)의 단점 극복을 위해 사용됨
  • 척도를 사용하는 모든 사람에게 같은 의미를 전달해야 함
  • 쉽게 관찰할 수 없는 특성은 배제해야 함
  • 찬반 응답 수가 균형을 이루어야 함
  • 각 범주는 완전성, 상호배타성, 논리적 연관성을 가져야 함 -> 명목, 서열, 등간, 비율척도 모두 가지는 척도의 기본 속성임

(3) 장점

  • 작성이 쉽고 평가가 용이함
  • 다양한 대상의 행동특성 관찰에 적용 가능함
  • 다른 관찰법의 보조도구로 활용 용이함
  • 관찰을 수량화하여 개체간 비교 가능하게 함
  • 반복하여 사용함으로써 시간의 흐름에 따른 변화도 기록 가능

(4) 단점

  • 객관된 항목 개발이 어려움
  • 행동의 수준만을 기록하여 행동의 원인을 설명하지 못함
  • 관찰자의 숙달이 필요함
  1. 서스톤 척도(등현등간척도, 유사등간척도)

(1) 개념

  • 등간적으로 구분된 범주에 수치를 부여하여 우호성의 정도를 측정하는 척도

(2) 특징

  • 등간척도
  • 각 문항이 척도상 어디에 위치할 것인지 평가자가 판단한 후, 대표적 문항을 선정하여 척도를 구성
  • 중요한 항목에 가중치 부여
  • 평가자의 의도에 기초하여 문항 구성
  • 사전평가 필요

(3) 작성절차

① 문항수집: 변수와 관련있는 의견을 광범위하게 수집(문헌조사)

② 문항분류: 가장 부정적~가장 긍정적 문항을 11개의 비슷한 간격으로 분류

③ 척도가치 결정: 평가자가 척도상의 위치를 결정(여러 평가자들의 중앙값)

④ 척도문항 선정: 척도에 포함될 문항을 결정(평가자들 점수가 분산된 문항은 모호성의 기준에 따라 제외)

⑤ 최종척도 구성

(4) 장점

  • 리커트척도 문항 간격이 동일하지 않다는 문제점을 보완(서열척도 → 등간척도)
  • 많은 질문문항 가운데 연관 문항이 선정되기 때문에 정확도가 높음

(5) 단점

  • 복잡함
  • 많은 인원과 시간 소요
  • 태도가 아닌 우호성의 정도를 결정하므로, 구체성이 결여됨

예)

문항번호 문항 가중치

1 A를 위해 B를 억압해야 한다. 1.5
2 C에 동조함으로써 호의적 대우를 받을 수 있다. 2.7
3 D는 사회적 의견에 의해 제한될 수 있다. 2.2
4 ... ...
  • 인터넷에서 찾은 바로는

[서스톤척도: 가중치가 부여된 일련의 문항을 나열하고, 응답자에게 찬/반을 표시하게 한 후 찬성하는 문항의 가중치를 합해서 평균을 냄] 이라고 함..책에는 이런 설명 없음 ㅋㅋ

그냥 평가자들에 의해 설계되는 11점 ver. 등간척도라는 것만 알아두자.

  1. 리커트 척도(총화평정척도)

(1) 개념

  • 서열화된 범주에 따라 인간의 태도를 측정하는 척도

(예_매우 만족/만족/보통/불만족/매우 불만족)

(2) 특징

  • 서열척도
  • 다문항척도: 상관관계가 높은 특성들을 측정함
  • 집단의 특수성에 기초하여 문항 구성
  • 전체 문항의 총점이나 평균으로 태도를 측정
  • 각 문항은 동일한 태도가치를 갖는다고 인정됨
  • 일반적으로 예비문항 선정단계를 거침
  • 요인분석을 통해 단일차원성을 검증할 수 있음(각 문항이 하나의 요인으로 묶이는지)

(3) 작성절차

① 응답자 선정, 문항수집: 응답자 선정 후, 응답자 태도를 바탕으로 관련 문항 수집

② 문항작성: 가장 긍정적~가장 부정적 문항 작성

③ 문항배점: 보통 가장 긍정적~가장 부정적 순서로 5, 4, 3, 2, 1 점수를 매김

④ 총점 순위배열: 전체 문항 점수를 합산한 후 순위에 따라 배열

⑤ 점수차 계산: 총점 상위 25% 집단, 하위 25%집단 간 응답점수 차를 계산

⑥ 척도문항 분석: 일반적으로 상위 집단, 하위 집단 간 평균차이가 2.0 이상이면 판별력이 있는 것으로 판단

예시)

문항번호 상위 25% 응답평균 하위 25% 응답평균 평균차이

1 4.5 1.9 2.6 (적합)
2 3.4 2.2 1.2
3 3.6 2.8 0.6
4 3.9 1.1 2.8 (적합)
5 4.4 1.0 3.4 (적합)

⑦ 척도의 구성: 적합한 문항을 최종적으로 포함

⑧ 내적일관성 측정: 크론바하 계수 등 검증을 통해 신뢰도가 낮은 항목 삭제

(4) 장점

  • 경제적
  • 지표가 단순함
  • 신뢰도 높음(일관성 있음)
  • 문항이 명확하게 서열화되어 있으므로 혼란이 적음
  • 측정의 정밀성 확보 가능

(5) 단점

  • 타당성 확보 어려움
  • 중간 정도의 응답에는 민감하지 못함
  • 점수 총점으로는 각 응답의 강도를 정확히 알기 어려움
  1. 거트만 척도(누적척도, 합성측정, 척도도식법)

(1) 개념

  • 누적척도로 단일차원의 특성을 측정하기 위한 척도

(2) 특징

  • 서열척도
  • 단일차원성: 척도가 누적되어 하나의 특성을 측정함
  • 누적성에 따라 응답의 예측이 가능함 (강한 태도에서 긍정이면 약한 태도도 긍정)
  • 재생계수(CR)가 1일 때 완벽한 구성이며, 최소 0.9 이상이어야 함
  • 재생계수(CR)= 1-오차수 ÷
  • 총응답가능수

총응답가능수= 전체응답자수 × 전체문항수

(3) 작성절차

① 개념결정: 척도화 가능한 개념과 적용될 모집단 정의

② 문항작성: 단일차원적 척도를 형성하는 문항 작성. 내용타당도를 가져야 함

③ 누적적 배열: 내용의 강도에 따라 서열적, 누적적으로 배열 (강한 태도 → 약한 태도)

④ 오류검증: 누적적으로 되어있지 않은 문항의 수 파악

⑤ 재생계수(CR) 산출: 재생계수 0.9 이상이면 유용성이 있는 것으로 판단

⑥ 척도구성

(4) 장점

  • 태도의 개념적 측정에 유용
  • 이론적으로 우월
  • 척도 작성과정이 쉬움

(5) 단점

  • 누적적 문항 작성이 어려움
  • 다차원 척도로서 사용되지 못함
  • 어떤 개념의 존재여부에 대한 증거가 되지 못함
  1. 보가더스 사회적 거리척도

(1) 개념

  • 집단 간의 친밀정도를 측정하는 척도

(2) 특징

  • 서열척도
  • 서스톤 척도처럼 다수의 평가자들에 의해 척도가 결정
  • 누적적, 연속적 문항
  • 개인보단 집간 간의 사회적 거리를 규명함

(3) 작성절차

① 문항수집: 사회적 거리를 표시하는 많은 문항 수집

② 문항분류: 사회적 거리라는 연속성의 순서에 따라 배열

③ 등간격 가정: 각 문항별 간격을 가정, 평점기준X, 절대적 0점X

④ 응답수집: 신뢰도 → 재검사법, 타당도 → 집단비교법 사용

(4) 장점

  • 집단 간 거리를 측정하는 데 유용
  • 적용범위가 넓음
  • 예비조사에 적합함

(5) 단점

  • 조사의 정확성 확보 어려움
  • 문항별 간격을 동일하다고 볼 수 없음
  • 응답자의 인위적 조작성이 강함
  1. 소시오메트리(=사회성 측정법)

(1) 개념

  • 집단 내 개인의 선택, 대인관계를 수집하여 집단의 구조나 상태를 파악하는 방법

(2) 특징

  • 집단 내 구성원 간의 사회적 거리를 규명함

(↔보가더스 사회적 거리척도와 구분되는 특징)

(3) 작성절차

① 질문작성: 하나의 구성원 선택 or 구성원들의 우선순위 서열화 등

② 도표화와 해석

  • 소시오메트릭행렬: 응답결과를 행렬로 정리하여 분석
  • 소시오그램: 구성원 간의 관계를 기호로 표시하는 방법
  • 소스오메트릭지수: 구성원 간의 관계를 일정한 공식에 따라 계산하여 지수를 구하는 방법

(공식: 선택지위지수, 집단확장지수, 집단응답지수 3가지를 경우에 따라 활용)

(4) 장점

  • 자연적인 자료 수집
  • 경제적, 단순성, 신축성
  • 계량화 가능성 높음
  • 적용범위가 넓음

(5) 단점

  • 조사대상에 대한 체계적 이론 검토 결여
  • 신뢰성과 타당성에 대한 고찰 결여
  • 자료 처리가 소홀한 경향이 있음
  • 시공간적 제약
  • 한정된 조사인원일 때만 적용 가능
  1. 의미분화 척도(=어의차이척도, 어의구별척도)

(1) 개념

  • 서로 반대되는 형용사를 양극에 두고 가중치를 매기도록 하는 방법

(2) 특징

  • 하나의 개념을 여러 가지 의미 차원에서 평가하도록 유도
  • 심리학, 정치학 분야에서 주로 활용
  • 적합성: 평가개념을 충분히 측정할 수 있도록 타당성을 가져야 함
  • 대표성: 양극형용사가 대표성을 가져야 함

(3) 분석방법

① 평균치분석방법: 각 척도점의 평균치를 계산하여 분석. 개념의 유사성과 상이성을 구별

② 거리집락분석방법: 각 척도점 사이의 거리를 측정하여 관계를 분석

③ 요인평점분석방법: 요인평점을 사용하여 응답자, 개념을 평가

(4) 장점

  • 다양한 연구문제에 적용 가능
  • 타당성 확보 가능
  • 신속성, 경제성
  • 가치와 태도 측정에 용이함

(5) 단점

  • 어의차를 구체적으로 적용하기 어려움
  • 수치부여의 등간격성에 대한 의문
  • 시공간적 환경에 따라 다른 결과가 나올 수 있음
  1. 기타척도
  1. 스타펠 척도: 태도의 방향과 강도를 측정하기 위한 척도. 긍정은 양수 부정은 음수로 응답
  2. 오스굿 척도: 양극단에 있는 서로 반대된 형용사를 이용하여 개념에 등급을 매기는 척도

1장. 대푯값

  1. 대푯값 자료 전체를 대표하는 값
  1. 대푯값이란?
  • 분포의 중심위치를 나타내는 값
  • 집중화 경향을 나타내는 수치
  1. 구분

(1) 계산적 대푯값: 산술평균, 기하평균, 조화평균, 평방평균 등

(2) 위치적 대푯값: 중위수, 최분수, 사분위수, 백분위수 등

  1. 계산적 대푯값 극단적인 변수에 의해 영향을 받으므로 추상적인 대푯값
  1. 산술평균(Ⅹ)
  • n개의 수의 합을 n으로 나눈 것 = X의 총합/개수
  • 극단적인 변수 값에 영향을 크게 받음
  • 가중산술평균: X1이 f1개, X2가 f2개, Xn이 fn개 있을 때 평균 = Xnfn의 총합/f의 개수

가중산술평균 예시


A반 학생은 10명이고 평균성적이 50점, B반 학생은 20명이고 평균성적이 20점이다. 전체 평균성적은?


  1. 기하평균(G)
  • n개의 양수가 있을 때, 그 수의 곱의 n제곱근 값 = n√x의 총곱셈
  • 변화율이나 비율의 평균을 구할 때 이용
  • 극단적인 변수 값에 영향을 받지만 산술평균보다는 적게 받음
  • 인구변동률, 물가변동률, 경제성장률 등 비율 대푯값 산정에 많이 쓰임

기하평균 예시 아놔 제곱 특수문자 4까지 밖에 없어서 예시가 부실함


2, 8의 기하평균은? = ²√16 =²√2⁴ = 4


  1. 조화평균(H)
  • n개의 양수가 있을 때, 그 수의 역수를 산술평균한 것의 역수
  • 시간에 따른 변량, 속도 등에 사용하는 대푯값
  • 단위당 평균 산출에 이용

조화평균 예시 평균속도 구할 때 조화평균을 쓴다고 하는데..그냥 산수문제같은디..일단 알아두자


목적지까지 갈 때는 시속 80km로, 올 때는 시속 100km로 운행했을 때 평균 운행속도는?

속도= 거리 ÷ 시간이니까, 2x ÷ (x/80 + x/100) = 2x ÷ 9x/400 = 800x ÷ 9x = 88.8888...


  • 산술평균(X) ≥ 기하평균(G) ≥ 조화평균(H)
  1. 위치적 대푯값 극단적인 변수에 의해 영향을 받지 않으므로 구체적인 대푯값
  1. 중위수(Me)
  • 변수들을 크기순으로 배열했을 때 중앙에 위치한 수
  • n이 홀수일 때=(n+1)/2번째 값
  • n이 짝수일 때=n/2 와 (n/2)+1번째 값의 평균
  • 극단적인 변수 값에 영향을 받지 않음
  • 변수의 분포가 극단에 편재되어 있는 경우 사용함
  1. 최빈수(Mo)
  • 변수중에 출현빈도가 가장 많은 값
  • 극단적인 변수 값에 영향을 받지 않음
  • 경우에 따라 하나도 없거나 두 개 이상 일 수도 있음
  • 명목수준의 측정에서 사용하는 기법
  1. 사분위수
  • 변수들을 작은 것부터 크기순으로 배열했을 때 전체의 4등분에 위치한 수

① 제1사분위수(Q1): 첫 번째 4등분점

② 제2사분위수(Q2): 두 번째 4등분점(=중위수)

③ 제3사분위수(Q3): 세 번째 4등분점

④ 제4사분위수(Q4): 네 번째 4등분점

  1. 산술평균, 중위수, 최빈수의 관계

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTBfODYg/MDAxNjI4NjAyOTkwNzc5.7X3NKula16kzO3zyGDxu478SrnZnvP0fav37_uJa-4Ug.wnPKHE95F9IcYMENERV12yLo5G9HzCBdHC_NdGGJM3Eg.JPEG.sinna7868/IMG_0116.jpg?type=w800

(1) 좌우대칭 분포: 산술평균 = 중위수 = 최빈수

(2) 좌측 비대칭 분포: 산술평균 ≥ 중위수 ≥ 최빈수

(3) 우측 비대칭 분포: 산술평균 ≤ 중위수 ≤ 최빈수

2장. 산포도(분산도)

  1. 산포도(분산도)
  1. 산포도란?
  • 변량이 분포의 중심(평균)에서 어느정도 흩어져 있는가를 나타내는 지표
  1. 산포도의 종류

① 절대적 분포의 산포도: 범위, 사분위수 범위, 사분위편차, 평균편차, 분산, 표준편차

② 상대적 분포의 산포도: 변이계수(변동계수), 사분위편차계수, 평균편차계수

  1. 절대적 분포의 산포도 범위, 사분위편차, 평균편차, 분산, 표준편차
  1. 범위(R)
  • 자료의 최댓값과 최솟값의 차이
  • 표본의 크기가 일정하며 크지 않은 표본을 다룰 때 용이
  • 불안정한 값으로 사용되는 분야는 제한적임
  1. 사분위수 범위(IQR)
  • 제3사분위수(Q3)와 제1사분위수(Q1)의 차이
  1. 평균편차(Mean Deviation)
  • 관측치의 평균값으로 부터 떨어져있는 거리
  • (각 변량-산술평균)의 절대값의 총합을 변량의 개수로 나눈 값
  • 극단적인 값의 영향은 있으나 분산보다 적음
  1. 사분편차(Quartile Deviation)
  • 사분위수 범위의 2분의 1값 = (Q3 - Q1)/2
  • 극단적인 값의 영향을 받지 않음
  • 대푯값이 중위수일 때 쓰이는 산포도
  1. 표준편차(S)
  • 편차(각 변량-산술평균)의 제곱의 합에 제곱근을 씌운 값
  • 표준편차 = √분산
  • 제곱에다가 제곱근씌우면 어차피 똑같은 값이 나오지만..편차를 단순히 더하면 0이 나오기 때문에 제곱해서 더하는 거고, 제곱까지 하고 끝나버리면 편차가 너무 커지니까 다시 제곱근해서 돌려놓음.
  1. 분산
  • 분산은 편차의 제곱의 합을 자료의 수로 나눈 값
  • 분산=표준편차²
  • 표준편차에다 제곱근 씌우기 직전의 값이라고 생각하면 됨. 표준편차와 분산이 클 수록 평균에서 멀리 떨어져있는 값임
  1. 표본분산, 모분산

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTFfMTU3/MDAxNjI4NjA3OTU4OTc3.7VFm4IVfILV4zSaZs7p705bgJ_kjegG20kP2EK5oieMg.zo7hP192vfYp0VQV4Z1u5AOE-rWI2YRpHYTx8G8nsUsg.JPEG.sinna7868/IMG_0119.jpg?type=w800

공식참고

  1. 상대적 분포의 산포도 변이계수(변동계수), 사분위편차계수, 평균편차계수
  1. 변이계수(변동계수, CV)
  • 표준편차를 산술평균으로 나눈 값 (S/X)
  • 단위가 다른 두 집단의 산포도를 비교할 때 사용
  1. 사분위편차계수
  • 사분편차를 중위수로 나눈 값 ((Q3 - Q1)/2)/Me)
  1. 평균편차계수
  • 평균편차를 중위수 또는 산술평균으로 나눈 값

3장. 비대칭도

  1. 왜도
  1. 왜도란?
  • 자표분포 모양의 비대칭 정도를 나타내는 척도(어느 쪽으로 얼마만큼 기울어져 있는가)
  1. 왜도의 특징: 절댓값이 클수록 비대칭 정도는 커짐

① 왜도 = 0이면 대칭분포 (정규분포)

② 왜도 ≥ 0이면 왼쪽으로 기울어진 분포(좌측 비대칭)

③ 왜도 ≤ 0이면 오른쪽으로 기울어진 분포(우측 비대칭)

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTBfODYg/MDAxNjI4NjAyOTkwNzc5.7X3NKula16kzO3zyGDxu478SrnZnvP0fav37_uJa-4Ug.wnPKHE95F9IcYMENERV12yLo5G9HzCBdHC_NdGGJM3Eg.JPEG.sinna7868/IMG_0116.jpg?type=w800

또 우려먹기

  1. 피어슨 비대칭 계수(Sk): 산술평균 - 최빈수를 표준편차로 나눈 값 (X-Mo/S)

① 1- < Sk < 1

② Sk > 0이면 Mo < X

③ Sk < 0이면 Mo > X

** X*-Mo=3(X-Me) 이라는데, 이유는 모르겠다. 외우자.

  1. 첨도
  1. 첨도란?
  • 분포의 중심이 뾰족한 정도(얼마나 중심에 집중되어 있는가)
  1. 첨도의 특징

① 첨도 = 3이면 표준정규분포

② 첨도 > 3이면 표준정규분포보다 정점이 높고 뾰족한 모양으로 급첨이라고 함

③ 첨도 < 3이면 표준정규분포보다 낮고 무딘 모양으로 완첨이라고 함

1장. 확률 및 확률변수

  1. 확률
  1. 확률이란?
  • 사건이 일어날 가능성의 정도, 0과 1을 포함한 그 사이의 실수
  1. 확률의 구체적 정의

(1) 고전적 확률: 가능한 결과 n가지, A에 속하는 결과가 a가지이면, a/n으로 정의

(2) 경험적 확률: 충분히 많은 반복 후 경험적 결과에 기초해 정하는 확률

  1. 표본공간, 원소, 사상

(1) 표본공간: 한 실험에서 일어날 수 있는 가능한 모든 결과의 집합 S

(2) 원소: 표본공간을 구성하고 있는 요소, 실험에서 나올 수 있는 각각의 결과

(3) 사상: 표본공간(S)의 부분집합

① 공사상: 표본공간의 어떤 요소도 가지고 있지 않은 사상

② 여사상: 사상 A가 일어나지 않을 사상. (1-P(A))

③ 배반사상: A와 B 사상이 동시에 일어날 수 없는 사상 (A∩B = ∮)

④ 독립사상: A와 B 사상이 서로 영향을 미치지 않는 사상 (P(A∩B)=P(A)P(B))

  1. 조건부 확률(Conditional Probability)
  • 한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률을 구하는 것
  • 일반적으로 P(A|B) ≠ P(B|A)

① B가 일어난다는 조건하에 A가 일어날 확률

P(A|B) = P(A∩B) / P(B)

② A와 B가 상호독립일 경우 조건부 확률

P(A|B) = P(A)

P(B|A) = P(B)

조건부 확률 예시


우리나라 사람 중 왼손잡이 비율은 남자가 2%, 여자가 1%라고 한다.

남학생(600명) 중 2%가 왼손잡이 = 12명

P(B): 남학생인 왼손잡이 뽑을 확률은 1000분의 12

P(A∩B) / P(B) 12/1000 ÷ 16/1000 = 0.75


  1. 확률의 성질과 계산

(1) 확률의 기본성질

① 모든 사상 A에 대해, 0 ≤ P(A) ≤ 1

② P(S) = 1 (표본공간)

③ P(∮) = 0 (공사상)

④ P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

⑤ P(A ∩ B) = ∮이면 A와 B는 배반사상

⑥ P(A ∩ B) = P(A)P(B) 이면 A와 B는 독립사상

(2) 확률의 계산

① 덧셈법칙

  • 사건 A가 n1가지 일어나고, 사건 B가 n2가지 일어날 때, A 또는 B가 일어나는 경우의 수는 n1 + n2
  • P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

② 곱셈법칙

  • 사건 A가 n1가지 일어나고, 사건 B가 n2가지 일어날 때, A에 이어 B가 일어나는 경우의 수는 n1 × n2
  • P(A ∩ B) = P(B) x P(A|B)
  1. 순열과 조합
  1. 순열: n개 중 r개를 골라 순서를 정하여 나열한 경우의 수
  • nPr = n(n-1)(n-2)…(n-r+1) = n! / (n-r)!
  • nPn = n(n-1)(n-2)…3x2x1 = n!
  • nP0 = 1 = 0!

(예_4P2 = 4x3, 6P3 = 6x5x4)

  1. 조합: n개 중 r개를 순서없이 선택한 경우의 수
  • nCr = nPr / r! = n! / r!(n-r)!
  • nCr = nCn-r
  • nCn = nC0 = 1
  • nC1 = n

(예_4C2 = (4x3)/2! , 6C3 = (6x5x4)/3!)

  1. 중복조합: m개 중 중복을 허락하여 k개를 선택하는 경우의 수
  • mHk = m+k-1Ck
  1. 확률변수
  1. 확률변수(X)란?
  • 일정한 확률을 가진 사상에 수치가 부여되는 변수

① 이산확률변수: 확률변수가 취할 수 있는 값의 개수가 유한적

② 연속확률변수: 확률변수가 취할 수 있는 값의 개수가 무한적

  1. 기댓값과 분산, 표준편차

(1) 기댓값: E(X) = ∑[χ·p(χ)]

  • 평균과 같은 개념, 확률변수가 취할 수 있는 값의 확률을 곱하여 모두 더한 값
  • 실험을 반복했을 때 평균적으로 기대할 수 있는 값

★ 특징

  • E(aX) = aE(X)
  • E(aX+b) = aE(X)+b
  • E(X-Y) = E(X)-E(Y)

기대값 예시


주사위를 던졌을 때 나타난 숫자를 확률변수라고 한다면 X는?

E(X) = [1x1/6] + [2x1/6] + [3x1/6] + [4x1/6] + [5x1/6] + [6x1/6]


(2) 분산: var(X) = ∑E(X²) - [E(X)]²

  • 확률변수의 산포도를 나타내는 값
  • 값들이 기대치로부터 얼마나 흩어져 있는가

★ 특징

  • Var(aX) = a²Var(X)
  • Var(aX+b) = a²Var(X)
  • Var(X-Y) = Var(X)-Var(Y) (X, Y는 독립)

분산은 상수의 덧셈으론 변화없음.


분산 예시


주사위를 던졌을 때 나타난 숫자를 확률변수라고 한다면 X의 분산은?

∑E(X²) - [E(X)]² = [1²x1/6] + [2²x1/6] + [3²x1/6] + [4²x1/6] + [5²x1/6] + [6²x1/6] -(21/6)²


(3) 표준편차: √var(X) = √∑E(X²) - [E(X)]²

  • 분산에 제곱근을 취한 값

무조건 분산에다 제곱근만 갖다 씌우면 끝

2장. 확률분포

  1. 확률분포
  1. 확률분포란?
  • 표본공간에 나타나는 모든 값과 그 값의 확률을 동시에 표시한 것
  1. 이산확률분포
  • 확률변수가 이산변수인 경우
  • 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포 등
  1. 연속확률분포
  • 확률변수가 실수의 값을 가지는 경우
  • 정규분포, 표준분포, 정규분포, t-분포, F-분포, x²분포, 지수분포 등
  1. 이산확률분포 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포 등
  1. 이항분포: 이항확률변수의 분포

*이항확률변수: 실험에서 나타날 수 있는 결과가 두 가지뿐인 변수(예_동전 앞/뒷면이 나올 확률)

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTFfNjAg/MDAxNjI4Njg4NTgzMDE1.OSykfZLow4R6J0UGoBQeamKLICa5VUkVRs-9Z6hLVu8g.L7PQOluDB0posNbopimxClENB_VLg1Mz2qRZHvmmOzcg.JPEG.sinna7868/IMG_0125.jpg?type=w800

p: A가 일어날 확률, q: A가 일어나지 않을 확률(q=1-p), n: 시행횟수

  • A가 x회 일어날 확률: B(n, p)
  • 이항분포의 시행횟수가 많아지면 정규분포와 모양이 유사해짐
  • 이항분포는 np≥ 5 일 때, 평균이 np이고 분산이 np(1-p)인 정규분포에 근사해짐
  • 기댓값 E(X) = np = p(1-p)
  • 분산 Var(X) = npq = np(1-p)

이항분포 예시 (일단 확률 p가 나왔는데 반대확률이 1-p다? 그러면 냅다 np, npq)


내가 회사에 지각할 확률은 5%다. 300일 출근하면 그 중에 지각하게될 기댓값과 분산은?

  • 기댓값(np) = 300 x 5% = 15

  1. 베르누이 시행

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTFfMjQ5/MDAxNjI4Njg4NTk3NTc2.H2EQbMPIoUJdriF2uvLM5CQwIs5zdLZfc2PMIsx8aGcg.32jNOmLoPcEImMAIwuo-baZPxjjDy5hMN5bOhldscTUg.JPEG.sinna7868/IMG_0125.jpg?type=w800

n: 독립적 시행횟수

  • 각 시행의 결과는 두 가지뿐(성공 또는 실패)
  • 성공확률 + 실패확률 = 0
  • 각 시행은 서로 독립적
  • X의 분포는 이항분포
  • 기댓값 E(X) = p
  • 분산 Var(X) = pq = p(1-p)
  1. 포아송분포

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTFfMTQ5/MDAxNjI4Njg4NjEyNjEw.XKRu4kijsLidTqiejmJDaD3pexpSuemwYHiIqzDXoigg.FoibQjayfco5NPap59vsDOzw5vxjscqboJnKyCuXPoUg.JPEG.sinna7868/IMG_0125.jpg?type=w800

λ : 단위시간, 단위면적 내에서 발생하는 사건의 평균 값

  • 주어진 시간 또는 공간 내에서 발생하는 사건의 횟수
  • 분산 = 평균 = λ
  • 성립조건

ⓐ 독립성: 다른 시간과 공간 내에서 일어나는 사건의 횟수와 독립

ⓑ 비례성: 사건이 한 번 발생할 확률은 시간 또는 영역 면적에 비례

ⓒ 비집락성: 사건이 두 번 이상 발생할 확률은 매우 작으므로 무시

포아송분포 예시 e라는 상수가 빡침


오후 1시에서 3시 사이에 전화가 올 확률은 시간당 평균 0.2번이다. 오늘 1시와 2시 사이에 전화가 한 번도 안올 확률은?

  • f(0) = (e의 -0.2승 x 0.2의 0승) ÷ 0! = 2.71818의 -0.2승

  1. 기하분포

p: 베르누이 시행 성공확률, x: 처음으로 성공할 때까지 반복하는 횟수

  • 단 한 번의 성공을 위해 실패를 거듭해야 하는 사건의 횟수
  • 기댓값 E(X) = 1/p
  • 분산 Var(X) = q/p²

기하분포 예시 어렵지 않습니다.


주사위 눈이 1이 나올 때까지 반복적으로 던진다고 할 때, 주사위를 던진 횟수를 확률변수 X라고 할 때, X의 기댓값과 분산은?

  • 기댓값 (p분의 1) = 1 ÷ 1/6 = 6

  1. 연속확률분포
  1. 정규분포

(1) 개념

  • 확률변수 X가 평균 μ, 표준편차 σ를 갖는 정규분포를 따를 때: X ~ N(μ, σ²)
  • 연속확률분포 중 가장 많이 사용되는 분포이며 가설점정이론의 기본이 됨

(2) 특징

  • 평균 μ, 표준편차 σ에 의해 위치와 모양이 결정됨
  • 분산이 클수록 양옆으로 퍼지는 모양이 되며 꼬리가 두꺼워짐
  • 평균 μ에 관해 좌우대칭
  • 첨도는 3 왜도는 0
  • 산술평균(X) = 중위수(Mo) = 최빈수(Me)
  • 전체면적은 1
  • 값의 범위는 -∞ ≤ X ≤ ∞
  • 이항분포의 확률 근사치를 계산할 때 유용함
  • 표본의 크기가 클 수록 정규분포에 가까워짐
  1. 표준정규분포

(1) 개념

  • 서로 다른 두 정규분포를 비교하기 위해 만든 평균이 0이고 표준편차가 1인 정규분포 N(0, 1²)

(2) 표준화

  • Z= (확률변수 X - 평균 μ) ÷ 표준편차(σ)

★ 확률변수 X가 정규분포 N(μ, σ²) 일 때 표준화로 확률 구하는 법

  • P(0 ≤ Z ≤ a) = 2P(0 ≤ Z ≤ a)
  • P(-1≤ Z ≤1) = 0.683
  • P(-3≤ Z ≤3) = 0.997

표준화 예시


A, B, C 회사의 평균 월급은 각각 100만원, 120만원, 150만원이고, 표준편차는 모두 10만원이다. 각 회사에서 임의로 뽑힌 사원을 각각 a, b, c라고 했을 때, a의 월급은 110만원, b의 월급은 133만원, c의 월급은 167만원이다. 각 회사에서 상대적으로 월급을 가장 많이 받는 사람은 누구인가?

a표준화 -> (110-100)/10=1

c표준화 -> (167-150)/10=1.7

정답은 C


표준화로 확률구하기 예시


학생 300명의 성적 평균이 75점, 표준편차가 15점이었다. 60점 이상 90점 이하를 받은 학생 수는 대략 몇 명인가?(단 성적은 정규분포를 따르며, Z ~ N(0,1)일 때, P(Z ≥ 1) = 0.159

  • P(60 ≤ X ≤ 90) = P((60-75) / 15 ≤ Z ≤ (90-75)/15)

즉, 300 X 0.682는 약 204.6명

  • P(-1≤ Z ≤1) = 0.683 인 걸 외워두면 바로 풀 수 있기도 함

정규분포가 대칭으로 볼록한 모양이니까

내가 구하고 싶은 건 -1과 1 사이니까


  1. t-분포

(1) 개념

  • 자유도에 따라 모양이 변하며, 0을 중심으로 하는 좌우대칭형 분포
  • 자유도가 ∞일 때는 표준정규분포에 접근
  • 확률변수 X가 자유도 n인 t-분포를 따를 때: X ~ t(n)

(2) 특징

  • 평균은 0이며, 평균을 중심으로 좌우대칭
  • 일반적으로 분산 > 1, 표본수가 커질수록 1에 근접
  • 첨도 > 3, 자유도가 무한대로 접근할수록 3에 근접
  • 자유도가 클 수록 중심부가 더 솟은 모양
  • 표본의 크기가 작을 때(n ≤30) 주로 이용
  • 모평균, 모평균의 차, 회귀계수 추정 또는 검정에 활용
  1. F-분포

(1) 개념

  • 두 집단의 분산의 동일성 검정에 활용하는 분포
  • 확률변수 X가 자유도(m, n)인 F-분포를 따를 때: X ~ F(m, n)

(2) 특징

  • 왼쪽으로 기울어있지만, 자유도가 커질수록 대칭에 근접
  • 항상 양의 값을 가짐
  • 오른쪽 긴 꼬리 비대칭 분포 형태(좌측비대칭)
  • 주로 모분산비 추론에 활용
  • X가 F(m, n)일 때, X분의 1은 F(n, m)
  1. 카이제곱(χ²) 분포

(1) 개념

  • 여러 집단 사이의 독립성과 적합도 검정에 활용하는 분포
  • 확률변수 X가 자유도 n인 카이제곱분포를 따를 때: X ~ χ²(n)

(2) 특징

  • 왼쪽으로 기울어진 연속형 분포이나, 자유도가 커질 수록 대칭에 근접
  • 표준정규분포의 확률변수 Z의 제곱은 자유도 1인 카이제곱분포를 따름 (Z²분포 = χ²분포)
  • 자유도가 n일 때, 평균은 n, 분산은 2n
  • 모분산 σ²이 특정한 값을 갖는지 여부를 검정하는 데 사용
  1. 표본분포와 중심극한정리
  1. 표본분포

(1) 개념

  • 표본 분석결과 나타난 통계량들의 분포

(2) 특징

① 모집단이 정규분포일 때

  • 표본분포도 정규분포를 따름
  • 모집단 N(μ, σ²)에서 크기 n인 표본은 N(μ, σ²/n)
  • 표준화 변수 Z = (확률변수 - 평균) ÷ 표준편차/√ n

표준화 변수 Z 예시


우리 농장 사과의 평균 무게는 240g이고, 표준편차는 8g이다. 오늘 수확한 사과 25개의 평균 무게가 242g이상일 확률은?


② 모집단이 정규분포가 아닐 때

  • 표본의 크기가 충분히 클 때만 정규분포를 따름
  • 중심극한거리에 근거를 둠

(3) 표본분포의 평균

  • 가능한 모든 표본들로부터 계산된 평균들의 확률 분포
  • 모집단의 평균과 같음
  • 정규분포를 이룸
  1. 중심극한거리(Central Limit Theorem)
  • 표본의 크기가 30 이상이면 모집단의 분포와 관계없이 정규분포에 근사함
  • 표본평균 X의 분포는 기댓값이 모평균(μ), 분산이 σ²/n
  1. 체비세프 부등식(Chebyshev's Inequality)

(1) 개념

  • 확률변수 X에 대해 평균이 μ이고, 분산이 σ²일 때 임의의 양수 k에 대한 식
  • P(|X- μ|≤ k σ) ≥ 1- (1 ÷ k²)
  • 변수에서 평균을 뺀 절대 값이 임의의 수 k와 표준편차의 곱보다 작을 확률은 1 빼기 k제곱분의 1보다 크다.

(2) 특징

  • 표본의 평균으로 모평균이 속해있는 구간을 측청할 때 활용
  • 확률변수 값이 평균으로 부터 표준편차의 일정 배수 이상 떨어진 확률의 상한값 또는 하한값 제시

체비셰프 부등식 예시


우리학교 280명의 성적 평균은 80점, 표준편차는 5점이었다. 70점부터 90점 사이에 해당하는 학생들은 몇 명 이상인가?

여기서, 구하고자 하는 범위가 70~90이니까, -5K + 80 = 70, 5K +80 = 90 이죠. 그럼 K=2죠?


1장. 추정 개요

  1. 추정
  1. 통계적 추정이란?
  • 모집단의 특성인 모수를 추측하는 통계적 분석방법
  1. 통계적 추정의 종류

① 점추정: 모수를 단일치로 추측. 신뢰도 도출 불가능

② 구간추정: 모수를 포함한다고 추측하는 구간을 구하는 방법. 추정치와 신뢰도 도출 가능

  1. 통계적 추정량 결정기준
  1. 불편성(Unbiasedness)
  • 추정량의 기대치가 추정할 모수의 실제값과 같을 때 불편성을 가졌다고 함
  • 편의가 없다는 뜻
  • E(θ) =θ'
  1. 효율성(Efficiency)
  • 추정량이 불편추정량이고, 그 분산이 최소의 값을 갖는 성질
  • Var(θ'1) ≥ Var(θ'2) 일 때, θ'2가 효율성이 크다고 함
  1. 일치성(Consistency)
  • 표본의 크기(n)가 커짐에 따라 추정량이 모수에 가깝게 수렴하는 성질
  1. 충분성(Sufficiency)
  • 모수에 대한 가능한 많은 표본정보를 내포하고 있는 추정량의 성질
  • 조건부 분포가 모수에 의존하지 않는 것

2장. 점추정

  1. 점추정과 표준오차
  1. 점추정
  • 하나의 수치로 모수를 추정하는 것
  1. 표준오차(Standard Error)
  • 통계량의 표준편차를 표준오차라고 한다. (통계량 표준편차: σ/√n)
  • 표준오차 < 모집단 표준편차
  • 모집단 표준편차가 클수록 표준오차도 커짐
  • 표본크기가 클수록 표준오차 작아짐
  • 불편추정량 측정을 위해 표준오차를 이용함
  1. 모수의 점추정
  1. 모평균
  • 모평균 점추정량 = 표본평균
  • 모평균(μ) = 표본평균(X) (불편추정량)
  1. 모분산
  • 모분산 점추정량 = 표본분산
  • 모분산(σ²) = 표본분산(S²)
  1. 모표준편차
  • 모표준편차 점추정량 = 표본표준편차
  • 모표준편차(σ) = 표본표준편차(S)
  1. 모비율
  • 모비율: 모집단 속에서 어떤 특정한 속성을 갖는 것의 비율
  • 모비율 점추정량(p) = 표본비율(p')

3. 구간추정

  1. 신뢰도와 신뢰구간
  1. 신뢰도
  • 반복추정했을 때 동일한 결과가 나오는 것을 의미
  • 신뢰도 95%의 의미 : 100번 중 95회 동일한 결과 얻음

*모표준편차(μ)에 대한 신뢰수준

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMjQy/MDAxNjI4NzgzODgzMzY1.jPiMk3MfRL76ZoXsLBs7hWqXDtMr0SDYMkJOYdYHF1gg.VvaryJWLQDld49UlNJHMbFT0rcSI-ces9FK7W0lpkrsg.JPEG.sinna7868/IMG_0126.jpg?type=w800

정규분포라 치고..

  • 평균(0)으로 부터 표준편차 n배 만큼 양옆으로 떨어졌느냐..이것은 앞챕터 표준화(Z)로 확률 구하는 방식에서도 썼던 개념
  1. 신뢰구간
  • 모수가 포함되었을 것이라고 제시한 구간
  • 95% 신뢰구간 의미: 100번 측정했을 때 95번은 모평균이 포함된다는 뜻
  • 포함된 신뢰구간은 표본 크기(n) 제곱근에 반비례함
  • 표본크기 4배 증가시키면, 신뢰구간의 길이는 1/√4만큼 감소. 즉, 2분의 1만큼 짧아짐
  1. 신뢰계수

① 오차율(α): 신뢰구간 내에 모집단 평균이 포함되지 않을 확률

  • 신뢰도: 1 - α
  • 90% 신뢰수준 = Z0.05 = 1.645
  • 95% 신뢰수준 = Z0.025 = 1.96
  • 99% 신뢰수준 = Z0.005 = 2.575

② 모수 μ의 신뢰구간

  • 표본평균(X) ± 신뢰계수 × 표준오차

ⓐ μ의 90% 신뢰구간: X ± 1.645 × σ/√n

ⓑ μ의 95% 신뢰구간: X ± 1.96 × σ/√n

ⓒ μ의 99% 신뢰구간: X ± 2.575 × σ/√n

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfNzMg/MDAxNjI4NzgzNzgyOTk1.OjAArEP0A3WUBQSe5hou0WRSNcPSnox27CZJRgsHNZ4g.auHVxh7Nfzj1mzO6dgDRBBT0zA4b_rRHcBmHeEy3exEg.JPEG.sinna7868/IMG_0127.jpg?type=w800

  1. 표본의 크기
  1. 모평균 추정 시
  • D: 오차한계=신뢰계수X표준오차

(문제에 주어짐)

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfNDEg/MDAxNjI4NzkwNDUyOTkz.ov_N6oE5f9H8kuHRod0b1erwquJ5v-MOWTS3nXSBx-Mg.o6PLGDwSqI-tVxwvf-SB3mmyHFe97dcru56ja9s4CV8g.JPEG.sinna7868/제목_없음11.jpg?type=w800

  1. 모비율 추정 시
  • 표본비율의 분포 P ~ N (p, (√pq/n)²)
  • p' = 1/2, q=1-p

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTM4/MDAxNjI4Nzk1NzQ2MDcx.Vnprsu3noq6ivjmQpHY5WA4HhfUixQs7TOmKdbpnzUsg.mbvXeXdpJ6X9-DtI1PD8rhW2R6iwXUNNj1US8_IlQMYg.JPEG.sinna7868/제목_없음18.jpg?type=w800

이항분포 기억하시나요.

모비율 추정 예시


8월 한 달 동안 신용카드를 사용한 소지자 비율을 95 신뢰도로 양측 구간추정 할 때, 허용오차가 0.02 미만으로 하려면 표본의 크기는?

D = 0.02, p'=1/2 Z, α = 0.95

= 1/4 x 1.96² ÷ 0.02²= 2401


  1. 표본의 크기 결정요인

① 신뢰도: 신뢰도를 높이려면 표본의 크기는 커야 함

② 표준편차: 모집단의 분산이나 표준편차가 클 수록 표본의 크기는 커야 함

③ 오차의 크기: 오차를 적게 하려면 표본의 크기는 커야 함

  1. 모평균의 100(1-α)% 신뢰구간 모평균(μ) 구하기
  1. 모분산을 알고 있을 경우
  • 표본평균(X) 표준화한 Z통계량 이용

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTA3/MDAxNjI4NzkwNzgwOTEy.LvTdNqHwAjqY-Oj6d9Drnd4tW2kTa34bEH3509Y3y88g.8pI-5wWCR6bOmChewd9oMsccgCZWxGUgtrD3-B60ZU0g.JPEG.sinna7868/제목_없음13.jpg?type=w800

  1. 모분산을 모르는 대표본(n ≥ 30)일 경우
  • 모표준편차(α) 대신 표본표준편차(S) 이용

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTM3/MDAxNjI4NzkwODUyMzQz.jZNPqYGAnW5oFC3zCbaLv_vuruidnAlI14H3Sem0tYgg.uVHSdwYFzjzjTcN34yaEwXQDWjo_Yrf2voH0sd6p8yUg.JPEG.sinna7868/제목_없음14.jpg?type=w80_blur

  • 표본크기가 30 이상이면, 모표준편차 = 표준표본편차로 보기 때문에 아무거나 사용해도 무방
  1. 모분산을 모르는 소표본(n ≤ 30)일 경우
  • 정규분포(Z)대신 자유도가 n-1인 t-분포가 됨

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTIg/MDAxNjI4NzkwOTkzMTI1.0u9VVYGkEJHNhebFtp8URokJdXIZ0PngyQerAFyJU6Ig.pJSkazNXbC_dlBrcMebf1idRMVx-KcgfKidfIYtKM-cg.JPEG.sinna7868/제목_없음15.jpg?type=w80_blur

  • tα/2, n-1값은 Zα/2처럼 문제에 주어짐 쫄기ㄴㄴ
  1. 모평균 차이의 100(1-α)% 신뢰구간 모평균의 차(μ1 - μ2) 구하기
  1. 모분산을 알고 있을 경우

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTgx/MDAxNjI4Nzg3MDU5NTg3.RBF9WDLOnj9LmRfFlgbS_mHgf3873CVcVW6qdQ5Hli8g.9uFyJoZ4QMuBrHAUkwL8TPvvAqH0YFW0CV-HEKBcwtYg.JPEG.sinna7868/제목_없음.jpg?type=w80_blur

식이 길어서 어려워보이지만, 2개씩 주어진 평균 값, 표본 수, 표준편차끼리 정확하게만 더하거나 빼면 됨!

  1. 모분산을 모르는 표본(n ≥ 30)일 경우

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTA3/MDAxNjI4Nzg3MTU1NDY5.WMXSpCDbtZCKIY1bNI2uo63zE5zcPwW_8UK_RpS52IUg.jEU4ZDa3m1oF0EL-cXOJQnQQOX-gs8Qii5_vlOzHOPsg.JPEG.sinna7868/제목_없음2.jpg?type=w80_blur

위에 식 그대로, 모표준편차 대신 표본표준편차 넣기

  1. 모분산을 모르는 표본(n ≤ 30)일 경우
  • 자유도가 n1+n2-2인 t-분포 사용

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTIx/MDAxNjI4Nzg3NTAwMTEx.ODD-F7SPMlBdn5hI7IU6gnHzb4EWguXVA13p2K2d2Qog.5bCX3RXw2z5l_5R8ZeE3TRs8SvC1pu4FgElxK4_tIrMg.JPEG.sinna7868/제목_없음3.jpg?type=w80_blur

  1. 대응표본인 경우 모평균 차이의 100(1-α)% 신뢰구간
  1. 대표본(n ≥ 30)일 경우
  • D = X1-X2

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfNjEg/MDAxNjI4Nzg3ODcxODYx.DKLNAOhIG9nQwZUJj00jnd8a5CZvxqjcphNoceEyReYg.63RVPUZQ5x80xsbMUqtKtMto_OX7CJwu0CMliC9mLAMg.JPEG.sinna7868/제목_없음4.jpg?type=w80_blur

  1. 소표본(n ≤ 30)일 경우
  • D = X1-X2이며, 자유도가 n-1인 t-분포 사용

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMjQ0/MDAxNjI4Nzg3OTY0ODY0.c48ysiIK1Won8lUfkGRHNbZBmg2f0YLLzTDIEK0jJXMg.H9L3rQAeF58lLk89go8VN9tBFTTQjCEVC9aJnEjEljcg.JPEG.sinna7868/제목_없음5.jpg?type=w80_blur

  1. 모비율/모비율 차이의 100(1-α)% 신뢰구간
  1. 모비율의 신뢰구간
  • 모비율 p의 추정량은 표본비율 p'
  • 이항분포의 정규근사를 이용한 Z통계량 이용

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTQz/MDAxNjI4Nzg4MjA4ODY2.haekVhW5iHspwr8KGw4j5rrFQJGWYDFDCRVFSGXPKk4g.x5DSGXYAhi05trmvZrppbG7Ds7eNveUVQY2jePnFzWcg.JPEG.sinna7868/제목_없음6.jpg?type=w800

  1. 두 모비율 차이의 신뢰구간

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfNjMg/MDAxNjI4Nzg4ODY5NzQ4.NK-PLlxt5ryDWHg4XhMghr7kUDTB4ApMSQQ4Txmx6VMg.Vf5ywd82IEAD4hhcOkLOQxVPumTxnbk_u4HIO7Q7O7Ug.JPEG.sinna7868/제목_없음7.jpg?type=w800

  1. 모분산/모분산 비의 100(1-α)% 신뢰구간 모분산은 카이제곱, 모분산 비는 F통계
  1. 모분산의 신뢰구간
  • 모분산(σ²)의 추정량은 표본분산(S²)
  • 자유도가 n-1인 카이제곱(χ²) 통계량 이용

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfNDAg/MDAxNjI4Nzg5NDU2NDk3.FhmNy23-zbBBU1YzPF-gZRh37MoCjjCKHiXCDu37G30g.aclQNMNblkyr_QGrmn3tCm08LBxcZFTmbwVvBZYuRVIg.JPEG.sinna7868/제목_없음8.jpg?type=w800

  • x제곱 어쩌구~~(카이제곱) 값은 주어지니..

분모에 표본수-1하고 표준편차 곱한 게 오는 것 기억하기.

  1. 모분산 비의 신뢰구간
  • 모분산 비 (σ1²/σ2²)의 추정량은 표본분산비(S1²/S2²)
  • F통계량 이용

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTQ0/MDAxNjI4NzkyMzkwODg3.I3Je_DPOhOjqWcN6mMjjKLxWSXnmIycmAkKVJf5nmw4g.SEDN1Bj_p-64e0nIAOlH7Uf-iueVcDXIOy-hsEIu4ekg.JPEG.sinna7868/제목_없음16.jpg?type=w800

  • F분포는 X가 F(m, n)일 때, 1/X는 F(n, m) 이라는 특징이 있었삼.

또는

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTNfMTgx/MDAxNjI4NzkyNDE2MDg1.iL1EeoT89SU0ls1zWC0OVjvwynlLrA1g-vYpJOV1eS0g.KI0WE2PUTL0rww5_dtMtbUDqYNTGmcq7DNJ35zC44wsg.JPEG.sinna7868/제목_없음17.jpg?type=w800

  • 이것도 F어쩌구~~~는 주어지는 값일테니, 표본표준편차 두개 나누고, F분의 1 곱하면 끝

Ch04. 가설검정

1장. 가설검정 개요

  1. 가설과 가설검정
  1. 가설
  • 아직 경험적으로 검정되지 않은 예비적 이론
  1. 가설검정
  • 통계량의 분포에서 얻어지는 특정값을 비교하여 가설을 기각할 것인가 채택할 것인가 판정하는 것
  1. 귀무가설과 대립가설

(1) 귀무가설(H0)

  • '아무런 차이가 없다', '효과가 없다'의 내용을 주장하는 가설

(2) 대립가설(H1)

  • 귀무가설과 반대되는 가설로, 서로 배타적이며 동시에 성립할 수 없음
  • '차이가 있다', '효과가 있다'의 내용을 주장하는 가설
  • 표본에 근거한 강력한 증거에 의해 입증
  1. 통계적 가설검정
  1. 가설검정의 요소

(1) 가정

  • 모든 통계분석은 변수측정이 되어야 함
  • 대부분 변수는 연속적 특성을 지니며 정규분포를 이루어야 함
  • 표본은 단순무작위추출에 의해 추출되어야 함
  • 최소한의 표본의 크기를 확보해야 함

(2) 가설

  • 일련의 현상을 설명하기 위해 논리적으로 구성한 명제

(3) 검정통계량

  • 귀무가설의 채택 또는 기각 여부에 사용되는 표본통계치
  • 관측값이 기각역에 속하면 귀무가설을 기각

(4) 임계치

  • 귀무가설의 채택 또는 기각을 결정하는데 기준이 되는 값
  • 검정통계량 < 임계치: 귀무가설 채택

검정통계량 > 임계치: 귀무가설 기각

(5) 유의수준(α)

  • 귀무가설을 기각하는 확률로서, 위험률이라고도 함
  • 표본의 통계량이 미리 결정한 영역(기각역)에 포함될 확률

(6) 유의확률(p-Value)

  • 귀무가설을 기각시킬 수 있는 최소의 유의수준=귀무가설이 참일 확률

ⓐ α > p-Value: 귀무가설 기각

ⓑ α < p-Value: 귀무가설 채택

  • 이 가설을 채택할지 말지 5% 유의수준에서 보겠다. = 통계치가 이 5%에 들어오면 기각시키겠다.

유의확률이 클 수록 더 엄격한 기준으로 보는 것

(7) 자유도

  • 주어진 조건 아래 자유롭게 변화할 수 있는 사례수

(예_5명에게 자신이 좋아하는 한 사람을 선택하라는 조건에서 선택대상은 자신을 제외한 4명이다. 이 때 자유도를 4라고 한다.)

  1. 가설검정의 절차

① 검정하고자 하는 가설 설정

② 유의수준 α 결정

③ 유의확률 또는 통계량 결정(임계치 결정, 임계치와 검정통계량 비교)

④ p-Value 값이 유의수준보다 작으면 기각

  1. 양측검정, 단측검정 θ: 모수, θ0: 모수의 특정한 값
  1. 양측검정
  • 귀무가설을 기각할 영역이 양쪽에 위치
  • 모평균이 가정치와 동일한지 검사할 때 이용
  • 귀무가설(H0): θ = θ0 (모평균이 가정치와 차이가 없을 것이다)
  • 대립가설(H1): θ ≠ θ0 (모평균이 가정치와 같지 않을 것이다)

예시


A기계는 평균 100g의 공을 생산하고, 표준편차는 5이다. 새로운 B기계에서 무작위로 공 100개를 골라 무게를 쟀더니 평균 101g이었다. 5% 유의확률에서 B기계 사용여부를 결정하고자 한다면?

Z가 1.96보다 크므로, 기각역에 들어간다. 즉, B기계는 사용못함

  • θ = θ0 일 때 귀무가설이 채택된다는 건

근데 정규분포를 그려봤을 때 그래프의 2.5%씩 양극단에 치우칠만큼 100g랑 비슷하지도 않으면 기계 못 쓰는거.. 100g보다 너무 적어도 안되고 너무 커도 안됨. 그래서 이 것은 양측검증 문제


  1. 단측검정
  • 귀무가설을 기각할 영역이 한쪽에 위치
  • 모수의 크기가 얼마 이상 또는 이하로 예상될 경우 이용

ⓐ 우측검정

  • 귀무가설(H0): θ = θ0 (모평균이 가정치와 차이가 없을 것이다)
  • 대립가설(H1): θ > θ0 (모평균이 가정치보다 클 것이다.)

ⓑ 좌측검정

  • 귀무가설(H0): θ = θ0 (모평균이 가정치와 차이가 없을 것이다)
  • 대립가설(H1): θ < θ0 (모평균이 가정치보다 작을 것이다.)
  • 귀무가설을 설정할 때는 무조건 등호(=)가 들어가야 한다.
  1. 가설검정 오류
  1. 가설검정 오류
  • 표본의 통계량을 통해 모수치를 추정할 때 발생하는 오차
  • 귀무가설을 채택하든 기각하든 발생할 수 있음

(1) 제 1종 오류

  • 귀무가설이 참임에도 귀무가설을 기각하는 오류
  • 제2종 오류보다 심각한 오류
  • α: 귀무가설이 참임에도 기각하는 오류를 범할 확률
  • 1-α: 귀무가설이 참일 때 채택하는 옳은 결정의 확률

(2) 제 2종 오류

  • 귀무가설이 거짓임에도 귀무가설을 채택하는 오류
  • β: 귀무가설이 거짓임에도 채택하는 오류를 범할 확률
  • 1-β: 귀무가설이 거짓일 때 기각하는 옳은 결정의 확률

구분 실제 결과

  귀무가설 참 귀무가설 거짓
귀무가설 채택 잘했어요.(1-α) 제2종 오류(β)
귀무가설 검증 제1종 오류(α) 잘했어요.(1-β)
  • 유의수준은 제1종 오류를 허용하는 확률범위(α)

2장. 검정통계량

  1. 모평균에 대한 검정통계량
  1. 모분산(σ²)을 알고 있을 경우
  • Z=(X - μ0) / (σ/√n)

걍 표준화 값 구하는 거랑 똑같

  1. 모분산을 모르는 경우

(1) 대표본(n≥30)인 경우

  • 모표준편차(σ) 대신 표본표준편차(S²) 이용

(2) 소표본(n≤30)인 경우

  • Z분포대신 자유도가 n-1인 t분포 이용
  • t = (X - μ0) / (S/√n) ~ tn-1
  1. 모평균 차이에 대한 검정통계량
  1. 모분산(σ²)을 알고 있을 경우
  • Z=(X1 - X2) / (σ1/√n1+σ2/√n2)
  1. 모분산을 모르는 경우

(1) 대표본(n≥30)인 경우

  • 모표준편차(σ) 대신 표본표준편차(S²) 이용

(2) 소표본(n≤30)인 경우

  • Z분포대신 자유도가 n1+n2-2인 t분포 이용
  • t = (X1 - X2) / (S1/√n1+S2/√n2) ~ tn-1
  1. 대응표본인 경우 모평균 차이에 대한 검정통계량
  1. 대응표본의 모평균 차이에 대한 가설검정
  • 두 집단 간 평균차이 D(μ1-μ2)에 대한 검정통계량은 자유도가 n-1인 t-분포를 이용
  • t = D / (D의 표준편차/√n)~ tn-1
  1. 대응표본 t검정과 독립표본 t검정
  • t검정: 두 집단의 평균차이가 통계적으로 유의한가
  • 대응표본 t검정: 조사대상이 같고 짝을 이루는 경우

(예_A회사 사원 10명에 대해 교육 전후로 업무능력이 향상됐는지 보고싶을 때)

  • 독립표본 t검정: 조사대상이 다르고 짝을 이룰 필요 없는 경우
  1. 모비율/모비율 차이에 대한 검정통계량
  1. 모비율에 대한 가설검정
  • 검정통계량 Z 이용
  • Z = (p' - p0) / (√pq/n)
  1. 모비율 차이에 대한 가설검정
  • 검정통계량 Z 이용
  • Z = (p1 - p2) / (√(pq)(1/n1+1/n2))
  1. 모분산에 대한 검정통계량
  1. 모분산에 대한 가설검정
  • χ² = (n-1)S² / σ² ~ χ²n-1

여기까지 챕터4


Ch.05 통계분석

통계분석에 사용하는 검정통계 독립변수 종속변수

t검정 질적 양적
교차분석 질적 질적
분산분석 질적 양적
상관분석 양적 양적
회귀분석 양적 양적

1장. 교차분석 독립변수 & 종속변수 - 범주형

  1. 교차분석의 이해
  1. 개념
  • 범주형(명목척도, 서열척도)의 두 변수에 대해 교차분석표를 작성하여, 관련성을 분석하는 기법
  1. 교차분석표의 작성

① 독립변수와 종속변수를 결정

② 독립변수에 대한 각 범주의 백분율 계산

③ 독립변수의 백분율과 종속변수의 범주 중 하나를 선택하여 비교

  1. 교차분석의 원리
  • 범주형인 두 변수에 대한 교차표를 작성하여, 관찰도수(O)와 기대도수(E) 간의 차이를 검정하기 위해 카이제곱(χ²) 검정통계량 사용
  1. 분석절차

① 집단별로 차이가 있는지 귀무가설과 대립가설 설정

② 교차분석표 작성

③ 실제도수와 기대도수 간 차이를 계산(χ²)

④ χ² 통계량과 임계치를 비교하여 가설을 채택하거나 기각

  1. 독립성, 동일성 검정
  1. 독립성 검정과 동일성 검정

(1) 독립성 검정

  • 두 가지 변수 사이에 연관성이 있는지를 검정
  • 귀무가설(H0): 두 변수는 서로 연관성이 없다. (서로 독립이다.)
  • 대립가설(H1): 두 변수는 서로 연관성이 있다. (서로 독립이 아니다.)

(예_성별과 안경착용 여부에는 서로 연관성이 있다.)

(2) 동일성(동질성) 검정

  • 변수 A에 관한 각기 다른 범주가 주어졌을 때 각 범주의 모집단의 분포가 동일한지를 검정
  • 귀무가설(H0): 각 범주의 모수에 차이가 없다.
  • 대립가설(H1): 각 범주의 모수에 차이가 있다.

(예_성별에 따라 물리학 선호도에 차이가 있다.)

  1. 기대도수 구하기
  • E= (관찰도수 행의 합 X 열의 합) / n
  • *n=전체 관측도수

예시(네이버 지식백과 참고)

H0: 성별과 대화하길 선호하는 가족구성원 간에 연관성이 없다.

H1: 성별과 대화하길 선호하는 가족구성원 간에 연관성이 있다.

대화상대

성별 아버지 어머니 그 외 합계
남성 30(30) 20(21) 10(9) 60
여성 20(20) 15(14) 5(6) 40
합계 50 35 15 100
  • 괄호 앞은 관찰도수(O), 괄호 속은 기대도수(E)
  • 남성이면서 아버지와 대화하길 선호하는 사람의 기대도수는

남성합계(행) X 아버지합계(열) ÷ 전체합계 = 60 X 50 ÷ 100 = 30

실제로 관찰된 것도 30이므로, 기대도수와 관찰도수가 일치함

반면 남성이면서 어머니와 대화하길 선호하는 사람의 관찰도수와 기대도수는 1만큼 차이가 있음

  • 이걸로 카이제곱 구하는 거임
  1. 검정통계량 구하기
  • χ² = ∑{(O-E)²}/E

대화상대

성별 아버지 어머니 그 외 합계
남성 30(30) 0 20(21) -1 10(9) 1 60
여성 20(20) 0 15(14) 1 5(6) -1 40
합계 50 35 15 100
  • 괄호 앞은 관찰도수(O), 괄호 속은 기대도수(E),
  • 밑줄은 관찰도수-기대도수(O-E)
  • χ² = (0²/30) + (-1²/21) + (1²/9) + (0²/20) + (1²/14) + (-1²/6)

계산은 귀찮으니까 안할게요.

  1. 자유도
  • r행 c열 분할표에서 카이제곱 통계량의 자유도는 (r-1)(c-1)

예_5행 4열 분할표의 자유도는 4x3 = 12

  1. 적합성 검정
  1. 적합성 검정
  • 가정이 옳은지 실제 관측값 바탕으로 검정하는 것
  • H0: 관측분포와 기대분포는 일치한다.
  • H1: 관측분포와 기대분포는 일치하지 않는다.
  1. 기대도수 구하기
  • E = nπ

-*π: 미리 주어진 확률

  1. 검정통계량 구하기
  • χ² = ∑{(O-Ei)²}/Ei ~ χ²(k-1)
  • *i: 1,2,…,k
  1. 자유도
  • 적합성 검정에서 카이제곱 통계량 자유도 k-1

2장. 분산분석 독립변수-범주형, 종속변수-연속형

  1. 분산분석의 이해
  1. 개념
  • 세 집단 이상의 평균차이가 통계적으로 유의한가를 검정하는 방법

(참고로, 두 집단 간의 분석은 t검정으로 함)

  • 독립변수는 범주형, 종속변수는 연속형
  • 독립변수를 요인(Factor)라고도 하며, 요인이 가지는 값을 요인수준이라고 함
  1. 분산분석을 위한 가정
  • 종속변수는 등간척도 또는 비율척도
  • 모집단은 정규분포를 이뤄야 함
  • 각 모집단의 분산(표준편차)는 동일해야 함
  • 각 집단의 표본은 독립적이어야 함
  1. 분산분석의 특징
  • 검정통계량은 F-분포를 사용
  • F는 집단 간 분산을 집단 내 분산으로 나눈 값
  • 모수적 가설검정법
  • 집단 간 차이가 커지면 F값이 커짐
  • 각 집단별 자료의 수는 다를 수 있음
  1. 분산분석의 오차항에 대한 기본 가정

① 독립성: 임의의 오차는 서로 독립이다.

② 정규성: 오차의 분포는 정규분포를 따른다.

③ 등분산성: 오차의 분산은 어떤 경우에도 σ²를 따른다.

  1. 일원배치 분산분석(one-way ANOVA)
  1. 개념
  • 요인(독립변수)이 1개인 경우 종속변수의 평균차이 분석

(예_교육수준에 따른 임금의 차이)

  1. 가설설정
  • H0: μ1=μ2=…=μp
  • H1: 모든 μi가 같은 것은 아니다(i=1,2,…,p)

3장. 상관분석

  1. 상관분석의 이해
  1. 개념
  • 하나의 변수가 다른 변수와 얼마나 연관성을 갖고 변화하는지 분석하는 것
  1. 상관분석의 기본 가정
  • 변수는 등간 또는 비율척도로 구성되어야 함
  • 변수들 간의 선형성을 충족시켜야 함
  • 정(+)의 상관이거나 부(-)의 상관의 형태
  • 정(+): 키와 몸무게, 부(-): 흡연기간과 기대수명
  1. 공분산과 상관계수
  1. 공분산

(1) 개념

  • X의 증감에 따른 Y의 증감에 대한 척도
  • COV(X, Y)라고 표시

(2) 특징

-COV(X,Y) = (X-μ)(Y-μ)의 기댓값

(X에서 X평균뺀 거 곱하기 Y에서 Y평균뺀 거)

  • COV(X,Y) = σXY = E[(X-μ)(Y-μ)] = E(XY) = E(X)E(Y)
  • COV(X,Y) = COV(Y,X)
  • COV(aX + b, cY + d) = acCOV(X,Y)

(상수 a, b, c, d에 대해, 곱한 값만 앞으로 빠지고 더한 값은 무시)

  1. 상관계수

(1) 개념

  • 하나의 변수와 다른 변수와의 선형 관련성 분석에 사용

(2) 특징

  • -1에서 1 사이의 값을 가짐
  • 음수면 부(-)의 상관관계, 양수면 정(+)의 상관관계를 가짐
  • 절대값이 0에 가까우면 상관관계가 약하고, 1에 가까울 수록 강해짐(강할 수록 선이 선명해짐)
  • 상관계수가 0 = 선형연관성이 없음
  • X,Y가 독립이면 상관계수는 0

(3) 공식

  • Corr(X,Y)= COV(X,Y)/σXσY

(4) 검정

-H0: 두 변수 간에 상관관계가 없다.

-H1: 두 변수 간에 상관관계가 있다.

4장. 회귀분석

  1. 회귀분석의 이해
  1. 개념
  • 독립변수가 종속변수에 미치는 영향 분석
  • 독립변수=설명변수(원인변수), 종속변수=반응변수(결과변수)
  • 단순회귀분석: 독립변수가 1개일 때
  • 다중회귀분석: 독립변수가 2개 이상일 때
  1. 회귀분석의 사용
  • 독립변수와 종속변수는 등간척도 또는 비율척도
  • 독립변수가 한 단위 변화함에 따라 종속변수가 어떻게 변화하는지 분석하는 기법
  • t검정 사용: 회귀모형의 유의성 검정 시
  • F검정 사용: 회귀계수의 유의성 검정 시
  1. 단순회귀모형
  1. 구조식
  • yi=α+βxi+ϵi

(i=1,2,…, n), (E(ϵi)=0), (Var(ϵi) = σ²)

  1. 단순회귀모형의 오차항에 대한 기본 가정

① 독립성: 임의의 오차는 서로 독립이다.

  • 더빈-왓슨통계량 활용: 2에 가까우면 독립성을 만족하며, 0에 가까우면 양의 상관관계, 4에 가까우면 음의 상관관계를 가짐

② 정규성: 오차의 분포는 정규분포를 따른다.

③ 등분산성: 오차의 분산은 어떤 경우에도 σ²를 따른다.

  1. 최소제곱법
  • 잔차(ei=yi - yi')의 제곱합을 최소로 하는 방법

!https://mblogthumb-phinf.pstatic.net/MjAyMTA4MTRfNDMg/MDAxNjI4ODc4ODY0MDcw.RZbs5_5dhwjRu2OAec6TF0mQymtk3AFh__ExLvmHUBMg.TUH5SpWPkSEju19rjMlogpgRTqA2-5IS4cNsv5TgQ2Yg.JPEG.sinna7868/제목_없음19.jpg?type=w80_blur

  • a=절편, b=기울기
  1. 단순회귀모형의 적합성
  1. 결정계수
  • 0 ≤ R²≤ 1
  • 결정계수는 설명력을 의미하는 수치
  • 모든 측정값이 한 직선상에 놓이면 결정계수는 1
  • 독립변수의 수가 증가할 수록 늘어나는 경향
  • 단순회귀분석에서 결정계수는 상관계수의 제곱
  • 다중회귀분석에서는 상관계수의 제곱과 동일하지 않음
  • 기울기 b가 0인 경우 결졍계수도 0이 된다.
  1. 가설설정

(1) 단순회귀모형의 유의성 검정

  • H0: 회귀모형은 유의하지 않다.(β = 0)
  • H1: 회귀모형은 유의하다.(β ≠ 0)

(2) 단순회귀계수의 유의성 검정

  • H0: 회귀계수 β는 유의하지 않다.(β = 0)
  • H1: 회귀계수 β는 유의하다.(β ≠ 0)
  1. 다중회귀분석
  1. 개념
  • 독립변수가 2개 이상인 모형
  1. 구조식
  • yi = β0+ β1χ1+β2χ2+…+βkχk+ϵi

(k: 독립변수의 개수)

  1. 가설설정

(1) 다중회귀모형의 유의성 검정

  • H0: 회귀모형은 유의하지 않다.(β1 = β2 = … = βk = 0)
  • H1: 회귀모형은 유의하다.(적어도 하나의 β ≠ 0)
  • 변수 선택방법

ⓐ 전진선택법: 설명력이 큰 독립변수부터 차례로 추가하는 방법

ⓑ 후진소거법: 독립변수를 모두 추가한 뒤 중요하지 않은 변수부터 차례로 소거하는 방법

ⓒ 단계적 방법: 추가와 소거를 같이 하면서 최적의 독립변수를 선택하는 방법

(2) 다중회귀계수의 유의성 검정

  • H0: 회귀계수 β는 유의하지 않다.(βi = 0)
  • H1: 회귀계수 β는 유의하다.(β ≠ 0)
  1. 더미변수를 이용한 회귀분석
  1. 개념
  • 더미변수: 인종, 지역 등 질적 효과를 고려할 수 있는 독립변수(양적변수x)
  • 범주형 척도를 독립변수의 더미변수로 변환하여 회귀분석 하는 방법
  1. 더미변수 선택
  • k 그룹의 질적 차이를 구분하는 경우, k-1개의 더미변수를 사용
반응형
LIST