품질통계분석의 핵심_기초통계(1)
1. 왜, 통계해석이 필요한가?
인간은 자기자신의 경험을 기준하여 감각적으로 사건을 판단하기 쉽다. 예를 들어
어느 환자에 대한 표준치료약의 유효율이 50%라고 합시다. 여기서 신약이 등장하고,
어느 의사가 그 신약을 5인의 환자에게 사용하였고, 4명은 유효하고 판정되었다면
많은 의사는 지금까지의 표준치료약보다도 신약이 유효성이 높을 것이라고 생각하겠죠.
그러나 어쩌다가 유효성이 나오기 쉬운 5명에게 치료를 행했을 뿐인지도 모릅니다.
같은 질환의 환자라고 해도 질환의 세세한 분류나 진행도, 환자의 연령, 성별, 장기의
상태 등에 따라 유효율은 좌우됩니다. 더욱이 배경조건이 모두 같다고 해도 유효율에
편차는 생기며, 치료에 대해 깊이 생각하면 할 수록 치료결과에 크게 일희일비하고,
객관적인 평가가 곤란해 집니다. 인상에 남는 결과는 감각적인 판단을 하게 하죠.
통계해석의 목적은 전제로 이렇게 다양한 편차가 존재하는 상황 중에 한정된 표본에서
모집단을 추측하고, 보다 일반적인 결과를 이끌어 내려는 것입니다. 모집단의 정의는
상황에 따라 다르지만 예를 들어 어느 환자에 대한 신약의 유효성을 평가한다면 그
질환을 가지고 있는 모든 환자가 모집단이 됩니다. 통계해석을 하다보면 눈앞에 있는
데이터만을 대상으로 하고 있는 착각을 하곤 하지만 실제로 실시하고 있는 것은 그
표본을 이용해서 실제 모집단의 전체상을 추정하려는 데에 있습니다.
(선거의 출구조사로 전체 투표수나 의석수예측을 생각해도 좋습니다. )
2. 변수의 종류와 그 요약
① 변수의 종류
통계해석에서 사용하는 주된 변수는 연속변수, 순서변수, 명의변수의 세가지로 나뉩니다.
연속변수는 신장, 체중등, 수치로 나타내는 정량적인 데이터를 의미합니다. 순서변수,
명의변수는 모두 질적데이터(카테고리변수)이지만 순서변수는 단백뇨의 ( -)、(±)、
(+)、( 2+)、(3+)나, 종양의 진행도를 나타내는 I、II、III、IV와 같이 순서가
정해진 것입니다. 한편 명의변수는 성별, 혈액형과 같이 순서와 관계는 없습니다.
특수한 변수로는 의학통계에서는 종종 생존기간의 핵석이 이루어집니다. 정확히
말하면 반드시 생존기간만을 대상으로 해석하지 않고, 어느 시점에서 어느 이벤트가
발생하기까지의 기간의 해석이고, 사망이 이벤트로서 정의돈 경우에 생존기간의 해석이
이루어지게 됩니다. 이 해석방법의 특징은 어느 시기까지 생존하고 있었
3. 군간의 비교, P값이란?
두군을 통계학적인 비교는 두가지 방법이 있다. 같은 통계학적원리에 근거하고 있다.
한가지는 두군의 차 또는 비율의 신뢰구간을 계산하는 것입니다. 두군 차의 95%신뢰구간이
0을 포함하지 않으면 또는 두군 비의 95%신뢰구간이 1을 포함하지 않으면 유의차가 있다라
결론됩니다. (이것은 P<0.05에 상당) 또 하나는 P값을 계산하는 것입니다. 우선 P값을 계산
하기 전에 샘플이 모집단에서 랜덤으로 추출되었다라는 전제로 귀무가설을 세웁니다.
귀무가설이란 두개의 모집단에는 차이가 없고 관찰된 결과에 있어서 두군의 차는 우연에
불과하다라는 가설이다. P값은 이 귀무가설이 참일 경우에 실제로 관찰된 또는 그것 이상으로
두군의 차가 관찰되는 확율입니다. 이 확율이 상당히 작은 경우, 귀무가설은 틀렸다고
판단되어(폐기되어), 두군에 유의한 차가 있다라고 생각합니다.
P값이 어느 정도 작으면 유의하다고 판단하는가의 영역이 유의수준이다. α는 관습상 0.05(5%)
에 설정되어 있다. (결국 5%정도의 에러는 용인할 수 밖에 없다라는 전제)만, 목적에 따라서
정해져야 하며, 상황에 따라서는 0.01, 0.001 등이 사용되는 것도 있다. P값이 α보다도 작으면
유의하다고 판단하겠지만, 그러면 귀무가설이 실제로 참인데도 불구하고 그것을 폐기해 버리
는 과오가 생길 확율도 α가 된다. 이런한 과오를 제1종 오류(α error)라 한다. 반대로 실제로는
귀무가설이 거짓인데도 불구하고 이것을 폐기하지 않은 과오를 제2종 오류(β error)라 한다.
α값을 작게 하면 제1종오류는 감소하지만 제2종 오류는 증가하며, 반대로 α값을 크게하면
제1종오류는 증가하지만 제2종오류는 감소한다. 두가지의 과오를 감소시키는 유일한 방법은
보다 큰 샘플을 모으는 것이다. 샘플사이즈가 커지면 β는 작아져, 통계학적인 검출력(1-β)이
커지게 된다.
#매니저 #Manager #관리 #개선 #분석 #데이터마이닝 #데이터분석 #kaizen #클러스터링 #데이터 #개선관리 #관리개선 #빅데이터 #Management #개선분석 #그룹핑 #관리기초 #보스 #꼰대 #프로젝트 #PM #프로젝트매니저 #가설검증 #Boss #품질 #Quality #다변량분석 #단변량분석 #프로파일링 #변수 #시스템 #프로세스 #일본 #일본어 #지식 #원가 #원가관리 #일정 #일정관리 #리스크 #리스크관리 #공수 #공수관리 #근거 #보스월드 #정량 #정성 #유의분석 #상관분석 #실험계획법 #표준편차 #목적 #목적관리 #계수 #계량 #재무 #생산 #생산관리 #구매 #구매관리 #품질기초 #통계 #통계기초 #4M #8D #5-Why #PDCA #ISO #샘플 #모집단 #표본 #3무 #CE #인증 #요령 #CE마크