BOSs World
"나도 매니저" 3개월 프로젝트_데이터분석_데이터마이닝 본문
데이터마이팅은 광대한 광산에서 금맥을 찾는 것이라기보다는 "황량한 초원에서
맛있는 과실을 수확하기"라는 이미지가 아닌가 합니다. 금맥은 있는지 없는지
알 수 없지만 초원에는 확실히 과실이 있을테죠. 그러나 실제 데이터에는 뭔지
모를 쓸수 없는 데이터가 혼재되었거나 정말 먹을 수 있는 과실이 열릴 나무가
있을지 모릅니다. 우선은 초원을 청소해야만 합니다만 이 광대한 초원을 청소하기에는
시간이 걸립니다. 실제로 과실을 수확할 수 있을 때까지는 전체의 80% 정도의 시간을
써버리는 경우도 많습니다.
드디어 데이터가 잘 정리되었다면 중요한 가치가 있는 과실을 수확하는 것에 집중하여
여러 가지 방법을 검토할 필요가 있습니다.
2종류의 데이터마이닝
데어터마이닝과 통계해석의 차이를 비교하는 일이 많습니다. 데이터마이닝은 지식발견으로
통계해석은 가설검증이라고들 합니다. 정말 그럴까요
데이터마이닝_데이터량이 많음/ 지식발견
통계해석_데이터량이 적음/ 가설검증
확실히 통계 해석에 쓰이는 데이터량은 비교적 적고, 데이터마이닝 쪽은 많겠죠. 또,
데이터마이닝에는 지식발견의 요소도 있지만 데이터를 입력하면 지식이 자동적으로 발견되는
것은 아닙니다. 데이터마이닝에는 두 종류가 있어 지식발견만이 아니고 통계해석과 같이
가설검증도 있다는 것을 인식해 둘 필요가 있습니다.
가설검증 (목적지향) 데이터마이닝
지식발견 (탐색) 데이터마이닝
가설검증 (목적지향) 데이터마이닝은 목적변수가 있어, 구매량이나 고객의 반응을 예측하거나
그 때문에 고객을 분류하거나 하는 것입니다. 회귀분석/유의분석/경향분석 등의 많은 수법은
목적을 가지고 모델을 만들기 위해서 사용됩니다. 한편 지식발견 데이터마이닝에는 목적변수가
아니고 얻어진 데이터에서 유용한 룰이나 패턴, 유의성 등을 찾아내는 것으로 대표적인
기법으로 마켓바스켓분석에 이용되는 Association분석이 있습니다.
두종류의 데이터마이닝을 조금 더 분류하면 이하와 같습니다.
가설검증 (목적지향) 데이터마이닝
추정, 파악 (양적변수)
분류, 추출 (질적변수)
미래의 예측
지식발견 (탐색) 데이터마이닝
Association rule 책정
Clustering
모두에서 사용되는 데이터마이닝
그룹특징을 추측 (프로파일링)
여기서 양적변수와 질적변수라는 것이 나옵니다만 이런 것들에 대해서는 다변량해석에서
자세히 알아보겠습니다. 데이터마이닝으로 수집한 데이터에는 매출액과 같은 연속한
수치로 나타낼 수 있는 양적데이터와 이 고객은 무엇을 샀는가라는 것같이 샀는지, 안 샀는지가
1/0의 데이터로 나타낼 수 있는 질적데이터(아이템 카테고리형)이 있습니다. 다변량해석에
있어서도 사용될 변수가 양적인지 질적인지에 따라 사용할 수 있는 기법이 정해지듯이
데이터마이닝에서도 사용할 변수의 종류에 따라 여러 가지 기법을 나누어 사용할 필요가 있습니다.
가설검증 데이터마이닝에서 "추정/파악"이라는 것은 예를 들어 어느 지역에서 어떠한 상풍이
어느 정도 팔리고 있는지라고 한 양적 수치를 추정하거나 파악하거나 하는 것입니다. "분류/추출"
이라는 것은 지역별 팔리고 있는 상품이나 상품카테고리를 추출하고 분류/정리해서 분석하는
것입니다. 이 두 가지는 바른 현상파악을 하는 것을 목적으로 사용하지만 "예측"은 현재상황이
아니고 미래의 매출액/매출상품 등을 모델로 만들어 예측하는 것을 말합니다.
클러스터링과 분류의 차이는 그룹별로 나눈 근거가 미리 정의된 속성이나 구매금액 등에 따라
나눴는지, 또는 사후에 정의된 탐색적 근거에 따라 그룹화되었는지입니다.
가설검증에서도 지식발견에서도 이용되는 "그룹특징을 안다"의 대표적 데이터마이닝이
"TEXT Mining"입니다. 텍스트마이닝은 목적을 가지고 데이터에서 알 수 있는 내용을 정성적,
정량적으로 아는 것도 있고 탐색적으로 무엇이 있는가를 발견하는 것도 있습니다.
#매니저 #Manager #관리 #개선 #분석 #데이터마이닝 #데이터분석 #kaizen #클러스터링 #데이터 #개선관리 #관리개선 #빅데이터 #Management #개선분석 #그룹핑 #관리기초 #보스 #꼰대 #프로젝트 #PM #프로젝트매니저 #가설검증 #Boss #품질 #Quality #다변량분석 #단변량분석 #프로파일링 #변수 #시스템 #프로세스 #일본 #일본어 #지식 #원가 #원가관리 #일정 #일정관리 #리스크 #리스크관리 #공수 #공수관리 #근거 #보스월드 #정량 #정성 #유의분석 #상관분석 #실험계획법 #표준편차 #목적 #목적관리 #계수 #계량 #재무 #생산 #생산관리 #구매 #구매관리 #품질기초 #통계 #통계기초 #4M #8D #5-Why #PDCA #ISO
'프로젝트매니저 길라잡이' 카테고리의 다른 글
PROJECT MANAGER_CE(2) (0) | 2021.03.29 |
---|---|
"나도 매니저" 3개월 프로젝트_원가관리 (4) | 2021.03.23 |
"나도 매니저" 3개월 프로젝트_데이터분석_통계기초(2) (0) | 2021.03.17 |
"나도 매니저" 3개월 프로젝트_데이터분석_통계기초(1) (0) | 2021.03.17 |
"나도 매니저" 3개월 프로젝트_三無(3M)활동(2) (0) | 2021.03.16 |