데이터 해석 오류 유형
1. 생존자 편향의 오류
이탈자만을 대상으로 분석할 때 발생하는 오류로, 전체 이용자가 아닌 특정 그룹에 초점을 맞추어 잘못된 결론을 내릴 수 있습니다. 예를 들어, A 서비스는 대부분 단기간 이용 유저가 이탈하고, B 서비스는 장기간 이용 유저가 이탈합니다. 단순히 장기간 이용 유저의 이탈 비율이 높은 것을 보고 B 서비스가 더 나쁜 서비스라고 결론 내리기 쉽지만, 실제로는 B 서비스가 더 좋은 서비스일 수 있습니다. 해결책은 전체 활성화된 유저를 기준으로 분석하여 올바른 해석을 도출하는 것입니다.
1-1. 선형적인 사고의 오류
- 1리터에 10km을 달리는 SUV차량과 1리터에 20km을 달리는 세단 차량이 있다고 가정 해보겠습니다. 요즘 대세인 ESG를 따라가기 위해 기존 제품의 연비를 절감하는 목표를 할당 받았다고 생각해볼게요
위의 문장만 놓고 직관적으로 생각해본다면 B가 더 좋은 결정이라는 생각이 들거 같은데요. 연비의 상승폭으로 볼 때 30km/ℓ의 증가가 10km/ℓ증가 보다 훨씬 크기 때문이죠. 백분율로 생각해도 100% 향상인 A의 결과보다, 150% 향상되는 B의 결과가 더 좋아보입니다.
정말 이게 최선의 판단일까요?
1만 KM 당 소모된 연료량 | |||
기존 | 업그레이드 후 | 절감량 | |
A | 1000ℓ (@10km / ℓ) | 500ℓ (@20km / ℓ) | 500ℓ |
B | 500ℓ (@20km / ℓ) | 200l (@50km / ℓ) | 300ℓ |
실제로 계산을 해보면 1만 km를 달렸을 때 A는 500ℓ를 아끼게 되지만, B는 300ℓ를 아끼는 데 그치는 것을 알 수 있습니다. 결과를 보고 다소 의아해 할 수 있을 것 같은데 이러한 이유는 두뇌는 일반적으로 선형적(linear)인 사고를 하기 때문입니다.
단순히 숫자의 관계를 보고 대략적으로 파악하는 게 아닌 실제로 계산해보고 또 시각화해 그려보면서 데이터들의 관계를 파악해야 할 필요가 있습니다
2. 심슨의 역설
종종 신문을 보다 보면 평균 연봉에 대한 기사를 볼 수 있는 데요. 그 기사를 보면서 내 연봉을 비교해보고 자괴감에 빠지다가, “뭐 평균이라 그렇지 누군가 한 명이 엄청 큰 연봉을 받고 있는 걸 거야”. 라고 생각하며 정신을 차릴때가 있는데요.
평균이라는 게 분명 가장 많이 그리고 흔히 쓰이는 대표값이라는 사실에는 누구도 반론의 여지는 없겠지만, 또 평균이 현상을 정확하게 설명해주지 않는 다는 사실 역시 많이 알고 있을 거에요.
이 두 기업의 정보를 훑어 봤을 때 어떤 기업에 더 가고 싶으신가요? 혹은 어떤 기업이 더 좋아보시나요?
아마 A사가 더 젋고, 연봉도 높아보이니 훨씬 좋은 회사라고 생각하게 될 거 같은데요. 이렇게 생각하는 게 정말 올바른 해석일까요?
A사 | B사 | |||||
연령 | 연봉(만원) | 연령 | 연봉(만원) | |||
대표 | 52 | 18,200 | 대표 | 41 | 6800 | |
임원1 | 41 | 11,500 | 임원1 | 40 | 6500 | |
임원2 | 32 | 9,800 | 직원1 | 34 | 5000 | |
직원1 | 24 | 3,200 | 직원2 | 34 | 4800 | |
직원2 | 22 | 3,000 | 직원3 | 25 | 3850 | |
직원3 | 21 | 2,900 | 직원4 | 24 | 3650 | |
평균 | 32 | 8,100 | 평균 | 34 | 5100 |
평균으로 봤을 때는 훨씬 좋아보이던 A사가 실상은 그렇지 않다는 걸 알 수 있는데요. 되려 B사가 괜찮게 느껴지실거에요. 이렇듯 단순히 평균만으로 판단했을 때에는 해석에 오류가 생길 여지가 있습니다
3. 상관관계를 통한 성급한 일반화
상관관계를 인과관계로 잘못 해석하는 오류로, 두 지표의 경향성이 비슷하다고 해서 한 지표가 다른 지표에 영향을 준다고 단정하는 것입니다. 예를 들어, 이벤트 페이지 조회수와 매출 지표가 비슷한 경향을 보인다고 해서 이벤트 페이지 조회수가 매출에 영향을 준다고 결론 내리기 쉽습니다. 실제로는 매력적인 이벤트가 두 지표에 모두 영향을 미칠 가능성이 큽니다. 해결책은 공통 원인을 탐색하고, 상관관계와 인과관계를 명확히 구분하여 해석하는 것입니다.
평시 아이스크림 매출: 1,000만원
여름철 아이스크림 매출: 3,000만원
평시 익사 사고 수: 2건
여름철 익사 사고 수: 10건
아이스크림 판매량과 익사 사고 수 사이의 상관관계를 보고, 아이스크림 판매가 익사 사고를 직접 유발한다고 결론을 내릴 수 있습니다.
현실
실제로는 더운 날씨가 두 사건의 공통 원인입니다. 여름철이 되면 사람들은 더위를 피하기 위해 물놀이를 더 많이 하게 되어 익사 사고가 증가하며, 동시에 더위를 식히기 위해 아이스크림 소비도 증가합니다. 따라서, 아이스크림 판매와 익사 사고 간에는 인과관계가 아니라 상관관계만 존재합니다.
4. 목적에 맞지 않는 지표 선택
프로젝트 목표에 부합하지 않는 지표를 선택하는 오류로, 의사결정에 잘못된 영향을 줄 수 있습니다. 예를 들어, CTA 버튼 개선 프로젝트에서 'CTA 버튼 조회 유저 수 대비 클릭 유저 수'라는 유저 기준 전환율을 사용하는 대신, 'CTA 버튼 조회수 대비 클릭수'라는 이벤트 기준 전환율을 사용해야 할 경우입니다. 해결책은 프로젝트의 정확한 목적을 설정하고, 그 목적에 맞는 지표를 선택하여 분석하는 것입니다.
한 대형 슈퍼마켓 체인이 고객 만족도를 높이기 위해 계산대 직원들의 속도를 높이는 프로젝트를 시작했습니다. 이를 위해 슈퍼마켓은 "고객 대기 시간"을 줄이는 것을 지표로 선택했습니다.
평시 고객 대기 시간: 평균 5분
개선 후 고객 대기 시간: 평균 2분
평시 고객 만족도 점수: 85점
개선 후 고객 만족도 점수: 70점
계산대 직원들의 속도를 높인 결과, 고객 대기 시간은 줄어들었지만, 고객 만족도는 오히려 떨어졌습니다. 이는 계산대 직원들이 계산 속도를 높이기 위해 고객과의 상호작용을 최소화했기 때문입니다.
슈퍼마켓은 "고객 대기 시간"을 지표로 선택했지만, 고객 만족도를 높이는 데는 서비스 질도 중요한 요소였습니다. 적절한 지표를 선택하기 위해서는 프로젝트의 목적을 명확히 이해하고, 목적을 달성하기 위해 가장 관련성 높은 지표를 선택해야 합니다
세이건 표준
칼 세이건의 세이건 표준(ECREE)은 "특별한 주장에는 특별한 근거가 필요하다"는 원칙을 제시합니다. 이는 데이터 해석 시 충분한 근거를 확보하고, 데이터를 잘못 해석했을 가능성을 인지하는 과정이 중요하며 데이터를 잘못 해석했을 가능성을 고려하며 인지적으로 노력하는 것입니다.
용어 정리:
- 생존자 편향의 오류: 전체 이용자가 아닌 이탈자만을 대상으로 분석할 때 발생하는 오류.
- 심슨의 역설: 전체 집단의 지표와 하위 집단의 지표가 다른 결과를 나타내는 현상.
- 상관 관계: 어떤 변수가 증가할 때 다른 변수가 함께 증가하는지, 혹은 감소하는지 관찰해서 파악한 관계
3-1. 인과 관계: 원인과 결과의 규칙적인 관계 - 목적에 맞지 않는 지표 선택: 프로젝트 목표에 부합하지 않는 지표를 선택하는 오류.
- 세이건 표준: 데이터 해석의 근거를 충분히 확보하고, 오류 가능성을 인지하는 것
주요 포인트: 데이터 해석 시 다양한 오류를 방지하기 위해서는 각 오류 유형을 이해하고, 올바른 지표를 선택하며, 전체 데이터를 고려한 세분화된 분석을 통해 정확하고 신뢰성 있는 결론을 도출하는 것이 중요합니다
추가 참고자료:
https://playinpap.github.io/trap-of-data/
https://dataeden.tistory.com/1
직접 구상해본 가상 시나리오 예제
1. 생존자 편향의 오류
시나리오:
한 IT 회사가 자사 제품인 소프트웨어의 사용자 만족도를 조사하고 있습니다. 최근 6개월 이내에 제품을 사용 중인 고객을 대상으로 조사를 진행한 결과, 사용자 만족도가 매우 높은 것으로 나타났습니다. 조사 결과를 바탕으로 회사는 소프트웨어가 매우 만족스러운 상태라고 결론을 내렸습니다.
데이터 예시
- 조사 대상: 최근 6개월 이내에 제품을 사용 중인 고객
- 조사 결과: 사용자 만족도 90%
질문
이 조사에서 생존자 편향의 오류를 피하기 위해 회사가 취해야 할 조치는 무엇인가요?
- 해답(반드시 정답은 아님)
- 생존자 편향의 오류를 피하기 위해, 회사는 전체 사용자를 대상으로 조사를 확대해야 합니다. 특히, 제품을 사용하지 않기로 결정한 고객들의 의견을 수집하고 분석하여, 왜 그들이 이탈했는지 이해하고, 이를 통해 제품의 개선점을 찾는 것이 중요합니다
2. 심슨의 역설
시나리오:
당신은 대학 장학금 재단의 이사입니다 한 대학에서 두 개의 캠퍼스, A 캠퍼스와 B 캠퍼스, 각각에서 진학한 학생들의 입학 시험 성적을 분석하여 한 캠퍼스의 구성원에게 장학금을 지급하려 합니다. 초기 데이터 분석에서는 A 캠퍼스의 전체 입학 시험 성적 평균이 B 캠퍼스보다 더 높다는 결과가 나왔습니다.
- A 캠퍼스 평균 입학 시험 성적: 85점
- B 캠퍼스 평균 입학 시험 성적: 80점
그러나 세부적으로 분석해본 결과, 각 캠퍼스에서 학생들을 세분화하여 살펴보았습니다. 그 결과 A 캠퍼스의 입학 시험 성적이 더 높다는 결과가 B 캠퍼스의 모든 학생들에게 해당되는 것이 아니었습니다.세분화된 데이터를 살펴보니 다음과 같은 결과가 나왔습니다.
- A 캠퍼스:
- 과학 전공 학생들의 평균 입학 시험 성적: 75점
- 인문학 전공 학생들의 평균 입학 시험 성적: 90점
- B 캠퍼스:
- 과학 전공 학생들의 평균 입학 시험 성적: 85점
- 인문학 전공 학생들의 평균 입학 시험 성적: 75점
질문
- 이 사례에서 단순 결과 값 뿐만 아니라 데이터의 세분화가 왜 중요한지 각자의 생각을 말해보아요
- 이 사례의 심슨의 역설을 해결하기 위해선 어떻게 접근해야 할까요?
- 2 - 해답 (반드시 정답은 아님)
- 데이터 세분화: A 캠퍼스와 B 캠퍼스를 각각 과학 전공과 인문학 전공으로 나누어 분석합니다.
- 그룹별 분석: 각 캠퍼스의 과학 전공과 인문학 전공 학생들의 성적을 별도로 비교합니다.
- A 캠퍼스 과학 전공 평균 성적: 75점
- A 캠퍼스 인문학 전공 평균 성적: 90점
- B 캠퍼스 과학 전공 평균 성적: 85점
- B 캠퍼스 인문학 전공 평균 성적: 75점
2. 대학의 강점 평가
- 강점 분야 평가: 해당 대학이 어떤 전공 분야에서 더 강점을 보이는지 평가합니다. 예를 들어, 해당 대학이 과학 계열에서 더 유명한 모습을 보이고 있다면, B 캠퍼스의 과학 전공 학생들에게 장학금을 지급하는 것이 더 합리적일 수 있습니다.
- A 캠퍼스: 인문학 전공에 강점
- B 캠퍼스: 과학 전공에 강점
3. 전체적인 균형 고려
- 종합적인 평가: 각 캠퍼스의 강점뿐만 아니라, 전체적인 교육 성과와 학생들의 성적 분포를 고려합니다.
- 예를 들어, A 캠퍼스는 인문학에서 강점을 보이지만 과학 전공의 성적이 낮습니다. 반면, B 캠퍼스는 과학 전공에서 강점을 보이며, 과학 전공 학생들의 성적이 높습니다.
4. 결정
- 균형 잡힌 결정: 세분화된 데이터를 바탕으로, 각 캠퍼스의 강점과 전체 성적을 종합적으로 평가하여 장학금 지급 결정을 내립니다. 예를 들어, 과학 전공 학생들에게 장학금을 지급하려는 경우, B 캠퍼스의 과학 전공 학생들에게 더 많은 장학금을 배정할 수 있습니다.
3. 상관관계를 통한 성급한 일반화
- 커피를 적게 마시는 사람의 평균 심장병 발생률 (1~2컵/일):
- 평균 심장병 발생률: 10건 / 1000명
- 평균 심장병 발생률 (발생률/1000명): 15건
- 평균 심장병 발생률: 20건 / 1000명
추가 정보
- 커피를 많이 소비하는 사람들은 대체로 스트레스가 많은 직업을 가지고 있습니다.
- 이들 중 상당수는 흡연을 하고 있으며, 불규칙한 식습관을 가지고 있습니다.
- 운동을 하지 않거나, 건강을 관리하지 않는 경향이 있습니다.
질문
왜 커피 소비가 많다고 심장병이 걸릴 확률이 높은 것이 아니라는 이유를 생각해보아요.
커피 소비가 심장병 발생률에 직접적인 영향을 미친다고 결론짓기 위해서는 어떤 실험적 접근이나 데이터 수집이 필요할까요?
- 해답 (반드시 정답은 아님)
- 커피 소비가 심장병 발생률에 직접적인 영향을 미친다고 결론짓기 위해서는 무작위 대조 실험(Randomized Controlled Trial, RCT)을 통해 커피 소비를 조절하고 다른 변수들을 통제하여 심장병 발생률을 비교하는 실험적 접근이 필요합니다.
4. 목적에 맞지 않는 지표 선택
시나리오:
한 소프트웨어 회사가 사용자 인터페이스(UI)를 개선하는 프로젝트를 진행 중입니다. UI 개선 후, '페이지 뷰 수'가 증가한 것을 성공의 지표로 삼았습니다.데이터 예시
- UI 개선 전 페이지 뷰 수: 50,000회/월
- UI 개선 후 페이지 뷰 수: 70,000회/월
- UI 개선 전 사용자 작업 완료 시간: 평균 5분
- UI 개선 후 사용자 작업 완료 시간: 평균 7분
- UI 개선 전 사용자 만족도 점수: 80점
- UI 개선 후 사용자 만족도 점수: 75점
질문
- 왜 페이지 뷰 수가 올라갔지만 UI 개선이 실패를 하였는지 생각을 말씀해보아요.
- 그렇다면 사용자 만족도를 높이기 위해선 어떤 자료를 참고하여 UI 개선을 해야될까요?
- 해답 (반드시 정답은 아님)
프로젝트의 성과를 정확하게 평가하기 위해서는 사용자 작업 완료 시간, 사용자 만족도 점수, 오류 발생률 등 UI 개선의 목적에 맞는 지표를 선택해야 합니다. 이러한 지표들은 실제로 사용 편의성을 높이고 작업 시간을 줄였는지 평가할 수 있습니다.
'아티클 스터디' 카테고리의 다른 글
질문의 힘 - 하버드 비즈니스 리뷰 (0) | 2024.08.06 |
---|---|
데이터 문해력 스터디 (2) | 2024.07.23 |
데이터 분석가가 되어보니 중요한 것들 (0) | 2024.07.16 |
SQL 질문 잘 하는 법 (0) | 2024.07.11 |
데이터 기반의사 결정의 장점 (0) | 2024.07.09 |