본문 바로가기

전체 글103

대기업 데이터 분석가가 추천하는 데이터 분석 프로젝트 주제 1. 데이터 분석 프로젝트 문제 유형회귀(Regression) (지속적인 매출 하락)연속적인 척도로 목표 변수를 예측.변수 간의 관계를 이해하고 추이를 평가하거나 예측.분류(Classification) (고객 유형을 나누는 행위)Supervised learning의 일종으로 기존 데이터의 범주를 파악하고 새로 수집된 데이터의 범주를 판별하는 작업.이상탐지(Anomaly Detection) (데이터가 특정 구간에만 몰려 있는 경우)예상되거나 기대하는 값이 아닌 데이터의 규칙을 찾아내는 작업.데이터의 이상현상을 정의하고 이상여부를 확인하는 작업.2. 추천 시스템을 활용한 프로젝트 주제 유형클러스터링(Clustering)데이터를 특성에 맞게 분류해주는 작업.이커머스에서 시장을 구분할 때 활용.차원축소(Dime.. 2024. 8. 8.
본 캠프 45일차 TIL 데이터 마트의 이해데이터 마트(Data Mart)는 특정 부서나 업무 목적에 맞춘 데이터 웨어하우스의 하위 집합이다. 이를 통해 더 구체적이고 전문화된 데이터를 제공하여 사용자들이 쉽게 접근하고 분석할 수 있도록 돕는다. 데이터 마트는 대규모 데이터 웨어하우스의 일부로 운영되며, 특정 부서나 기능별 요구를 충족시키기 위해 설계된다.데이터 마트1. 정의와 목적정의데이터 마트는 특정 비즈니스 부서나 사용자 그룹이 필요로 하는 데이터만을 포함하는 소규모 데이터 웨어하우스이다.목적특정 부서의 요구 사항을 충족시키기 위해 데이터 분석 및 보고를 용이하게 하여 의사 결정 과정을 지원한다.2. 유형분석형 데이터 마트분석 및 보고를 위해 사용되는 데이터 마트로, 주로 경영진이나 분석가들이 사용한다.운영형 데이터 마트운.. 2024. 8. 7.
본 캠프 44일차 TIL 오늘 배운 것거버넌스 체계 개요 및 구성 요소거버넌스 체계 개요거버넌스 체계는 조직 내에서 데이터와 IT 자산을 관리하고 통제하는 프레임워크이다. 이는 데이터 품질, 데이터 보안, 데이터 활용, 데이터 정책 등을 포함하여 데이터를 효과적으로 관리하고 조직의 목표를 지원하는 데 초점을 맞춘다.구성 요소1. 정책 및 절차 (Policies and Procedures)데이터 관리 정책: 데이터 생성, 저장, 처리, 폐기 등의 관리 방침데이터 보안 정책: 데이터 접근, 암호화, 보안 위협 대응 방침데이터 품질 정책: 데이터의 정확성, 완전성, 일관성 유지 방침2. 데이터 소유권 및 책임 (Data Ownership and Stewardship)데이터 소유자: 특정 데이터 세트에 대한 책임과 권한을 가진 개인 또.. 2024. 8. 6.
질문의 힘 - 하버드 비즈니스 리뷰 질문의 중요성가치 창출을 얻어내기 쉬움 학습뿐에서만이 아니라 아이디어를 서로 교환하거나 혁신과 성과 개선, 신뢰(이해를 잘 하고 있는지)와 유대감 형성하기 수월해짐비즈니스 리스크 감소예기치 않은 문제나 위험 요소 발견조기에 발견할 수 있고 그로 인해 리스크를 최소한으로 줄이고 숨겨져있던 문제를 발견할 수 있음질문으로 얻을 수 있는 두 가지 이점대화 상대에게 호감을 얻어내기 쉽고 상대방의 관심사를 더 잘 이해할 수 있음정보 교환과 인상 관리 모두 달성 가능.질문을 하지 않는 이유 (질문을 하지 않았을때 답변자에게 보여질 수 있는 인상)자기 중심적 사고자신의 생각이나 이야기만 주장하며, 강조하려는 경향이 있을 수 있다.관심이 없음질문에 대한 답변이 딱히 관심 없거나 지루할 것을 예상하여서 꺼리기도 한다.과도.. 2024. 8. 6.
본 캠프 43일차 TIL 피어슨 상관계수 (Pearson Correlation Coefficient)피어슨 상관계수는 두 변수 간의 선형 관계를 측정하는 통계량입니다. 이 값은 -1과 1 사이의 값을 가지며, 값의 크기에 따라 두 변수 간의 관계를 다음과 같이 해석할 수 있습니다:1: 완벽한 양의 선형 관계0: 선형 관계가 없음-1: 완벽한 음의 선형 관계피어슨 상관계수는 다음의 수식을 통해 계산됩니다:r = ∑(X − X̄)(Y − Ȳ) / √[ ∑(X − X̄)² ∑(Y − Ȳ)² ] 여기서 X와 Y는 두 변수, X̄와 Ȳ는 각각의 평균입니다.스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient)스피어만 순위 상관계수는 두 변수 간의 모노톤 관계(단조 관계)를 측정합니다. 이 상관계.. 2024. 8. 5.
본 캠프 6주차 WIL 이번 주에 배운 것36일차팀과 함께 회의를 할때 내가 취해야하는 스탠스https://datalearn.tistory.com/8537일차잘못된 시각화의 방법들https://datalearn.tistory.com/8638일차OTT 기법과 OTT기법과 알고리즘의 차이https://datalearn.tistory.com/8739일차통계학 기초https://datalearn.tistory.com/8840일차파이썬 문제풀이 접근법이 중요한 이유https://datalearn.tistory.com/8941일차분석 기획과 분석 방법https://datalearn.tistory.com/9042일차A/B 테스트를 해야하는 이유와 특징, 기능https://datalearn.tistory.com/91 2024. 8. 5.