본문 바로가기

전체 글103

본 캠프 31일차 TIL 오늘 배운 것라프텔 데이터 분석가가 되어 기획서 써보기 프로젝트를 진행하였습니다. 기획서를 써야할 때 고려해야 할 부분이 어떤 점들이 있는지, 팀원들과 소통을 얼마나 잘해야하는지에 대해 배웠습니다. 다소 팀원분들과 의견이 대립하게 되어 다툼이 발생할 수 있지만 결국 서로 한발 양보하며 같이 업무를 진행해 나가는 것이 바람직한 협업이 진행가능하다는 이야기를 들었습니다. 아직까지 그런 경험이 없어서 자세히는 모르겠지만 데이터 분석가 특성상 다른 팀들과 자주 교류를 하게되며 사소한 시비가 붙을지도 모른다는 생각도 들었으며 그런 상황에 어떻게 대처해야 좋을지 미리 생각을 정리해볼 수 있는 기회가 되었습니다. 2024. 7. 24.
본 캠프 30일차 TIL 오늘 공부 한 것이상치란?  이상치(Outliers)는 데이터 세트 내에서 다른 데이터 점들과 현저히 다른 값들을 의미합니다. 이는 통계 분석 및 데이터 분석 과정에서 중요한 요소로, 다양한 원인으로 인해 발생할 수 있습니다. 이상치는 데이터 분석 결과에 큰 영향을 미칠 수 있으며, 이를 적절히 식별하고 처리하는 것이 중요합니다.이상치의 원인데이터 입력 오류:설명: 데이터 수집 과정에서 입력 오류가 발생할 수 있습니다.예시: 설문조사에서 응답자가 잘못된 값을 입력하거나, 센서에서 오류가 발생한 경우.극단적인 값:설명: 자연적인 분포에서 극단적인 값이 나타날 수 있습니다.예시: 키와 몸무게 데이터에서 매우 키가 크거나 몸무게가 많은 사람.데이터 변동:설명: 데이터가 변동성이 큰 경우 이상치가 나타날 수 있.. 2024. 7. 23.
데이터 문해력 스터디 데이터 문해력 1~2장 까지의 내용1.1) 기계가 해야할 일과 사람이 해야할 일가치있는 결과를 도출하기 위해서는 데이터를 최대한 활용하고 가치있는 결과물을 도출하려면, 기계와 도구 조작법을 깊게 이해하는 것과 별개로, 우리가 직접 익혀야하는 고도로 가치있는 기술 즉 데이터 리터러시가 필요하기 때문입니다.1.3 )  데이터를 먼저 보지마라 - 데이터 안에 답은 없다데이터를 아무리 고성능의 통계와 분석방법을 동원한다 해도 데이터가 직접적인 답을 주는 경우는 없다. 다만 무엇을 알고 싶은지 무엇을 하고 싶은지, 그를 위해서는 어떤 데이터(지표)를 활용해야 하는지 판단하는 능력이 중요하다. 현상 발생 > 목적 및 문제 정의 > 지표 결정 > 현 사태 파악 > 평가 > 요인 분석 > 해결책 모색 1장 결론데이터 .. 2024. 7. 23.
본 캠프 29일차 TIL 오늘 배운 것mode() :mode() 함수: 는 데이터프레임이나 시리즈에서 가장 빈번하게 발생하는 값을 반환합니다. 즉, 최빈값(최다빈도값)을 구하는 함수입니다. 여러 최빈값이 있을 경우, 모두 반환합니다. import pandas as pd# 예제 시리즈 생성data = pd.Series([1, 2, 2, 3, 4, 4, 4, 5])# 최빈값 구하기mode_value = data.mode()print(mode_value) 위 코드에서는 시리즈에서 가장 빈번하게 발생하는 값, 즉 최빈값을 구합니다. 결과는 4가 됩니다.데이터프레임에서 사용import pandas as pd# 예제 데이터프레임 생성data = { 'A': [1, 2, 2, 3], 'B': [4, 4, 4, 5], 'C':.. 2024. 7. 23.
본 캠프 28일차 TIL 데이터 분석에서 올바른 지표를 선택하기 위해 고려해야 할 점들은 다음과 같습니다:1. 비즈니스 목표와의 일치목표 설정: 분석의 목적을 명확히 하고, 이를 달성하기 위한 지표를 선택합니다. 예를 들어, 고객 만족도를 높이는 것이 목표라면 고객 만족도(CSAT)나 고객 유지율을 고려할 수 있습니다​​​​.2. 지표의 관련성관련성 확인: 선택한 지표가 분석 목표와 얼마나 관련이 있는지를 평가합니다. 예를 들어, 마케팅 캠페인의 성공을 평가할 때 클릭률(CTR)과 전환율을 사용하는 것이 적절합니다.업계 표준: 업계에서 일반적으로 사용하는 지표를 참고하여 선택합니다. 이러한 지표들은 신뢰성과 유효성이 검증된 경우가 많습니다​​.3. 데이터의 가용성 및 품질데이터 가용성: 필요한 데이터를 확보할 수 있는지 확인합니.. 2024. 7. 22.
본 캠프 27일차 TIL 오늘 공부해본 것머신러닝(Machine Learning) 개요**머신러닝(Machine Learning)**은 인공지능(AI)의 한 분야로, 명시적으로 프로그래밍되지 않아도 컴퓨터가 데이터를 통해 학습하고 예측할 수 있도록 하는 기술입니다. 머신러닝은 다양한 데이터에서 패턴을 인식하고 이를 바탕으로 새로운 데이터를 분석하거나 예측하는 시스템을 개발합니다.머신러닝의 주요 유형 1.지도 학습(Supervised Learning)정의: 레이블이 있는 데이터를 사용하여 모델을 학습시킵니다.적용 예시: 스팸 이메일 필터링, 이미지 분류.설명: 지도 학습 모델은 입력 데이터와 해당 출력 레이블을 기반으로 학습합니다. 2. 비지도 학습(Unsupervised Learning)정의: 레이블이 없는 데이터를 사용하여 패.. 2024. 7. 21.