본문 바로가기

TIL46

본 캠프 30일차 TIL 오늘 공부 한 것이상치란?  이상치(Outliers)는 데이터 세트 내에서 다른 데이터 점들과 현저히 다른 값들을 의미합니다. 이는 통계 분석 및 데이터 분석 과정에서 중요한 요소로, 다양한 원인으로 인해 발생할 수 있습니다. 이상치는 데이터 분석 결과에 큰 영향을 미칠 수 있으며, 이를 적절히 식별하고 처리하는 것이 중요합니다.이상치의 원인데이터 입력 오류:설명: 데이터 수집 과정에서 입력 오류가 발생할 수 있습니다.예시: 설문조사에서 응답자가 잘못된 값을 입력하거나, 센서에서 오류가 발생한 경우.극단적인 값:설명: 자연적인 분포에서 극단적인 값이 나타날 수 있습니다.예시: 키와 몸무게 데이터에서 매우 키가 크거나 몸무게가 많은 사람.데이터 변동:설명: 데이터가 변동성이 큰 경우 이상치가 나타날 수 있.. 2024. 7. 23.
본 캠프 29일차 TIL 오늘 배운 것mode() :mode() 함수: 는 데이터프레임이나 시리즈에서 가장 빈번하게 발생하는 값을 반환합니다. 즉, 최빈값(최다빈도값)을 구하는 함수입니다. 여러 최빈값이 있을 경우, 모두 반환합니다. import pandas as pd# 예제 시리즈 생성data = pd.Series([1, 2, 2, 3, 4, 4, 4, 5])# 최빈값 구하기mode_value = data.mode()print(mode_value) 위 코드에서는 시리즈에서 가장 빈번하게 발생하는 값, 즉 최빈값을 구합니다. 결과는 4가 됩니다.데이터프레임에서 사용import pandas as pd# 예제 데이터프레임 생성data = { 'A': [1, 2, 2, 3], 'B': [4, 4, 4, 5], 'C':.. 2024. 7. 23.
본 캠프 28일차 TIL 데이터 분석에서 올바른 지표를 선택하기 위해 고려해야 할 점들은 다음과 같습니다:1. 비즈니스 목표와의 일치목표 설정: 분석의 목적을 명확히 하고, 이를 달성하기 위한 지표를 선택합니다. 예를 들어, 고객 만족도를 높이는 것이 목표라면 고객 만족도(CSAT)나 고객 유지율을 고려할 수 있습니다​​​​.2. 지표의 관련성관련성 확인: 선택한 지표가 분석 목표와 얼마나 관련이 있는지를 평가합니다. 예를 들어, 마케팅 캠페인의 성공을 평가할 때 클릭률(CTR)과 전환율을 사용하는 것이 적절합니다.업계 표준: 업계에서 일반적으로 사용하는 지표를 참고하여 선택합니다. 이러한 지표들은 신뢰성과 유효성이 검증된 경우가 많습니다​​.3. 데이터의 가용성 및 품질데이터 가용성: 필요한 데이터를 확보할 수 있는지 확인합니.. 2024. 7. 22.
본 캠프 27일차 TIL 오늘 공부해본 것머신러닝(Machine Learning) 개요**머신러닝(Machine Learning)**은 인공지능(AI)의 한 분야로, 명시적으로 프로그래밍되지 않아도 컴퓨터가 데이터를 통해 학습하고 예측할 수 있도록 하는 기술입니다. 머신러닝은 다양한 데이터에서 패턴을 인식하고 이를 바탕으로 새로운 데이터를 분석하거나 예측하는 시스템을 개발합니다.머신러닝의 주요 유형 1.지도 학습(Supervised Learning)정의: 레이블이 있는 데이터를 사용하여 모델을 학습시킵니다.적용 예시: 스팸 이메일 필터링, 이미지 분류.설명: 지도 학습 모델은 입력 데이터와 해당 출력 레이블을 기반으로 학습합니다. 2. 비지도 학습(Unsupervised Learning)정의: 레이블이 없는 데이터를 사용하여 패.. 2024. 7. 21.