AI / 데이터분석

Overall 본문

데이터 분석/데이터 분석 프로세스

Overall

동치미국물 2021. 1. 30. 15:24

1. 문제 정의

  • 구체적인 분석 목적 설정
  • - 분석을 통해 얻을 수 있는 비즈니스적 가치 (기획/UX/마케팅)
  • 구체적인 분석 목표 설정 (목적을 이뤄내기 위한 방법)
  • - 분석 방법 및 지표 설정
  • - 일정  

2. 데이터 수집

  • SQL 을 통해 DB에서 필요한 로그 데이터 수집

3. 데이터 가공

  • 결측값 제거 
  • - 결측 데이터가 적다 >> 해당 행 데이터 제거 
  • - 결측 데이터 많다 >> 해당 컬럼 데이터 제거 
  • - 숫자: 평균 값,  문자: 최빈 값 대체 
  • - 예측 모델로 결측값 예측 
  • 이상값 제거 
  • - 3시그마 룰
  • - 오토인코더
  • - Isolation forest
  • - IQR
  • 중복값 제거 
  • 표준화/카테고리화/차원축소

4. 데이터 분석 

  • EDA (탐색적 분석, 다각도에서 데이터를 들여다보며 특성을 이해)
  • - 시각화를 통한 데이터 분포 확인 
  • 통계분석
  • - 가설 검정
  • - 모수(모집단의 값) 추정: (표본 샘플 평균) +/- (오차) 범위로 모집단 평균 추정
  • - 변수간 상관관계 파악
  • - 차원 축소 (요인/군집 분석)
  • 머신러닝
  • - 분류/회귀/군집/추천/이상 문제 해결 
  • 지표 정의 및 현상황 파악 
  • - 비즈니스 지표를 정의하고 대시보드 및 리포트를 통해 트래킹
  • - CTR(Click Through Rate), CR(Conversion Rate),
  • - MAU(Monthly Activity User): 월별 서비스 이용자 
  • - DAU(Daily Activity User): 일별 서비스 이용자, 
  • - MCU(Maximum Current User): 순간 동시 접속자
  • - ACU(Average Current User): 평균 동시 접속자

5. 인사이트 도출 및 분석 리포트 작성 

  • 간격하고 명확한 내용 전달
  • - 수식어 최소화
  • - 인사이트 제시 후 근거 내용 전달
  • 정직한 결과 전달
  • - 과장 없이 사실을 공유
  • 시각화 
  • - 변수간의 상관관계 표시: 산점도  
  • - 비교: 막대 그래프
  • - 시계열: 라인
  • - 분포: 박스플롯, 히스토그램    

참조

파이썬 데이터 분석 실무

wikidocs.net/16561