2025/07/22 2

[혼자 공부하는 데이터 분석] 통계의 기초 구성 요소와 Matplotlib의 기본 구조

통계평균데이터 값을 모두 더한 후 데이터 개수로 나눈 값.중앙값전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값.전체 데이터 개수가 짝수일 때는 중간의 두 데이터의 평균을 계산한다.분위수순서대로 나열된 데이터를 일정한 간격으로 나누는 기준점.예를 들어 사분위수는 데이터를 4등분하며, 25%, 50%, 75%에 위치한 값이다.백분위수는 데이터를 100개의 구간으로 나눈다.분산데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려주는 값.각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터 개수로 나누어 구한다.표준편차분산의 제곱근.데이터의 분포 정도를 알려준다.표준편차는 원본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉬워 자주 쓰인다.최빈값데이터에서 가장 많이 등장하는 값.숫자와 문자 ..

[혼자 공부하는 데이터 분석] 데이터 정제하기

본 내용은 혼자 공부하는 데이터 분석 교재를 참고하여 작성하였습니다.학습 목표데이터프레임에서 불필요한 행과 열을 삭제하거나, 데이터값을 바꾸는 방법을 배워보자.정규 표현식을 사용해 잘못된 값을 고치거나 누락된 값이 있는 경우 웹 스크래핑하여 얻은 값으로 채워보자.데이터 정제란?데이터 정제란, 데이터에서 손상되거나 부정확한 부분을 수정하고, 불필요한 데이터를 삭제하거나 불완전한 값을 교체하는 등의 작업을 의미한다.데이터 정제는 원 데이터를 좀 더 보기 쉽고 다루기 쉽게 만드는 data wrangling, data munging의 일부로 수행되기도 한다.수행 목표열 삭제행 삭제중복된 행 찾기group by 수행하기원본 데이터 업데이트 하기누락된 값 처리하기잘못된 값 바꾸기누락된 정보 채우기불필요한 데이터 삭..