통계&데이터사이언스46 데이터과학개론 15.파이썬을 이용한 데이터 시각화 - 2 box plot box plot 히스토그램, 상자그림, 줄기-잎 그림은 모두 데이터의 분포를 보기 위해 사용한다box plot은 데이터의 사분위수를 볼 수 있다. 이상치를 식별하기 좋다여러 데이터의 범위를 한 번에 비교하기 용이하다 order statistics ( 순서 통계량)샘플을 작은 값에서 큰 값 순서로 정렬해서 얻어지는 statistic sample percentile 백분위수 주어진 샘플에서 np개의 같거나 작은 관측값들을 가지는 값(n + 1)pth order statiwstic Quartile 사분위수 first quartile (Q1)second quartile (Q2)third quartile (Q3)IQR : Q3 - Q1 stem-and-leaf줄기-잎 그림 분포와 데이터값을 동시에.. 2024. 12. 23. 데이터과학개론 14.파이썬을 이용한 데이터 시각화 - 1 산점도데이터 분석 과정에서 시각화 중요성전반적인 경향을 직관적으로 이해할 수 있게 도와준다단일 수치에 의한 판단이 야기할 수 있는 오류는 잡아준다데이터 분석의 중요한 한 축을 담당한다 Matplotlib그래프 생성을 위한 파이썬의 대표적 라이브러리figure - 여러 개의 하위 도표를 포함할 수 있는 캔버스 또는 컨테이너와 같은 역할을 하는 객체axe - 우리가 실제로 생각하는 개별 도표figure 하나가 여러개의 axe를 포함 할 수 있다 import matpotlib.pyplot as plt서브플롯plt.subplots 함수를 이용해 figure 객체와 axe 객체들을 얻어각각의 axe 객체를 이용해 도표를 추가해 주면 된다선그래프linestyle 파라미터가 선의 종류를 결정한다soliddashedd.. 2024. 12. 23. 데이터과학개론 13.파이썬을 이용한 데이터 가공 - 2 정렬sort_index : 인덱스를 기준으로 정렬sort_values : 값을 기준으로 정렬 그룹과 집계agg에 인자로 줄 수 있는 함수meansumminmaxmedianstdvarcount 데이터 프레임의 병합merge데이터 프레임을 병합데이터베이스 테이블의 조인에 해당하는 연산 numpy데이터를 행렬과 벡터로 표현하는 배열에 담아 다룰 수 있게 해 주는 라이브러리선형대수 관련 연산이 가능 2024. 12. 23. 데이터과학개론 12.파이썬을 이용한 데이터 가공 - 1 데이터 프레임데이터베이스의 테이블과 같은 형태를 가지는 데이터 구조행과 열을 이차원 배열의 형태 라이브러리pip install yahoo_fin import yahoo_fin.stock_info as siimport numpy as npimport pandas as pd 리스트ticker = "google"earning_list = si.get_earnings_history(ticker) type(earning_list)list earning_list[:2] 누락데이터데이터의 누락 (missing) - 관측값이 존재하지 않는 경우데이터 프레임에서 NaN 표시누락된 데이터를 채우는 것 imputation fillna NaN인 부분을 주어진 값으로 채운다 dropnaNaN을 포함한 행들을 삭제 2024. 12. 23. 데이터과학개론 11. ggplot2를 이용한 데이터 시각화 1. ggplot2 패키지의 기본 구조문법적 구조기본적인 구조를 유지하면서 부분적 변경으로 다양한 시각화 방법을 구현한다 함수의 추가시각화 방법에 따라 여려 개의 함수를 추가할 수 있다- geom 계열 함수 여려 개를 병렬적으로 추가할 수 있다- 세부 옵션을 위해 coord 계열 함수 외에도 facet 계열 함수,scale 계열 함수, theme 계열 함수 등을 추가 가능하다ggplot() 함수와 geom 계열 함수는 반드시 포함되어야 하는 필수요소이다2. ggplot2를 이용한 시각화 사례패키지의 활성화library 함수가 반드시 필요하다library(tidyverse) 또는 library(ggplot2) ggplot2주어진 데이터를 가지고 시각화를 구현하는 시작 단계에서 사용- 함수 내에 시각화 대.. 2024. 12. 23. 데이터과학개론 10. 데이터 시각화의 이해 데이터 시각화의 개념 및 활용데이터 시각화데이터의 특징을 한정된 지면이나 공간 내에 효과적으로 요약하여 표현하는 도구 데이터 정보화의 도구 데이터 시각화는 데이터-정보-지식에 이르는 중요한 도구 인포그래픽 데이터 시각화와 ㅓ불어 데이터의 시각적 표현을 위한 도구- 시각화에 비해 원데이터의 노출이 상대적으로 덜하다단순화된 도형이나 차트, 일러스트레이션을 이용하여 정보를 전달나타내고자 하는 내용을 설득하는 분야 데이터 시각화와 데이터 마이닝가치있는 유용한 데이터 선별 작업은 데이터 마이닝의 기능과 관계가 깊다- 데이터 마이닝 도구가 활용되기도 하고 데이터 마이닝 과정에서 시각화가 이루어진다 데이터 시각화 3단계데이터 수집에서 표현까지 이르는 넓은 관점에서 구분한 단계- 정보 구조화, 정보 시각화, .. 2024. 12. 23. 이전 1 2 3 4 ··· 8 다음 반응형