전체 글97 머신러닝 딥러닝 문제해결 전략 3.문제해결 프로세스 및 체크리스트 3장의 학습목표는 머신러닝과 딥러닝, 두 가지 성격의 대회를 정복하는 일반적인 프로세스를 알아보고, 프로세스의 각 단계에서 확인해야 할 체크리스트를 정리하는 것이다. 1. 머신러닝 문제해결 프로세스캐글 경진대회에서 대회에 따라 세부 내용은 조금식 다를 수 있다. 하지만, 큰 흐름과 구조는 비슷하다 문제(경진대회)이해 - 문제를 정확하게 이해해야 목표점 정확히 설정 가능탐색적 데이터 분석 - 데이터를 면밀히 분석, 효과적인 모델을 찾고 최적화 가능데이터 전처리 - 캐글 데이터 대부분은 전처리가 이루어진 데이터를 제공 베이스라인 모델 - 기본 모델을 만든다성능개선 - 다양한 아이디어를 활용해 모델 성능 올리기 (창의력이 가장 많이 필요로 하는 부분) 1. 문제(경진대회)이해문제이해어떤 문제를 풀어야 하는지.. 2025. 1. 1. 데이터과학개론 15.파이썬을 이용한 데이터 시각화 - 2 box plot box plot 히스토그램, 상자그림, 줄기-잎 그림은 모두 데이터의 분포를 보기 위해 사용한다box plot은 데이터의 사분위수를 볼 수 있다. 이상치를 식별하기 좋다여러 데이터의 범위를 한 번에 비교하기 용이하다 order statistics ( 순서 통계량)샘플을 작은 값에서 큰 값 순서로 정렬해서 얻어지는 statistic sample percentile 백분위수 주어진 샘플에서 np개의 같거나 작은 관측값들을 가지는 값(n + 1)pth order statiwstic Quartile 사분위수 first quartile (Q1)second quartile (Q2)third quartile (Q3)IQR : Q3 - Q1 stem-and-leaf줄기-잎 그림 분포와 데이터값을 동시에.. 2024. 12. 23. 데이터과학개론 14.파이썬을 이용한 데이터 시각화 - 1 산점도데이터 분석 과정에서 시각화 중요성전반적인 경향을 직관적으로 이해할 수 있게 도와준다단일 수치에 의한 판단이 야기할 수 있는 오류는 잡아준다데이터 분석의 중요한 한 축을 담당한다 Matplotlib그래프 생성을 위한 파이썬의 대표적 라이브러리figure - 여러 개의 하위 도표를 포함할 수 있는 캔버스 또는 컨테이너와 같은 역할을 하는 객체axe - 우리가 실제로 생각하는 개별 도표figure 하나가 여러개의 axe를 포함 할 수 있다 import matpotlib.pyplot as plt서브플롯plt.subplots 함수를 이용해 figure 객체와 axe 객체들을 얻어각각의 axe 객체를 이용해 도표를 추가해 주면 된다선그래프linestyle 파라미터가 선의 종류를 결정한다soliddashedd.. 2024. 12. 23. 데이터과학개론 13.파이썬을 이용한 데이터 가공 - 2 정렬sort_index : 인덱스를 기준으로 정렬sort_values : 값을 기준으로 정렬 그룹과 집계agg에 인자로 줄 수 있는 함수meansumminmaxmedianstdvarcount 데이터 프레임의 병합merge데이터 프레임을 병합데이터베이스 테이블의 조인에 해당하는 연산 numpy데이터를 행렬과 벡터로 표현하는 배열에 담아 다룰 수 있게 해 주는 라이브러리선형대수 관련 연산이 가능 2024. 12. 23. 데이터과학개론 12.파이썬을 이용한 데이터 가공 - 1 데이터 프레임데이터베이스의 테이블과 같은 형태를 가지는 데이터 구조행과 열을 이차원 배열의 형태 라이브러리pip install yahoo_fin import yahoo_fin.stock_info as siimport numpy as npimport pandas as pd 리스트ticker = "google"earning_list = si.get_earnings_history(ticker) type(earning_list)list earning_list[:2] 누락데이터데이터의 누락 (missing) - 관측값이 존재하지 않는 경우데이터 프레임에서 NaN 표시누락된 데이터를 채우는 것 imputation fillna NaN인 부분을 주어진 값으로 채운다 dropnaNaN을 포함한 행들을 삭제 2024. 12. 23. 데이터과학개론 11. ggplot2를 이용한 데이터 시각화 1. ggplot2 패키지의 기본 구조문법적 구조기본적인 구조를 유지하면서 부분적 변경으로 다양한 시각화 방법을 구현한다 함수의 추가시각화 방법에 따라 여려 개의 함수를 추가할 수 있다- geom 계열 함수 여려 개를 병렬적으로 추가할 수 있다- 세부 옵션을 위해 coord 계열 함수 외에도 facet 계열 함수,scale 계열 함수, theme 계열 함수 등을 추가 가능하다ggplot() 함수와 geom 계열 함수는 반드시 포함되어야 하는 필수요소이다2. ggplot2를 이용한 시각화 사례패키지의 활성화library 함수가 반드시 필요하다library(tidyverse) 또는 library(ggplot2) ggplot2주어진 데이터를 가지고 시각화를 구현하는 시작 단계에서 사용- 함수 내에 시각화 대.. 2024. 12. 23. 이전 1 2 3 4 ··· 17 다음 반응형