데이터사이언스/데이터 분석
-
추천시스템 이해데이터사이언스/데이터 분석 2024. 3. 17. 18:07
기본적인 추천시스템은 어떤 행렬(데이터)을 사용했는지와 어떻게 분석했는지로 구분할 수 있다. ex) 영화 추천 시스템 콘텐츠 기반 추천시스템(Content-based Filtering, CB): 행에는 영화제목이, 열에는 영화 속성이 있는 행렬을 사용한다. (==각 영화를 설명하는 행렬) → A와 비슷한 영화는 A’입니다. 비슷한 영화를 계산하는 대표적인 방법으로 코사인 유사도가 있다. 협업 필터링 추천시스템(Collaborative Filtering, CF): 행에는 영화제목이, 열에는 사용자 개개인이 기록된 행렬을 사용한다. (==각 영화에 대한 평점을 기록한 희소행렬) → 아직 관람하지 않은 영화 B의 예측 평점은 5점입니다. 이와 반대로 행에는 사용자, 열에는 영화제목이 있는 행렬도 사용가능하다...
-
머신러닝(분류): 신용카드 사기 검출 분석데이터사이언스/데이터 분석 2023. 2. 28. 15:42
데이터 소개 : European Card의 사용 내역으로 생성된 데이터.총 거래내역 284,807건 중에서 사기 당한 표본은 492건. (0.172%로 매우 희박함)변수 V1~V28은 거래내역의 개인정보 문제로 PCA된 변수. 출처: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud Credit Card Fraud DetectionAnonymized credit card transactions labeled as fraudulent or genuinewww.kaggle.com 분석 목적: 신용카드 사기를 예측하는 분류 모델 구축모든 거래가 정상이라고 예측하는 모델도 정확도는 99.828.따라서 실제 사기를 사기라고 판단한 "재현율" 지표가 중요함라..
-
유용한 파이썬 코드 모음 (데이터 분석)데이터사이언스/데이터 분석 2023. 2. 24. 18:26
데이터를 분석할 때 자주 생각나는 코드들을 하나씩 모으고 있습니다. 최종목표는 데이터 분석 템플릿 수준으로 확장하기 입니다. 계속 업데이트 하겠습니다. Seed 고정 import numpy as np import random import os def seed_everything(seed: int = 24): random.seed(seed) np.random.seed(seed) os.environ["PYTHONHASHSEED"] = str(seed) seed_everything(24) 기본 모듈 import import numpy as np import pandas as pd import datetime import holidays import matplotlib.pyplot as plt import se..
-
시계열 데이터에 대한 ARIMA 모델 with R데이터사이언스/데이터 분석 2023. 2. 22. 19:10
총 두 가지의 데이터에 대하여 ARIMA모델을 적합해보았다. 화학반응의 결과물에 대한 시간 별 데이터 (n=197) 미국의 실업자에 관한 월 별 데이터 (n=500) 분석목적: 시간에 따라 측정된 두 종류의 시계열 데이터에 대하여 자주 사용되는 ARIMA(p,d,q)모델을 적합하고 자귀회귀계수(p), 차분계수(d), 이동평균계수(q)를 추정한다. 경우에 따라 계절성이 관측되면, seasonal ARIMA(p,d,q)(P,D,Q)[m] 모델을 사용하기로 한다. 첫 번째 데이터 : Chemical process concentration readings: Every two hours (n = 197) - ACF가 천천히 감소한다고 판단된다.(-> 비정상성) 차분을 적용한다. ACF는 cut off after ..
-
딥러닝(CNN)을 이용한 음성분류데이터사이언스/데이터 분석 2023. 2. 21. 16:28
데이터 소개 : 텐서플로우에서 발행한 음성탐지 모델용 데이터. 30개의 영어 단어(yes, no, up, down 등)에 대해 1초 분량으로 기록한 65,000개의 데이터 세트 출처 : https://www.kaggle.com/c/tensorflow-speech-recognition-challenge 분석 목적 : 캐글 competition 에 사용되는 test 단어 10가지에 대하여 CNN을 이용한 분류모델 학습과 예측성능 평가. 10가지 단어의 데이터 샘플 수는 21312개. 의의: 음성 데이터 전처리의 중요성을 실감함 (검색 추천 키워드: "MFCC" ) 딥러닝을 활용한 엔지니어링 프로세스와, 기본적인 모델 구조에 대한 이해 모델 요약 : In [1]: import os for dirname, _,..
-
이미지에 대한 PCA와 클러스터링, LDA데이터사이언스/데이터 분석 2023. 2. 21. 15:34
Handwritten digit image data에 대한 다변량 분석 데이터 소개: 업로드된 train.7.txt, train.9.txt는 미국 우체국에서 손으로 쓰여진 우편번호 중 digit “7”과 “9”를 스캔한 이미지를 각각 645, 644개씩 포함하며, 각 이미지는 16 × 16 grayscale matrix로 표현되어 있다. 분석 목적: (i) 주성분 분석을 통한 저차원에서의 이미지 표현 (ii) 군집분석 (iii) 판별분석을 통한 각 digit 분류 rm(list=ls()) #객체 제거 options(digits=4) library(MASS) data.7 = read.csv("train.7.txt", header = F) #데이터를 불러와라 data.7 = as.matrix(data.7) ..
-
다변량 자료와 정규분포데이터사이언스/데이터 분석 2022. 8. 30. 21:07
목적: 다변량 정규분포와 정규성 검정을 위한 R의 함수들을 실습합니다. setwd("D:/Find in data/Findindata 블로그/데이터사이언스/데이터 분석") getwd() ## [1] "D:/Find in data/Findindata 블로그/데이터사이언스/데이터 분석" rm(list=ls()) #모든 정의된 변수 초기화 1. 평균벡터와 분산-공분산행렬 다음은 2001년에 집계된 네 개의 주요 자원들로부터의 에너지 소비량 x1: petroleum(석유), x2: natural gas(천연가스), x3: hydroelectric power(수력 발전), x4: nuclear electric power(원자력 발전) in quadrillions (1015) of BTUs 을 포함한 자료를 이용하여..