1. 산포도

수학(x) 75 30 50 85 45 85 20 95 95 35
과학(y) 60 85 55 70 60 90 15 80 100 50
%matplotlib inline #jupiter computer 시작하기 
import matplotlib.pyplot as plt #pyplot을 plt로 불러오기
import pandas as pd #pandas를 pd로 불러오기

dat = pd.read_csv('score.csv', encoding='UTF-8') #데이터 불러오기

plt.scatter(dat['수학'], dat['과학']) #pyplot에 포함된 scatter함수 사용 (점을 그려라)
plt.axis('equal') 
plt.show()

 

 

2. 공분산과 상관관계

- 공분산 = ((x-x의 평균)x(y-y의 평균)의 합계)/ 데이터의 개수 

- 양수일 경우, x와 y가 모두 평균값보다 크거나 작은 경우 

- 음수일 경우, x와 y 중 한 값은 크거나 작은 경우 

>>> import numpy as np 
>>> import pandas as pd
>>> dat = pd.read_csv('score.csv', encoding='UTF-8')
>>> correlation = np. corrcoef(dat['수학'], dat['과학']) 
#직접 공분산이나 표준편차를 구하지 않아도 상관관계 계수 구하는 함수를 이용해 구할 수 있음 
>>> correlation[0,1] #상관계수 
0.827685316489

 

- 공분산은 두 데이터의 관계를 나타내지만 단위가 정해지지 않아 (스마트폰 사용 시간), (학력)같이 다른 데이터를 계산하는 경우 표준화 작업이 필요함 = 상관관계 

- 상관계수 = 공분산 / (x의 표준편차) x (y의 표준편차)

- 상관계수는 반드시 -1 ~ 1 범위에 있게 됨 

 

+ Recent posts