7-3. 관계 조사하기

2021. 2. 19. 17:18

1. 산포도

수학(x)	75	30	50	85	45	85	20	95	95	35
과학(y)	60	85	55	70	60	90	15	80	100	50

%matplotlib inline #jupiter computer 시작하기 
import matplotlib.pyplot as plt #pyplot을 plt로 불러오기
import pandas as pd #pandas를 pd로 불러오기

dat = pd.read_csv('score.csv', encoding='UTF-8') #데이터 불러오기

plt.scatter(dat['수학'], dat['과학']) #pyplot에 포함된 scatter함수 사용 (점을 그려라)
plt.axis('equal') 
plt.show()

2. 공분산과 상관관계

- 공분산 = ((x-x의 평균)x(y-y의 평균)의 합계)/ 데이터의 개수

- 양수일 경우, x와 y가 모두 평균값보다 크거나 작은 경우

- 음수일 경우, x와 y 중 한 값은 크거나 작은 경우

>>> import numpy as np 
>>> import pandas as pd
>>> dat = pd.read_csv('score.csv', encoding='UTF-8')
>>> correlation = np. corrcoef(dat['수학'], dat['과학']) 
#직접 공분산이나 표준편차를 구하지 않아도 상관관계 계수 구하는 함수를 이용해 구할 수 있음 
>>> correlation[0,1] #상관계수 
0.827685316489

- 공분산은 두 데이터의 관계를 나타내지만 단위가 정해지지 않아 (스마트폰 사용 시간), (학력)같이 다른 데이터를 계산하는 경우 표준화 작업이 필요함 = 상관관계

- 상관계수 = 공분산 / (x의 표준편차) x (y의 표준편차)

- 상관계수는 반드시 -1 ~ 1 범위에 있게 됨

'파이썬으로 다시 배우는 핵심고등수학 (python) > 07장 : 통계와 난수' 카테고리의 다른 글

7-5. 무작위로 값 선택하기 (0)	2021.02.19
7-4. 데이터를 보고 추측하기 (0)	2021.02.19
7-2. 데이터가 흩어진 정도 조사하기 (0)	2021.02.19
7-1. 통계란? (0)	2021.02.18

Arin's log

7-3. 관계 조사하기

'파이썬으로 다시 배우는 핵심고등수학 (python) > 07장 : 통계와 난수' 카테고리의 다른 글

+ Recent posts

티스토리툴바