1. 산포도
| 수학(x) | 75 | 30 | 50 | 85 | 45 | 85 | 20 | 95 | 95 | 35 |
| 과학(y) | 60 | 85 | 55 | 70 | 60 | 90 | 15 | 80 | 100 | 50 |
%matplotlib inline #jupiter computer 시작하기
import matplotlib.pyplot as plt #pyplot을 plt로 불러오기
import pandas as pd #pandas를 pd로 불러오기
dat = pd.read_csv('score.csv', encoding='UTF-8') #데이터 불러오기
plt.scatter(dat['수학'], dat['과학']) #pyplot에 포함된 scatter함수 사용 (점을 그려라)
plt.axis('equal')
plt.show()

2. 공분산과 상관관계
- 공분산 = ((x-x의 평균)x(y-y의 평균)의 합계)/ 데이터의 개수
- 양수일 경우, x와 y가 모두 평균값보다 크거나 작은 경우
- 음수일 경우, x와 y 중 한 값은 크거나 작은 경우
>>> import numpy as np
>>> import pandas as pd
>>> dat = pd.read_csv('score.csv', encoding='UTF-8')
>>> correlation = np. corrcoef(dat['수학'], dat['과학'])
#직접 공분산이나 표준편차를 구하지 않아도 상관관계 계수 구하는 함수를 이용해 구할 수 있음
>>> correlation[0,1] #상관계수
0.827685316489
- 공분산은 두 데이터의 관계를 나타내지만 단위가 정해지지 않아 (스마트폰 사용 시간), (학력)같이 다른 데이터를 계산하는 경우 표준화 작업이 필요함 = 상관관계
- 상관계수 = 공분산 / (x의 표준편차) x (y의 표준편차)
- 상관계수는 반드시 -1 ~ 1 범위에 있게 됨
'파이썬으로 다시 배우는 핵심고등수학 (python) > 07장 : 통계와 난수' 카테고리의 다른 글
| 7-5. 무작위로 값 선택하기 (0) | 2021.02.19 |
|---|---|
| 7-4. 데이터를 보고 추측하기 (0) | 2021.02.19 |
| 7-2. 데이터가 흩어진 정도 조사하기 (0) | 2021.02.19 |
| 7-1. 통계란? (0) | 2021.02.18 |