7-1. 통계란?

파이썬으로 다시 배우는 핵심고등수학 (python)/07장 : 통계와 난수

7-1. 통계란?

아린// 2021. 2. 18. 23:06

1. csv파일 읽기

1) csv파일 불러오는 방법

- ★ jupiter computer을 실행시킬 폴더에 넣어주기! 꼭!

- 텍스트에 내가 원하는 쉼표 데이터를 넣고, .csv로 저장해야지 변환됨

- 즉, csv파일이 있는 곳에 jupiter computer 실행하기

2) csv파일이란?

- 쉼표를 기준으로 항목을 구분하여 저장한 데이터

- 엑셀 파일로 편집을 할 수 있음

- 데이터베이스나 표 계산 소프트웨어 데이터를 보존하기 위해 형식

	수학	과학
0	75	60
1	30	85
2	50	55
3	85	70
4	45	60

① import pandas as pd ← pandas 모듈을 pd로 불러오겠음

② dat = pd.read_csv('score.csv', encoding='UTF-8')

← csv파일을 불러오겠음. 처음은 파일명, 뒤에는 한국어로 쓰인 데이터를 읽어들이기 위해 유니코드를 변환하는 것

dat.head( ) ← 내용을 확인해라

2. 평균값, 중앙값, 최빈값

1) 평균값

>>> (1+2+3+4+5) / 5 #1~5까지의 평균을 구하는 공식
3.0 #평균

>>> (1+2+1+2+9) / 5 #1,2,1,2,9의 평균을 구하는 공식
3.0 #평균값

2) 평균값, 중앙값, 최빈값

import pands as pd #csv파일을 불러오기 위해 pandas 모듈을 pd로 불러오겠음
import numpy as np #numpy함수를 np로 불러오겠음

dat = pd.read_csv('score.csv', encoding='UTF-8) #데이터를 불러와라

print('평균값', np.mean(dat['수학'])) #데이터에서 평균값을 구하라
print('중앙값', np.median(dat['수학'])) #데이터에서 중앙값을 구하라

bincnt = np.bincount(dat['수학']) #같은 값의 개수를 세라
mode = np.argmax(bincnt) #bincnt에 있는 값 중에 가장 큰 값을 꺼내라 
print('최빈치', mode) #그 값을 나타내라

3. 도수분포표

계급(점수)	도수(인원수)
0~9	0
10~19	1
20~29	2
30~39	3
40~49	4
50~59	5
60~69	3
70~79	1
80~89	5
90~100	16

%matloplib inline #jupiter computer 시작 명령문 
import matplotlib.pyplot as plt #pyplot을 plt로 불러오겠음
import pandas as pd #pandas를 pd로 불러오겠음 

dat = pd.read_csv('score_csv', encoding='UTF-8') #csv 데이터를 불러오겠음 

hist = [0]*10 #for 반복문, 도수(요소 수 10개를 0으로 초기화한다(?)
for dat in dat['수학']:
  if dat < 10:  hist[0] += 1
  elif dat < 20: hist[1] += 1
  elif dat < 30: hist[2] += 1
  elif dat < 40: hist[3] += 1
  elif dat < 50: hist[4] += 1
  elif dat < 60: hist[5] += 1
  elif dat < 70: hist[6] += 1
  elif dat < 80: hist[7] += 1
  elif dat < 90: hist[8] += 1
  elif dat < 100: hist[9] += 1 #데이터가 10보다 작을 때 hist[0]에 1을 더하는 방식
print('도수:', hist)

# 도수분포도
x = list(range(1,11)) #x축에 해당하는 값 
labels = ['0~', '10~', '20~', '30~', '40~', '50~', '60~', '70~', '80~', '90~'] #x축 눈금 레이블

plt.bar(x, hist, tick_label = labels, width=1)

plt.show #막대 그래프를 그려라