빅데이터 분석기사 실기 3유형

마지막 빅데이터 분석기사 3유형입니다.

 

엄청 많이 바뀌었는데요. 이건 기존에 안풀어봐서 너무 어렵네요.

공식 자체를 잘 몰라서 좀 공식을 외워서 가야할것 같네요.

import pandas as pd
import numpy as np
from scipy import stats
df = pd.read_csv("data/bcc.csv")

# 사용자 코딩

# 해당 화면에서는 제출하지 않으며, 문제 풀이 후 답안제출에서 결괏값 제출

df.info()

#print(df.head())

#로그 변환
df['log_resistin'] = np.log(df['Resistin'])

group1 = df[df['Classification']==1]['log_resistin']

group2 =  df[df['Classification']==2]['log_resistin']

#f통계량

var1 = np.var(group1, ddof=1)
var2 = np.var(group2, ddof=1)


if var1 >= var2:
f_stat = var1/var2

else:
f_stat = var2/var1

print(f_stat)

n1 = len(group1)
n2 = len(group2)

pool_var = ((n1-1)*var1 + (n2- 1)*var2)/(n1+n2-2)

print(round(pool_var, 3))

df_total = n1+n2 -2

mean1 = np.mean(group1)
mean2 = np.mean(group2)

t_stat = (mean1-mean2 ) / np.sqrt (pool_var* (1/n1 + 1/n2) )

# p_value = 2(1-cdf)
p_value = 2*(1- stats.t.cdf(abs(t_stat), df=df_total))
 
print(t_stat)
print(p_value)