Programming

빅데이터 분석기사 기출 정리본

remake 2024. 9. 4. 11:10

카페이 있는 빅데이터 분석기사 기출 정리본입니다.

 

[1] 다변량분산분석(Manova) 설명으로 옳은 것

정답: 독립변수 여러개 종속변수 여러개



[2] 주성분 분석(PCA) 제3주성분이 몇%까지 설명하는지

1. 8.xx ✅

2. 

3. 

4. 95.66



[3] 인공신경망 마지막 은닉노드가 2개, 출력노드가 1개이고 편향이 0.2일 때 출력값을 계산하라

(은닉노드 값은 각각 0.2, 0.1이고 가중치는 각각 0.4, 0.5이다)

정답: 0.33

해설: 0.2*0.4 + 0.1*0.5 + 0.2 = 0.33



[4] 모자이크 플롯에 대한 설명으로 옳지 않은 것

1. 

2. 

3. 히스토그램 안에 히스토그램을 그리는 방식이다 ✅

4. 직사각형 면적 하나가 빈도를 나타낸다



[5] 주어진 혼동행렬에서 정확도, 민감도, 특이도, 정밀도 계산하고 가장 적절하지 않은 것 고르는 문제

1. 정확도

2. 민감도 ✅

3. 특이도

4. 정밀도 ✅

=> 복수정답 가능성 있지만 개인적으로는 문제에 "가장 적절하지 않은"이라는 키워드가 있었어서 값이 가장 크게 어긋났던 4번만 정답처리될 수도 있을 것 같습니다



[6] 기존 공정기술의 불량률, 정상률과 신규 공정기술의 불량률, 정상률이 표로 주어지고 위험도, 승산비 계산하는 문제

1. 위험도: 4, 승산비: (0.02 x 0.98) / (0.08 x 0.92)

2. 위험도: 4, 승산비: (0.02 x 0.92) / (0.08 x 0.98)

3. 위험도: 0.25, 승산비: (0.02 x 0.98) / (0.08 x 0.92)

4. 위험도: 0.25, 승산비: (0.02 x 0.92) / (0.08 x 0.98) ✅



[7] 나이브베이즈에 대한 설명으로 옳지 않은 것

1. 

2. 

3. 나이브베이즈는 사전확률과 사후확률을 토대로 우도를 계산한다 ✅

4. 



[8] 텍스트마이닝에 대한 설명으로 옳지 않은 것

1. 사용하지 않거나 분석에 필요없는 불용어(stopword) 제거

2. 어간을 추출하는 Stemming

3. Tokenization에 대한 옳은 설명

4. 뜻을 판단하는 Pos 태깅 ✅



[9] 사용자에 대한 정보를 뒤섞어 정보의 손실 없이 가명화를 수행하는 방법의 범주와 이름이 잘 연결된 것을 고르시오

1. 가명처리 - 휴리스틱 익명화

2. 

3. 총계처리 - 재배열 ✅

4. 



[10] 빅데이터의 5V에 대한 설명으로 옳은 것

1. Veracity: 

2. Volume: 데이터가 다양하다

3. Velocity: 데이터가 실시간으로 변한다 ✅

4. Variety: 데이터 양이 많다



[11] 시퀀스투시퀀스(seq2seq)에서 인코더를 통해 OO가 만들어지고 디코더를 통해 출력시퀀스가 된다. OO에 들어갈 말로 옳은 것

1. 고유벡터

2. 컨텍스트벡터 ✅

3. 공벡터

4. 기저베터



[12] 경사하강법에 대한 설명 중 옳은 것

1. 확률적 경사하강법은 전체 데이터 중 일부를 랜덤추출하여 사용하는 방법이다

2. 모멘텀은 관성을 이용해 지역최소를 극복하고 전역최소를 찾아가는 방법이다 ✅

3. Adaptive gradient 어쩌구는 이전 기울기에 따라 속도가 달라진다

4. 



[13] 서열척도 변수들간의 상관관계를 측정할 때 사용하는 값

1. 피어슨 상관계수

2. 스피어만 상관계수 ✅

3. 

4. 



[14] 주성분 분석(PCA)에 대한 설명으로 옳은 것을 모두 고르시오

(가) 정규분포

(나) 차원축소는 변수들간에 관계가 없어도 가능하다

(다) 분산이 크다

1. (가)

2. (다) ✅

3. (가), (다)

4. (가), (나), (다)



[15] 매개변수와 초매개변수에 대한 설명으로 옳지 않은 것

1. 매개변수는 학습하며 갱신된다

2. 매개변수는 경사하강법으로 추정할 수 있다

3. 초매개변수는 학습이 진행되어도 바뀌지 않는다 ✅

4. 은닉층 수와 학습률은 초매개변수이다



[16] 서포트벡터머신(SVM)에 대한 설명으로 옳지 않은 것

1. 

2. 

3. 초매개변수의 최적화는 필요 없다 ✅

4. 커널 함수 여러개



[17] 옳은 것

1. 

2. 

3. 편향이 낮고 분산이 낮으면 좋은 모델이다 ✅

4. 



[18] A그룹은 100명 중 71명 투표, B그룹은 200명 중 134명 투표했을 때 모평균 pA pB에 대해 pA-pB값의 추정치를 구하시오

1. 0.04 ✅

2. 

3. 

4. 



[19] 어떤 거리에 관한 공식인지 고르시오

1. 마할라노비스 거리

2. 유클리드 거리

3. 맨해튼 거리

4. 민코프스키 거리 ✅



[20] 의사결정나무에 대한 설명으로 옳은 것을 모두 고르시오

(가) 의사결정나무는 설명력이 명확하다

(나) 의사결정나무는 동질성이 커지는 방향으로 분기한다

(다) 정규성 가정이 필요하다

(라) 교호작용

1. 

2. (가), (나) ✅

3. 

4. 



[21] 분산저장 아닌 것을 고르시오

1. HBase ✅

2. Ceph

3. GoogleFS

4. HDFS



[22] 비모수검정에 대해 옳지 않은 것을 고르시오

1. 

2. 

3. 비모수검정이 모수검정보다 검정력이 높다 ✅

4. 



[23] 점추정에 대한 설명으로 옳은 것을 고르시오

S1 = … , S2 = …

1. S1은 불편추정량이다

2. S2는 일치추정량이 아니다

3. S2의 bias는 0이다 ✅

4. 



[24] 카산드라, 몽고디비를 포함하는 반정형, 비정형데이터 저장소를 고르시오

1. In-Memory DB

2. DFS

3. NoSQL ✅

4. RDBMS



[25] 하향식 문제 탐색 과정에 대해 옳지 않은 것

1. 문제 탐색은 간단하게 문제 나열 ✅

2. 문제 정의는~~

3. 해결방안 탐색은~~

4. 타당성 검토는~~



[26] 점수가 각각 60, 70, 80일 때 표본분산을 계산하시오

1. 10

2. 20

3. 100 ✅

4. 200



[27] 옳지 않은 것

1. MAE = MAE 공식

2. MSE = MSE 공식

3. MAPE = MAPE 공식에 100이 안 곱해져 있었음 ✅

4. MPE = MPE 공식



[28] 국회의원 선거에서 지역 면적이 아니라 지역구에 당선된 국회의원 수에 따라 시각화하고자 할 때 적합한 시각화도구

1. 단계구분도

2. 등치선도

3. 격자 카토그램 ✅

4. 픽토그램



[29] 귀무가설 표 주어지고 ㄱ, ㄴ, ㄷ에 들어갈 내용으로 알맞은 것을 고르시오

정답: ㄱ알맞은 판단, ㄴ제2종오류, 3제1종오류



[30] ROC 곡선에 대해 옳지 않은 것

1. FPR 값에 따른 TPR 값 그래프이다

2. FPR이 작아도 TPR이 클 수 있다

3. 무작위의 경우 TPR과 FPR은 같은 곳으로 수렴한다

4. AUC 값이 작을 수록 좋은 모델이다 ✅



[31] 비정형 데이터가 아닌 것

1. 거래 데이터 ✅

2. 음성 데이터

3. 메시지 데이터

4. 이미지 데이터



[32] 척도와 예시가 알맞게 연결된 것

1. 비율척도 - 나이

2. 명목척도 - 성별

3. 서열척도 - 매출액 ✅

4. 등간척도 - 기온



[33] 기술통계량이 아닌 것

1. 최대값

2. 중앙값

3. 이상값 ✅

4. 분산



[34] 데이터 분석 단계에서 진행하는 작업이 아닌 것

1. 데이터 확인 및 추출

2. 데이터 모델링

3. 모델링 적용 및 운영방안

4. 데이터 준비 ✅



[35] 음수데이터는 불가능하여 양수데이터만 가능하고 정규분포에 근사하게 변환하는 방법?

1. Max-Min

2. Z Score

3. 

4. Box-Cox ✅



[36] 부스팅에 대한 설명으로 옳지 않은 것

1. 

2. 

3. XGBoost는 GBM을 개선한 방식이지만 GBM보다 속도가 늦다 ✅

4. LightGBM은 기존 트리 방식과 다르게 leaf중심으로 분기한다



[37] 10번 중 7번 이상 성공할 확률에 대해 귀무가설(H0)이 다음과 같을 때, 제2종 오류를 범할 확률을 구하시오

H0 = 1/2, H1 = 2/3

1. i가 7부터 10이고 (2/3)^i x (1/3)^10-i

2. i가 0부터 6이고 (2/3)^i x (1/3)^10-i ✅

3. i가 7부터 10이고 (1/2)^i

4. i가 0부터 6이고 (1/2)^i



[38] 회귀분석의 분산분석(Anova)표에 계산된 값이 채워져서 주어짐. 틀린 값을 고르시오


ㄱ(회귀자유도), ㄴ(오차제곱합), ㄷ(F통계량), ㄹ(제곱합 총계)

ㄱ(회귀제곱합), ㄴ(오차자유도) 였을 수도 있음 기억 안 남

1. 

2. 

3. F통계량 ✅

4. 



[39] 매출과 수입을 나타내기에 적합한 시각화 도구를 각각 고르시오

정답: 매출-카토, 수입-버블



[40] 지도학습 모델 선정 고려요소로 적합하지 않은 것

1. 

2. 변수의 중요도

3. 

4. 자기상관성 ✅



[41] OECD 국가 중 유럽과 그 외 국가의 어느 값(GDP?)에 대한 박스플롯이다. 옳지 않은 것을 고르시오

1. 

2. 

3. 

4. 신뢰구간 95% ✅



[42] 샘플링에 사용되지 않는 기법

1. Metropolis-Hastings Algorithm

2. Perfect Sampling

3. EM 알고리즘 ✅

4. Rejection Sampling



[43] 기초통계량과 그래프로 확인할 수 없는 것을 고르시오

1. 결측치

2. 이상치

3. 통계적 유의성 ✅

4. 데이터 분포



[44] 암 발생률과 소득의 상관관계를 다른 변수들 제외하고 분석하고 싶을 때 사용하는 기법

1. 군집분석

2. 편상관 ✅

3. F분포

4. 카이제곱



[45] 표준화에 대한 설명을 고르시오

1. 두개의 샘플을 하나로 통합

2. 노이즈 제거해서 미끄럽게

3. 

4. 표준화된 값은 단위가 없다 ✅



[46] k-폴드 교차검증에 대한 설명 중 옳지 않은 것

1. k-1개 데이터셋은 학습용, 1개 데이터셋은 검정용으로 사용

2. 데이터셋은 행으로만 나눈다 ✅

3. 데이터셋 k번 반복

4. 데이터셋 각각 한 번씩만 검정용으로 사용



[47] 차원축소를 통해 할 수 없는 것을 고르시오

1. 특징 추출

2. 설명력 증가

3. 노이즈 제거

4. 데이터 정제 ✅



[48] 인포그래픽 잘 연결된 것 고르시오

(가) 지역별 코로나 발생률

(나) 월별 코로나 발생률

정답: (가) 지도 인포그래픽 - (나) 타임라인 인포그래픽



[49] 무엇에 대한 설명인지 고르시오

수집한 데이터를 처리 분석 어쩌구

정답: 빅데이터 플랫폼



[50] 데이터가 얼마나 편중되어있는지 확인할 수 있는 척도를 고르시오

정답: 왜도



[51] 데이터 웨어하우스의 특징으로 옳지 않은 것

1. 휘발성 ✅

2. 

3. 

4. 



[52] 데이터 불균형에 대한 설명으로 옳지 않은 것

1. 데이터 불균형이 있을 경우 모델의 학습이 불가능하다

2. 

3. 

4. 소수 클래스는 언더샘플링을 통해 해결한다



[53] 정성적 데이터와 정량적 데이터에 대한 설명으로 옳지 않은 것

1. 정성적 데이터는 질적 데이터다

2. 정량적 데이터는 양적 데이터다

3. 정성적 데이터 중 ~~ 데이터는 연속형 데이터로 변환 가능하다 ✅

4. 정량적 데이터 중 계수 데이터는 범주형 데이터로 변환 가능하다



[54] 표본의 수가 많을수록 정규분포에 가까워지는 것을 무엇이라고 하는가

정답: 중심극한정리



[55] 산점도? 주어지고 년도 주어지고 옳은 것 고르기

정답: 2000년대생 60만 넘음



[56] 내부데이터와 외부데이터에 대한 설명으로 옳지 않은 것

1. 

2. 

3. 

4. 외부데이터는 ~~ 신경쓰지 않고 자유롭게 사용해도 된다 ✅



[57] 옳지 않은 것

1. 

2. 

3. 앙상블모델은 단일모델로 분석하는 것보다 항상 좋다 ✅

4. 



[58] 선형회귀와 로지스틱회귀에 대한 설명으로 옳지 않은 것

1. 종속변수가 범주형인 경우 로지스틱 회귀 사용

2. 선형, 로지스틱 회귀 모두 잔차 정규성을 가정 ✅

3. 선형회귀 계수 LSE로 추정하면 불편추정량 ~~

4. 선형, 로지스틱 회귀 모두 MLE로 계수추정 가능



[59] Key-Value 옳지 않은 것

1. 

2. 

3. 모든 타입의 값을 수용 가능하다

4. 복잡한 쿼리의 수행이 가능하다 ✅



[60] 데이터 변환에 해당하지 않는 것

1. YYYY년 MM월 DD일 → YYYY/MM/DD

2. 10~30세는 청년, 40~60세는 중년 등으로 범주화

3. 1, 2, 3학년 값을 batch로 변환하여 데이터 분할

4. 키 수치를 평균 0, 표준편차 1로 표준화



[61] 파생변수에 대한 설명으로 옳지 않은 것

1. 시간에 따른 파생변수를 만들 수 있다

2. 특정 조건의 파생변수를 만들 수 있다

3. 독립변수와 종속변수의 교호작용~~

4. 



[62] 데이터 시각화 순서



[63] 단봉분포이면서 오른쪽 꼬리가 긴 분포에 대해 최빈값, 중앙값, 평균값의 대소비교

정답: 최빈값 < 중앙값 < 평균값



[64] 개인정보법에 대한 설명으로 옳지 않은 것

1. 

2. ~~~~ 위원회가 생겼다

3. 익명정보 생성할 때 당사자의 동의를 구해야 한다 ✅

4. 



[65] 실제값이 참일때 예측값이 참일 확률을 칭하는 단어

정답: 재현율



[66] 가중치 제곱합을 최소화하는 제약을 주는 기법을 고르시오

1. 라쏘

2. 릿지 ✅

3. 

4. 



[67] 다중공선성에 대한 설명으로 옳은 것

정답: 독립변수들 간의 상관성을 나타내는 값으로, 이 값이 클수록 회귀모델에 악영향을 미친다



[68] 결정계수에 대한 설명으로 옳은 것

정답: 결정계수 값의 범위는 0~1



[69] 결측값 대체시 문제점

1. 

2. 

3. 

4. 자가회귀로 결측치 대체하면 상관성이 낮아지고 분산이 커진다



[70] 유의미한 변수를 고르는 작업은 어느 과정에 진행되는가

선지: 데이터 분석, 모형화, ...



[71] 모델의 배치에 관한 설명으로 옳지 않은 것

1. 

2. 배치 크기는 훈련속도에 영향을 주지만 성능에 영향이 없다 ✅

3. 배치 크기가 너무 크면 메모리 문제가 발생한다

4. 배치 크기가 작으면 노이즈가 생기며 모델의 학습에 악영향



[72] 옳지 않은 것

1. 보팅 - 투표로 결정

2. 

3. 배깅 - 동일한 표본으로~~

4. 스태킹 - 동일한 표본으로 다양한 유형의 모델을 학습



[73] 교차검증에 대한 설명으로 옳지 않은 것

1. 

2. 시계열 데이터는 시간순으로 나눠서 검증하지 않는다 ✅

3. 

4. 



[74] 옳지 않은 것

정답: n 갯수(표본 크기)와 상관없이 표본평균은 모집단의 평균과 같다



[75] 과적합 방지 방안으로 옳지 않은 것

1. 

2. 매개변수를 늘린다 ✅

3. 

4. 드롭아웃



[76] 분석 활용 계획에 대한 설명으로 옳지 않은 것

정답: 분석 활용 계획 수립은 가장 나중에 한다



[77] 옳지 않은 것

정답: 마스킹 수준이 높으면 데이터를 식별, 예측하기 쉬워진다

 

문제 생각보다 쉽지는 않네요.