빅데이터 분석기사 기출 정리본
카페이 있는 빅데이터 분석기사 기출 정리본입니다.
[1] 다변량분산분석(Manova) 설명으로 옳은 것
정답: 독립변수 여러개 종속변수 여러개
[2] 주성분 분석(PCA) 제3주성분이 몇%까지 설명하는지
1. 8.xx ✅
2.
3.
4. 95.66
[3] 인공신경망 마지막 은닉노드가 2개, 출력노드가 1개이고 편향이 0.2일 때 출력값을 계산하라
(은닉노드 값은 각각 0.2, 0.1이고 가중치는 각각 0.4, 0.5이다)
정답: 0.33
해설: 0.2*0.4 + 0.1*0.5 + 0.2 = 0.33
[4] 모자이크 플롯에 대한 설명으로 옳지 않은 것
1.
2.
3. 히스토그램 안에 히스토그램을 그리는 방식이다 ✅
4. 직사각형 면적 하나가 빈도를 나타낸다
[5] 주어진 혼동행렬에서 정확도, 민감도, 특이도, 정밀도 계산하고 가장 적절하지 않은 것 고르는 문제
1. 정확도
2. 민감도 ✅
3. 특이도
4. 정밀도 ✅
=> 복수정답 가능성 있지만 개인적으로는 문제에 "가장 적절하지 않은"이라는 키워드가 있었어서 값이 가장 크게 어긋났던 4번만 정답처리될 수도 있을 것 같습니다
[6] 기존 공정기술의 불량률, 정상률과 신규 공정기술의 불량률, 정상률이 표로 주어지고 위험도, 승산비 계산하는 문제
1. 위험도: 4, 승산비: (0.02 x 0.98) / (0.08 x 0.92)
2. 위험도: 4, 승산비: (0.02 x 0.92) / (0.08 x 0.98)
3. 위험도: 0.25, 승산비: (0.02 x 0.98) / (0.08 x 0.92)
4. 위험도: 0.25, 승산비: (0.02 x 0.92) / (0.08 x 0.98) ✅
[7] 나이브베이즈에 대한 설명으로 옳지 않은 것
1.
2.
3. 나이브베이즈는 사전확률과 사후확률을 토대로 우도를 계산한다 ✅
4.
[8] 텍스트마이닝에 대한 설명으로 옳지 않은 것
1. 사용하지 않거나 분석에 필요없는 불용어(stopword) 제거
2. 어간을 추출하는 Stemming
3. Tokenization에 대한 옳은 설명
4. 뜻을 판단하는 Pos 태깅 ✅
[9] 사용자에 대한 정보를 뒤섞어 정보의 손실 없이 가명화를 수행하는 방법의 범주와 이름이 잘 연결된 것을 고르시오
1. 가명처리 - 휴리스틱 익명화
2.
3. 총계처리 - 재배열 ✅
4.
[10] 빅데이터의 5V에 대한 설명으로 옳은 것
1. Veracity:
2. Volume: 데이터가 다양하다
3. Velocity: 데이터가 실시간으로 변한다 ✅
4. Variety: 데이터 양이 많다
[11] 시퀀스투시퀀스(seq2seq)에서 인코더를 통해 OO가 만들어지고 디코더를 통해 출력시퀀스가 된다. OO에 들어갈 말로 옳은 것
1. 고유벡터
2. 컨텍스트벡터 ✅
3. 공벡터
4. 기저베터
[12] 경사하강법에 대한 설명 중 옳은 것
1. 확률적 경사하강법은 전체 데이터 중 일부를 랜덤추출하여 사용하는 방법이다
2. 모멘텀은 관성을 이용해 지역최소를 극복하고 전역최소를 찾아가는 방법이다 ✅
3. Adaptive gradient 어쩌구는 이전 기울기에 따라 속도가 달라진다
4.
[13] 서열척도 변수들간의 상관관계를 측정할 때 사용하는 값
1. 피어슨 상관계수
2. 스피어만 상관계수 ✅
3.
4.
[14] 주성분 분석(PCA)에 대한 설명으로 옳은 것을 모두 고르시오
(가) 정규분포
(나) 차원축소는 변수들간에 관계가 없어도 가능하다
(다) 분산이 크다
1. (가)
2. (다) ✅
3. (가), (다)
4. (가), (나), (다)
[15] 매개변수와 초매개변수에 대한 설명으로 옳지 않은 것
1. 매개변수는 학습하며 갱신된다
2. 매개변수는 경사하강법으로 추정할 수 있다
3. 초매개변수는 학습이 진행되어도 바뀌지 않는다 ✅
4. 은닉층 수와 학습률은 초매개변수이다
[16] 서포트벡터머신(SVM)에 대한 설명으로 옳지 않은 것
1.
2.
3. 초매개변수의 최적화는 필요 없다 ✅
4. 커널 함수 여러개
[17] 옳은 것
1.
2.
3. 편향이 낮고 분산이 낮으면 좋은 모델이다 ✅
4.
[18] A그룹은 100명 중 71명 투표, B그룹은 200명 중 134명 투표했을 때 모평균 pA pB에 대해 pA-pB값의 추정치를 구하시오
1. 0.04 ✅
2.
3.
4.
[19] 어떤 거리에 관한 공식인지 고르시오
1. 마할라노비스 거리
2. 유클리드 거리
3. 맨해튼 거리
4. 민코프스키 거리 ✅
[20] 의사결정나무에 대한 설명으로 옳은 것을 모두 고르시오
(가) 의사결정나무는 설명력이 명확하다
(나) 의사결정나무는 동질성이 커지는 방향으로 분기한다
(다) 정규성 가정이 필요하다
(라) 교호작용
1.
2. (가), (나) ✅
3.
4.
[21] 분산저장 아닌 것을 고르시오
1. HBase ✅
2. Ceph
3. GoogleFS
4. HDFS
[22] 비모수검정에 대해 옳지 않은 것을 고르시오
1.
2.
3. 비모수검정이 모수검정보다 검정력이 높다 ✅
4.
[23] 점추정에 대한 설명으로 옳은 것을 고르시오
S1 = … , S2 = …
1. S1은 불편추정량이다
2. S2는 일치추정량이 아니다
3. S2의 bias는 0이다 ✅
4.
[24] 카산드라, 몽고디비를 포함하는 반정형, 비정형데이터 저장소를 고르시오
1. In-Memory DB
2. DFS
3. NoSQL ✅
4. RDBMS
[25] 하향식 문제 탐색 과정에 대해 옳지 않은 것
1. 문제 탐색은 간단하게 문제 나열 ✅
2. 문제 정의는~~
3. 해결방안 탐색은~~
4. 타당성 검토는~~
[26] 점수가 각각 60, 70, 80일 때 표본분산을 계산하시오
1. 10
2. 20
3. 100 ✅
4. 200
[27] 옳지 않은 것
1. MAE = MAE 공식
2. MSE = MSE 공식
3. MAPE = MAPE 공식에 100이 안 곱해져 있었음 ✅
4. MPE = MPE 공식
[28] 국회의원 선거에서 지역 면적이 아니라 지역구에 당선된 국회의원 수에 따라 시각화하고자 할 때 적합한 시각화도구
1. 단계구분도
2. 등치선도
3. 격자 카토그램 ✅
4. 픽토그램
[29] 귀무가설 표 주어지고 ㄱ, ㄴ, ㄷ에 들어갈 내용으로 알맞은 것을 고르시오
정답: ㄱ알맞은 판단, ㄴ제2종오류, 3제1종오류
[30] ROC 곡선에 대해 옳지 않은 것
1. FPR 값에 따른 TPR 값 그래프이다
2. FPR이 작아도 TPR이 클 수 있다
3. 무작위의 경우 TPR과 FPR은 같은 곳으로 수렴한다
4. AUC 값이 작을 수록 좋은 모델이다 ✅
[31] 비정형 데이터가 아닌 것
1. 거래 데이터 ✅
2. 음성 데이터
3. 메시지 데이터
4. 이미지 데이터
[32] 척도와 예시가 알맞게 연결된 것
1. 비율척도 - 나이
2. 명목척도 - 성별
3. 서열척도 - 매출액 ✅
4. 등간척도 - 기온
[33] 기술통계량이 아닌 것
1. 최대값
2. 중앙값
3. 이상값 ✅
4. 분산
[34] 데이터 분석 단계에서 진행하는 작업이 아닌 것
1. 데이터 확인 및 추출
2. 데이터 모델링
3. 모델링 적용 및 운영방안
4. 데이터 준비 ✅
[35] 음수데이터는 불가능하여 양수데이터만 가능하고 정규분포에 근사하게 변환하는 방법?
1. Max-Min
2. Z Score
3.
4. Box-Cox ✅
[36] 부스팅에 대한 설명으로 옳지 않은 것
1.
2.
3. XGBoost는 GBM을 개선한 방식이지만 GBM보다 속도가 늦다 ✅
4. LightGBM은 기존 트리 방식과 다르게 leaf중심으로 분기한다
[37] 10번 중 7번 이상 성공할 확률에 대해 귀무가설(H0)이 다음과 같을 때, 제2종 오류를 범할 확률을 구하시오
H0 = 1/2, H1 = 2/3
1. i가 7부터 10이고 (2/3)^i x (1/3)^10-i
2. i가 0부터 6이고 (2/3)^i x (1/3)^10-i ✅
3. i가 7부터 10이고 (1/2)^i
4. i가 0부터 6이고 (1/2)^i
[38] 회귀분석의 분산분석(Anova)표에 계산된 값이 채워져서 주어짐. 틀린 값을 고르시오
ㄱ(회귀자유도), ㄴ(오차제곱합), ㄷ(F통계량), ㄹ(제곱합 총계)
ㄱ(회귀제곱합), ㄴ(오차자유도) 였을 수도 있음 기억 안 남
1.
2.
3. F통계량 ✅
4.
[39] 매출과 수입을 나타내기에 적합한 시각화 도구를 각각 고르시오
정답: 매출-카토, 수입-버블
[40] 지도학습 모델 선정 고려요소로 적합하지 않은 것
1.
2. 변수의 중요도
3.
4. 자기상관성 ✅
[41] OECD 국가 중 유럽과 그 외 국가의 어느 값(GDP?)에 대한 박스플롯이다. 옳지 않은 것을 고르시오
1.
2.
3.
4. 신뢰구간 95% ✅
[42] 샘플링에 사용되지 않는 기법
1. Metropolis-Hastings Algorithm
2. Perfect Sampling
3. EM 알고리즘 ✅
4. Rejection Sampling
[43] 기초통계량과 그래프로 확인할 수 없는 것을 고르시오
1. 결측치
2. 이상치
3. 통계적 유의성 ✅
4. 데이터 분포
[44] 암 발생률과 소득의 상관관계를 다른 변수들 제외하고 분석하고 싶을 때 사용하는 기법
1. 군집분석
2. 편상관 ✅
3. F분포
4. 카이제곱
[45] 표준화에 대한 설명을 고르시오
1. 두개의 샘플을 하나로 통합
2. 노이즈 제거해서 미끄럽게
3.
4. 표준화된 값은 단위가 없다 ✅
[46] k-폴드 교차검증에 대한 설명 중 옳지 않은 것
1. k-1개 데이터셋은 학습용, 1개 데이터셋은 검정용으로 사용
2. 데이터셋은 행으로만 나눈다 ✅
3. 데이터셋 k번 반복
4. 데이터셋 각각 한 번씩만 검정용으로 사용
[47] 차원축소를 통해 할 수 없는 것을 고르시오
1. 특징 추출
2. 설명력 증가
3. 노이즈 제거
4. 데이터 정제 ✅
[48] 인포그래픽 잘 연결된 것 고르시오
(가) 지역별 코로나 발생률
(나) 월별 코로나 발생률
정답: (가) 지도 인포그래픽 - (나) 타임라인 인포그래픽
[49] 무엇에 대한 설명인지 고르시오
수집한 데이터를 처리 분석 어쩌구
정답: 빅데이터 플랫폼
[50] 데이터가 얼마나 편중되어있는지 확인할 수 있는 척도를 고르시오
정답: 왜도
[51] 데이터 웨어하우스의 특징으로 옳지 않은 것
1. 휘발성 ✅
2.
3.
4.
[52] 데이터 불균형에 대한 설명으로 옳지 않은 것
1. 데이터 불균형이 있을 경우 모델의 학습이 불가능하다
2.
3.
4. 소수 클래스는 언더샘플링을 통해 해결한다
[53] 정성적 데이터와 정량적 데이터에 대한 설명으로 옳지 않은 것
1. 정성적 데이터는 질적 데이터다
2. 정량적 데이터는 양적 데이터다
3. 정성적 데이터 중 ~~ 데이터는 연속형 데이터로 변환 가능하다 ✅
4. 정량적 데이터 중 계수 데이터는 범주형 데이터로 변환 가능하다
[54] 표본의 수가 많을수록 정규분포에 가까워지는 것을 무엇이라고 하는가
정답: 중심극한정리
[55] 산점도? 주어지고 년도 주어지고 옳은 것 고르기
정답: 2000년대생 60만 넘음
[56] 내부데이터와 외부데이터에 대한 설명으로 옳지 않은 것
1.
2.
3.
4. 외부데이터는 ~~ 신경쓰지 않고 자유롭게 사용해도 된다 ✅
[57] 옳지 않은 것
1.
2.
3. 앙상블모델은 단일모델로 분석하는 것보다 항상 좋다 ✅
4.
[58] 선형회귀와 로지스틱회귀에 대한 설명으로 옳지 않은 것
1. 종속변수가 범주형인 경우 로지스틱 회귀 사용
2. 선형, 로지스틱 회귀 모두 잔차 정규성을 가정 ✅
3. 선형회귀 계수 LSE로 추정하면 불편추정량 ~~
4. 선형, 로지스틱 회귀 모두 MLE로 계수추정 가능
[59] Key-Value 옳지 않은 것
1.
2.
3. 모든 타입의 값을 수용 가능하다
4. 복잡한 쿼리의 수행이 가능하다 ✅
[60] 데이터 변환에 해당하지 않는 것
1. YYYY년 MM월 DD일 → YYYY/MM/DD
2. 10~30세는 청년, 40~60세는 중년 등으로 범주화
3. 1, 2, 3학년 값을 batch로 변환하여 데이터 분할
4. 키 수치를 평균 0, 표준편차 1로 표준화
[61] 파생변수에 대한 설명으로 옳지 않은 것
1. 시간에 따른 파생변수를 만들 수 있다
2. 특정 조건의 파생변수를 만들 수 있다
3. 독립변수와 종속변수의 교호작용~~
4.
[62] 데이터 시각화 순서
[63] 단봉분포이면서 오른쪽 꼬리가 긴 분포에 대해 최빈값, 중앙값, 평균값의 대소비교
정답: 최빈값 < 중앙값 < 평균값
[64] 개인정보법에 대한 설명으로 옳지 않은 것
1.
2. ~~~~ 위원회가 생겼다
3. 익명정보 생성할 때 당사자의 동의를 구해야 한다 ✅
4.
[65] 실제값이 참일때 예측값이 참일 확률을 칭하는 단어
정답: 재현율
[66] 가중치 제곱합을 최소화하는 제약을 주는 기법을 고르시오
1. 라쏘
2. 릿지 ✅
3.
4.
[67] 다중공선성에 대한 설명으로 옳은 것
정답: 독립변수들 간의 상관성을 나타내는 값으로, 이 값이 클수록 회귀모델에 악영향을 미친다
[68] 결정계수에 대한 설명으로 옳은 것
정답: 결정계수 값의 범위는 0~1
[69] 결측값 대체시 문제점
1.
2.
3.
4. 자가회귀로 결측치 대체하면 상관성이 낮아지고 분산이 커진다
[70] 유의미한 변수를 고르는 작업은 어느 과정에 진행되는가
선지: 데이터 분석, 모형화, ...
[71] 모델의 배치에 관한 설명으로 옳지 않은 것
1.
2. 배치 크기는 훈련속도에 영향을 주지만 성능에 영향이 없다 ✅
3. 배치 크기가 너무 크면 메모리 문제가 발생한다
4. 배치 크기가 작으면 노이즈가 생기며 모델의 학습에 악영향
[72] 옳지 않은 것
1. 보팅 - 투표로 결정
2.
3. 배깅 - 동일한 표본으로~~
4. 스태킹 - 동일한 표본으로 다양한 유형의 모델을 학습
[73] 교차검증에 대한 설명으로 옳지 않은 것
1.
2. 시계열 데이터는 시간순으로 나눠서 검증하지 않는다 ✅
3.
4.
[74] 옳지 않은 것
정답: n 갯수(표본 크기)와 상관없이 표본평균은 모집단의 평균과 같다
[75] 과적합 방지 방안으로 옳지 않은 것
1.
2. 매개변수를 늘린다 ✅
3.
4. 드롭아웃
[76] 분석 활용 계획에 대한 설명으로 옳지 않은 것
정답: 분석 활용 계획 수립은 가장 나중에 한다
[77] 옳지 않은 것
정답: 마스킹 수준이 높으면 데이터를 식별, 예측하기 쉬워진다
문제 생각보다 쉽지는 않네요.