카카오톡채널
search for




 

A Comparative Study of Predictive Factors for Passing the National Physical Therapy Examination using Logistic Regression Analysis and Decision Tree Analysis
Phys Ther Rehabil Sci 2022;11:285-95
Published online September 30, 2022
© 2022 Korean Academy of Physical Therapy Rehabilitation Science.

So Hyun Kima , and Sung Hyoun Chob*

aDepartment of Medical Sciences, The Graduate School, Nambu University, Gwangju, Republic of Korea
bDepartment of Physical Therapy, Nambu University, Gwangju, Republic of Korea
Correspondence to: Sung Hyoun Cho (ORCID https://orcid.org/0000-0002-5108-4342)
Department of Physical Therapy, Nambu University 23, Cheomdanjungang-ro, Gwangsan-gu, Gwangju,62271, Republic of Korea
Tel: +82-62-970-0232 Fax: +82-62-970-0492 E-mail: shcho@nambu.ac.kr
Received June 22, 2022; Revised July 3, 2022; Accepted July 14, 2022.
cc This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Abstract
Objective: The purpose of this study is to use logistic regression and decision tree analysis to identify the factors that affect the success or failurein the national physical therapy examination; and to build and compare predictive models.
Design: Secondary data analysis study
Methods: We analyzed 76,727 subjects from the physical therapy national examination data provided by the Korea Health Personnel Licensing Examination Institute. The target variable was pass or fail, and the input variables were gender, age, graduation status, and examination area. Frequency analysis, chi-square test, binary logistic regression, and decision tree analysis were performed on the data.
Results: In the logistic regression analysis, subjects in their 20s (Odds ratio, OR=1, reference), expected to graduate (OR=13.616, p<0.001) and from the examination area of Jeju-do (OR=3.135, p<0.001), had a high probability of passing. In the decision tree, the predictive factors for passing result had the greatest influence in the order of graduation status (x2=12366.843, p<0.001) and examination area (x2=312.446, p<0.001). Logistic regression analysis showed a specificity of 39.6% and sensitivity of 95.5%; while decision tree analysis showed a specificity of 45.8% and sensitivity of 94.7%. In classification accuracy, logistic regression and decision tree analysis showed 87.6% and 88.0% prediction, respectively.
Conclusions: Both logistic regression and decision tree analysis were adequate to explain the predictive model. Additionally, whether actual test takers passed the national physical therapy examination could be determined, by applying the constructed prediction model and prediction rate.
Keywords : Data mining, Decision tree, Logistic regression analysis, Machine learning, Physical therapy national examination
서론

현재 우리나라의 물리치료사 면허를 취득하기 위해서는 대학에서 3년 이상의 물리치료 교육과정을 이수한 졸업생이 한국보건의료인국가시험원에서 시행하는 물리치료사 국가면허시험인 물리치료 국가고시(Korean Physical Therapist Licensing Examination, KPTLE)를 통과해야 한다[1]. 한국보건의료인국가시험원의 통계에 따르면 물리치료 국가고시는 2008년부터 2021년까지 76.9∼90.6%의 합격률을 보이고 있다[1]. 이와 같은 국가고시는 개별 대학의 교육적 우월성 평가나 응시자 개인의 학업수준을 상대적으로 평가하는 시험이 아니며, 응시자의 해당 직종에 대하여 업무 수행에 필요한 기본적인 역량을 갖추었는지의 여부를 판단하는 절차이다.

이에 따라 물리치료사 양성이라는 책무 아래에 놓인 각 대학의 공통적 목표는 해당 학교 졸업생의 역량이 국가고시에서 요구하는 최소 기준 점수에 도달하는 것이기 때문에, 현실적으로 국가고시에 대한 중요성이 적지 않다. 그러나 국가고시의 결과는 각 대학의 교육과정이나 목표, 환경 등이 다양하고, 그에 따른 물리치료 교육과정을 마친 학생들의 지식이나 역량 수준뿐만 아니라, 개인적 특성인 성별, 연령, 졸업여부, 응시지역까지도 합격 여부에 편차가 있을 수 있다[2]. 따라서 개별대학과 응시자는 국가고시를 대비하는 과정에서 합격여부에 영향을 미치는 개인적 특성에 대한 요인을 파악하고 대응할 수 있어야 한다.

이러한 국가고시 관련연구는 학교 성적과 국가시험 성적 비교[3], 응시자의 특성 탐구[2] 및 국가시험 스트레스에 대한 분석[4-6] 등의 다양한 연구가 이루어졌다. 그러나 기존 선행연구에서는 비교적 소규모 데이터를 활용한 국가고시와의 지식 관련 요인들의 상관관계 혹은 국가고시에 영향을 미치는 요인을 살펴보는 연구가 주로 이루어져 있어, 국가고시의 개인적 특성 요인을 활용하여 합격여부를 예측하는 것에 제한이 있다. 이러한 측면에서 국가고시의 합격여부 예측을 위해 영향요인을 분류하고 예측을 동시에 시행할 수 있는 다양한 분석방법을 활용하는 것이 필요하다. 다양한 분석 방법은 각기 다른 결과를 나타낼 수 있기 때문이다. 즉, 대규모 데이터를 통해 응시자들의 개인적 특성을 바탕으로 국가고시 합격여부와 관련된 특성 파악 및 대용량 자료의 지식관리(Knowledge management)를 통해 새로운 지식을 얻을 수 있는 분석방법이 요구된다[7].

기계학습(Machine learning)은 데이터 마이닝(Data mining)을 활용하여 컴퓨터가 패턴 인식 등을 자동으로 추출해서 스스로 학습할 수 있도록 알고리즘과 기술을 개발하는 인공지능의 한 분야이다[8]. 여기서 데이터 마이닝(Data mining)이란, 방대한 양의 데이터에서 감춰진 지식, 새로운 규칙 등의 유용한 정보를 패턴 인식, 인공지능 기법 등을 통해 데이터 간의 상호 관련성 및 유용한 정보를 추출하는 기법이다[8]. 기계학습에서 사용되는 알고리즘 중 하나인 로지스틱 회귀분석과 의사결정 나무는 대규모의 데이터 집합에서 분류(Classification)와 예측(Prediction)을 수행한다[7, 9].

로지스틱 회귀분석은 두 그룹 이상으로 나누어진 경우, 각 관측 값이 어느 그룹으로 분류되는 지를 예측하는 모델을 모형화하여 나타내는 분석방법이다[9]. 또한 관련 요인을 탐색하고 새로운 사례에 대한 응답 확률을 예측하여 기존 문제를 분석하는데 일반적으로 사용된다[10]. 반면, 의사결정나무는 종속변수를 가장 잘 설명할 수 있는 독립변수로 가지가 뻗어나가며, 나무구조로 도표화된다[11]. 이에 따라 대상이 되는 집단을 소규모로 분류하고 예측하기 때문에 분석과정의 이해와 해석이 쉽고 용이하다[12]. 두 분석 방법의 공통점은 대규모 데이터의 제한점인 정규성(Normality), 등분산성(Equal variance) 가정이 필요 없는 장점을 가지고 있다[13-15]. 이러한 장점을 바탕으로 범죄발생 지역예측[11], 우울 예측 및 특성 분석[16], 응급의료서비스 현황분석[17] 등 다양한 분야에서 로지스틱 회귀분석과 의사결정나무 분석이 활용되고 있다.

그러나 물리치료 분야에서는 로지스틱 회귀분석과 의사결정나무 분석 방법에 대한 활용이 미비하다. 더욱이 물리치료 국가고시라는 대규모 데이터에서 합격여부를 판단하는 영향요인에 대한 분석이 시도된 적이 없었다. 이에 본 연구는 기계학습 기법 중 로지스틱 회귀분석과 의사결정나무 분석을 활용하여 물리치료 국가고시의 합격여부에 미치는 영향요인을 파악하고 예측하는 모형을 구축하고자 하였다.

연구 방법

연구 대상

본 연구는 한국 보건 의료인 국가시험원에서 제공하는 “한국 보건 의료인 국가시험원_응시자 현황_물리치료사”의 원시자료[18]를 토대로 국가고시 합격여부에 영향을 주는 요인을 파악하기 위한 2차 자료분석(Secondary data analysis) 연구이다. 데이터에 포함된 정보는 연도, 직종, 회차, 성별, 연령대, 응시지역, 졸업여부, 합격여부로 개인을 식별할 수 없는 데이터로 제공 되었으며, 모든 데이터는 범주형으로 이루어져있다(Table 1). 원시자료는 2000년부터 2020년까지의 21년 통합 연간데이터로서, 물리치료사 국가시험 응시자 78,267명이 포함되었다. 그러나 결시자와 응시 결격자, 졸업여부에 결측치가 있는 해당 응시자는 제외되었다. 따라서 본 연구는 최종 76,727명의 물리치료 국가시험 응시자를 대상자로 선정하였다.

데이터 가공

물리치료 국가고시 합격 여부와 관련하여 다음과 같이 정형화 데이터로 코드화하여 사용하였다. 시험 결과에서 불합격은 0, 합격은 1로 코드화하였다. 성별은 남자는 0, 여자는 1로 코드화하였다. 연령은 50대부터 70대까지를 통합하여 50대 이상으로 범주화하였다. 20대는 1, 30대는 2, 40대는 3, 50대 이상은 4로 코드화하였다. 졸업 여부는 졸업 0, 졸업예정 1로 코드화하였다. 응시지역은 강릉과 춘천을 통합하여 강원도로 범주화하였다. 강원도는 1, 광주광역시는 2, 대구광역시는 3, 대전광역시는 4, 부산광역시는 5, 서울특별시는 6, 전주시는 7, 제주특별자치도는 8로 코드화하였다(Table 1).

자료 분석

자료분석은 IBM SPSS 소프트웨어(version 26.0, IBM Corp., USA) 프로그램을 이용하여 연구대상자의 일반적 특성을 빈도분석하였으며, 일반적 특성에 따른 물리치료 국가고시 합격 여부의 차이를 알아보기 위해 성별, 연령, 졸업여부, 지역에 대하여 교차분석을 통한 카이제곱(Chi-squared) 검정으로 식별하였다. 또한, 물리치료 국가고시 합격여부의 예측요인 확인을 위하여 이분형로지스틱 회귀분석(Binary logistic Regression)과 의사결정나무(Decision tree) 분석을 실시하였다.

의사결정나무에서 노드의 분리기준 선정을 위해 4가지 알고리즘을 3번 분석하여 평균 값을 비교해본 결과, 훈련표본과 검정표본의 정확도의 차이가 크지 않으면서 훈련표본의 정분류율이 높게 나타난 CHAID(Chi-squared automatic interaction detection) 알고리즘을 선정하였다. CHAID는 목표변수가 질적변수나 양적변수이며, 예측변수는 질적변수인 경우에 사용된다. 이때, 분리기준이 질적변수이면 카이제곱 통계량이 이용된다. 카이제곱 통계량이 크고, 유의확률이 유의수준 0.05보다 작은 경우 부모마디는 자식마디를 형성하게 된다[19]. 본 연구는 부모마디(Parent node)의 최소 케이스 수는 100, 자식마디(Child node)의 최소 케이스는 50으로 지정하였고, 나무 깊이는 3수준으로 설정하였다. 또한 선행연구에서 적용하는 비율을 고려하여 훈련표본(Training data)과 검정표본(Testing data)을 80:20으로 설정하였다[20,21]. 유의수준은 양측검정에서 0.05로 설정하였다.

연구 결과

연구대상자의 일반적 특성

본 연구의 물리치료 국가고시 합격, 불합격 대상자의 일반적 특성은 Table 2와 같다. 대상자는 76,727명이었다. 성별은 남성 35.9%, 여성 64.1% 이며, 연령은 20대 92.6%, 30대 6.3%, 40대 0.9%, 50대 이상 0.2%였다. 졸업 여부는 졸업이 11.2%, 졸업 예정이 88.8%였고, 지역에서는 강원도 1.8%, 광주광역시 17.0%, 대구광역시 19.0%, 대전광역시 9.0%, 부산광역시 14.7%, 서울특별시 32.1%, 전주시 5.8%, 제주특별자치도 0.6%였다. 또한, 성별, 연령, 졸업 여부, 지역에 따라 통계적으로 모두 유의미한 차이가 있는 것으로 나타났다(p<0.05).

물리치료 국가고시 합격여부 관련 로지스틱 회귀분석

본 연구대상자의 물리치료 국가고시 합격 예측요인에 대한 로지스틱 회귀분석 결과는 다음 Table 3과 같다. 합격여부에 따라 유의한 차이를 보인 성별, 연령, 졸업여부, 지역 변수를 로지스틱 회귀분석에 포함시켰다. 회귀계수의 유의성 검증 결과, 연령, 졸업 여부 및 강원도와 비교한 지역변수에서 광주를 제외하고 모두 유의한 것으로 나타났다(p<0.05).

연령에서 국가고시 합격은 20대인 대상자에 비해 30대(B=-0.570, p<0.001)는 약 0.566배, 40대(B=-0.945, p<0.001)는 약 0.389배, 50대 이상(B=-1.095, p<0.001)은 약 0.335배 낮은 것으로 나타났다. 졸업 여부에서는 졸업한 자에 비해 졸업예정자(B=2.611, p<0.001)가 국가고시 합격이 약 13.616배 높은 것으로 나타났다. 응시지역에서는 국가고시 합격이 강원도에 비해 대구광역시(B=0.349, p<0.001)는 약 1.418배, 대전광역시(B=0.631, p<0.001)는 약 1.880배, 부산광역시(B=0.584, p<0.001)는 약 1.793배, 서울특별시(B=0.384, p<0.001)는 약 1.468배, 전주시(B=0.184, p=0.042)는 약 1.202배, 제주특별자치도(B=1.143, p<0.001)는 약 3.135배 높은 것으로 나타났다.

또한, 로지스틱 회귀분석의 특이도는 39.6%, 민감도는 95.5%, 분류 정확도가 87.6%로 예측 모형의 정확도가 높은 것으로 나타났다.

물리치료 국가고시 합격여부 관련 의사결정나무 분석

본 연구대상자의 물리치료 국가고시 합격 예측요인에 대한 의사결정나무의 결과인 훈련표본(Training data), 검정표본(Testing data)은 다음과 같다(Figure 1, 2). 나무구조의 최상위의 뿌리 마디인 물리치료 국가고시 합격여부는 합격 86.1%, 불합격 13.9%로 나타났다. 뿌리마디 하단의 가장 상위에 위치하는 요인이 국가고시 합격여부에 가장 영향력이 큰 요인이며, 졸업여부(x2=12366.843, p<0.001)가 영향력이 가장 큰 것으로 나타났다. 졸업 예정인 경우, 합격이 이전의 86.1%에서 91.6%로 증가된 반면, 졸업을 한 경우, 41.6%로 감소하였다. 졸업 예정인 경우, 응시지역(x2=312.446, p<0.001)이 서울특별시와 대구광역시(91.7%), 부산광역시와 대전광역시(94.5%)인 경우, 합격이 이전 91.6%보다 증가하였으며, 광주광역시와 강원도(87.9%), 전주시(89.5%)는 감소하였다. 제주특별자치도인 경우, 합격이 이전 91.6%에서 97.3%로 응시지역 중 가장 크게 증가되었다. 그 다음 연령의 차이에 따른 합격여부에서 서울특별시와 대구광역시(x2=30.184, p<0.001), 부산광역시와 대전광역시(x2=35.400, p<0.001)에서는 타 연령 보다 20대가 각각 92.0%, 94.6%로 이전 합격에 비해 더 증가한 것으로 나타났으며, 반면에 광주광역시와 강원도(x2=7.657, p=0.040)는 이전 합격 87.9%에 비해 30대(85.6%)보다 타 연령(88.1%)에서 합격이 증가하는 것으로 나타났다(Figure 2).

졸업인 경우, 연령(x2=200.683, p<0.001)이 20대일수록 이전 합격 41.6%보다 45.3%로 증가하였으며, 30대는 31.0%, 40대와 50대 이상은 17.6%로 감소하였다. 20대이면서 성별(x2=9.329, p=0.002)이 여자(44.5%)보다 남자(47.0%)인 경우가 이전 합격(45.3%)에 비해 증가하였다. 반면에 30대는 성별(x2=7.187, p=0.007)이 남자(29.6%)보다 여자(33.3%)인 경우 이전 합격(31.0%)에 비해 더 증가하는 것으로 나타났다(Figure 2).

물리치료 국가고시 합격여부 관련 의사결정나무 분석의 이익도표

Table 3의 물리치료 국가고시 합격여부 예측 모형에대한 이익도표와 같이 합격에 가장 영향력이 높은 경우는 졸업예정이면서, 응시지역이 제주특별 자치도인 경우로 나타났다. 즉, 10번 노드의 지수(Index)가 113.0%로 뿌리마디와 비교했을 때 10번 노드의 조건을 가진 대상자가 합격할 확률이 약 1.13배로 나타났다(Table 4). 반면에 불합격에 가장 영향력이 높은 경우는 졸업이면서, 연령이 40대, 50대 이상인 경우로 나타났다. 즉, 5번 노드의 지수가 594.0%로 뿌리마디와 비교했을 때 5번 노드의 조건을 가진 대상자가 불합격할 확률이 약 5.94배로 나타났다(Table 5).

물리치료 국가고시 합격여부 관련 의사결정나무 분석의 타당도와 정확도

본 연구에서 데이터 분할에 의한 타당성 평가를 위해 훈련표본과 검정표본을 비교한 결과 훈련표본의 위험추정값은 0.123(표준오차 0.001), 검정표본의 위험추정값 0.120(표준오차 0.003)이다(Table 6). 따라서 본 물리치료 국가고시 합격여부에 대한 예측 모형의 일반화에 무리가 없는 것으로 나타났다. 또한 의사결정나무 분석의 특이도 45.8%, 민감도 94.7%, 분류 정확도는 훈련표본에서 87.7%, 검정표본에서 88.0%로 나타나 정확도가 높은 것을 알 수 있다(Table 7).

고찰

물리치료 국가고시는 실제 물리치료 교육 과정에서 면허를 취득하기 위한 시험이다. 시험의 합격여부가 해당 대학과 응시자에게 중요한 목표 중 하나이기 때문에, 응시자의 개인적 특성에 대해 인지하고 실제적 합격여부를 파악 및 예측하는 것이 필요하다. 따라서 본 연구는 물리치료 국가고시 합격여부에 대한 영향요인을 파악하고 예측하는 서술적 조사로서, 로지스틱 회귀분석과 의사결정나무 분석으로 합격여부 영향요인의 분류 및 예측 모형을 제공하고자 하였다. 더 나아가 물리치료 분야에서 대규모 데이터를 활용한 로지스틱 회귀분석과 의사결정나무 분석에 대한 연구가 전무하기 때문에, 향후 물리치료 임상 연구에 기초자료를 제공하기 위해 시도되었다. 본 연구 결과에 대한 의의를 다음과 같이 제시하고자 한다.

첫째, 물리치료 국가고시 합격여부에 영향을 미치는 공통된 요인은 연령, 졸업여부, 응시지역이었다. 로지스틱 회귀분석에서는 연령이 30대(B=-0.570, p<0.001), 40대(B=-0.570, p<0.001), 50대 이상(B=-1.095, p<0.001)보다 20대의 대상자가 합격 확률이 높았다. 졸업예정자(B=2.611, p<0.001)가 졸업한 대상자보다 합격 확률이 높았다. 응시지역은 광주광역시를 제외하고, 모든 응시지역이 강원도에 비해 합격 확률이 높았다. 특히, 응시지역 중 제주특별자치도가 가장 합격할 확률이 높았다.

의사결정나무의 분석 결과, 분류 전 합격이 86.1%이었던 것이 졸업 예정인 경우, 91.6%로 증가하고, 응시지역에서 제주특별자치도인 경우 97.3%로 가장 높게 증가하였다. 연령 또한 대부분의 응시지역에서 20대가 타연령보다 합격할 확률이 더 높은 것으로 나타났다. 본 결과는 물리치료 국가고시 합격여부를 예측하는데 유의한 영향요인을 파악함으로써 실제 응시자가 해당되는 개인적 특성에 따라 합격 또는 불합격을 예측하는 데 매우 큰 도움이 될 수 있다는 근거를 제시할 수 있을 것이라고 생각된다.

둘째, 본 연구의 결과 성별에 따른 국가고시 합격여부에서는 회귀계수에서 유의한 결과를 보이지 않았다. 또한 의사결정나무에서도 졸업자가 연령에 따라 각 성별에 대한 합격 확률도 일치하지 않은 것을 확인할 수 있었다. 물리치료 국가고시 합격 여부에 대한 사례는 아니지만, 성별에 대한 차이가 학교성적이 국가고시의 성적에 유의한 영향을 미치지 않는다는 연구[22]와 반면에 성별이 국가고시의 성적에 유의한 영향을 미치는 연구[3]가 있으므로 성별에 따른 국가고시 합격은 일반화하기 어려운 경향으로 여겨진다.

그러나 물리치료 국가고시를 응시한 여성 응시자가 남성 응시자 수에 비해 2배 상회하고 있는 것에 비해, 합격 확률에 큰 차이가 없는 회귀계수와 의사결정나무의 결과는 이례적이라 할 수 있다. 따라서 성별의 구분은 국가고시 합격여부에 큰 영향을 미치지 못하므로, 성별에 관계없이 응시자의 물리치료 국가고시 합격을 위한 적극적인 지도와 관심이 필요할 것으로 생각된다.

셋째, 로지스틱 회귀분석 결과, 연령에서 나이가 증가할수록 합격할 확률이 점차 낮아지는 경향을 보였다. 의사결정나무 분석 역시 동일하게 대부분 20대에 비해 타연령이 졸업자 또는 응시지역 별로 합격할 확률이 낮은것을 확인할 수 있었다. 물리치료 국가고시 연구는 아니지만, 의사면허 국가고시 성적 연구에서는 20대가 30대보다 높은 점수를 받았으며, 30대는 40대보다 11점 더 높은 점수를 받아 본 연구의 결과와 유사하였다[2]. 특히, 본 연구의 이익도표에서 국가고시에 불합격 할 확률이 졸업이면서, 연령이 40대부터 50대 이상인 경우 5.94배 증가한 것을 확인할 수 있었다. 따라서 연령이 증가할수록 인지와 기억에 대한 처리가 취약해지므로[23], 개별 대학은 응시자의 연령에 따른 다양한 학습접근 방식 또는 보다 효과적인 학습 강도와 반복에 대한 재고가 필요하며, 이에 대한 연구가 추후 필요할 것으로 보인다.

넷째, 로지스틱 회귀분석에서 졸업예정자가 졸업한 자보다 합격할 확률이 13.616배 높은 것으로 나타났으며, 의사결정나무 분석에서도 졸업예정자가 합격할 확률은 91.6%인 반면에, 졸업한 자가 합격할 확률은 41.6%로 매우 큰 차이를 보였다. 국가고시 점수에서 졸업예정자가 졸업한 대상자보다 24점 더 높은 점수를 받은 선행연구의 결과는 이를 뒷받침해주고 있다[2]. 이는 아마도 최소한의 해당 직무 역량을 판단하는 국가고시가 대부분 졸업 전에 이루어지며, 졸업한 대상자는 이미 이전 국가고시에서 불합격하였거나 다양한 이유로 결시 하여 이후에 재 응시했을 가능성이 높다고 판단되어진다.

국가고시는 교육과정에서 학습한 것을 바탕으로 응시하는 것으로, 타 보건계열 연구에서는 학교 성적 및 모의고사 성적과 국가고시 성적이 정적인 상관관계가 있다고 보고하고 있다[3]. 즉, 교육과정에서의 성적은 국가고시 성적에 영향을 미치기 때문에, 이를 전략적으로 대처하기 위해서는 응시자는 국가고시 응시 전에 학교 성적과 모의고사 성적향상을 위해 다양한 시도를 도모해야 할 것이다.

다섯째, 응시지역에서 로지스틱 회귀계수는 강원도에 비해 광주광역시에서 유의미한 차이를 보이지 않았고, 타 응시지역은 모두 유의미한 차이를 보였다. 의사결정 나무에서는 강원도, 광주광역시, 전주시에서 합격할 확률이 낮아지는 것을 확인할 수 있었다. 또한, 의사결정나무와 공통적으로 제주특별자치도에서 응시자가 합격할 확률이 높은 것으로 나타났다. 최근 14년간의 전체 평균 합격률이 85.57%로[1], 교차 분석에서 강원도 81.6%, 광주광역시 81.9%, 전주 83.4%의 합격률로 미루어 해당 결과가 어느 정도 뒷받침한다는 것을 알 수 있었다. 반면, 제주특별자치도는 93.8%로 가장 합격률이 높은 것을 확인할 수 있었으며, 로지스틱 회귀분석에서는 3.135배, 이익도표에서는 졸업예정자이면서 응시지역이 제주특별자치도인 경우 113.0%로 합격 확률이 높아지는 것으로 나타났다.

다만, 이러한 결과는 개별 대학의 차이보다는 수도권과 비 수도권과 같은 위치에 중점을 두는 결과로서[2], 응시지역 별 응시 인원의 차이가 크기 때문일 수 있다. 특히, 경기도와 충청도 지역은 응시지역에 포함되지 않았고 해당 지역의 응시자는 타 지역에서 응시가 진행된 것으로 판단되어지기 때문에, 응시지역에 대한 결과는 일반화하기 어렵다. 또한, 응시지역에 따른 분석은 이루어지지 않았기 때문에, 향후 연구에서 응시지역 별 응시자의 특성과 관련한 연구가 이루어져야 할 것으로 생각된다.

여섯째, 물리치료 국가고시 합격여부에 대한 예측력을 로지스틱 회귀분석과 의사결정나무 분석을 통해 비교 평가해보면, 합격 확률을 예측하는 민감도는 로지스틱 회귀분석이 95.5%이며, 의사결정나무 분석의 94.7% 보다 높게 나타났다. 특이도에서는 의사결정나무 분석이 45.8%로 로지스틱 회귀분석의 39.6% 보다 높게 나타났으며, 분류 정확도에서도 의사결정나무 분석이 88.0%로 로지스틱 회귀분석의 87.6%보다 높게 나타났다. 즉, 합격할 확률이 높다고 분류한 응시자를 합격할 것이라고 예측하는 민감도에서는 로지스틱 회귀분석이 더 높았지만, 특이도와 분류 정확도는 의사결정나무 분석이 더 높은 것을 확인할 수 있었다. 따라서 두 분석의 정확도에서 다소 큰 차이를 보이지 않았기 때문에 로지스틱 회귀분석과 의사결정나무 분석 모두 물리치료 국가고시 합격여부 예측모형을 구축하는데 유용한 자료로 사용될 것으로 생각된다.

또한, 선행 연구에서는 본 연구와 같이 대용량 데이터를 활용한 기계학습 알고리즘의 비교 및 분석 연구가 다양하게 시도되고 있다. 대도시 주민 범죄발생 위험 지역을 예측한 연구는 의사결정 나무 분석과 랜덤 포레스트, Support Vector Machine(SVM) 예측 모형을 구축하고 제곱근 오차를 비교 분석하였을 때, 의사결정나무 분석이 최적의 모형으로 선정되었다[11]. 또한, 대도시 주민의 우울감에 대한 영향 요인을 예측하기 위한 연구에서는 의사결정나무와 로지스틱 회귀분석의 예측모형을 비교하여, 로지스틱 회귀분석이 민감도와 분류정확도에서 더 우수한 것을 확인하였다[16]. 타 연구에서는 초등학생의 스마트폰 중독 관련 기계학습 알고리즘 성능 분석을 위해 K-최근접 이웃, 로지스틱 회귀분석, SVM, 의사결정나무 분석, 랜덤 포레스트를 활용하여 랜덤 포레스트의 성능이 가장 우수한 것으로 나타났다[24].

이와 같이 다양한 분야에서 최적의 예측 모형을 제시하기 위해 기계학습을 기반으로 한 연구들이 활용되고 있으며, 각 연구마다 최적의 예측 모형에 대하여 다른 결과를 도출한 것을 알 수 있었다. 따라서 향후 연구에서는 본 연구의 로지스틱 회귀분석과 의사결정나무 분석뿐만 아니라, 다양한 기계학습 알고리즘을 도입한 연구가 추가적으로 필요할 것으로 판단된다. 아울러 타 분야에서 기계학습 알고리즘 연구가 활발히 이루어진 것과 같이, 물리치료 분야에서도 기존의 통계 분석뿐만 아니라, 기계학습 알고리즘을 기반으로 한 차별화 된 연구가 이루어져야 할 것으로 생각된다.

그러나 본 연구의 제한점은 다음과 같다. 첫째, 본 연구는 물리치료 국가고시의 응시자의 데이터가 각 성별, 연령, 졸업여부, 응시지역 별로 차이가 크기 때문에 일반화하기에 무리가 있다. 둘째, 물리치료 국가고시 합격여부의 응시자 특성에 대하여 기관에서 제공하는 자료를 활용함으로써 다양한 영향 요인을 폭 넓게 활용하지 못하였다. 셋째, 각 변수와 관련하여 기존의 통계 기법인 상관관계와 같은 분석은 이루어 지지 못하였기 때문에 추후 연구에서 살펴볼 필요가 있다. 넷째, 타 보건계열 국가고시 선행연구에 비해, 물리치료 국가고시에 대해 참조할 선행연구가 미비하였다. 그러므로 향후 연구에서는 개인적 특성뿐만 아니라, 물리치료 국가고시 응시자의 지식과 역량에 관련된 학교 및 모의고사 성적 등에 대한 관계 연구나 비교 분석 등의 다양한 특성에 대한 연구가 시행되어야 할 것이다.

결론

본 연구는 국가적 차원의 시험에서 응시자의 합격여부에 대하여 개인적 특성에 따라 객관적인 자료로 파악할 수 있다는 점에서 의의가 있다. 특히, 물리치료 분야에서 로지스틱 회귀분석과 의사결정 나무를 활용하여 21년간의 대규모 국가 통합데이터를 바탕으로 정규성 검정과 등분산성을 가정할 수 없는 데이터를 분석한 최초의 연구이다.

본 연구에서는 연령, 졸업여부, 응시지역에 따라 응시자의 합격여부가 다름을 확인할 수 있었다. 이러한 결과를 토대로 실제 해당 응시자의 개인적 특성을 파악함에 따라 본 예측 모형을 기초로 응시자의 합격 확률을 예측하는 것이 가능하다. 이는 물리치료 국가고시 합격여부에 대한 중요한 정보를 제안한다. 또한, 로지스틱 회귀분석과 의사결정나무 분석 모두 예측 정확도가 높아 물리치료 국가고시 합격여부에 대한 예측모형으로써 활용될 수 있을 것이다.

이를 기반으로 향후 연구에서는 더욱 다양한 기계학습 알고리즘을 시도하여 예측 모형 구축 및 비교 분석하는 연구가 활발히 이루어지기를 기대한다. 더 나아가 본 연구는 물리치료 분야의 대규모 데이터를 활용한 연구의 기초자료로 제공될 수 있을 것이다.

감사의 글

이 성과는 정부(과학기술정보통신부)의 재원으로 한 국연구재단의 지원을 받아 수행된 연구임(No. 2022R1F1A1067604).

이해 충돌

본 연구의 저자들은 연구, 저작권 및 출판과 관련하여 잠재적인 이해충돌이 없음을 선언합니다.

Figures
Fig. 1. Testing data of decision tree analysis
Fig. 2. Testing data of decision tree analysis
Tables

Table 1

Composition of variables

Source Korea health personnel licensing examination institute
Data Korea health personnel licensing examination institute_ Status of test taker_ Physical therapist
Included variables Year, Occupation, Round of examination, Gender, Age, Graduation status, Examination area, Testing result
Variables Code
Testing result Fail=0, Pass=1
Gender Male=0, Female=1
Age Twenties=1, Thirties=2, Forties=3, More than fifties (Fifties∼Seventy)=4
Graduation status Graduate=0, prospective graduate=1
Examination area Gangwon (Gangneung, Chuncheon)=1, Gwangju=2, Daegu=3, Daejeon=4, Busan=5, Seoul=6, Jeonju=7, Jeju=8

Table 2

General characteristics of subjects (n=76,727)

Variable Categories Total N(%) Pass N(%) Fail N(%) x2(P value)
Testing result 76,727(100) 65,903(85.9) 10,824(14.1)
Gender Male 27,557(35.9) 23,382(84.8) 4,175(15.2) 38.625*** (P<0.001)
Female 49,170(64.1) 42,521(86.5) 6,649(13.5)
Age Twenties 71,033(92.6) 62,077(87.4) 8,956(12.6) 1873.704*** (P<0.001)
Thirties 4,810(6.3) 3,320(69.0) 1,490(31.0)
Forties 700(0.9) 416(59.4) 284(40.6)
≥Fifties 184(0.2) 90(48.9) 94(51.1)
Graduation status Graduate 8,562(11.2) 3,578(47.8) 4,984(58.2) 15470.785*** (P<0.001)
prospective graduate 68,165(88.8) 62,325(91.4) 5,840(8.6)
Examination area Gangwon 1,397(1.8) 1,140(81.6) 257(18.4) 417.228*** (P<0.001)
Gwangju 13,028(17.0) 10,670(81.9) 2,358(18.1)
Daegu 14,550(19.0) 12,695(87.3) 1,855(12.7)
Daejeon 6,903(9.0) 6,179(89.5) 724(10.5)
Busan 11,314(14.7) 10,044(88.8) 1,270(11.2)
Seoul 24,609(32.1) 21,019(85.4) 3,590(14.6)
Jeonju 4,476(5.8) 3,734(83.4) 742(16.6)
Jeju 450(0.6) 422(93.8) 28(6.2)

***p<0.001


Table 3

Logistic regression analysis results (n=76,727)

Variable Categories B S.E Odds Ratio P-value 95% C.I
Lower Upper
Sex Male 1 Ref.
Female 0.016 0.025 1.016 0.528 0.968 1.066
Age Twenties 1 Ref.
Thirties -0.570 0.040 0.566 <0.001*** 0.522 0.612
Forties -0.945 0.094 0.389 <0.001*** 0.323 0.467
≥Fifties -1.095 0.179 0.335 <0.001*** 0.236 0.475
Graduation status Graduate 1 Ref.
Prospective graduate 2.611 0.026 13.616 <0.001*** 12.927 14.342
Area Gangwon 1 Ref.
Gwangju 0.007 0.082 1.007 0.936 0.857 1.183
Daegu 0.349 0.083 1.418 <0.001*** 1.206 1.667
Daejeon 0.631 0.089 1.880 <0.001*** 1.578 2.240
Busan 0.584 0.085 1.793 <0.001*** 1.519 2.118
Seoul 0.384 0.081 1.468 <0.001*** 1.253 1.720
Jeonju 0.184 0.090 1.202 0.042* 1.007 1.435
Jeju 1.143 0.225 3.135 <0.001*** 2.017 4.871
Constant -0.543 0.082 0.581 <0.001***
-2 Log likelihood 50874.236
Cox & Snell R2 0.140
Nagelkerke R2 0.251
Chi-square 11566.807
Specificity (%) 39.6
Sensitivity (%) 95.5
Classification accuracy (%) 87.6

*p<0.05, ***p<0.001


Table 4

Profit index of decision tree analysis related to pass

Category Node Profit index Cumulative index
Node Gain Response Index Node Gain Response Index
N Percent N Percent N Percent N Percent
Training data 10 349 0.6% 339 0.6% 97.1% 113.2% 349 0.6% 339 0.6% 97.1% 113.2%
17 12,468 20.3% 11,729 22.2% 94.1% 109.6% 12,817 20.9% 12,068 22.9% 94.2% 109.7%
15 26,343 42.9% 24,236 46.0% 92.0% 107.2% 39,160 63.8% 36,304 68.9% 92.7% 108.0%
9 3,122 5.1% 2,793 5.3% 89.5% 104.2% 42,282 68.8% 39,097 74.2% 92.5% 107.7%
18 716 1.2% 634 1.2% 88.5% 103.2% 42,998 70.0% 39,731 75.4% 92.4% 107.7%
16 1,411 2.3% 1,240 2.4% 87.9% 102.4% 44,409 72.3% 40,971 77.7% 92.3% 107.5%
19 9,588 15.6% 8,422 16.0% 87.8% 102.3% 53,997 87.9% 49,393 93.7% 91.5% 106.6%
20 523 0.9% 438 0.8% 83.7% 97.6% 54,520 88.8% 49,831 94.5% 91.4% 106.5%
11 3,722 6.1% 1,772 3.4% 47.6% 55.5% 58,242 94.8% 51,603 97.9% 88.6% 103.2%
12 1,645 2.7% 709 1.3% 43.1% 50.2% 59,887 97.5% 52,312 99.2% 87.4% 101.8%
14 816 1.3% 250 0.5% 30.6% 35.7% 60,703 98.8% 52,562 99.7% 86.6% 100.9%
13 419 0.7% 98 0.2% 23.4% 27.2% 61,122 99.5% 52,660 99.9% 86.2% 100.4%
5 292 0.5% 55 0.1% 18.8% 21.9% 61,414 100.0% 52,715 100.0% 85.8% 100.0%
Testing data 10 75 0.5% 73 0.6% 97.3% 113.0% 75 0.5% 73 0.6% 97.3% 113.0%
17 3,142 20.5% 2,973 22.5% 94.6% 109.9% 3,217 21.0% 3,046 23.1% 94.7% 109.9%
15 6,523 42.6% 6,000 45.5% 92.0% 106.8% 9,740 63.6% 9,046 68.6% 92.9% 107.8%
9 784 5.1% 702 5.3% 89.5% 104.0% 10,524 68.7% 9,748 73.9% 92.6% 107.6%
18 187 1.2% 172 1.3% 92.0% 106.8% 10,711 69.9% 9,920 75.2% 92.6% 107.5%
16 375 2.4% 324 2.5% 86.4% 100.3% 11,086 72.4% 10,244 77.7% 92.4% 107.3%
19 2,413 15.8% 2,125 16.1% 88.1% 102.3% 13,499 88.2% 12,369 93.8% 91.6% 106.4%
20 146 1.0% 125 0.9% 85.6% 99.4% 13,645 89.1% 12,494 94.7% 91.6% 106.3%
11 908 5.9% 404 3.1% 44.5% 51.7% 14,553 95.0% 12,898 97.8% 88.6% 102.9%
12 402 2.6% 189 1.4% 47.0% 54.6% 14,955 97.7% 13,087 99.2% 87.5% 101.6%
14 179 1.2% 53 0.4% 29.6% 34.4% 15,134 98.8% 13,140 99.6% 86.8% 100.8%
13 105 0.7% 35 0.3% 33.3% 38.7% 15,239 99.5% 13,175 99.9% 86.5% 100.4%
5 74 0.5% 13 0.1% 17.6% 20.4% 15,313 100.0% 13,188 100.0% 86.1% 100.0%

Table 5

Profit index of decision tree analysis related to fail

Category Node Profit index Cumulative index
Node Gain Response Index Node Gain Response Index
N Percent N Percent N Percent N Percent
Training data 5 292 0.5% 237 2.7% 81.2% 573.0% 292 0.5% 237 2.7% 81.2% 573.0%
13 419 0.7% 321 3.7% 76.6% 540.9% 711 1.2% 558 6.4% 78.5% 554.1%
14 816 1.3% 566 6.5% 69.4% 489.7% 1,527 2.5% 1,124 12.9% 73.6% 519.7%
12 1,645 2.7% 936 10.8% 56.9% 401.7% 3,172 5.2% 2,060 23.7% 64.9% 458.5%
11 3,722 6.1% 1,950 22.4% 52.4% 369.9% 6,894 11.2% 4,010 46.1% 58.2% 410.6%
20 523 0.9% 85 1.0% 16.3% 114.7% 7,417 12.1% 4,095 47.1% 55.2% 389.8%
19 9,588 15.6% 1,166 13.4% 12.2% 85.9% 17,005 27.7% 5,261 60.5% 30.9% 218.4%
16 1,411 2.3% 171 2.0% 12.1% 85.6% 18,416 30.0% 5,432 62.4% 29.5% 208.2%
18 716 1.2% 82 0.9% 11.5% 80.9% 19,132 31.2% 5,514 63.4% 28.8% 203.5%
9 3,122 5.1% 329 3.8% 10.5% 74.4% 22,254 36.2% 5,843 67.2% 26.3% 185.4%
15 26,343 42.9% 2,107 24.2% 8.0% 56.5% 48,597 79.1% 7,950 91.4% 16.4% 115.5%
17 12,468 20.3% 739 8.5% 5.9% 41.8% 61,065 99.4% 8,689 99.9% 14.2% 100.5%
10 349 0.6% 10 0.1% 2.9% 20.2% 61,414 100.0% 8,699 100.0% 14.2% 100.0%
Testing data 5 74 0.5% 61 2.9% 82.4% 594.0% 74 0.5% 61 2.9% 82.4% 594.0%
13 105 0.7% 70 3.3% 66.7% 480.4% 179 1.2% 131 6.2% 73.2% 527.4%
14 179 1.2% 126 5.9% 70.4% 507.2% 358 2.3% 257 12.1% 71.8% 517.3%
12 402 2.6% 213 10.0% 53.0% 381.8% 760 5.0% 470 22.1% 61.8% 445.6%
11 908 5.9% 504 23.7% 55.5% 400.0% 1,668 10.9% 974 45.8% 58.4% 420.8%
20 146 1.0% 21 1.0% 14.4% 103.6% 1,814 11.8% 995 46.8% 54.9% 395.3%
19 2,413 15.8% 288 13.6% 11.9% 86.0% 4,227 27.6% 1,283 60.4% 30.4% 218.7%
16 375 2.4% 51 2.4% 13.6% 98.0% 4,602 30.1% 1,334 62.8% 29.0% 208.9%
18 187 1.2% 15 0.7% 8.0% 57.8% 4,789 31.3% 1,349 63.5% 28.2% 203.0%
9 784 5.1% 82 3.9% 10.5% 75.4% 5,573 36.4% 1,431 67.3% 25.7% 185.0%
15 6,523 42.6% 523 24.6% 8.0% 57.8% 12,096 79.0% 1,954 92.0% 16.2% 116.4%
17 3,142 20.5% 169 8.0% 5.4% 38.8% 15,238 99.5% 2,123 99.9% 13.9% 100.4%
10 75 0.5% 2 0.1% 2.7% 19.2% 15,313 100.0% 2,125 100.0% 13.9% 100.0%

Table 6

Validation of decision tree analysis

Sample Estimate Standard error
Training data 0.123 0.001
Testing data 0.120 0.003

Table 7

Correct classification of decision tree analysis

Category Observed Predicted
Pass Fail Percent Correct
Training data Fail 4,010 4,689 46.1%
Pass 2,884 49,831 94.5%
Overall Percentage 11.2% 88.8% 87.7%
Testing data Fail 974 1,151 45.8%
Pass 694 12,494 94.7%
Overall Percentage 10.9% 89.1% 88.0%

References
  1. Korea Health Personnel Licensing Examination Institute. National exam pass rate by year [Internet]. Seoul: Korea Health Personnel Licensing Examination Institute; 2022 [cited 2022 Jun 19].
    Available from: https://www.kuksiwon.or.kr/peryearPass/list.do?seq=13&srchWord=11
  2. Yim MK. Exploration of examinees’ traits that affect the score of Korean Medical Licensing Examination. J Educ Eval Health. 2015;12(1):5.
    Pubmed KoreaMed CrossRef
  3. Mun SJ, Noh HJ, Jeon HS, Heo JE, Chung WG. A Six-Year Study of Relationship between Academic Performance in Dental Hygiene School and Performance on the Korean Dental Hygiene Licensing Examination at Yonsei University. J Dent Hyg Sci. 2014;14(3):332-41.
    CrossRef
  4. Hong SY. Relation amang Stress, Ego-Resilience, Self-Efficacy, Clinical performance in graduate medical student. JKAIS. 2011;12(12):5797-804.
    CrossRef
  5. Bang YS, Kim HY. Relationships between Stress Coping Style and Learning Motivation on Life of Health DepartmentUniversity Students Who Will Take National Examination. Journal of KOEN. 2014;8(1):73-80.
    CrossRef
  6. Lee MY, Kim ME. Relationship between National Exam Stress and Subjective Oral Symptom in Allied Health Students. Jour of KoCon a. 2020;20(5):351-8.
  7. Park MH, Choi SR, Shin AM, Koo CH. Analysis of the Characteristics of the Older Adults with Depression Using Data Mining Decision Tree Analysis. J Korean Acad Nurs. 2013;43(1):1-10.
    Pubmed CrossRef
  8. Song TM, Song JY. Cracking the Big Data Anaysis. 1st Editon. Seoul: Hannarae publishing co.; 2015.
  9. Kwon TW, Koo YH. Comparative Analysis of Prediction Taekwondo Traineés Defection using Decision Tree and Logistic Regression. KSSS. 2008;17(2):71-83.
  10. Cox DR, Snell EJ. Analysis of binary data. 2nd Edition. NY: Routledge; 2018.
  11. Heo SY, Kim JY, Moon TH. Predicting Crime Risky Area Using Machine Learning. Journal of the KAGIS. 2018;21(4):64-80.
  12. Song YS, Cho YC, Seo YS, Ahn SR. Development and its application of computer program for slope hazards prediction using decision tree model. Journal of The Korean Society of Civil Engineers. 2009;29(2C):59-69.
  13. Choi JH, Kang HC, Kim ES, Lee SK, Han ST, Kim MK. Prediction and excess of data mining using decision tree analysis. Seoul: SPSS Academy; 2002.
  14. Park CY, Choi HS. An educational tool for binary logistic regression model using Excel VBA. JKDIS. 2014;25(2):403-10.
    CrossRef
  15. Jin SB, Lee JW. Study on Accident Prediction Models in Urban Railway Casualty Accidents Using Logistic Regression Analysis Model. JKSR. 2017;20(4):482-90.
    CrossRef
  16. Kim SJ, Kim BY. Comparative Analysis of Predictors of Depression for Residents in a Metropolitan City using Logistic Regression and Decision Making Tree. Jour of KoCon a. 2013;13(12):829-39.
    CrossRef
  17. Lee JC, Kim KH, Kim HN, Park YH. Patient Satisfaction with Emergency Medical Services in Korea: What Matters Most?. JKSEM. 2008;22(4).
  18. Open Data. Korea health personnel licensing examination institute_ Status of test taker_ Physical therapist [Internet]. Sejong: Ministry of the interior and safety; 2022 [cited 2022 July 2].
    Available from: https://www.data.go.kr/data/15060462/fileData.do#/tab-layer-file
  19. Kim KS. Big data analysis and meta-analysis. 1st Editon. Seoul: Hannarae publishing co.; 2015.
  20. Ahn HC. Optimization of multiclass support vector machine using genetic algorithm: Application to the prediction of corporate credit rating. Information Systems Review. 2014;16(3):161-77.
    CrossRef
  21. Kim SJ, Ahn HC. Application of random forests to corporate credit rating prediction. Industrial Innovation Studies. 2016;32(1):187-211.
  22. Ahn SS, Seo YK, Baek SE, Bae SY, Seol JH, Lee HY, et al. The correlation of grade point average of medical school and the score of Korean Medical Licensing Examination. Korean J Med Educ. 2004;16(1):25-32.
    CrossRef
  23. Leal SL, Yassa MAJTin. Neurocognitive aging and the hippocampus across species. Trends Neurosci. 2015;38(12):800-12.
    Pubmed KoreaMed CrossRef
  24. Lee CH. Performance Analysis of Machine Learning Algorithms Using Data related to Smartphone Addiction of Elementary School Students. J of KPAE. 2020;33(4):103-119.
    CrossRef

 

Full Text(PDF) Free

Cited By Articles
  • CrossRef (0)

Funding Information
  • Authorship and ethical issues