현재 우리나라의 물리치료사 면허를 취득하기 위해서는 대학에서 3년 이상의 물리치료 교육과정을 이수한 졸업생이 한국보건의료인국가시험원에서 시행하는 물리치료사 국가면허시험인 물리치료 국가고시(Korean Physical Therapist Licensing Examination, KPTLE)를 통과해야 한다[1]. 한국보건의료인국가시험원의 통계에 따르면 물리치료 국가고시는 2008년부터 2021년까지 76.9∼90.6%의 합격률을 보이고 있다[1]. 이와 같은 국가고시는 개별 대학의 교육적 우월성 평가나 응시자 개인의 학업수준을 상대적으로 평가하는 시험이 아니며, 응시자의 해당 직종에 대하여 업무 수행에 필요한 기본적인 역량을 갖추었는지의 여부를 판단하는 절차이다.
이에 따라 물리치료사 양성이라는 책무 아래에 놓인 각 대학의 공통적 목표는 해당 학교 졸업생의 역량이 국가고시에서 요구하는 최소 기준 점수에 도달하는 것이기 때문에, 현실적으로 국가고시에 대한 중요성이 적지 않다. 그러나 국가고시의 결과는 각 대학의 교육과정이나 목표, 환경 등이 다양하고, 그에 따른 물리치료 교육과정을 마친 학생들의 지식이나 역량 수준뿐만 아니라, 개인적 특성인 성별, 연령, 졸업여부, 응시지역까지도 합격 여부에 편차가 있을 수 있다[2]. 따라서 개별대학과 응시자는 국가고시를 대비하는 과정에서 합격여부에 영향을 미치는 개인적 특성에 대한 요인을 파악하고 대응할 수 있어야 한다.
이러한 국가고시 관련연구는 학교 성적과 국가시험 성적 비교[3], 응시자의 특성 탐구[2] 및 국가시험 스트레스에 대한 분석[4-6] 등의 다양한 연구가 이루어졌다. 그러나 기존 선행연구에서는 비교적 소규모 데이터를 활용한 국가고시와의 지식 관련 요인들의 상관관계 혹은 국가고시에 영향을 미치는 요인을 살펴보는 연구가 주로 이루어져 있어, 국가고시의 개인적 특성 요인을 활용하여 합격여부를 예측하는 것에 제한이 있다. 이러한 측면에서 국가고시의 합격여부 예측을 위해 영향요인을 분류하고 예측을 동시에 시행할 수 있는 다양한 분석방법을 활용하는 것이 필요하다. 다양한 분석 방법은 각기 다른 결과를 나타낼 수 있기 때문이다. 즉, 대규모 데이터를 통해 응시자들의 개인적 특성을 바탕으로 국가고시 합격여부와 관련된 특성 파악 및 대용량 자료의 지식관리(Knowledge management)를 통해 새로운 지식을 얻을 수 있는 분석방법이 요구된다[7].
기계학습(Machine learning)은 데이터 마이닝(Data mining)을 활용하여 컴퓨터가 패턴 인식 등을 자동으로 추출해서 스스로 학습할 수 있도록 알고리즘과 기술을 개발하는 인공지능의 한 분야이다[8]. 여기서 데이터 마이닝(Data mining)이란, 방대한 양의 데이터에서 감춰진 지식, 새로운 규칙 등의 유용한 정보를 패턴 인식, 인공지능 기법 등을 통해 데이터 간의 상호 관련성 및 유용한 정보를 추출하는 기법이다[8]. 기계학습에서 사용되는 알고리즘 중 하나인 로지스틱 회귀분석과 의사결정 나무는 대규모의 데이터 집합에서 분류(Classification)와 예측(Prediction)을 수행한다[7, 9].
로지스틱 회귀분석은 두 그룹 이상으로 나누어진 경우, 각 관측 값이 어느 그룹으로 분류되는 지를 예측하는 모델을 모형화하여 나타내는 분석방법이다[9]. 또한 관련 요인을 탐색하고 새로운 사례에 대한 응답 확률을 예측하여 기존 문제를 분석하는데 일반적으로 사용된다[10]. 반면, 의사결정나무는 종속변수를 가장 잘 설명할 수 있는 독립변수로 가지가 뻗어나가며, 나무구조로 도표화된다[11]. 이에 따라 대상이 되는 집단을 소규모로 분류하고 예측하기 때문에 분석과정의 이해와 해석이 쉽고 용이하다[12]. 두 분석 방법의 공통점은 대규모 데이터의 제한점인 정규성(Normality), 등분산성(Equal variance) 가정이 필요 없는 장점을 가지고 있다[13-15]. 이러한 장점을 바탕으로 범죄발생 지역예측[11], 우울 예측 및 특성 분석[16], 응급의료서비스 현황분석[17] 등 다양한 분야에서 로지스틱 회귀분석과 의사결정나무 분석이 활용되고 있다.
그러나 물리치료 분야에서는 로지스틱 회귀분석과 의사결정나무 분석 방법에 대한 활용이 미비하다. 더욱이 물리치료 국가고시라는 대규모 데이터에서 합격여부를 판단하는 영향요인에 대한 분석이 시도된 적이 없었다. 이에 본 연구는 기계학습 기법 중 로지스틱 회귀분석과 의사결정나무 분석을 활용하여 물리치료 국가고시의 합격여부에 미치는 영향요인을 파악하고 예측하는 모형을 구축하고자 하였다.
본 연구는 한국 보건 의료인 국가시험원에서 제공하는 “한국 보건 의료인 국가시험원_응시자 현황_물리치료사”의 원시자료[18]를 토대로 국가고시 합격여부에 영향을 주는 요인을 파악하기 위한 2차 자료분석(Secondary data analysis) 연구이다. 데이터에 포함된 정보는 연도, 직종, 회차, 성별, 연령대, 응시지역, 졸업여부, 합격여부로 개인을 식별할 수 없는 데이터로 제공 되었으며, 모든 데이터는 범주형으로 이루어져있다(Table 1). 원시자료는 2000년부터 2020년까지의 21년 통합 연간데이터로서, 물리치료사 국가시험 응시자 78,267명이 포함되었다. 그러나 결시자와 응시 결격자, 졸업여부에 결측치가 있는 해당 응시자는 제외되었다. 따라서 본 연구는 최종 76,727명의 물리치료 국가시험 응시자를 대상자로 선정하였다.
물리치료 국가고시 합격 여부와 관련하여 다음과 같이 정형화 데이터로 코드화하여 사용하였다. 시험 결과에서 불합격은 0, 합격은 1로 코드화하였다. 성별은 남자는 0, 여자는 1로 코드화하였다. 연령은 50대부터 70대까지를 통합하여 50대 이상으로 범주화하였다. 20대는 1, 30대는 2, 40대는 3, 50대 이상은 4로 코드화하였다. 졸업 여부는 졸업 0, 졸업예정 1로 코드화하였다. 응시지역은 강릉과 춘천을 통합하여 강원도로 범주화하였다. 강원도는 1, 광주광역시는 2, 대구광역시는 3, 대전광역시는 4, 부산광역시는 5, 서울특별시는 6, 전주시는 7, 제주특별자치도는 8로 코드화하였다(Table 1).
자료분석은 IBM SPSS 소프트웨어(version 26.0, IBM Corp., USA) 프로그램을 이용하여 연구대상자의 일반적 특성을 빈도분석하였으며, 일반적 특성에 따른 물리치료 국가고시 합격 여부의 차이를 알아보기 위해 성별, 연령, 졸업여부, 지역에 대하여 교차분석을 통한 카이제곱(Chi-squared) 검정으로 식별하였다. 또한, 물리치료 국가고시 합격여부의 예측요인 확인을 위하여 이분형로지스틱 회귀분석(Binary logistic Regression)과 의사결정나무(Decision tree) 분석을 실시하였다.
의사결정나무에서 노드의 분리기준 선정을 위해 4가지 알고리즘을 3번 분석하여 평균 값을 비교해본 결과, 훈련표본과 검정표본의 정확도의 차이가 크지 않으면서 훈련표본의 정분류율이 높게 나타난 CHAID(Chi-squared automatic interaction detection) 알고리즘을 선정하였다. CHAID는 목표변수가 질적변수나 양적변수이며, 예측변수는 질적변수인 경우에 사용된다. 이때, 분리기준이 질적변수이면 카이제곱 통계량이 이용된다. 카이제곱 통계량이 크고, 유의확률이 유의수준 0.05보다 작은 경우 부모마디는 자식마디를 형성하게 된다[19]. 본 연구는 부모마디(Parent node)의 최소 케이스 수는 100, 자식마디(Child node)의 최소 케이스는 50으로 지정하였고, 나무 깊이는 3수준으로 설정하였다. 또한 선행연구에서 적용하는 비율을 고려하여 훈련표본(Training data)과 검정표본(Testing data)을 80:20으로 설정하였다[20,21]. 유의수준은 양측검정에서 0.05로 설정하였다.
본 연구의 물리치료 국가고시 합격, 불합격 대상자의 일반적 특성은 Table 2와 같다. 대상자는 76,727명이었다. 성별은 남성 35.9%, 여성 64.1% 이며, 연령은 20대 92.6%, 30대 6.3%, 40대 0.9%, 50대 이상 0.2%였다. 졸업 여부는 졸업이 11.2%, 졸업 예정이 88.8%였고, 지역에서는 강원도 1.8%, 광주광역시 17.0%, 대구광역시 19.0%, 대전광역시 9.0%, 부산광역시 14.7%, 서울특별시 32.1%, 전주시 5.8%, 제주특별자치도 0.6%였다. 또한, 성별, 연령, 졸업 여부, 지역에 따라 통계적으로 모두 유의미한 차이가 있는 것으로 나타났다(p<0.05).
본 연구대상자의 물리치료 국가고시 합격 예측요인에 대한 로지스틱 회귀분석 결과는 다음 Table 3과 같다. 합격여부에 따라 유의한 차이를 보인 성별, 연령, 졸업여부, 지역 변수를 로지스틱 회귀분석에 포함시켰다. 회귀계수의 유의성 검증 결과, 연령, 졸업 여부 및 강원도와 비교한 지역변수에서 광주를 제외하고 모두 유의한 것으로 나타났다(p<0.05).
연령에서 국가고시 합격은 20대인 대상자에 비해 30대(B=-0.570, p<0.001)는 약 0.566배, 40대(B=-0.945, p<0.001)는 약 0.389배, 50대 이상(B=-1.095, p<0.001)은 약 0.335배 낮은 것으로 나타났다. 졸업 여부에서는 졸업한 자에 비해 졸업예정자(B=2.611, p<0.001)가 국가고시 합격이 약 13.616배 높은 것으로 나타났다. 응시지역에서는 국가고시 합격이 강원도에 비해 대구광역시(B=0.349, p<0.001)는 약 1.418배, 대전광역시(B=0.631, p<0.001)는 약 1.880배, 부산광역시(B=0.584, p<0.001)는 약 1.793배, 서울특별시(B=0.384, p<0.001)는 약 1.468배, 전주시(B=0.184, p=0.042)는 약 1.202배, 제주특별자치도(B=1.143, p<0.001)는 약 3.135배 높은 것으로 나타났다.
또한, 로지스틱 회귀분석의 특이도는 39.6%, 민감도는 95.5%, 분류 정확도가 87.6%로 예측 모형의 정확도가 높은 것으로 나타났다.
본 연구대상자의 물리치료 국가고시 합격 예측요인에 대한 의사결정나무의 결과인 훈련표본(Training data), 검정표본(Testing data)은 다음과 같다(Figure 1, 2). 나무구조의 최상위의 뿌리 마디인 물리치료 국가고시 합격여부는 합격 86.1%, 불합격 13.9%로 나타났다. 뿌리마디 하단의 가장 상위에 위치하는 요인이 국가고시 합격여부에 가장 영향력이 큰 요인이며, 졸업여부(
졸업인 경우, 연령(
Table 3의 물리치료 국가고시 합격여부 예측 모형에대한 이익도표와 같이 합격에 가장 영향력이 높은 경우는 졸업예정이면서, 응시지역이 제주특별 자치도인 경우로 나타났다. 즉, 10번 노드의 지수(Index)가 113.0%로 뿌리마디와 비교했을 때 10번 노드의 조건을 가진 대상자가 합격할 확률이 약 1.13배로 나타났다(Table 4). 반면에 불합격에 가장 영향력이 높은 경우는 졸업이면서, 연령이 40대, 50대 이상인 경우로 나타났다. 즉, 5번 노드의 지수가 594.0%로 뿌리마디와 비교했을 때 5번 노드의 조건을 가진 대상자가 불합격할 확률이 약 5.94배로 나타났다(Table 5).
본 연구에서 데이터 분할에 의한 타당성 평가를 위해 훈련표본과 검정표본을 비교한 결과 훈련표본의 위험추정값은 0.123(표준오차 0.001), 검정표본의 위험추정값 0.120(표준오차 0.003)이다(Table 6). 따라서 본 물리치료 국가고시 합격여부에 대한 예측 모형의 일반화에 무리가 없는 것으로 나타났다. 또한 의사결정나무 분석의 특이도 45.8%, 민감도 94.7%, 분류 정확도는 훈련표본에서 87.7%, 검정표본에서 88.0%로 나타나 정확도가 높은 것을 알 수 있다(Table 7).
물리치료 국가고시는 실제 물리치료 교육 과정에서 면허를 취득하기 위한 시험이다. 시험의 합격여부가 해당 대학과 응시자에게 중요한 목표 중 하나이기 때문에, 응시자의 개인적 특성에 대해 인지하고 실제적 합격여부를 파악 및 예측하는 것이 필요하다. 따라서 본 연구는 물리치료 국가고시 합격여부에 대한 영향요인을 파악하고 예측하는 서술적 조사로서, 로지스틱 회귀분석과 의사결정나무 분석으로 합격여부 영향요인의 분류 및 예측 모형을 제공하고자 하였다. 더 나아가 물리치료 분야에서 대규모 데이터를 활용한 로지스틱 회귀분석과 의사결정나무 분석에 대한 연구가 전무하기 때문에, 향후 물리치료 임상 연구에 기초자료를 제공하기 위해 시도되었다. 본 연구 결과에 대한 의의를 다음과 같이 제시하고자 한다.
첫째, 물리치료 국가고시 합격여부에 영향을 미치는 공통된 요인은 연령, 졸업여부, 응시지역이었다. 로지스틱 회귀분석에서는 연령이 30대(B=-0.570, p<0.001), 40대(B=-0.570, p<0.001), 50대 이상(B=-1.095, p<0.001)보다 20대의 대상자가 합격 확률이 높았다. 졸업예정자(B=2.611, p<0.001)가 졸업한 대상자보다 합격 확률이 높았다. 응시지역은 광주광역시를 제외하고, 모든 응시지역이 강원도에 비해 합격 확률이 높았다. 특히, 응시지역 중 제주특별자치도가 가장 합격할 확률이 높았다.
의사결정나무의 분석 결과, 분류 전 합격이 86.1%이었던 것이 졸업 예정인 경우, 91.6%로 증가하고, 응시지역에서 제주특별자치도인 경우 97.3%로 가장 높게 증가하였다. 연령 또한 대부분의 응시지역에서 20대가 타연령보다 합격할 확률이 더 높은 것으로 나타났다. 본 결과는 물리치료 국가고시 합격여부를 예측하는데 유의한 영향요인을 파악함으로써 실제 응시자가 해당되는 개인적 특성에 따라 합격 또는 불합격을 예측하는 데 매우 큰 도움이 될 수 있다는 근거를 제시할 수 있을 것이라고 생각된다.
둘째, 본 연구의 결과 성별에 따른 국가고시 합격여부에서는 회귀계수에서 유의한 결과를 보이지 않았다. 또한 의사결정나무에서도 졸업자가 연령에 따라 각 성별에 대한 합격 확률도 일치하지 않은 것을 확인할 수 있었다. 물리치료 국가고시 합격 여부에 대한 사례는 아니지만, 성별에 대한 차이가 학교성적이 국가고시의 성적에 유의한 영향을 미치지 않는다는 연구[22]와 반면에 성별이 국가고시의 성적에 유의한 영향을 미치는 연구[3]가 있으므로 성별에 따른 국가고시 합격은 일반화하기 어려운 경향으로 여겨진다.
그러나 물리치료 국가고시를 응시한 여성 응시자가 남성 응시자 수에 비해 2배 상회하고 있는 것에 비해, 합격 확률에 큰 차이가 없는 회귀계수와 의사결정나무의 결과는 이례적이라 할 수 있다. 따라서 성별의 구분은 국가고시 합격여부에 큰 영향을 미치지 못하므로, 성별에 관계없이 응시자의 물리치료 국가고시 합격을 위한 적극적인 지도와 관심이 필요할 것으로 생각된다.
셋째, 로지스틱 회귀분석 결과, 연령에서 나이가 증가할수록 합격할 확률이 점차 낮아지는 경향을 보였다. 의사결정나무 분석 역시 동일하게 대부분 20대에 비해 타연령이 졸업자 또는 응시지역 별로 합격할 확률이 낮은것을 확인할 수 있었다. 물리치료 국가고시 연구는 아니지만, 의사면허 국가고시 성적 연구에서는 20대가 30대보다 높은 점수를 받았으며, 30대는 40대보다 11점 더 높은 점수를 받아 본 연구의 결과와 유사하였다[2]. 특히, 본 연구의 이익도표에서 국가고시에 불합격 할 확률이 졸업이면서, 연령이 40대부터 50대 이상인 경우 5.94배 증가한 것을 확인할 수 있었다. 따라서 연령이 증가할수록 인지와 기억에 대한 처리가 취약해지므로[23], 개별 대학은 응시자의 연령에 따른 다양한 학습접근 방식 또는 보다 효과적인 학습 강도와 반복에 대한 재고가 필요하며, 이에 대한 연구가 추후 필요할 것으로 보인다.
넷째, 로지스틱 회귀분석에서 졸업예정자가 졸업한 자보다 합격할 확률이 13.616배 높은 것으로 나타났으며, 의사결정나무 분석에서도 졸업예정자가 합격할 확률은 91.6%인 반면에, 졸업한 자가 합격할 확률은 41.6%로 매우 큰 차이를 보였다. 국가고시 점수에서 졸업예정자가 졸업한 대상자보다 24점 더 높은 점수를 받은 선행연구의 결과는 이를 뒷받침해주고 있다[2]. 이는 아마도 최소한의 해당 직무 역량을 판단하는 국가고시가 대부분 졸업 전에 이루어지며, 졸업한 대상자는 이미 이전 국가고시에서 불합격하였거나 다양한 이유로 결시 하여 이후에 재 응시했을 가능성이 높다고 판단되어진다.
국가고시는 교육과정에서 학습한 것을 바탕으로 응시하는 것으로, 타 보건계열 연구에서는 학교 성적 및 모의고사 성적과 국가고시 성적이 정적인 상관관계가 있다고 보고하고 있다[3]. 즉, 교육과정에서의 성적은 국가고시 성적에 영향을 미치기 때문에, 이를 전략적으로 대처하기 위해서는 응시자는 국가고시 응시 전에 학교 성적과 모의고사 성적향상을 위해 다양한 시도를 도모해야 할 것이다.
다섯째, 응시지역에서 로지스틱 회귀계수는 강원도에 비해 광주광역시에서 유의미한 차이를 보이지 않았고, 타 응시지역은 모두 유의미한 차이를 보였다. 의사결정 나무에서는 강원도, 광주광역시, 전주시에서 합격할 확률이 낮아지는 것을 확인할 수 있었다. 또한, 의사결정나무와 공통적으로 제주특별자치도에서 응시자가 합격할 확률이 높은 것으로 나타났다. 최근 14년간의 전체 평균 합격률이 85.57%로[1], 교차 분석에서 강원도 81.6%, 광주광역시 81.9%, 전주 83.4%의 합격률로 미루어 해당 결과가 어느 정도 뒷받침한다는 것을 알 수 있었다. 반면, 제주특별자치도는 93.8%로 가장 합격률이 높은 것을 확인할 수 있었으며, 로지스틱 회귀분석에서는 3.135배, 이익도표에서는 졸업예정자이면서 응시지역이 제주특별자치도인 경우 113.0%로 합격 확률이 높아지는 것으로 나타났다.
다만, 이러한 결과는 개별 대학의 차이보다는 수도권과 비 수도권과 같은 위치에 중점을 두는 결과로서[2], 응시지역 별 응시 인원의 차이가 크기 때문일 수 있다. 특히, 경기도와 충청도 지역은 응시지역에 포함되지 않았고 해당 지역의 응시자는 타 지역에서 응시가 진행된 것으로 판단되어지기 때문에, 응시지역에 대한 결과는 일반화하기 어렵다. 또한, 응시지역에 따른 분석은 이루어지지 않았기 때문에, 향후 연구에서 응시지역 별 응시자의 특성과 관련한 연구가 이루어져야 할 것으로 생각된다.
여섯째, 물리치료 국가고시 합격여부에 대한 예측력을 로지스틱 회귀분석과 의사결정나무 분석을 통해 비교 평가해보면, 합격 확률을 예측하는 민감도는 로지스틱 회귀분석이 95.5%이며, 의사결정나무 분석의 94.7% 보다 높게 나타났다. 특이도에서는 의사결정나무 분석이 45.8%로 로지스틱 회귀분석의 39.6% 보다 높게 나타났으며, 분류 정확도에서도 의사결정나무 분석이 88.0%로 로지스틱 회귀분석의 87.6%보다 높게 나타났다. 즉, 합격할 확률이 높다고 분류한 응시자를 합격할 것이라고 예측하는 민감도에서는 로지스틱 회귀분석이 더 높았지만, 특이도와 분류 정확도는 의사결정나무 분석이 더 높은 것을 확인할 수 있었다. 따라서 두 분석의 정확도에서 다소 큰 차이를 보이지 않았기 때문에 로지스틱 회귀분석과 의사결정나무 분석 모두 물리치료 국가고시 합격여부 예측모형을 구축하는데 유용한 자료로 사용될 것으로 생각된다.
또한, 선행 연구에서는 본 연구와 같이 대용량 데이터를 활용한 기계학습 알고리즘의 비교 및 분석 연구가 다양하게 시도되고 있다. 대도시 주민 범죄발생 위험 지역을 예측한 연구는 의사결정 나무 분석과 랜덤 포레스트, Support Vector Machine(SVM) 예측 모형을 구축하고 제곱근 오차를 비교 분석하였을 때, 의사결정나무 분석이 최적의 모형으로 선정되었다[11]. 또한, 대도시 주민의 우울감에 대한 영향 요인을 예측하기 위한 연구에서는 의사결정나무와 로지스틱 회귀분석의 예측모형을 비교하여, 로지스틱 회귀분석이 민감도와 분류정확도에서 더 우수한 것을 확인하였다[16]. 타 연구에서는 초등학생의 스마트폰 중독 관련 기계학습 알고리즘 성능 분석을 위해 K-최근접 이웃, 로지스틱 회귀분석, SVM, 의사결정나무 분석, 랜덤 포레스트를 활용하여 랜덤 포레스트의 성능이 가장 우수한 것으로 나타났다[24].
이와 같이 다양한 분야에서 최적의 예측 모형을 제시하기 위해 기계학습을 기반으로 한 연구들이 활용되고 있으며, 각 연구마다 최적의 예측 모형에 대하여 다른 결과를 도출한 것을 알 수 있었다. 따라서 향후 연구에서는 본 연구의 로지스틱 회귀분석과 의사결정나무 분석뿐만 아니라, 다양한 기계학습 알고리즘을 도입한 연구가 추가적으로 필요할 것으로 판단된다. 아울러 타 분야에서 기계학습 알고리즘 연구가 활발히 이루어진 것과 같이, 물리치료 분야에서도 기존의 통계 분석뿐만 아니라, 기계학습 알고리즘을 기반으로 한 차별화 된 연구가 이루어져야 할 것으로 생각된다.
그러나 본 연구의 제한점은 다음과 같다. 첫째, 본 연구는 물리치료 국가고시의 응시자의 데이터가 각 성별, 연령, 졸업여부, 응시지역 별로 차이가 크기 때문에 일반화하기에 무리가 있다. 둘째, 물리치료 국가고시 합격여부의 응시자 특성에 대하여 기관에서 제공하는 자료를 활용함으로써 다양한 영향 요인을 폭 넓게 활용하지 못하였다. 셋째, 각 변수와 관련하여 기존의 통계 기법인 상관관계와 같은 분석은 이루어 지지 못하였기 때문에 추후 연구에서 살펴볼 필요가 있다. 넷째, 타 보건계열 국가고시 선행연구에 비해, 물리치료 국가고시에 대해 참조할 선행연구가 미비하였다. 그러므로 향후 연구에서는 개인적 특성뿐만 아니라, 물리치료 국가고시 응시자의 지식과 역량에 관련된 학교 및 모의고사 성적 등에 대한 관계 연구나 비교 분석 등의 다양한 특성에 대한 연구가 시행되어야 할 것이다.
본 연구는 국가적 차원의 시험에서 응시자의 합격여부에 대하여 개인적 특성에 따라 객관적인 자료로 파악할 수 있다는 점에서 의의가 있다. 특히, 물리치료 분야에서 로지스틱 회귀분석과 의사결정 나무를 활용하여 21년간의 대규모 국가 통합데이터를 바탕으로 정규성 검정과 등분산성을 가정할 수 없는 데이터를 분석한 최초의 연구이다.
본 연구에서는 연령, 졸업여부, 응시지역에 따라 응시자의 합격여부가 다름을 확인할 수 있었다. 이러한 결과를 토대로 실제 해당 응시자의 개인적 특성을 파악함에 따라 본 예측 모형을 기초로 응시자의 합격 확률을 예측하는 것이 가능하다. 이는 물리치료 국가고시 합격여부에 대한 중요한 정보를 제안한다. 또한, 로지스틱 회귀분석과 의사결정나무 분석 모두 예측 정확도가 높아 물리치료 국가고시 합격여부에 대한 예측모형으로써 활용될 수 있을 것이다.
이를 기반으로 향후 연구에서는 더욱 다양한 기계학습 알고리즘을 시도하여 예측 모형 구축 및 비교 분석하는 연구가 활발히 이루어지기를 기대한다. 더 나아가 본 연구는 물리치료 분야의 대규모 데이터를 활용한 연구의 기초자료로 제공될 수 있을 것이다.
이 성과는 정부(과학기술정보통신부)의 재원으로 한 국연구재단의 지원을 받아 수행된 연구임(No. 2022R1F1A1067604).
본 연구의 저자들은 연구, 저작권 및 출판과 관련하여 잠재적인 이해충돌이 없음을 선언합니다.
Composition of variables
Source | Korea health personnel licensing examination institute |
---|---|
Data | Korea health personnel licensing examination institute_ Status of test taker_ Physical therapist |
Included variables | Year, Occupation, Round of examination, Gender, Age, Graduation status, Examination area, Testing result |
Variables | Code |
Testing result | Fail=0, Pass=1 |
Gender | Male=0, Female=1 |
Age | Twenties=1, Thirties=2, Forties=3, More than fifties (Fifties∼Seventy)=4 |
Graduation status | Graduate=0, prospective graduate=1 |
Examination area | Gangwon (Gangneung, Chuncheon)=1, Gwangju=2, Daegu=3, Daejeon=4, Busan=5, Seoul=6, Jeonju=7, Jeju=8 |
General characteristics of subjects (n=76,727)
Variable | Categories | Total N(%) | Pass N(%) | Fail N(%) | |
---|---|---|---|---|---|
Testing result | 76,727(100) | 65,903(85.9) | 10,824(14.1) | ||
Gender | Male | 27,557(35.9) | 23,382(84.8) | 4,175(15.2) | 38.625*** (P<0.001) |
Female | 49,170(64.1) | 42,521(86.5) | 6,649(13.5) | ||
Age | Twenties | 71,033(92.6) | 62,077(87.4) | 8,956(12.6) | 1873.704*** (P<0.001) |
Thirties | 4,810(6.3) | 3,320(69.0) | 1,490(31.0) | ||
Forties | 700(0.9) | 416(59.4) | 284(40.6) | ||
≥Fifties | 184(0.2) | 90(48.9) | 94(51.1) | ||
Graduation status | Graduate | 8,562(11.2) | 3,578(47.8) | 4,984(58.2) | 15470.785*** (P<0.001) |
prospective graduate | 68,165(88.8) | 62,325(91.4) | 5,840(8.6) | ||
Examination area | Gangwon | 1,397(1.8) | 1,140(81.6) | 257(18.4) | 417.228*** (P<0.001) |
Gwangju | 13,028(17.0) | 10,670(81.9) | 2,358(18.1) | ||
Daegu | 14,550(19.0) | 12,695(87.3) | 1,855(12.7) | ||
Daejeon | 6,903(9.0) | 6,179(89.5) | 724(10.5) | ||
Busan | 11,314(14.7) | 10,044(88.8) | 1,270(11.2) | ||
Seoul | 24,609(32.1) | 21,019(85.4) | 3,590(14.6) | ||
Jeonju | 4,476(5.8) | 3,734(83.4) | 742(16.6) | ||
Jeju | 450(0.6) | 422(93.8) | 28(6.2) |
***p<0.001
Logistic regression analysis results (n=76,727)
Variable | Categories | B | S.E | Odds Ratio | P-value | 95% C.I | |
---|---|---|---|---|---|---|---|
Lower | Upper | ||||||
Sex | Male | - | - | 1 | Ref. | - | |
Female | 0.016 | 0.025 | 1.016 | 0.528 | 0.968 | 1.066 | |
Age | Twenties | - | - | 1 | Ref. | - | |
Thirties | -0.570 | 0.040 | 0.566 | <0.001*** | 0.522 | 0.612 | |
Forties | -0.945 | 0.094 | 0.389 | <0.001*** | 0.323 | 0.467 | |
≥Fifties | -1.095 | 0.179 | 0.335 | <0.001*** | 0.236 | 0.475 | |
Graduation status | Graduate | - | - | 1 | Ref. | - | |
Prospective graduate | 2.611 | 0.026 | 13.616 | <0.001*** | 12.927 | 14.342 | |
Area | Gangwon | - | - | 1 | Ref. | - | |
Gwangju | 0.007 | 0.082 | 1.007 | 0.936 | 0.857 | 1.183 | |
Daegu | 0.349 | 0.083 | 1.418 | <0.001*** | 1.206 | 1.667 | |
Daejeon | 0.631 | 0.089 | 1.880 | <0.001*** | 1.578 | 2.240 | |
Busan | 0.584 | 0.085 | 1.793 | <0.001*** | 1.519 | 2.118 | |
Seoul | 0.384 | 0.081 | 1.468 | <0.001*** | 1.253 | 1.720 | |
Jeonju | 0.184 | 0.090 | 1.202 | 0.042* | 1.007 | 1.435 | |
Jeju | 1.143 | 0.225 | 3.135 | <0.001*** | 2.017 | 4.871 | |
Constant | -0.543 | 0.082 | 0.581 | <0.001*** | - | ||
-2 Log likelihood | 50874.236 | ||||||
Cox & Snell R2 | 0.140 | ||||||
Nagelkerke R2 | 0.251 | ||||||
Chi-square | 11566.807 | ||||||
Specificity (%) | 39.6 | ||||||
Sensitivity (%) | 95.5 | ||||||
Classification accuracy (%) | 87.6 |
*p<0.05, ***p<0.001
Profit index of decision tree analysis related to pass
Category | Node | Profit index | Cumulative index | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Node | Gain | Response | Index | Node | Gain | Response | Index | ||||||
N | Percent | N | Percent | N | Percent | N | Percent | ||||||
Training data | 10 | 349 | 0.6% | 339 | 0.6% | 97.1% | 113.2% | 349 | 0.6% | 339 | 0.6% | 97.1% | 113.2% |
17 | 12,468 | 20.3% | 11,729 | 22.2% | 94.1% | 109.6% | 12,817 | 20.9% | 12,068 | 22.9% | 94.2% | 109.7% | |
15 | 26,343 | 42.9% | 24,236 | 46.0% | 92.0% | 107.2% | 39,160 | 63.8% | 36,304 | 68.9% | 92.7% | 108.0% | |
9 | 3,122 | 5.1% | 2,793 | 5.3% | 89.5% | 104.2% | 42,282 | 68.8% | 39,097 | 74.2% | 92.5% | 107.7% | |
18 | 716 | 1.2% | 634 | 1.2% | 88.5% | 103.2% | 42,998 | 70.0% | 39,731 | 75.4% | 92.4% | 107.7% | |
16 | 1,411 | 2.3% | 1,240 | 2.4% | 87.9% | 102.4% | 44,409 | 72.3% | 40,971 | 77.7% | 92.3% | 107.5% | |
19 | 9,588 | 15.6% | 8,422 | 16.0% | 87.8% | 102.3% | 53,997 | 87.9% | 49,393 | 93.7% | 91.5% | 106.6% | |
20 | 523 | 0.9% | 438 | 0.8% | 83.7% | 97.6% | 54,520 | 88.8% | 49,831 | 94.5% | 91.4% | 106.5% | |
11 | 3,722 | 6.1% | 1,772 | 3.4% | 47.6% | 55.5% | 58,242 | 94.8% | 51,603 | 97.9% | 88.6% | 103.2% | |
12 | 1,645 | 2.7% | 709 | 1.3% | 43.1% | 50.2% | 59,887 | 97.5% | 52,312 | 99.2% | 87.4% | 101.8% | |
14 | 816 | 1.3% | 250 | 0.5% | 30.6% | 35.7% | 60,703 | 98.8% | 52,562 | 99.7% | 86.6% | 100.9% | |
13 | 419 | 0.7% | 98 | 0.2% | 23.4% | 27.2% | 61,122 | 99.5% | 52,660 | 99.9% | 86.2% | 100.4% | |
5 | 292 | 0.5% | 55 | 0.1% | 18.8% | 21.9% | 61,414 | 100.0% | 52,715 | 100.0% | 85.8% | 100.0% | |
Testing data | 10 | 75 | 0.5% | 73 | 0.6% | 97.3% | 113.0% | 75 | 0.5% | 73 | 0.6% | 97.3% | 113.0% |
17 | 3,142 | 20.5% | 2,973 | 22.5% | 94.6% | 109.9% | 3,217 | 21.0% | 3,046 | 23.1% | 94.7% | 109.9% | |
15 | 6,523 | 42.6% | 6,000 | 45.5% | 92.0% | 106.8% | 9,740 | 63.6% | 9,046 | 68.6% | 92.9% | 107.8% | |
9 | 784 | 5.1% | 702 | 5.3% | 89.5% | 104.0% | 10,524 | 68.7% | 9,748 | 73.9% | 92.6% | 107.6% | |
18 | 187 | 1.2% | 172 | 1.3% | 92.0% | 106.8% | 10,711 | 69.9% | 9,920 | 75.2% | 92.6% | 107.5% | |
16 | 375 | 2.4% | 324 | 2.5% | 86.4% | 100.3% | 11,086 | 72.4% | 10,244 | 77.7% | 92.4% | 107.3% | |
19 | 2,413 | 15.8% | 2,125 | 16.1% | 88.1% | 102.3% | 13,499 | 88.2% | 12,369 | 93.8% | 91.6% | 106.4% | |
20 | 146 | 1.0% | 125 | 0.9% | 85.6% | 99.4% | 13,645 | 89.1% | 12,494 | 94.7% | 91.6% | 106.3% | |
11 | 908 | 5.9% | 404 | 3.1% | 44.5% | 51.7% | 14,553 | 95.0% | 12,898 | 97.8% | 88.6% | 102.9% | |
12 | 402 | 2.6% | 189 | 1.4% | 47.0% | 54.6% | 14,955 | 97.7% | 13,087 | 99.2% | 87.5% | 101.6% | |
14 | 179 | 1.2% | 53 | 0.4% | 29.6% | 34.4% | 15,134 | 98.8% | 13,140 | 99.6% | 86.8% | 100.8% | |
13 | 105 | 0.7% | 35 | 0.3% | 33.3% | 38.7% | 15,239 | 99.5% | 13,175 | 99.9% | 86.5% | 100.4% | |
5 | 74 | 0.5% | 13 | 0.1% | 17.6% | 20.4% | 15,313 | 100.0% | 13,188 | 100.0% | 86.1% | 100.0% |
Profit index of decision tree analysis related to fail
Category | Node | Profit index | Cumulative index | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Node | Gain | Response | Index | Node | Gain | Response | Index | ||||||
N | Percent | N | Percent | N | Percent | N | Percent | ||||||
Training data | 5 | 292 | 0.5% | 237 | 2.7% | 81.2% | 573.0% | 292 | 0.5% | 237 | 2.7% | 81.2% | 573.0% |
13 | 419 | 0.7% | 321 | 3.7% | 76.6% | 540.9% | 711 | 1.2% | 558 | 6.4% | 78.5% | 554.1% | |
14 | 816 | 1.3% | 566 | 6.5% | 69.4% | 489.7% | 1,527 | 2.5% | 1,124 | 12.9% | 73.6% | 519.7% | |
12 | 1,645 | 2.7% | 936 | 10.8% | 56.9% | 401.7% | 3,172 | 5.2% | 2,060 | 23.7% | 64.9% | 458.5% | |
11 | 3,722 | 6.1% | 1,950 | 22.4% | 52.4% | 369.9% | 6,894 | 11.2% | 4,010 | 46.1% | 58.2% | 410.6% | |
20 | 523 | 0.9% | 85 | 1.0% | 16.3% | 114.7% | 7,417 | 12.1% | 4,095 | 47.1% | 55.2% | 389.8% | |
19 | 9,588 | 15.6% | 1,166 | 13.4% | 12.2% | 85.9% | 17,005 | 27.7% | 5,261 | 60.5% | 30.9% | 218.4% | |
16 | 1,411 | 2.3% | 171 | 2.0% | 12.1% | 85.6% | 18,416 | 30.0% | 5,432 | 62.4% | 29.5% | 208.2% | |
18 | 716 | 1.2% | 82 | 0.9% | 11.5% | 80.9% | 19,132 | 31.2% | 5,514 | 63.4% | 28.8% | 203.5% | |
9 | 3,122 | 5.1% | 329 | 3.8% | 10.5% | 74.4% | 22,254 | 36.2% | 5,843 | 67.2% | 26.3% | 185.4% | |
15 | 26,343 | 42.9% | 2,107 | 24.2% | 8.0% | 56.5% | 48,597 | 79.1% | 7,950 | 91.4% | 16.4% | 115.5% | |
17 | 12,468 | 20.3% | 739 | 8.5% | 5.9% | 41.8% | 61,065 | 99.4% | 8,689 | 99.9% | 14.2% | 100.5% | |
10 | 349 | 0.6% | 10 | 0.1% | 2.9% | 20.2% | 61,414 | 100.0% | 8,699 | 100.0% | 14.2% | 100.0% | |
Testing data | 5 | 74 | 0.5% | 61 | 2.9% | 82.4% | 594.0% | 74 | 0.5% | 61 | 2.9% | 82.4% | 594.0% |
13 | 105 | 0.7% | 70 | 3.3% | 66.7% | 480.4% | 179 | 1.2% | 131 | 6.2% | 73.2% | 527.4% | |
14 | 179 | 1.2% | 126 | 5.9% | 70.4% | 507.2% | 358 | 2.3% | 257 | 12.1% | 71.8% | 517.3% | |
12 | 402 | 2.6% | 213 | 10.0% | 53.0% | 381.8% | 760 | 5.0% | 470 | 22.1% | 61.8% | 445.6% | |
11 | 908 | 5.9% | 504 | 23.7% | 55.5% | 400.0% | 1,668 | 10.9% | 974 | 45.8% | 58.4% | 420.8% | |
20 | 146 | 1.0% | 21 | 1.0% | 14.4% | 103.6% | 1,814 | 11.8% | 995 | 46.8% | 54.9% | 395.3% | |
19 | 2,413 | 15.8% | 288 | 13.6% | 11.9% | 86.0% | 4,227 | 27.6% | 1,283 | 60.4% | 30.4% | 218.7% | |
16 | 375 | 2.4% | 51 | 2.4% | 13.6% | 98.0% | 4,602 | 30.1% | 1,334 | 62.8% | 29.0% | 208.9% | |
18 | 187 | 1.2% | 15 | 0.7% | 8.0% | 57.8% | 4,789 | 31.3% | 1,349 | 63.5% | 28.2% | 203.0% | |
9 | 784 | 5.1% | 82 | 3.9% | 10.5% | 75.4% | 5,573 | 36.4% | 1,431 | 67.3% | 25.7% | 185.0% | |
15 | 6,523 | 42.6% | 523 | 24.6% | 8.0% | 57.8% | 12,096 | 79.0% | 1,954 | 92.0% | 16.2% | 116.4% | |
17 | 3,142 | 20.5% | 169 | 8.0% | 5.4% | 38.8% | 15,238 | 99.5% | 2,123 | 99.9% | 13.9% | 100.4% | |
10 | 75 | 0.5% | 2 | 0.1% | 2.7% | 19.2% | 15,313 | 100.0% | 2,125 | 100.0% | 13.9% | 100.0% |
Validation of decision tree analysis
Sample | Estimate | Standard error |
---|---|---|
Training data | 0.123 | 0.001 |
Testing data | 0.120 | 0.003 |
Correct classification of decision tree analysis
Category | Observed | Predicted | ||
---|---|---|---|---|
Pass | Fail | Percent Correct | ||
Training data | Fail | 4,010 | 4,689 | 46.1% |
Pass | 2,884 | 49,831 | 94.5% | |
Overall Percentage | 11.2% | 88.8% | 87.7% | |
Testing data | Fail | 974 | 1,151 | 45.8% |
Pass | 694 | 12,494 | 94.7% | |
Overall Percentage | 10.9% | 89.1% | 88.0% |