• 제목/요약/키워드: Learning Repository

검색결과 107건 처리시간 0.024초

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

개발자 별 버그 해결 유형을 고려한 자동적 개발자 추천 접근법 (A Technique to Recommend Appropriate Developers for Reported Bugs Based on Term Similarity and Bug Resolution History)

  • 박성훈;김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권12호
    • /
    • pp.511-522
    • /
    • 2014
  • 소프트웨어 개발 및 유지보수 과정에서 여러 종류의 버그가 발생된다. 버그는 소프트웨어의 개발 및 유지 보수 시간을 증가시키는 주요원인으로 소프트웨어의 품질 저하를 초래한다. 버그의 발생을 사전에 완벽하게 방지하는 것은 불가능하다. 대신 버그 질라(Bugzilla), 멘티스BT(MantisGBT), 트랙 (Trac), 질라 (JIRA)와 같은 버그 트래킹 시스템을 이용하여 버그를 효과적으로 관리하는 것이 가능하다. 개발자 또는 사용자가 발생된 버그를 버그 트래킹 시스템에 보고하면, 프로젝트 매니저에 의해서 보고된 버그는 버그 해결에 적합한 개발자에게 전달되어 해결될 때까지 버그 트래킹 시스템에 의해서 추척된다. 여기서 프로젝트 매니저가 버그 해결에 적합한 개발자를 선별하는 것을 버그 분류 작업 (Bug triaging)이라고 하며, 대량으로 발생되는 버그 리포트들을 수동으로 분류하는 것은 프로젝트 매니저에게 있어서 매우 어려운 문제가 된다. 본 논문에서는 버그 트래킹 시스템에 저장된 과거에 해결된 버그 리포트에서 개발자 별 버그 해결 유형을 추출하고, 이를 활용한 버그 분류 작업, 즉 개발자 추천 방법을 제안한다. 먼저 버그 트래킹 시스템에서 각 개발자가 해결한 버그 리포트들을 분류한 후, 자연 언어 처리 알고리즘과 TF-IDF (Term frequency-Inverse document frequency)를 활용하여 각 개발자 별 단어 리스트를 생성한다. 그 후, 새로운 버그가 발생되었을 때 코사인 유사도를 통해서 생성된 개발자 별 단어 리스트와 새로운 버그 리포트의 단어 리스트를 비교하여 가장 유사한 단어 리스트를 가지는 개발자를 추천하는 방법이다. 두 오픈 소스 프로젝트인 이클립스 JDT.UI와 CDT.CORE를 대상으로 수행한 개발자 추천 실험에서 기계 학습 모델 기반의 추천 방법보다 제안하는 방법이 더 우수한 결과를 얻은 것을 확인하였다.

웹서비스 저장소의 검색기법에 관한 실증적 연구 (Empirical Research on Search model of Web Service Repository)

  • 황유섭
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.173-193
    • /
    • 2010
  • 월드와이드웹 (WWW)은 유용한 정보를 포함하는 자료들의 집합에서 유용한 작업을 수행할 수 있는 서비스들의 집합으로 변화하고 있다. 새롭게 등장하고 있는 웹서비스 기술은 향후 웹의 기술적 변화를 추구하며 최근 웹의 변화에 중요한 역할을 수행할 것으로 기대된다. 웹서비스는 어플리케이션 간의 통신을 위한 호환성 표준을 제시하며 기업 내/외를 아우를 수 있는 어플리케이션 상호작용 및 통합을 촉진한다. 웹서비스가 서비스 지향 컴퓨팅환경으로서 운영하기 위해서는 웹서비스 저장소가 완성도 높게 구축되어 있어야 할 뿐 아니라, 사용자들의 필요에 맞는 웹서비스 컴포넌트를 찾을 수 있는 효율적인 도구들을 제공하여야 한다. 서비스 지향 컴퓨팅을 위한 웹서비스의 중요성이 증대됨에 따라 웹서비스의 발견을 효율적으로 지원할 수 있는 기법의 수요 또한 증대된다. 다수의 웹서비스 저장소들은 웹서비스 분류체계 및 검색기법들을 제안하여 왔지만, 대부분의 분류체계와 기존의 검색기법들은 실질적으로 활용하기에는 제대로 발달하지 못하였거나 지속적이고 체계적으로 관리하기에 너무 어려운 단점을 갖고 있다. 이 논문에서는 인공신경망 기반 군집화 기법과 XML 기반의 웹서비스 기술표준인 WSDL의 의미적 가치를 활용하여 웹서비스 분류체계 생성 프레임워크를 통한 복합 검색기법을 제안한다. 이 논문에서 인공신경망을 활용하여 제안하는 웹서비스 분류체계 생성 프레임워크는 실증적인 프로토타입 시스템으로 개발하였으며, 실제 운영되고 있는 웹서비스 저장소로부터 획득한 실제 웹서비스들을 사용하여 제안하는 웹서비스 복합 검색기법을 실증적으로 평가하였다. 또한 제안하는 방식의 효용성을 보여주는 의미 있는 실험결과를 보고한다.

국가직무능력표준(NCS)의 4년제대학 정보시스템개발 교육과정을 위한 중요도분석연구 (An Importance Analysis of National Competency Standard for 4-year College Information Systems Development Curriculum)

  • 김재경
    • 한국산업정보학회논문지
    • /
    • 제22권4호
    • /
    • pp.117-129
    • /
    • 2017
  • 본 연구는 4년제 대학의 정보시스템개발 교육과정과 연관된 국가직무능력표준(National Competency Standard-NCS)에서 제시된 학습모듈을 파악하고 정보시스템개발 교육과정에 대한 NCS의 활용가능성을 분석하고자 한다. 두 전문가 그룹인 대학교수와 정보시스템개발자를 대상으로 NCS의 응용SW엔지니어링 분야에 속한 26개 능력단위의 중요도를 계층화분석과정을 통해 능력단위별로 쌍대비교 분석한 결과는 다음과 같다. 첫째, 능력단위별 능력단위요소들에 상대적 중요도는 요구사항 확인하기, UI요구사항확인하기, 물리데이터저장소설계하기, 개발자통합테스트하기와 개발자결함조치하기로 나타났다. 둘째, 초 중급개발자 그룹은 시스템개발 이행단계에 속한 능력단위요소를 보다 중요하다고 판단하였고, 고급개발자 그룹은 이론중심의 설계와 관련 있는 능력단위요소를 중요하다고 제시하였다. 또한 교수자 그룹은 두 개발자 그룹이 각각 중요하다고 판단한 실무 및 이론적 내용 모두 중요하다고 판단하였다. 본 결과를 바탕으로 정보시스템개발 관련 직무수행역량의 함양과 교육의 질적 제고를 가져올 수 있는 교육과정 개발에 대한 시사점을 제시하였다.

POI(Practical Openness Index)를 활용한 문헌정보학 연구자 국제학술논문의 개방성 연구 (Study on the Openness of International Academic Papers by Researchers in Library and Information Science Using POI (Practical Openness Index))

  • 조재인
    • 한국도서관정보학회지
    • /
    • 제52권2호
    • /
    • pp.25-44
    • /
    • 2021
  • OA 논문이 증가하는 상황에서 개별 연구자의 연구 성과 유통이 얼마나 개방적인지를 지수화하는 POI(Practical Openness Index)가 등장하였다. 본 연구는 국내 문헌정보학 연구자들이 국제학술지에 출판한 논문을 대상으로 OA 여부와 방식을 조사하고 연구자 단위의 POI를 도출해 지수의 분포를 살펴보았다. 또한 연구자의 세부 연구 분야나 국제협력 활동이 개방성에 관련성을 보이는지 분석하였다. 그 결과 Unpaywall을 통해 정상적으로 OA 여부와 방식이 식별된 논문은 82명 연구자의 492건으로 나타났으며, 20.7%의 논문만이 공개되어 있는 것으로 분석되었다. 두 번째, 골드 OA 방식의 공개 논문은 의학 분야 저널에 수록된 텍스트마이닝 분야 논문이 많았으며, 그린 OA방식으로 공개된 논문은 외국인 공동저자 소속 기관의 리포지터리나 PMC와 같은 초국가적 주제 리포지터리에서 공개되고 있는 것으로 확인되었다. 세 번째, POI 지수는 절반 가량의 연구자가 0으로 나타났으나, 계량정보학, 기계학습 및 지식처리 영역의 연구자들에게서 상대적으로 높게 나타났다. 또한 연구자의 해외공동연구 활동이 논문 공개와 관련성이 있는 것으로 분석되었다.

S-MTS를 이용한 강판의 표면 결함 진단 (Steel Plate Faults Diagnosis with S-MTS)

  • 김준영;차재민;신중욱;염충섭
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.47-67
    • /
    • 2017
  • 강판 표면 결함은 강판의 품질과 가격을 결정하는 중요한 요인 중 하나로, 많은 철강 업체는 그동안 검사자의 육안으로 강판 표면 결함을 확인해왔다. 그러나 시각에 의존한 검사는 통상 30% 이상의 판단 오류가 발생함에 따라 검사 신뢰도가 낮은 문제점을 갖고 있다. 따라서 본 연구는 Simultaneous MTS (S-MTS) 알고리즘을 적용하여 보다 지능적이고 높은 정확도를 갖는 새로운 강판 표면 결함 진단 시스템을 제안하였다. S-MTS 알고리즘은 단일 클래스 분류에는 효과적이지만 다중 클래스 분류에서 정확도가 떨어지는 기존 마할라노비스 다구찌시스템 알고리즘(Mahalanobis Taguchi System; MTS)의 문제점을 해결한 새로운 알고리즘이다. 강판 표면 결함 진단은 대표적인 다중 클래스 분류 문제에 해당하므로, 강판 표면 결함 진단 시스템 구축을 위해 본 연구에서는 S-MTS 알고리즘을 채택하였다. 강판 표면 결함 진단 시스템 개발은 S-MTS 알고리즘에 따라 다음과 같이 진행하였다. 첫째, 각 강판 표면 결함 별로 개별적인 참조 그룹 마할라노비스 공간(Mahalanobis Space; MS)을 구축하였다. 둘째, 구축된 참조 그룹 MS를 기반으로 비교 그룹 마할라노비스 거리(Mahalanobis Distance; MD)를 계산한 후 최소 MD를 갖는 강판 표면 결함을 비교 그룹의 강판 표면 결함으로 판단하였다. 셋째, 강판 표면 결함을 분류하는 데 있어 결함 간의 차이점을 명확하게 해주는 예측 능력이 높은 변수를 파악하였다. 넷째, 예측 능력이 높은 변수만을 이용해 강판 표면 결함 분류를 재수행함으로써 최종적인 강판 표면 결함 진단 시스템을 구축한다. 이와 같은 과정을 통해 구축한 S-MTS 기반 강판 표면 결함 진단 시스템의 정확도는 90.79%로, 이는 기존 검사 방법에 비해 매우 높은 정확도를 갖는 유용한 방법임을 보여준다. 추후 연구에서는 본 연구를 통해 개발된 시스템을 현장 적용하여, 실제 효과성을 검증할 필요가 있다.

곡성 동악산 청류구곡(淸流九曲)의 형태 및 의미론적 특성 (Characteristic on the Layout and Semantic Interpretation of Chungryu-Gugok, Dongaksan Mountain, Gokseong)

  • 노재현;신상섭;허준;이정한;한상엽
    • 한국전통조경학회지
    • /
    • 제32권4호
    • /
    • pp.24-36
    • /
    • 2014
  • 동악산 청류구곡 일원은 아름다운 계류를 따라 와폭(臥瀑)과 담(潭), 소(沼), 대(臺) 등의 암반경관과 성리문화의 전형으로 향유되어온 구곡문화가 실증적으로 대입된 사례로, 1872년 곡성현 지방도에서 "삼남제일암반계류 청류동(三南第一巖盤溪流 淸流洞)"으로 명기된 바와 같이 풍치가 탁월한 승경처임을 보여준다. 경물(景物)과 경구(警句)가 육로와 수로에 쌍으로 설정되어 차별성을 갖는 청류구곡은 일제강점기인 1916년 이전, 정순태와 조병순의 주도로 설정된 것으로 판단되지만 성리학자들은 물론 불교지도자, 독립운동가 등 선현들의 장구처 등이 다수 발견되는 것으로 볼 때 오래전부터 명인(名人)들의 산수탐방과 은일처로 활용된 것으로 추정된다. 도림사계곡의 기반암 암상에 구성된 청류구곡은 산지형 하천으로 총 길이 약 1.2km, 평균 곡거리 149m로 국내 여타 구곡에 비해 짧은 것으로 나타났다. 전남지역에서 유일하게 확증된 동악산 3개 구곡의 바위글씨는 총 165건으로 국내에서 가장 많은 바위글씨의 집결지로 판단된다. 특히 112개소로 집계된 청류구곡 바위글씨의 내용 분석결과, '수신(修身)'의 의미가 49점(43.8%)으로 가장 많았으며 다음으로 '인명' 21건(18.8%), '경물' 16건(14.2%), 장구처 등 장구지소' 12건(10.6%) 등이었고 '시구(詩句)'가 차지하는 비율은 6건(3.6%)으로 나타났다. 육로상의 제1곡 쇄연문과 수로상의 제9곡 제시인간별유천(除是人間別有天)은 박세화(朴世和)가 충북 제천에 설정한 용하구곡(用夏九曲)의 제1곡 홍단연쇄(虹斷烟鎖) 및 제9곡 제시인간별유천과 일치하는 것으로 동일한 시원(始原)을 갖는 구곡명으로 유추된다. 또한 육로상 제6곡 대은병(大隱屛)은 주자 무이구곡의 제7곡과 일치하는 것으로 구곡원림의 거점으로 인식되며, 7곡과 8곡 사이의 '암서재(巖棲齋)'와 '포경재(抱經齋)' 바위글씨와 석축 흔적 등은 무이구곡 은병봉 아래 무이정사와 비견되는 것으로, 기호사림의 청류동 활동거점으로 파악된다. 선사어제(鮮史御帝), 보가효우(保家孝友, 고종), 사무사(思無邪, 명나라 의종), 백세청풍(百世淸風, 주자), 청류수석 동악풍경(흥선 대원군) 등 명인들의 명구들이 망라된 동악산 구곡은 높은 유가미학적 가치를 표출함은 물론 의미론적 상징문화경관의 보고라 할 수 있다. 아울러 청류구곡은 수심양성을 위한 유가적 가치체계와 불교 및 도교적 관념 등이 공존하는 유불선(儒彿仙) 3교 문화경관의 결집체로 특성이 부각된다. 청류구곡은 최익현(崔益鉉), 전우(田愚), 기우만(奇宇萬), 송병선(宋秉璿), 황현(黃玹) 등으로 대변되는 조선 후기 사림계층이 성리학의 도통의식을 계승하고 '위정척사'와 '존왕양이(尊王攘夷)', '항일의지 고취' 등의 수단으로 설정되고 활용하는 과정에서 배태(胚胎)된 항일 역사문화 항쟁의 거점으로서 장소성과 의미론적 특성에 충일하다.