• 제목/요약/키워드: Classification accuracy

검색결과 3,065건 처리시간 0.031초

데이터 증강을 통한 딥러닝 기반 주가 패턴 예측 정확도 향상 방안 (Increasing Accuracy of Stock Price Pattern Prediction through Data Augmentation for Deep Learning)

  • 김영준;김여정;이인선;이홍주
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.1-12
    • /
    • 2019
  • 인공지능 기술이 발전하면서 이미지, 음성, 텍스트 등 다양한 분야에 적용되고 있으며, 데이터가 충분한 경우 기존 기법들에 비해 좋은 결과를 보인다. 주식시장은 경제, 정치와 같은 많은 변수에 의해 영향을 받기 때문에, 주식 가격의 움직임 예측은 어려운 과제로 알려져 있다. 다양한 기계학습 기법과 인공지능 기법을 이용하여 주가 패턴을 연구하여 주가의 등락을 예측하려는 시도가 있어왔다. 본 연구는 딥러닝 기법 중 컨볼루셔널 뉴럴 네트워크(CNN)를 기반으로 주가 패턴 예측률 향상을 위한 데이터 증강 방안을 제안한다. CNN은 컨볼루셔널 계층을 통해 이미지에서 특징을 추출하여 뉴럴 네트워크를 이용하여 이미지를 분류한다. 따라서, 본 연구는 주식 데이터를 캔들스틱 차트 이미지로 만들어 CNN을 통해 패턴을 예측하고 분류하고자 한다. 딥러닝은 다량의 데이터가 필요하기에, 주식 차트 이미지에 다양한 데이터 증강(Data Augmentation) 방안을 적용하여 분류 정확도를 향상 시키는 방법을 제안한다. 데이터 증강 방안으로는 차트를 랜덤하게 변경하는 방안과 차트에 가우시안 노이즈를 적용하여 추가 데이터를 생성하였으며, 추가 생성된 데이터를 활용하여 학습하고 테스트 집합에 대한 분류 정확도를 비교하였다. 랜덤하게 차트를 변경하여 데이터를 증강시킨 경우의 분류 정확도는 79.92%였고, 가우시안 노이즈를 적용하여 생성된 데이터를 가지고 학습한 경우의 분류 정확도는 80.98%이었다. 주가의 다음날 상승/하락으로 분류하는 경우에는 60분 단위 캔들 차트가 82.60%의 정확도를 기록하였다.

  • PDF

일개 군 사망신고자료에 기재된 사인의 정확성과 관련요인 (Accuracy of the Registered Cause of Death in a County and its Related Factors)

  • 신희영;신준호;남해성;류소연;임정수;이정애;정은경
    • Journal of Preventive Medicine and Public Health
    • /
    • 제35권2호
    • /
    • pp.153-159
    • /
    • 2002
  • 전라남도의 일개 군에서 1998년 1월 1일부터 1998년 12월 31일까지 사망으로 신고된 건수는 총 504건이었으며, 이중 설문조사와 의무기록조사로 확인사인의 추정이 가능했던 388건을 연구대상으로 하였다. 확인사인을 신고사인과 비교하고 사망자와 사망관련 변수, 신고자의 특성 그리고 사망신고담당 공무원의 특성에 따른 양자간의 일치율을 통해 신고사인의 정확성과 관련된 인자를 파악하였다. 신고사인과 확인사인의 전체적 일치율은 19대 분류상 62.6%을 보였다. 19대 분류에 의한 사인별 일치율을 보면 손상, 중독 및 사망의 외인이 가장 높았고, 그 다음으로는 내분비, 영양 및 대사질환, 신생물, 순환기계질환 순이었다. 반면에 낮은 일치율을 보인 질환은 피부 및 피하조직의 질환, 근골격계 질환, 정신 및 행동장애 이었다. 사망자 및 사망관련변수에 따른 확인사인과 신고사인의 일치율은 사망자가 남자일 때, 사망 연령이 50대와 60대일 때, 그리고 사망원인 진단자가 의사일 때 높았다. 신고자의 특성별로는 신고자의 연령이 증가함에 따라 일치율이 감소하였으며, 신고자의 교육 정도와 직업과도 유의한 관련성이 있었다. 또한 사망신고 담당 공무원의 특성에 따라서는 공무원의 직급이 6급인 경우 7급 이상인 경우에 비해 일치율이 높았다. 확인사인과 신고사인의 일치여부를 종속변수로 하여 단변량분석을 실시한 후 통계적으로 의미 있는 변수에 대한 로지스틱 회귀분석의 결과를 보면, 사망원인 진단자가 의사인 경우 비차비 2.67(95% 신뢰구간: 1.21-5.89)로 높았으며, 사망신고담당 공무원의 직급이 7급 이상인 경우 비차비 0.30(95%신뢰구간: 0.12-0.78)로 낮았다. 사망신고자료에 기재된 신고사인의 정확성과 관련된 요인에 대한 결과를 종합하여 볼 때 무엇보다 중요한 일은 사망을 의사로 하여금 진단하게 하는 일이다. 또한 사망신고담당 공무원의 업무를 명확히 해야 하며 이들을 대상으로 하는 정기적이며 강화된 교육도 강조되어야 할 것이다.

초분광 이미지를 이용한 배나무 화상병에 대한 최적 분광 밴드 선정 (Spectral Band Selection for Detecting Fire Blight Disease in Pear Trees by Narrowband Hyperspectral Imagery)

  • 강예성;박준우;장시형;송혜영;강경석;유찬석;김성헌;전새롬;강태환;김국환
    • 한국농림기상학회지
    • /
    • 제23권1호
    • /
    • pp.15-33
    • /
    • 2021
  • 화상병이란 erwinia amylovora라는 강한 전염성을 보유하고 있어 감염 시 1년 내에 과수를 고사시키며 그 중심으로 반경 500m이내에 과수 재배를 불가능하게 만드는 세균성 바이러스이다. 이 화상병은 과수의 잎과 가지를 진한 갈색 또는 검은색으로 변색시키기 때문에 분광학적으로 검출이 가능하다고 판단되며 이는 다중분광센서를 탑재한 무인기를 이용하는 것이 효율적이다. 그러나 다중분광센서는 적은 중심 파장과 함께 넓은 반치전폭(FWHM)을 가지고 있어 화상병에 가장 민감하게 반응하는 파장 대역을 파악하기 어렵다. 그렇기 때문에, 본 논문에서는 화상병에 감염된 잎과 가지와 비감염된 잎과 가지의 초분광 이미지를 5 nm FWHM으로 취득한 후 각각 10 nm, 25 nm, 50 nm와 80 nm FWHM로 평준화한 후 샘플을 7:3, 5:5와 3:7의 비율로 훈련데이터와 검증데이터로 나누어 의사결정트리 기법으로 최적의 파장을 선정하고 overall accuracy (OA)와 kappa coefficient (KC)를 이용한 분류 정확도 평가를 통해 배나무 화상병 검출가능성을 확인하였다. 화상병에 감염 및 비감염된 잎과 가지의 초분광 반사율을 비교한 결과, green, red edge 및 NIR 영역에서 차이가 두드러지게 나타났으며 첫 번째 분류 노드로 선택된 파장 영역은 대체로 750 nm와 800 nm였다. 잎과 가지 영역의 영상데이터를 의사결정트리 기법을 이용하여 분류정확도를 종합적으로 비교한 결과, 50nm FWHM 인 4개 대역(450, 650, 750, 950nm)은 10nm FWHM인 8개 대역(440, 580, 660, 680, 680, 710, 730, 740nm)의 분류 정확도 차이가 OA에서 1.8%와 KC에서 4.1%로 나타나 더 낮은 비용의 밴드패스필터인 50nm FWHM을 이용하는 것이 더 유리하다고 판단된다. 또한 기존의 50nm FWHM 파장대역들에 25nm FWHM파장대역들(550, 800nm)을 추가하는 것을 통해 화상병 검출뿐만 아니라 농업에서 다양한 역할을 수행할 수 있는 다중분광센서를 개발할 수 있다고 판단된다.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

오피니언 마이닝을 이용한 지능형 VOC 분석시스템 (Intelligent VOC Analyzing System Using Opinion Mining)

  • 김유신;정승렬
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.113-125
    • /
    • 2013
  • 기업 경영에 있어서 고객의 소리(VOC)는 고객 만족도 향상 및 기업의사결정에 매우 중요한 정보이다. 이는 비단 기업뿐만 아니라 대고객, 대민원 업무를 처리하는 모든 조직에 있어서도 동일하다. 때문에 최근에는 기업뿐만 아니라 공공, 의료, 금융, 교육기관 등 거의 모든 조직이 VOC를 수집하여 활용하고 있다. 이러한 VOC는 방문, 전화, 우편, 인터넷게시판, SNS 등 다양한 채널을 통해 전달되지만, 막상 이를 제대로 활용하기는 쉽지 않다. 왜냐하면, 고객이 매우 감정적인 상태에서 고객의 주관적 의사를 음성 또는 문자로 표출하기 때문에 그 형식이나 내용이 정형화되어 있지 않고 저장하기도 어려우며 또한 저장하더라도 매우 방대한 분량의 비정형 데이터로 남기 때문이다. 본 연구는 이러한 비정형 VOC 데이터를 자동으로 분류하고 VOC의 유형과 극성을 판별할 수 있는 오피니언 마이닝 기반의 지능형 VOC 분석 시스템을 제안하였다. 또한 VOC 오피니언 분석의 기준이 되는 주제지향 감성사전 개발 프로세스와 각 단계를 구체적으로 제시하였다. 그리고 본 연구에서 제시한 시스템의 효용성을 검증하기 위하여 의료기관 홈페이지에서 수집한 4,300여건의 VOC 데이터를 이용하여 병원에 특화된 감성어휘와 감성극성값을 도출하여 감성사전을 구축하고 이를 통해 구현된 VOC분류 모형의 정확도를 비교하는 실험을 수행하였다. 그 결과 "칭찬, 친절함, 감사, 무사히, 잘해, 감동, 미소" 등의 어휘는 매우 높은 긍정 오피니언 값을 가지며, "퉁명, 뭡니까, 말하더군요, 무시하는" 등의 어휘들은 강한 부정의 극성값을 가지고 있음을 확인하였다. 또한 VOC의 오피니언 분류 임계값이 -0.50일 때 가장 높은 분류 예측정확도 77.8%를 검증함으로써 오피니언 마이닝 기반의 지능형 VOC 분석시스템의 유효성을 확인하였다. 그러므로 지능형 VOC 분석시스템을 통해 VOC의 실시간 자동 분류 및 대응 우선순위를 도출하여 고객 민원에 대해 신속히 대응한다면, VOC 전담 인력을 효율적으로 운용하면서도 고객 불만을 초기에 해소할 수 있는 긍정적 효과를 기대해 볼 수 있을 것이다. 또한 VOC 텍스트를 분석하고 활용할 수 있는 오피니언 마이닝 모형이라는 새로운 시도를 통해 향후 다양한 분석과 실용 프레임워크의 기틀을 제공할 수 있을 것으로 기대된다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

사상체질진단검사(QSCC II) 설문지 간소화 연구 (A Study on the Simplification of Questionnaire for Sasang Constitution Classification(QSCC II))

  • 박지원;김정아;왕명자
    • 지역사회간호학회지
    • /
    • 제14권2호
    • /
    • pp.334-350
    • /
    • 2003
  • The purpose of this descriptive study was to evaluate the clinical validity of QSCCII (Questionnaire for the Sasang Constitution Classification), whose high accuracy as a constitutional diagnostic tool has been recognized by medical professionals. The subjects of this study were 568 clients from an A university hospital in Suwon. Of the subjects, 259 were health center visitors and 292 were ambulatory clinic visitors. Data were collected using self-reported questionnaire and were analyzed by $X^2$-test and one-way ANOVA. The results of this study as follows: 1. In 4 types of constitution, Soeumin type was found in 41.5% of the subjects. Taeumin type in 39.2%.,and Soyangin type in 19.2%, respectively. There was no Tayangin type found in this study. There were no significant differences on types of constitution by demographic characteristics such as age, sex, marital status, education, religion, and economic status. 2. As for 15 item-selective questionnaire, there were statistically significant differences on the response rate of the 12 items, except items such as A4, A11 and A14, by the types of constitution. When the subjects' own criteria on their constitution were compared to the given constitutional criteria on each item, 4 items such as A6, A11, A13 and A14 were advisable to be excluded from the questionnaire or to be reunited to the other criteria. In the meanwhile, 3 items such as A7, A18 and A15 were desirable to be re-categorized to the other constitutional types and reconstructed to the QSCC II questionnaire. 3. In terms of 106 true-false questionnaire, there were statistically significant differences on the response rate of 46 items by the types of constitution. The 46 items include 15 items (32.6%) of the domain of 'handling something/strength and weakness', 4 items (8.7%) of the domain of 'interpersonal relationship', 9 items (19.6%) of the domain of 'state of mind at ordinary times', 2 items (4.3%) of the domain of 'distinctive emotional characteristics' area, 11 items (23.9%) of the domain of 'specific behavioral trait' and 5 items (10.9%) of the domain of 'physical characteristics'. Therefore, the areas of 'handling something/strength and weakness' and' specific behavioral trait' mainly contributed to the classification of constitutional type. 4. When the 106 true-false items were simplified to the 46 items, statistically significant differences were found on the rate of items allocated to the 3 types of constitution. The rate of selection assigned to the 3 constitutional types of the simplified 46-item questionnaire was higher than that of the original 106-item questionnaire. Conclusions; It was concluded that the rate of selection of each lay person about his own constitutional type would be still higher even though the simplified items of QSCC II questionnaire were applied. If more replicated studies are conducted on the diverse population using the simplifying QSCC II questionnaire in the future, a more simplified standardized Sasang Constitution Questionnaire that is available to the public rather than to medical staffs in the clinical settings could be developed. Moreover, the simplified scale will help nurses deliver more efficient nursing care by providing a more rapid way of health assessment.

  • PDF

UML의 부분-전체 관계에 대한 메타모델 형식화 이론의 적용: 집합연관 및 복합연관 판별 실험 (Applying Meta-model Formalization of Part-Whole Relationship to UML: Experiment on Classification of Aggregation and Composition)

  • 김태경
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.99-118
    • /
    • 2015
  • 정보 시스템 개발에 있어 객체지향 프로그래밍 언어가 널리 사용된다. 이와 함께 객체지향 설계를 뒷받침하는 개념적 모델링 언어에 관한 관심도 높다. 이를 배경으로 통합 모델링 언어 혹은 UML로 알려진 개념적 모델링 언어는 여러 객체 지향 프로그래밍 언어와 함께 사용되면서 사후적 표준으로 자리 잡았다. UML은 클래스를 설계의 중심에 둔다. 또한 클래스들 간의 관계를 통해 체계적인 이해를 가능하게 한다. 특히 부분에 해당하는 클래스들과 전체에 해당하는 클래스의 관계인 부분-전체 관계를 설계할 수 있는 문법 또한 UML에 포함된다. 현실 세계에 부분-전체 관계로 파악될 수 있는 여러대상들이 존재하고 비즈니스 활동에 존재하는 각종 역할들의 구조에서도 부분-전체 관계로 표현될 수 있는 대상들이 보편적으로 보인다. 따라서 UML로 클래스들 간의 부분-전체 관계를 드러내는 일은 자연스럽다. 문제는 부분-전체 관계를 파악하는 활동은 UML 2.0의 표준에 포함되었으나 실제 설계 과정에서 적극 활용하기 위한 실천적 이론화가 부족하다는 점이다. 부분-전체 관계를 집합연관과 복합연관으로 세분화한 UML 문법은 표현 양식에서 부족함은 없을지라도 어떤 대상을 부분-전체로 파악하고, 이를 어떻게 집합연관이나 복합연관으로 분류해야 할 것인지에 대한 판단이 쉽게 결여된다. 지금까지 UML의 부분-전체 관계 규명은 언어적 표현법을 활용하는 것에 치우쳤다. 이와 같은 문제에 대한 대안을 제시하기 위해 본 연구는 메타모델 형식화 이론을 기반으로 UML 사용자가 부분-전체 관계를 판단하고 이를 집합연관과 복합연관으로 분류할 수 있는 실천적 대안을 제시한다. 이를 활용한 실험의 결과 메타모델 형식화가 UML 사용자들에게 통용되어 온 언어적 구분법보다 더 나은 결과를 낳는다는 점이 밝혀졌다. 본 연구는 부분-전체의 판별과 구분에 도움을 주는 실용적인 방법을 제안하고 검증하였다는 점에서 의의가 있다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.