• 제목/요약/키워드: Perform

검색결과 14,221건 처리시간 0.044초

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

스마트교육을 위한 오픈 디지털교과서 (Open Digital Textbook for Smart Education)

  • 구영일;박충식
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.177-189
    • /
    • 2013
  • 스마트교육에서 디지털교과서의 역할은 학습자와 대면하는 교육미디어로써 그 중요성은 재론의 여지없다. 이러한 디지털교과서는 학습자의 편의와 더불어 교수자, 콘텐츠 제작자, 유통업자를 위하여 표준화되어야 활성화되고 산업화될 수 있다. 본 연구에서는 다음과 같은 3가지 목표를 지향하는 디지털교과서 표준화 방안을 모색한다. (1) 디지털교과서는 온-오프 수업을 모두 지원하는 혼합학습 매체의 역할을 해야 하며, 특별한 전용뷰어 없이 표준을 준수하는 모든 EPUB 뷰어에서 실행가능 해야 하며, 기존의 이러닝 학습 콘텐츠와 학습관리시스템를 활용할 수 있도록 하며, 디지털 교과서를 사용하는 학습자의 정보를 추적 관리할 수 있는 트랙킹기능이 있으면서도, 오프라인 동안의 정보를 축적하여 서버와 통신할 수 있는 기능도 필요하다. 디지털교과서의 표준으로서 EPUB을 고려하는 이유는 디지털교과서가 책의 형태를 가져야 하는데 이를 위해서 따로 표준을 정할 필요가 없으며, EPUB 표준을 채택함으로써 풍부한 콘텐츠, 유통구조, 산업기반을 활용할 수 있기 때문이다. (2) 디지털교과서는 오픈소스를 적극 활용하여 저비용으로 현재 사용가능한 서비스를 구성하여 표준과 더불어 실제 실행 가능한 프로그램으로 제시되어야 하며, 관련 학습 콘텐츠가 오픈마켓의 형태로 운영될 수 있어야 한다. (3) 디지털교과서는 학습자에게 적절한 학습 피드백을 제공하기 위하여 모든 학습활동 정보를 축적하고 관리될 수 있는 인프라를 표준에 따라 구축하여 교육 빅데이터 처리의 기반을 제공하여야 한다. 이북 표준인 EPUB 3.0을 기반으로 하는 오픈 디지털교과서는 (1) 학습활동 정보를 기록하고 (2) 이 학습활동 지원을 위한 서버와 통신하여야 한다. 현재 표준으로 정해져 있지 않은 이북의 기록과 통신 기능을 EPUB 3.0의 JavaScript로 구현하여 현재 EPUB 3.0 뷰어에서도 활용하면서 이를 차세대 이북 표준 또는 교육을 위한 이북 표준(EPUB 3.0 for education)으로 제안하여 향후 제정된 표준 이북 뷰어에서는 JavaScript없이도 처리되도록 하는 전략이 필요하다. 향후 연구는 제안한 오픈 디지털교과서 표준에 의한 오픈소스 프로그램을 개발하고, 개발된 오픈 디지털교과서의 학습활동정보를 활용한 새로운 교육서비스 방안(교육 빅데이터 활용방안 포함)을 제시하는 것이다.

고객 맞춤형 서비스를 위한 관객 행동 기반 감정예측모형 (The Audience Behavior-based Emotion Prediction Model for Personalized Service)

  • 유은정;안현철;김재경
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.73-85
    • /
    • 2013
  • 정보기술의 비약적 발전에 힘입어, 오늘날 기업들은 지금까지 축적한 고객 데이터를 기반으로 맞춤형 서비스를 제공하는 것에 많은 관심을 가지고 있다. 고객에게 소구하는 맞춤형 서비스를 효과적으로 제공하기 위해서는 우선 그 고객이 처한 상태나 상황을 정확하게 인지하는 것이 중요하다. 특히, 고객에게 서비스가 전달되는 이른바 진실의 순간에 해당 고객의 감정 상태를 정확히 인지할 수 있다면, 기업은 더 양질의 맞춤형 서비스를 제공할 수 있을 것이다. 이와 관련하여 사람의 얼굴과 행동을 이용하여 사람의 감정을 판단하고 개인화 서비스를 제공하기 위한 연구가 활발하게 이루어지고 있다. 얼굴 표정을 통해 사람의 감정을 판단하는 연구는 좀 더 미세하고 확실한 변화를 통해 정확하게 감정을 판단할 수 있지만, 장비와 환경의 제약으로 실제 환경에서 다수의 관객을 대상으로 사용하기에는 다소 어려움이 있다. 이에 본 연구에서는 Plutchik의 감정 분류 체계를 기반으로 사람들의 행동을 통해 감정을 추론해내는 모형을 개발하는 것을 목표로 한다. 본 연구는 콘텐츠에 의해 유발된 사람들의 감정적인 변화를 사람들의 행동 변화를 통해 판단하고 예측하는 모형을 개발하고, 4가지 감정 별 행동 특징을 추출하여 각 감정에 따라 최적화된 예측 모형을 구축하는 것을 목표로 한다. 모형 구축을 위해 사람들에게 적절한 감정 자극영상을 제공하고 그 신체 반응을 수집하였으며, 사람들의 신체 영역을 나누었다. 특히, 모션캡쳐 분야에서 널리 쓰이는 차영상 기법을 적용하여 사람들의 제스쳐를 추출 및 보정하였다. 이후 전처리 과정을 통해 데이터의 타임프레임 셋을 20, 30, 40 프레임의 3가지로 설정하고, 데이터를 학습용, 테스트용, 검증용으로 구분하여 인공신경망 모형을 통해 학습시키고 성과를 평가하였다. 다수의 일반인들을 대상으로 수집된 데이터를 이용하여 제안 모형을 구축하고 평가한 결과, 프레임셋에 따라 예측 성과가 변화함을 알 수 있었다. 감정 별 최적 예측 성과를 보이는 프레임을 확인할 수 있었는데, 이는 감정에 따라 감정의 표출 시간이 다르기 때문인 것으로 판단된다. 이는 행동에 기반한 제안된 감정예측모형이 감정에 따라 효과적으로 감정을 예측할 수 있으며, 실제 서비스 환경에서 사용할 수 있는 효과적인 알고리즘이 될 수 있을 것으로 기대할 수 있다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

전문성 이식을 통한 딥러닝 기반 전문 이미지 해석 방법론 (Deep Learning-based Professional Image Interpretation Using Expertise Transplant)

  • 김태진;김남규
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.79-104
    • /
    • 2020
  • 최근 텍스트와 이미지 딥러닝 기술의 괄목할만한 발전에 힘입어, 두 분야의 접점에 해당하는 이미지 캡셔닝에 대한 관심이 급증하고 있다. 이미지 캡셔닝은 주어진 이미지에 대한 캡션을 자동으로 생성하는 기술로, 이미지 이해와 텍스트 생성을 동시에 다룬다. 다양한 활용 가능성 덕분에 인공지능의 핵심 연구 분야 중 하나로 자리매김하고 있으며, 성능을 다양한 측면에서 향상시키고자 하는 시도가 꾸준히 이루어지고 있다. 하지만 이처럼 이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다. 동일한 이미지에 대해서도 이미지를 접한 사람의 전문 분야에 따라 관심을 갖고 주목하는 부분이 상이할 뿐 아니라, 전문성의 수준에 따라 이를 해석하고 표현하는 방식도 다르다. 이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하기 위한 방안을 제안한다. 구체적으로 제안 방법론은 방대한 양의 일반 데이터에 대해 사전 학습을 수행한 후, 소량의 전문 데이터에 대한 전이 학습을 통해 해당 분야의 전문성을 이식한다. 또한 본 연구에서는 이 과정에서 발생하게 되는 관찰간 간섭 문제를 해결하기 위해 '특성 독립 전이 학습' 방안을 제안한다. 제안 방법론의 실현 가능성을 파악하기 위해 MSCOCO의 이미지-캡션 데이터 셋을 활용하여 사전 학습을 수행하고, 미술 치료사의 자문을 토대로 생성한 '이미지-전문 캡션' 데이터를 활용하여 전문성을 이식하는 실험을 수행하였다. 실험 결과 일반 데이터에 대한 학습을 통해 생성된 캡션은 전문적 해석과 무관한 내용을 다수 포함하는 것과 달리, 제안 방법론에 따라 생성된 캡션은 이식된 전문성 관점에서의 캡션을 생성함을 확인하였다. 본 연구는 전문 이미지 해석이라는 새로운 연구 목표를 제안하였고, 이를 위해 전이 학습의 새로운 활용 방안과 특정 도메인에 특화된 캡션을 생성하는 방법을 제시하였다.

PET/CT 검사에서 Flow mode를 적용한 Respiratory Gating Method 촬영과 추가 Gating 촬영의 비교 및 유용성 평가 (Comparison and Evaluation of the Effectiveness between Respiratory Gating Method Applying The Flow Mode and Additional Gated Method in PET/CT Scanning.)

  • 장동훈;김경훈;이진형;조현덕;박소현;박영재;이인원
    • 핵의학기술
    • /
    • 제21권1호
    • /
    • pp.54-59
    • /
    • 2017
  • 폐암(Lung cancer) 환자의 경우 PET/CT 검사에서 호흡으로 인하여 영상의 정합오차가 발생하게 되는데 이로 인해 정확한 SUV 와 Tumor volume측정을 방해하는 요인으로 작용된다. $SUV_{max}$를 이용하여 폐암 환자의 수술 후 예측 및 항암화학요법의 효과를 평가하고 있으며, 방사선치료의 예후 예측 및 평가를 위해 현재 Tumor volume과 SUV를 이용한 지표가 사용되고 있다. 그렇기 때문에 정합오차를 줄이기 위해 본원에서는 Respiratory gating method를 적용하여 검사를 시행하고 있다. 본 연구는 Step and Go 방식이 아닌 Flow mode를 적용하여 Non-gating 영상과 첫 번째 Respiratory Gating영상, 그리고 추가로 부분 Respiratory gating 촬영하여 Respiratory gating method의 유용성에대해 알아보았다. 2016년 6월부터 2016년 9월까지 분당서울대학교병원에서 PET/CT 검사를 한 폐암 환자 20명(남:12명, 여:8명)을 대상으로 amplitude rang 15% 미만인 호흡이 안정한 환자군 10명 15%초과한 호흡이 불안정한 환자군 10명으로 나누어 비교분석하였다. 전체 환자에서 Non-gating 영상의 $SUV_{max}$$9.43{\pm}3.93$, $SUV_{mean}$$1.77{\pm}0.89$, Tumor Volume은 $4.17{\pm}2.41$로 측정되었고 기존 Gating 영상에서 $SUV_{max}$$10.08{\pm}4.07$, $SUV_{mean}$$1.75{\pm}0.81$, Tumor Volume은 $3.56{\pm}2.11$로 측정되었다. 그리고 추가 Lung gating 영상에서 $SUV_{max}$$10.86{\pm}4.36$, $SUV_{mean}$$1.77{\pm}0.85$, Tumor volume은 $3.36{\pm}1.98$을 얻었다. Non-gating 영상과 기존 Gating 영상, 그리고 기존 Gating 영상과 추가 Lung gating 영상을 비교했을 때 둘 다 $SUV_{mean}$ 값에서 통계적으로 유의한 차이를 보이지 않았으나(P>0.05) $SUV_{max}$와 Tumor volume에서 유의한 차이를 보였다(P<0.05). 그중 호흡이 안정한 환자군보다 호흡이 불안정한 환자군에서의 증감률이 더 크게 나타났다. Amplitude range 폭은 전체 20명 중 12명(Signal이 안정된 환자 3명 불안정한 환자 9명)이 추가 Lung gating을 했을 때 기존 Gating 영상보다 더 낮게 나타났다. 본 연구에 의하면 Flow mode를 적용하여 Respiration Gating Method로 촬영한 결과 추가적인 CT 촬영 없이 호흡으로 인해 발생하는 병변의 움직임을 보정해 주어 $SUV_{max}$, Tumor volume을 Non-gating 영상보다 더 정확하게 측정할 수 있었다. 그리고 처음 Gating 할 때보다 추가 촬영 시 호흡의 안정에 따른 Amplitude range 폭의 낮아짐을 알 수 있었다. 따라서 Gating 영상이 Non-gating 영상보다 진단에 더 유용한 정보를 제공함을 알 수 있었고, Signal이 불규칙적인 환자에게 시간적 여유가 있다면 추가로 부분 촬영을 하는 것이 도움이 될 것이라고 사료된다.

  • PDF

Thyroglobulin 검사의 반응조건에 따른 결과 비교 분석 (Comparison of Results According to Reaction Conditions of Thyroglobulin Test)

  • 정승희;이영지;문형호;유소연;김년옥
    • 핵의학기술
    • /
    • 제21권1호
    • /
    • pp.39-43
    • /
    • 2017
  • Thyroglobulin (Tg)은 갑상선에서 특이적으로 생성되는 요오드단백질로써 분화갑상선 암(Differentiate Thyroid Carcinoma, DTC) 의 생물학적 표지자이다. 본 검사실의 Tg 검사법은 반응시간이 길어 진료과와 환자들의 결과보고 요청사항을 만족시키지 못하고 있는 상황이다. 이를 만족시키기 위해 Tg 검사의 반응시간을 단축하고자 현재 사용중인 B사 Kit와 타 병원에서 사용중인 C사 Kit의 반응시간을 단축시켜 실험을 진행하였다. 본원에 의뢰된 Tg 약 65명의 환자 검체를 대상으로 B사 Kit의 반응시간을 $37^{\circ}C$ shaking 2hr/2hr, 실온 shaking 3hr/2hr, $37^{\circ}C$ shaking 1hr/1hr으로, C사 Kit의 원법인 실온 shaking 3hr법과 반응시간을 단축한 실온 shaking 2hr, $37^{\circ}C$ shaking 2hr 방법으로 단축하여 기존에 시행하던 overnight법과 상관성검사를 실시하여 비교하였다. 그 결과 여섯가지 방법 모두 1.0 ng/mL 이상의 값에서는 높은 상관관계를 보였으나 1.0 ng/mL 이하의 값에서는 다소 흔들리는 경향이 있었다. 하지만 그 중 상대적으로 안정적이었던 B사 Kit $37^{\circ}C$ shaking 1hr/1hr 법과 C사 Kit 실온 shaking 2hr 법에 대해 다른 조건들을 재설정하여 적합한 방법을 찾는다면 진료과와 환자들의 요구 사항 충족은 물론, EIA법과의 경쟁력 면에서도 유용할 것이다.

  • PDF

사고가 시각을 바꾼다: 조절 초점에 따른 소비자 감성 기반 웹 스타일 평가 모형 및 추천 알고리즘 개발 (Individual Thinking Style leads its Emotional Perception: Development of Web-style Design Evaluation Model and Recommendation Algorithm Depending on Consumer Regulatory Focus)

  • 김건우;박도형
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.171-196
    • /
    • 2018
  • 본 연구는 디자인 영역 중 웹 스타일에 대해서 소비자 감성과 만족과의 관계를 연구했다. 기존 웹 스타일 연구들은 웹의 레이아웃과 구조도 등과 색상 등이 감성에 미치는 영향에서 연구했다. 본 연구는 기존 연구들과 차별되게 웹의 구성 요소를 배제하고 소비자의 감성 지표만을 갖고 소비자 만족과의 관계를 분석했다. 분석을 위해 검증을 위해 소비자 204명을 대상으로 40개 웹 스타일 테마를 선정, 각 소비자에게 4개씩 평가하도록 하였다. 소비자에게 평가하도록 한 감성 형용사는 18개의 대비되는 쌍을 갖는 감성 형용사로 구성하였고, 요인 분석을 통해 상위 감성 지표를 추출했다. 각 감성 지표들은 '부드러움', '모던함', '명확함', '꽉 참' 이었으며, 감성지표들이 소비자 만족에 미치는 영향이 다를 것으로 판단하여 가설을 수립했다. 분석 결과에 따라 가설 1과 2, 3은 채택되었으며, 가설 4의 경우는 기각되었다. 가설 4의 경우 기각되었지만 정의 방향이 아닌 부의 방향으로 유의한 것으로 나타났다. 이때, 조절 초점 성향이 감성이라는 정보처리 과정에서 소비자 만족에 미치는 영향이 다를 것으로 판단했다. 조절 초점 성향은 조직 행동 및 의사결정에 영향을 주기도 하며, 정치, 문화, 윤리적 판단 및 행동은 물론 광범위적 심리적 문제와 사고 프로세스, 감정적 반응에도 영향을 미친다. 때문에 각 감성 지표에 대한 조절 초점 간 차이를 확인할 필요성이 있고, 각 감성 지표에 대한 세부 가설을 수립했다. 세부 가설을 검증하기 위해 조절 회귀 분석을 수행했다. 분석 결과 가설 5는 부분적으로 지지됐고, 가설 5.3만 지지되었고, 5.4의 경우 기각되었지만 가설과의 반대 방향으로 지지되었다. '명확함'의 경우 향상 초점이 소비자 만족에 더 큰 영향을 보였고, 예방 초점일수록 '꽉 참'을 더 선호한 것으로 나타났다. 분석 결과를 바탕으로 조절 초점 성향을 향상, 예방, 중간 성향으로 3집단으로 구분, 소비자 감성 기반으로 웹 스타일에 대한 추천을 할 수 있는 알고리즘을 개발했다.

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.

메타데이터 상호운용성을 위한 기록관리 메타데이터 표준 분석 5W1H와 태스크 모델의 관점에서 (Analysis of Metadata Standards of Record Management for Metadata Interoperability From the viewpoint of the Task model and 5W1H)

  • 백재은;스기모토 시게오
    • 기록학연구
    • /
    • 제32호
    • /
    • pp.127-176
    • /
    • 2012
  • 메타데이터 표준규격(이하 메타데이터 표준으로 기재)은 디지털 자원(Digital resource)의 장기보존 및 디지털 아카이브를 위해 필요한 기본 요소 중 하나로, 이는 현대 정보사회에서 중요한 요소로 잘 알려져 있다. 자원(Resource)의 기록관리와 아카이브, 장기보존을 위한 메타데이터 표준은 다양하며, AGRkMS, EAD, ISAD(G), OAIS, PREMIS5) 등이 이용되고 있다. 우리는 아카이브 시스템의 메타데이터 표준을 디자인하기 위해 목적에 따른 메타데이터 표준을 선택하고 맞춤화(Customization)하지 않으면 안 된다. 한편으로, 다른 시스템의 메타데이터 스키마와의 상호운용성(Interoperability)에 대한 고찰도 실시하지 않으면 안 된다. 이전 연구에서, 우리는 기록 생애 주기(Records lifecycle)라는 관점으로부터 메타데이터 표준의 특성에 대해 분석을 실시하였다. 이로 인해, 각 메타데이터 표준 요소가 해당하는 기록 생애 주기의 처음 단계를 확인할 수 있었고, 아카이브 혹은 보존을 위해서는 하나의 메타데이터 표준만으로 기록 생애 주기 전체를 포괄할 수 없다는 것을 보여 주었다. 우리는 이 분석을 통해서 기록 생애 주기의 단계와 메타데이터 표준간의 관계, 기록 생애 주기 전체에서의 메타데이터 특성은 볼 수 있었으나, 보다 상세한 분석을 실시하는 것은 앞으로의 과제로 남겨두었다. 지금까지의 연구에 근거하여, 본 논문은 기록 생애 주기의 관점에서 디지털 아카이브와 보존, 기록관리를 위한 메타데이터 표준의 특징 분석을 위해, 기록 생애 주기 안에서 실행되는 업무의 관점으로부터 메타데이터 스키마를 재 파악하고 분석하였다. 지금까지 메타데이터 스키마는 기술대상이 되는 자원을 중심으로 정의되었기 때문에 기록 생애 주기 전체와 생애 주기 안의 각 단계에서 이용되는 메타데이터 표준간의 매핑을 위한 적절한 방법이 없었다. 이에 본 논문에서는 각기 다른 메타데이터 표준의 기술 요소를, 기록 생애 주기에 포함시키는 업무와 연결시키는 것으로 메타데이터 표준간의 매핑 방법을 제안한다. 본 연구에서는 메타데이터 표준 분석을 위한 프레임워크(Framework)로, 기록 생애 주기를 이용하여 작성한 자원의 업무중심 모델, 즉 태스크 모델(Task Model)을 제안한다. 태스크 모델을 이용함에 있어서 업무를 실행하는 '이벤트(Event)'의 관점을 보다 명확하게 할 수 있다. 한편, 업무를 중심으로 기술 요소간의 매핑을 보다 효율적으로 실시하기 위해서는 요소를 카테고리 화하여 매핑의 대상 범위를 좁히는 것이 중요하다. 이를 위해 우리는 범용성을 가진 5W1H모델(Who, What, Why, When, Where, How)을 이용하여, 기술 요소를 카테고리 화 하는 것을 제안한다. 그리고 태스크 모델과 5W1H 모델을 이용하여 메타데이터 표준 요소에 특징을 부여하고, 요소 간의 매핑을 실시하여 표준 간 관계를 확인하였다. 태스크 모델은 기록 생애 주기 전체에 업무의 관점을 반영한 것으로, 이 모델을 이용함으로써 기록 생애 주기와 그 안의 각 업무에 대한 메타데이터 표준의 사용, 그리고 특징 분석을 위해 실시되는 기술 요소간의 매핑이 가능할 수 있었다. 또한, 5W1H 카테고리를 이용하여 업무와 자원에 관련되는 기술 요소간의 관계를 살펴보는 것으로, 관계가 명확해지는 것과 함께 조사대상을 좁히는 것이 가능하게 되었다. 이 프레임워크의 제안과 이용으로 우리는 특징 분석을 위해 실시되는 매핑 혹은 분류가 단순한 일반적인 매핑이 아닌 의미적인 분류를 할 수 있었다. 본 연구에서는 이 모델들을 이용하여, 메타데이터 표준간의 크로스워크를 정의하였다. 그리고 태스크 모델의 각 단계의 문맥 내에서 메타데이터 기술 요소의 특성을 매핑 예로 확인하고, 이를 바탕으로 하여 프레임워크에 대해 고찰하였다.