• Title/Summary/Keyword: Classification of Information System

Search Result 3,017, Processing Time 0.034 seconds

ICT 의료시설 기반에서 종사자의 소방안전 지식과 대처방법 인식수준 (ICT Medical Service Provider's Knowledge and level of recognizing how to cope with fire fighting safety)

  • 김자숙;김자옥;안영준
    • 한국전자통신학회논문지
    • /
    • 제9권1호
    • /
    • pp.51-60
    • /
    • 2014
  • 본 연구는 광주 전남지역 ICT 의료시설 기반에서 종사자를 대상으로 소방안전 지식과 대처방법 인식수준의 정도를 파악하고 차이를 조사하여 ICT 의료시설 기반에서 소방안전 대처방법 교육 매뉴얼의 기초자료를 제공하기 위하여 수행 되었다. 자료는 SPSS Win 14.0을 사용하여 분석하였다. 연구결과 ICT 의료시설 기반에서 종사자의 소방안전 지식은 10점 만점에 7.06점, 소방 대처방법 인식수준은 11점 만점에 6.61점이었다. ICT 의료시설 기반에서 종사자의 일반적 특성과 소방안전 대처방법 인식수준을 분석한 결과 성별(t=4.12, p<.001, 연령(${\chi}^2$=17.24, p<.001), 근무경력(${\chi}^2$=22.76, p<.001), 소방안전교육 경험 유무(t=6.10, p<.001), 소방안전에 대한 본인의 주관적 지식정도(${\chi}^2$=53.83, p<.001)에서 통계적으로 유의한 차이가 있었다. 따라서 ICT 의료시설 기반에서 종사자의 소방안전 대처를 증진하기 위해서는 강의 중심의 지식 전달 교육을 지양하고, 자기 주도적 학습, 개인별 맞춤학습, 협동 학습을 강조하는 다양한 콘텐츠 개발을 통한 실무 체험 중심의 소방안전 교육, 시뮬레이션을 이용한 환자분류체계별 배치와 광역 화재감지를 위한 적외선 레이저 연기검출, 다중포인트 통신 프로토콜에 의한 디지털 화재 방지 모니터링 시스템, 영상기반 화재검출, 화재감지를 위한 로봇 설계 및 테이터 처리등의 다학문적인 접근을 통한 ICT 의료시설 기반에서 소방안전 대처에 관한 교육 매뉴얼의 개발이 필요하다고 사료된다.

플랫폼 기반 비즈니스에 대한 국내 연구동향 및 미래를 위한 가이드라인 (Research Trend and Futuristic Guideline of Platform-Based Business in Korea)

  • 남수현
    • 경영과정보연구
    • /
    • 제39권1호
    • /
    • pp.93-114
    • /
    • 2020
  • 플랫폼은 기존 전통적인 선형적 파이프라인 기반 비즈니스 모델에 대응하는 대안으로 떠오르고 있다. 특히 최근의 4차 산업혁명시대에 효율성 주도의 파이프라인 기반은 조정 주도의 플랫폼 기반으로 변환되어야 한다는 것이 일반적인 인식이다. 플랫폼 성공사례는 애풀, 구글, 아마존, 우버 등에서 쉽게 찾을 수 있다. 그러나 규모가 크지 않은 기업에서는 플랫폼 비즈니스로의 전환 전략을 찾기가 쉽지 않다. 플랫폼 비즈니스의 핵심은 네트워크 효과를 경영활동에 도입하여 활용하는 것이다. 따라서 플랫폼 비즈니스는 경영활동 기능에서 네트워크 효과 관리를 어떻게 할 것인가와 유사하다. 플랫폼 관련 연구는 최근 활발하고 다양하다. 그러나 이 분야의 연구 동향에 대한 연구는 많지 않다. 본 연구의 주요 목적은 최근 국내에서 수행된 플랫폼 관련 연구를 통하여 연구동향을 이해하는 것이다. 이를 위해서 우리는 연구가설과 명제를 제시하였다. 데이터는 연구논문으로 한국학술지인용색인 시스템에서 "플랫폼" 혹은 "platform"을 키워드 속성으로부터 얻었다. 수집된 논문집합은 "경영학" 분야로 국한하여 구성하였다. 선택된 논문들을 대상으로 연구된 플랫폼 요소, 플랫폼 유형, 주요 연구 내용 등에 대해 56개의 논문에 대해 분석을 하였다. 56개의 데이터를 이용하여 탐색적인 연구가설을 검증하였고, 명제를 제안하였다. 본 연구의 시사점은 연구자들에게 연구 영역 중, 많은 연구가 수행되어 온 성숙 영역과 아직 더 많은 연구가 필요한 분야를 제시하였다. 또한 실무자들에게는 파이프라인 비즈니스로부터 플랫폼 기반 비즈니스로 변화를 추구하는 가이드라인을 제시한 것이다. 가이드라인의 핵심은 극대화하기 위해서는 IT플랫폼 시스템을 기반으로 소비자와 공급자 네트워크를 점진적으로 조정하고 관리하여야 한다는 것이다. 본 연구는 데이터 수집과 수집된 데이터의 구분 및 주요 연구내용 등 주관적인 판단 요소가 많아 추론적이 아닌 탐색적 연구로 간주되어야 할 것이다.

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

제주도 공공 관정 지질주상도 DB 구축 소개 (Study of Geological Log Database for Public Wells, Jeju Island)

  • 박성현;고기원;박준범;문덕철;윤우석
    • 자원환경지질
    • /
    • 제48권6호
    • /
    • pp.509-523
    • /
    • 2015
  • 제주도 수문지질 종합 해석시스템 구축 연구의 일환으로 수행된 제주도 공공 관정 지질주상도 데이터베이스 구축결과를 소개한다. 1970년대부터 개발된 제주도 전역의1,200여 개 공공 관정의 지질주상도를 수문지질 조사소(炤)${\Pi}$$^{\circ}$ 범용할 수 있도록 6개의 속성 테이블로 구분하여 세부 정보를 데이터베이스화하여 분석을 수행한 결과, 기존 공공 관정지질주상도 이용에 다음과 같은 문제점이 있는 것으로 나타났다. 즉, (1) 지질주상도 암석명의 통일성 결여, (2) 화산쇄설층 및 사력층 개념 정립 필요, (3) 대수층 정보 불포함, (4) 상당수 관정에 대한 스크린설치 구간 심도 미기재, (5) 지질주상도 작성자별 기재 사항 및 내용상의 상이성 등이다. 연구팀은 상기와 같은 문제점들을 개선하기 위해 지질주상도상의 화산암 및 퇴적암 명칭을 재정립함과 아울러, 상용화된 데이터베이스 형식의 지질주상도 프로그램을 이용해 표준화된 입력과 출력형식 생성이 가능한 제주도 공공 관정 지질주상도 데이터베이스를 구축하였다. 새롭게 설계된 입력 테이블을 이용한 지질주상도 프로그램은 데이터베이스 입력 형식 기반을 가지고 있어, 사용자가 지정한 표준화된 입력 구조를 통해 지질, 관정 시추 및 시험 데이터들을 저장하여 데이터베이스화 함과 동시에 지질주상도와 단면도 출력에도 이용할 수 있다. 또한 지하수 관측 및 양수시험 결과 등의 새로운 자료도 데이터베이스 구조의 변경없이 쉽게 추가될 수 있다. 본 연구를 통해 구축된 지질주상도 데이터베이스는 향후 개발되는 관정들의 표준 데이터베이스 기준으로 활용됨으로써, 일관성 있는 지질주상도 작성과 수문지질 종합연구에 크게 도움이 될 전망이다. 또한, 현재 추진 중인 제주도 수문지질 해석시스템 개발과 기후변화에 대응한 통합수자원관리계획 기반기술을 뒷받침해 주는 초석이 될 것으로 기대된다.

소규모 환경영향평가 제도개선을 통한 지자체 환경영향평가 효과성 증진방안 (Effectiveness Enhancement Measures for Local Government Environmental Impact Assessment (EIA) by Improving Small-scale EIA Institution)

  • 이종욱;조경두
    • 환경영향평가
    • /
    • 제32권1호
    • /
    • pp.15-28
    • /
    • 2023
  • 우리나라 소규모 환경영향평가의 대상사업 범위는 사업 유형 및 용도지역 구분에 따라 계획면적이 5,000~60,000m2 이상으로 규정되어 있지만, 지자체 환경영향평가 대상의 하한은 이보다 상단에 위치하므로 중복 범위가 존재한다. 이는 2016년 11월 일부 개정된 「환경영향평가법 시행령」에 소규모 환경영향평가 대상사업으로 도로사업과 지구단위계획이 포함되면서 확대된 사안으로, 기존에 지자체 환경영향평가 대상이었던 사업까지도 지역 차원의 의견수렴과 검토 절차 없이 소규모 환경영향평가만으로 협의가 완료되고 있는 현행 협의 제도는 논의가 필요하다. 지자체 환경영향평가 대상사업에 해당하였으나 소규모 환경영향평가로 협의 완료된 개발사업은 소수이므로 중요성이 작아 보일 수 있으나, 지방 정부가 지자체 환경영향평가 대상사업을 추가하고자 하더라도 소규모 환경영향평가로 인해 실행할 수 없는 상황이 조성되므로 주목할 필요가 있다. 본 연구는 지자체 환경영향평가의 효과성을 증진시키기 위한 제도개선 방안으로 다음을 제시하였다. 첫째, 소규모 환경영향평가 협의 과정에 지역의 구체적 환경특성과 지리 여건이 반영된 검토 의견이 제시될 수 있도록 제도적 장치를 보완하는 방안이다. 둘째, 「환경영향평가법」 제42조 1항의 지자체 환경영향평가 예외 조문에 대한 일부 개정을 통해, 대상사업 범위 중복구간의 사업들이 지자체 환경영향평가 대상으로 우선 협의되도록 하는 방안이다. 셋째, 규모가 작더라도 지역의 특수성을 반영하여 지자체 환경영향평가 수행이 꼭 필요하다고 판단되는 대상사업들을 조례에 포함하는 방안이다. 난개발과 보전 필요지역 훼손 방지라는 소규모 환경영향평가의 긍정적 기능이 있다 하더라도, 지자체 내 다수 사업이 지역으로부터의 검토 없이 협의되는 상황을 개선하기 위한 노력이 필요하다.

기후변화에 따른 남색이마잠자리 잠재적 서식지 및 미래 분포예측 (Predicting the Potential Habitat and Future Distribution of Brachydiplax chalybea flavovittata Ris, 1911 (Odonata: Libellulidae))

  • 권순직;전영철;권혁영;황인철;이창수;김태근
    • 한국습지학회지
    • /
    • 제25권4호
    • /
    • pp.335-344
    • /
    • 2023
  • 기후변화 생물지표인 남색이마잠자리(B. chalybea flavovittata)는 우리나라에는 2010년 제주도에서 최초로 관찰되어 기록된 이후 최근 영산강 일대에서 월동이 확인되었다. 본 연구는 MaxEnt 모델을 이용하여 남색이마잠자리의 잠재적 분포를 예측하고, 기후변화에 따른 서식지 확산을 예측하고자 하였다. 본 종의 분포 자료는 세계생물다양성정보 기구인 GBIF의 검색 결과를 수집하였으며, 2019년 5월부터 2023년 5월까지 확보된 현장조사 결과를 포함하였다. 또한, 생물기후변수는 WorldClim 데이터베이스에서 제공받아 사용하였다. 잠재적 종 분포예측과 미래 분포예측은 MaxEnt 모델을 사용하였다. 유충은 위도상 제주특별자치도 제주시(33.318096°)부터 경기도 여주시(37.366734°)까지, 경도상 전라남도 진도군(126.054925°)부터 경상남도 양산시(129.016472°)까지 관찰되었다. 본 종의 서식지는 람사르 습지유형 분류체계에 따라 M(permanent rivers, streams, creeks) 유형의 습지가 12개소(50.0%)로 가장 많았으며, Tp(permanent freshwater marshes, pools) 유형이 11개소(45.8%), F(estuarine waters) 유형이 1개소(4.2%)로 분류되었다. 현재 분포지역에 기초하여 MaxEnt 모델을 이용한 잠재적 분포 예측 결과, 기존 서식지 외에 울산광역시, 대구광역시 일대가 서식확률이 높았다. 또한, 미래 시나리오를 적용하였을 때, 2050년대와 2090년대 분포 가능지역이 넓어져 가까운 미래에 남부 서남해안, 남부 내륙 대구광역시 일대, 동해안 일대로 서식범위가 확장될 것으로 예측되었다. 남색이마잠자리는 가까운 미래에 서식범위를 확장할 가능성이 높게 예측되었는데, 본 연구 결과는 향후 모니터링을 지속하면서 서식지를 공유하는 토착 자생생물자원의 보전 및 관리를 위한 기초자료를 제공할 수 있을 것으로 기대한다.

KB-BERT: 금융 특화 한국어 사전학습 언어모델과 그 응용 (KB-BERT: Training and Application of Korean Pre-trained Language Model in Financial Domain)

  • 김동규;이동욱;박장원;오성우;권성준;이인용;최동원
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.191-206
    • /
    • 2022
  • 대량의 말뭉치를 비지도 방식으로 학습하여 자연어 지식을 획득할 수 있는 사전학습 언어모델(Pre-trained Language Model)은 최근 자연어 처리 모델 개발에 있어 매우 일반적인 요소이다. 하지만, 여타 기계학습 방식의 성격과 동일하게 사전학습 언어모델 또한 학습 단계에 사용된 자연어 말뭉치의 특성으로부터 영향을 받으며, 이후 사전학습 언어모델이 실제 활용되는 응용단계 태스크(Downstream task)가 적용되는 도메인에 따라 최종 모델 성능에서 큰 차이를 보인다. 이와 같은 이유로, 법률, 의료 등 다양한 분야에서 사전학습 언어모델을 최적화된 방식으로 활용하기 위해 각 도메인에 특화된 사전학습 언어모델을 학습시킬 수 있는 방법론에 관한 연구가 매우 중요한 방향으로 대두되고 있다. 본 연구에서는 금융(Finance) 도메인에서 다양한 자연어 처리 기반 서비스 개발에 활용될 수 있는 금융 특화 사전학습 언어모델의 학습 과정 및 그 응용 방식에 대해 논한다. 금융 도메인 지식을 보유한 언어모델의 사전학습을 위해 경제 뉴스, 금융 상품 설명서 등으로 구성된 금융 특화 말뭉치가 사용되었으며, 학습된 언어 모델의 금융 지식을 정량적으로 평가하기 위해 토픽 분류, 감성 분류, 질의 응답의 세 종류 자연어 처리 데이터셋에서의 모델 성능을 측정하였다. 금융 도메인 말뭉치를 기반으로 사전 학습된 KB-BERT는 KoELECTRA, KLUE-RoBERTa 등 State-of-the-art 한국어 사전학습 언어 모델과 비교하여 일반적인 언어 지식을 요구하는 범용 벤치마크 데이터셋에서 견줄 만한 성능을 보였으며, 문제 해결에 있어 금융 관련 지식을 요구하는 금융 특화 데이터셋에서는 비교대상 모델을 뛰어넘는 성능을 보였다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

완전성과 간결성을 고려한 텍스트 요약 품질의 자동 평가 기법 (Automatic Quality Evaluation with Completeness and Succinctness for Text Summarization)

  • 고은정;김남규
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.125-148
    • /
    • 2018
  • 다양한 스마트 기기 및 관련 서비스의 증가에 따라 텍스트 데이터가 폭발적으로 증가하고 있으며, 이로 인해 방대한 문서로부터 필요한 정보만을 추려내는 작업은 더욱 어려워졌다. 따라서 텍스트 데이터로부터 핵심 내용을 자동으로 요약하여 제공할 수 있는 텍스트 자동 요약 기술이 최근 더욱 주목을 받고 있다. 텍스트 요약 기술은 뉴스 요약 서비스, 개인정보 약관 요약 서비스 등을 통해 현업에서도 이미 활발하게 적용되고 있으며, 학계에서도 문서의 주요 요소를 선별하여 제공하는 추출(Extraction) 접근법과 문서의 요소를 발췌한 뒤 이를 조합하여 새로운 문장을 구성하는 생성(Abstraction) 접근법에 따라 많은 연구가 이루어지고 있다. 하지만 문서의 자동 요약 기술에 비해, 자동으로 요약된 문서의 품질을 평가하는 기술은 상대적으로 많은 진전을 이루지 못하였다. 요약문의 품질 평가를 다룬 기존의 대부분의 연구들은 사람이 수작업으로 요약문을 작성하여 이를 기준 문서(Reference Document)로 삼고, 자동 요약문과 기준 문서와의 유사도를 측정하는 방식으로 수행되었다. 하지만 이러한 방식은 기준 문서의 작성 과정에 막대한 시간과 비용이 소요될 뿐 아니라 요약자의 주관에 의해 평가 결과가 다르게 나타날 수 있다는 한계를 갖는다. 한편 이러한 한계를 극복하기 위한 연구도 일부 수행되었는데, 대표적으로 전문에 대해 차원 축소를 수행하고 이렇게 축소된 전문과 자동 요약문의 유사도를 측정하는 기법이 최근 고안된 바 있다. 이 방식은 원문에서 출현 빈도가 높은 어휘가 요약문에 많이 나타날수록 해당 요약문의 품질이 우수한 것으로 평가하게 된다. 하지만 요약이란 본질적으로 많은 내용을 줄여서 표현하면서도 내용의 누락을 최소화하는 것을 의미하므로, 단순히 빈도수에 기반한 "좋은 요약"이 항상 본질적 의미에서의 "좋은 요약"을 의미한다고 보는 것은 무리가 있다. 요약문 품질 평가의 이러한 기존 연구의 한계를 극복하기 위해, 본 연구에서는 요약의 본질에 기반한 자동 품질 평가 방안을 제안한다. 구체적으로 요약문의 문장 중 서로 중복되는 내용이 얼마나 적은지를 나타내는 요소로 간결성(Succinctness) 개념을 정의하고, 원문의 내용 중 요약문에 포함되지 않은 내용이 얼마나 적은지를 나타내는 요소로 완전성(Completeness)을 정의한다. 본 연구에서는 간결성과 완전성의 개념을 적용한 요약문 품질 자동 평가 방법론을 제안하고, 이를 TripAdvisor 사이트 호텔 리뷰의 요약 및 평가에 적용한 실험 결과를 소개한다.