• 제목/요약/키워드: 구성 알고리즘

검색결과 6,099건 처리시간 0.036초

참조 수문관측소 구성 조건에 따른 LSTM 모형 홍수위예측 정확도 검토 사례 연구 (Case study on flood water level prediction accuracy of LSTM model according to condition of reference hydrological station combination)

  • 이승호;김수영;정재원;윤광석
    • 한국수자원학회논문집
    • /
    • 제56권12호
    • /
    • pp.981-992
    • /
    • 2023
  • 최근 전세계적인 기후변화의 영향으로 강우가 집중되고 강우강도가 강해짐에 따라 홍수피해의 규모를 증가시키고 있다. 과거에 관측되지 않았던 규모의 비가 내리기도 하고, 기록되지 않았던 장기간의 장마가 발생하기도 한다. 이러한 피해들은 아세안 국가에도 집중되고 있으며, 태풍 및 집중호우로 인해 침수의 빈번한 발생과 함께 많은 사람들이 영향을 받고 있다. 특히, 인도네시아 찌따룸강 상류 유역에 위치한 반둥 지역은 분지 형태의 지형학적 특성을 가지고 있어서 홍수에 매우 취약한 실정이다. 이에 공적개발원조(ODA)를 통해 2017년에 찌따룸강 상류(Upper Citarum River) 유역에 대하여 홍수예경보시스템을 구축되었고, 현재 운영중에 있다. 그럼에도 불구하고, 찌따룸강 상류 (Upper Citarum River) 지역은 홍수발생시 인명 및 재산피해의 위험에 여전히 노출되어 있어 신속하고 정확한 홍수예경보의 실시를 통해 피해를 경감시키는 노력이 지속적으로 필요한 실정이다. 따라서 본 연구에서는 찌따룸강 상류의 Dayeuh Kolot 지점을 목표관측소로 하고, 강우관측소 4개소와 수위관측소 1개소의 10분 단위 수문자료를 수집하여 인공지능 기반의 하천홍수위예측모형을 개발하였다. 6개 관측소의 2017년 1월부터 2021년 1월까지의 10분 단위 수문관측자료를 활용하여 선행예보시간 0.5, 1, 2, 3, 4, 5, 6시간에 대해서 학습, 검증, 시험을 수행하였으며 인공지능알고리즘으로는 LSTM을 적용하였다. 연구결과 모든 선행예보시간에 대해 모형적합도 및 오차에서 좋은 결과를 나타냈으며, 학습자료 구축조건에 따른 예측정확도를 검토한 결과 참조관측소가 적은 경우에도 모든 관측소를 활용하는 경우와 유사하게 예측정확도를 확보하는 것으로 나타나 효율적인 인공지능 기반 모형 구축에 활용될 수 있을 것으로 기대된다.

직장암 치료 시 치료계획에 따른 선량평가 연구 (A study of the plan dosimetic evaluation on the rectal cancer treatment)

  • 정현학;안범석;김대일;이양훈;이제희
    • 대한방사선치료학회지
    • /
    • 제28권2호
    • /
    • pp.171-178
    • /
    • 2016
  • 목 적 : 직장암 방사선 치료 시 대퇴골두의 선량을 최소화하기 위해, 보편적인 치료방법인 3문 입체조형치료계획(3D Conformal radiation therapy)과 5문 입체조형치료계획 그리고 용적변조방사선치료(Volumetric Modulated Arc Therapy, 이하 VMAT) 계획의 유용성을 비교, 평가하고자 한다. 대상 및 방법 : 본원에서 21EX(Varian Medical Systems, USA)를 이용하여 치료 받은 직장암 환자 10명을 대상으로 3문, 5문 입체조형치료계획과 VMAT 전산화치료계획을 각각 세우고 이에 대한 선량분포를 비교분석하였다. 전산화 치료계획은 Eclipse(Ver 10.0.42, Varian, USA)를 이용하였으며, 선량계산을 위해 PRO3(Progressive Resolution Optimizer 10.0.28), AAA(Anisotropic Analytic Algorithm Ver 10.0.28) 알고리즘을 사용하였다. 3문 치료계획은 6MV POST field 와 15MV LT, RT field를 갠트리 각도 $0^{\circ}$, $270^{\circ}$, $90^{\circ}$로 구성하였고, 5문 치료계획은 6MV POST field와 15MV RAO, RPO, LAO, LPO field를 갠트리 각도 $0^{\circ}$, $95^{\circ}$, $45^{\circ}$, $315^{\circ}$, $265^{\circ}$ 로 환자 체표면을 감싸는 형태로 구성하였다. VMAT 치료계획은 갠트리 회전반경이 $360^{\circ}$인 1개의 ARC를 이용하여 수립하였다. 처방선량은 30회에 걸쳐 직장에 총 선량이 54Gy가 되도록 하였다. VMAT 치료계획시 최적화(Optimization) 과정에서 나타나는 선량 차이의 무작위성을 최소화하기 위하여 2회의 최적화와 선량계산과정을 거쳤으며 처방선량의 100%가 표적용적의 95%를 포함할 수 있도록 Plan normalization을 조절하였다. 각 치료 계획의 Total MU, 대퇴골두와 acetabular fossa의 최대선량, PTV의 H.I. (Homogeneity Index), C.I.(Conformity Index)를 평가 지표로 설정하였고, 전자영상유도장치를 이용하여 임상 적용 가능 여부 확인을 위한 IMRT verification Q.A. (Gamma test)를 실시하였다. 결 과 : Rt. femoral head 최대선량은 3문, 5문, VMAT 치료계획 순으로 평균 53.08 Gy, 50.27 Gy, 30.92 Gy를 나타냈다. 마찬가지로 Lt. femoral head 에서도 같은 순으로 평균 53.68 Gy, 51.01 Gy, 평균 29.23 Gy를 나타냈다. Rt. Aceta fossa 의 최대선량은 3문, 5문, VMAT 치료계획 순으로 평균 54.86 Gy, 52.40 Gy, 30.37 Gy의 값을 보였다. Lt. Aceta fossa에서 또한 같은 순으로 평균 54.90 Gy, 52.77 Gy, 평균 31.79 Gy를 나타내어, both femoral head 와 aceta fossa의 최대선량이 3문, 5문, VMAT 치료계획 순으로 높았다. PTV에 대한 H.I.는 모두 서로 비슷한 결과를 나타냈고, C.I.는 3문, 5문, VMAT 치료계획 순으로 평균 1.64, 1.48, 평균 0.99로 VMAT 치료계획이 가장 낮은 것으로 나타났다. Total MU는 VMAT 치료계획이 3문과 5문 치료계획에 비해 각각 평균 124.4MU, 299MU 더 많이 사용하는 것으로 나타났다. VMAT 치료계획에 대한 IMRT verification Q.A. 결과 2mm / 2%, Gamma pass rate 90.0% 기준을 모두 초과하여 통과하였다. 결 론 : VMAT 치료계획은 3D 치료계획과 비교하여 대부분의 평가지표에서 우수한 것으로 나타났다. 특히 대퇴골두의 선량을 크게 감소 시켰으며, 저선량 영역에서는 소장이 받는 선량이 증가 하였으나 오히려 고선량 영역에서는 우수한 선량분포를 보였다. 하지만 VMAT을 지원하지 않는 장비와 치료계획 시 추가되는 Contouring, 그리고 정도관리에 관한 수고 등의 현실적인 제약 때문에 VMAT 치료계획을 선택하기 어려운 경우가 있을 수 있다. 5문 치료계획은 기존 3문 치료계획에 비해, 추가적인 문제에 구애받지 않고 대퇴골두의 선량을 줄일 수 있는 장점이 있다. 따라서 각 병원 상황에 맞게 치료계획을 선택하여 방사선 치료 효과를 높인다면, 직장암 환자의 효율적인 방사선치료 및 생존 기간의 연장뿐만 아니라 삶의 질 향상에도 도움이 될 것으로 판단한다.

  • PDF

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

계좌 이용 과정과 결과의 투명성이 온라인 뱅킹 이용자의 보안 인식에 미치는 영향 (The Role of Control Transparency and Outcome Feedback on Security Protection in Online Banking)

  • 이은곤;최지은;이호근
    • 경영정보학연구
    • /
    • 제14권3호
    • /
    • pp.75-97
    • /
    • 2012
  • 온라인 뱅킹 서비스의 성공을 위해서는 이용 고객의 신뢰를 제고하는 것이 필수적이다. 현재까지 인터넷 뱅킹 이용자들의 신뢰를 제고하는 보안 메커니즘으로 공인인증 서비스가 가장 유력한 대안으로 사용되어 왔다. 그러나 최근 공인인증서를 통한 보안 메커니즘은 해커 등 악의적인 사용자의 침입에 취약할 수 있다는 주장이 제기되고 있다. 본 연구에서는 온라인 뱅킹 보안 메커니즘의 견고성을 높이기 위한 추가적인 대안으로 공인인증서 사용과 관련된 과정의 투명성과 결과 피드백의 투명성이라는 두 가지 요소를 제안하였다. 과정의 투명성은 거래과정에 대한 정보를 이용자에게 제공함으로써 거래 과정을 통제할 수 있도록 하는 것이다. 결과 피드백은 거래결과를 이용자에게 알려줌으로써 이용자가 거래가 의도한 대로 완료되었음을 확인할 수 있도록 하는 것이다. 정보의 투명성에 관한 선행 연구에 따르면, 거래과정과 결과에 대한 정보를 제공하여 투명성을 제고하면 정보시스템 이용자의 의사결정 품질이 제고된다. 거래과정에 대한 정보의 투명성이 확보되면, 정보시스템 이용자들은 거래가 원활하게 수행되고 있는지를 확인할 수 있게 되고, 거래 과정과 결과를 자신이 의도한 대로 통제할 수 있게 되기 때문에, 이용자들의 거래 위험을 감소시킬 수 있다. "구조기반 신뢰" 에 대한 연구에 따르면, 정보시스템 이용자들은 자신들이 성공적으로 거래를 할 수 있도록 구조적인 요소를 제공하는 서비스 제공자들을 보다 신뢰하는 속성이 있다. 거래과정과 거래결과를 확인할 수 있는 정보의 투명성은 정보시스템 이용자가 거래를 원활하게 추진할 수 있는 구조적 기반을 제공하므로 서비스 제공자에 대한 신뢰는 증가하게 된다. 거래 위험이 감소하고 신뢰가 증가되면, 이용자들은 제공되는 서비스에 대해 보다 만족하게 되고, 따라서 서비스 제공자에 대해 충성도가 제고되거나 서비스에 대해 지불 의사를 가지게 될 것이다. 본 연구에서는 실험실 실험을 통해 연구 가설 및 연구 모델을 실증적으로 검증하고자 하였다. 실험설계는 과정의 투명성과 결과의 투명성이라는 두 가지 요인에 따라 $2{\times}2$ 집단으로 구성하여 진행하였다. 공인인증서 사용과 관련된 과정의 투명성과 결과 피드백 요소가 현재 온라인 뱅킹 사이트에서 제공되고 있지 않기 때문에 가상의 온라인 뱅킹 사이트를 구축하여 실험을 진행하였다. 총 138개의 유효한 자료를 실험을 통해 수집하였으며 PLS 알고리즘을 활용하여 분석을 진행하였다. 분석 결과, 과정의 투명성은 온라인 뱅킹 거래의 위험을 줄이고 온라인 뱅킹 사이트에 대한 신뢰를 증가시키는 것으로 나타났다. 결과 피드백은 온라인 뱅킹 사이트에 대한 신뢰를 증가시키는 것으로 나타났다. 이렇게 증가된 신뢰와 감소된 거래위험은 서비스 만족도를 증가시킴으로써 온라인 뱅킹 서비스 이용 고객의 서비스에 대한 지불의도와 온라인 뱅킹 사이트에 대한 충성도를 증가시키는 것으로 조사되었다. 본 연구에서는 온라인 뱅킹 서비스의 보안이라는 주제에 대해 정보의 투명성이 보안에 미치는 영향을 실증자료를 통해 분석함으로써 온라인 보안 메커니즘 연구의 범위를 확대하였을 뿐만 아니라 실제 구현이 가능한 보안 메커니즘에 대한 효과를 검증함으로써 실무적 측면에서의 동헌도가 있다고 판단된다.

  • PDF

모바일 랜드마크 가이드 : LOD와 문맥적 장치 기반의 실외 증강현실 (A Mobile Landmarks Guide : Outdoor Augmented Reality based on LOD and Contextual Device)

  • 조비성;누르지드;장철희;이기성;조근식
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.1-21
    • /
    • 2012
  • 최근 스마트폰의 등장으로 인해 사용자들은 시간과 공간의 제약 없이 스마트폰을 이용한 새로운 의사소통의 방법을 경험하고 있다. 이러한 스마트폰은 고화질의 컬러화면, 고해상도 카메라, 실시간 3D 가속그래픽과 다양한 센서(GPS와 Digital Compass) 등을 제공하고 있으며, 다양한 센서들은 사용자들(개발자, 일반 사용자)로 하여금 이전에 경험하지 못했던 서비스를 경험할 수 있도록 지원하고 있다. 그 중에서 모바일 증강현실은 스마트폰의 다양한 센서들을 이용하여 개발할 수 있는 대표적인 서비스 중 하나이며, 이러한 센서들을 이용한 다양한 방법의 모바일 증강현실 연구들이 활발하게 진행되고 있다. 모바일 증강현실은 크게 위치 정보 기반의 서비스와 내용 기반 서비스로 구분할 수 있다. 위치 정보 기반의 서비스는 구현이 쉬운 장점이 있으나, 증강되는 정보의 위치가 실제의 객체의 정확한 위치에 증강되는 정보가 제공되지 않는 경우가 발생하는 단점이 존재한다. 이와 반대로, 내용 기반 서비스는 정확한 위치에 증강되는 정보를 제공할 수 있으나, 구현 및 데이터베이스에 존재하는 이미지의 양에 따른 검색 속도가 증가하는 단점이 존재한다. 본 논문에서는 위치 정보 기반의 서비스와 내용기반의 서비스의 장점들을 이용한 방법으로, 스마트폰의 다양한 센서(GPS, Digital Compass)로 부터 수집된 정보를 이용하여 데이터베이스의 탐색 범위를 줄이고, 탐색 범위에 존재하는 이미지들의 특징 정보를 기반으로 실제의 랜드마크를 인식하고, 인식한 랜드마크의 정보를 링크드 오픈 데이터(LOD)에서 검색하여 해당 정보를 제공하는 랜드마크 가이드 시스템을 제안한다. 제안하는 시스템은 크게 2개의 모듈(랜드마크 탐색 모듈과 어노테이션 모듈)로 구성되어있다. 첫 번째로, 랜드마크 탐색 모듈은 스마트폰으로 인식한 랜드마크(건물, 조형물 등)에 해당하는 정보들을 (텍스트, 사진, 비디오 등) 링크드 오픈 데이터에서 검색하여 검색된 결과를 인식한 랜드마크의 정확한 위치에 정보를 제공하는 역할을 한다. 스마트폰으로부터 입력 받은 이미지에서 특징점 추출을 위한 방법으로는 SURF 알고리즘을 사용했다. 또한 실시간성을 보장하고 처리 속도를 향상 시키기 위한 방법으로는 입력 받은 이미지와 데이터베이스에 있는 이미지의 비교 연산을 수행할 때 GPS와 Digital Compass의 정보를 사용하여 그리드 기반의 클러스터링을 생성하여 탐색 범위를 줄임으로써, 이미지 검색 속도를 향상 시킬 수 있는 방법을 제시하였다. 두 번째로 어노테이션 모듈은 사용자들의 참여에 의해서 새로운 랜드마크의 정보를 링크드 오픈 데이터에 추가할 수 있는 기능을 제공한다. 사용자들은 키워드를 이용해서 링크드 오픈 데이터로에서 관련된 주제를 검색할 수 있으며, 검색된 정보를 수정하거나, 사용자가 지정한 랜드마크에 해당 정보를 표시할 수 있도록 지정할 수 있다. 또한, 사용자가 지정하려고 하는 랜드마크에 대한 정보가 존재하지 않는다면, 사용자는 랜드마크의 사진을 업로드하고, 새로운 랜드마크에 대한 정보를 생성하는 기능을 제공한다. 이러한 과정은 시스템이 카메라로부터 입력 받은 대상(랜드마크)에 대한 정확한 증강현실 컨텐츠를 제공하기 위해 필요한 URI를 찾는데 사용되며, 다양한 각도의 랜드마크 사진들을 사용자들에 의해 협업적으로 생성할 수 있는 환경을 제공한다. 본 연구에서 데이터베이스의 탐색 범위를 줄이기 위해서 랜드마크의 GPS 좌표와 Digital Compass의 정보를 이용하여 그리드 기반의 클러스터링 방법을 제안하여, 그 결과 탐색시간이 기존에는 70~80ms 걸리는 반면 제안하는 방법을 통해서는 18~20ms로 약 75% 정도 향상된 것을 확인할 수 있었다. 이러한 탐색시간의 감소는 전체적인 검색시간을 기존의 490~540ms에서 438~480ms로 약 10% 정도 향상된 것을 확인하였다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

기업정보 기반 지능형 밸류체인 네트워크 시스템에 관한 연구 (A Study on Intelligent Value Chain Network System based on Firms' Information)

  • 성태응;김강회;문영수;이호신
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.67-88
    • /
    • 2018
  • 최근까지도 중소기업의 지속성장 및 경쟁력 확보에 대한 중요함을 인식함에 따라, 정부 차원에서의 유형 자원(R&D 인력, 자금 등)에 대한 지원이 주로 투입되어 왔다. 그러나 사업지원의 적절성이나 효과성, 효율성 면에서 서로 상충되는 정책부분이 존재하여 과소 지원이나 중복 지원 등 지원체계의 비효율성 문제가 제기되어온 것도 사실이다. 정부나 기업 관점에서는 중소기업의 한정된 자원으로 인해, 외부와의 협력을 통한 기술개발 및 역량강화가 기업의 경쟁우위를 창출하는 근간이라 보고 있으며, 이를 위한 가치창출 활동을 강조하고 있다. 기업 레벨에서의 지식생태계 구축을 통해 일련의 가치사슬로부터 기업거래 관계를 분석하고 결과를 가시화할 수 있는 밸류체인 네트워크 분석이 필요한 것도 이 때문이다. 특허/제품/기업명 검색을 통해 관련 제품의 정보나 특허 보유 기업의 기술(제품) 현황 정보를 제공하는 기술기회발굴시스템(Technology Opportunity Discovery system), 기업(재무)정보와 신용정보을 열람하게 해주는 CRETOP이나 KISLINE 등은 존재하고 있으나 밸류체인 네트워크 분석기반으로 유사(경쟁)기업의 리스트나 향후 거래 가능한 잠재 거래처 정보를 제공해주는 시스템은 부재한 실정이다. 따라서, 본 고에서는 KISTI에서 개발 운영중인 기업 비즈니스 전략수립 지원 파트너인 '밸류체인 네트워크 시스템(Value Chain Network System : VCNS)'을 중심으로, 탑재된 네트워크 기반 분석모듈의 유형, 이를 지원하는 참조정보 및 데이터베이스(D/B)의 구성 로직과 시스템 활용방안을 고찰하며, 산업구조를 이해하고 기업의 신제품 개발을 위한 핵심정보가 되고 있는 지능형 밸류체인 분석 시스템의 네트워크 가시화 기능을 살펴보기로 한다. 한 기업이 다른 기업 대비 경쟁우위를 확보하기 위해서는 보유 특허 또는 현재 생산하고 있는 제품에 대한 경쟁자 식별이 필요하며, 세부 업종별 유사(경쟁)기업을 탐색하는 일은 대상기업의 사업화 경쟁력 확보에 핵심이 된다. 또한 기업간 비즈니스 활동인 거래정보는 유사 분야로 진출할 경우 잠재 거래처 정보를 제공하는 중요한 역할을 수행한다. 이러한 기업간 판매정보를 기반으로 구축된 네트워크 맵을 활용하여 기업 또는 업종 수준의 경쟁자를 식별하는 일은 밸류체인 분석의 핵심모듈로 탑재될 수 있다. 밸류체인 네트워크 시스템(VCNS)은 단순 수집된 종래의 기업정보에 밸류체인(value chain) 및 산업구조 분석개념을 접목하여 개별 기업의 시장경쟁 상황은 물론 특정 산업의 가치사슬 관계를 파악할 수 있다. 특히 업종구조 파악, 경쟁사 동향 파악, 경쟁사 분석, 판매처 및 구매처 발굴, 품목별 산업동향, 유망 품목 발굴, 신규 진입기업 발굴, VC별 핵심기업 및 품목 도출, 해당 기업별 보유 특허 파악 등 기업 레벨에서의 유용한 정보분석 툴로 활용 가능하다. 또한, 거래처 정보 및 재무데이터로부터 분석된 결과의 객관성 및 신뢰성을 기반으로, 현재 국내에서 이용 중인 15,000여개 회원기업과 연구개발서비스업 종사자, 출연(연) 및 공공기관 등에서 사업평가 정보지원, R&D 의사결정 지원 및 중 단기 수요예측 전망 등 다양한 목적(용도)에 밸류체인 네트워크 시스템을 활용할 수 있을 것으로 기대된다. 기업의 사업경쟁력 강화를 위해 정부기관 및 민간 연구개발서비스 기업을 중심으로 기술(특허) 및 시장정보가 제공되어 왔으며, 이는 특허분석(등급, 계량분석 위주) 또는 시장분석(시장보고서 기반 시장규모 및 수요예측 위주)의 형태로 지원되어 왔다. 그러나 기업이 사업화진출 단계에서 겪게 되는 애로요인의 하나인 정보부족을 해결하는데 한계가 있었으며, 특히 경쟁기업 및 거래가능 기업 후보군에 대한 탐색정보는 입수하기 어려웠다. 본 연구를 통해 제안된 네트워크맵 및 보유 데이터 기반의 실시간 밸류체인 가시화 서비스모듈이 중견 중소기업이 당면한 신규시장 진출시 경쟁기업 대비 예상점유율, (예상)매출액 수준, 어느 기업을 컨택하여 유통망(원자재/부품에 대한 공급처, 완제품/모듈에 대한 수요처)을 확보할 지에 대한 핵심정보를 제공할 수 있을 것으로 기대된다. 향후 연구에서는 대체기업(또는 대체품목) 경쟁지표의 개발과 연구주체의 참여를 통한 경쟁요인별 지표의 고도화 연구, VCNS의 성능향상을 위한 데이터마이닝 기술 및 알고리즘을 추가 반영하도록 수행하고자 한다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.