• 제목/요약/키워드: Document similarity

검색결과 246건 처리시간 0.022초

자연어 처리 및 협업 필터링 기반의 전장상황 관련 문서 자동탐색 및 요약 기법연구 (A Study on Automatic Discovery and Summarization Method of Battlefield Situation Related Documents using Natural Language Processing and Collaborative Filtering)

  • 김건영;이정빈;손미애
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.127-135
    • /
    • 2023
  • 정보통신기술이 발달함에 따라 전투공간에서 생산·공유되는 정보 및 체계 내 저장·관리되는 정보의 양이 폭발적으로 증가하였다. 이는 지휘관이 전장상황 인식 및 지휘결심을 수행하는 데에 활용할 수 있는 정보의 양이 증가하였음을 의미하지만, 한편으로는 지휘관의 정보 부담을 증가시킴으로써 신속한 지휘결심을 저해하는 요인이 되기도 한다. 이러한 한계를 극복하기 위해, 본 연구에서는 지휘관이 전장상황 보고 문서를 수신하였을 때, 체계 내 보유 문서 중에서 이를 해석하는 데에 도움을 줄 수 있는 문서들을 자동적으로 탐색 및 선별하고 요약하는 기법을 제안하였다. 첫째로, 개체명 인식 방법을 활용하여 수신된 전장상황 보고 문서로부터 개체들을 식별한다. 둘째로, 각 개체와 관련된 체계 내 보유 문서들을 탐색한다. 셋째로, 언어모델과 협업 필터링을 활용하여 이러한 문서들을 선별한다. 이때 언어모델은 수신된 보고 문서와 탐색된 문서 간의 유사도를 산출하기 위해 활용되고, 협업 필터링은 지휘관의 문서 열람 히스토리를 반영하기 위해 활용된다. 마지막으로, 선별된 문서들로부터 각 개체가 포함된 문장을 선별하고 이를 정렬한다. 실험은 군 문서와 비슷한 특성을 지니는 학술논문들을 활용하여 수행하였고, 제안된 방법의 타당성을 검증하였다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

비정형 텍스트 분석을 활용한 이슈의 동적 변이과정 고찰 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.1-18
    • /
    • 2016
  • 최근 가용한 텍스트 데이터 자원이 증가함에 따라 방대한 텍스트 분석을 통해 새로운 가치를 창출하고자 하는 수요가 증가하고 있다. 특히 뉴스, 민원, 블로그, SNS 등을 통해 유통되는 글로부터 다양한 이슈를 발굴해내고 이들 이슈의 추이를 분석하는 이슈 트래킹에 대한 연구가 활발하게 이루어지고 있다. 전통적인 이슈 트래킹은 토픽 모델링을 통해 오랜 기간에 걸쳐 지속된 주요 이슈를 발굴한 후, 각 이슈를 구성하는 문서 수의 세부 기간별 분포를 분석하는 방식으로 이루어진다. 하지만 전통적 이슈 트래킹은 각 이슈를 구성하는 내용이 전체 기간에 걸쳐 변화 없이 유지된다는 가정 하에 수행되기 때문에, 다양한 세부 이슈가 서로 영향을 주며 생성, 병합, 분화, 소멸하는 이슈의 동적 변이과정을 나타내지 못한다. 또한 전체 기간에 걸쳐 지속적으로 출현한 키워드만이 이슈 키워드로 도출되기 때문에, 핵실험, 이산가족 등 세부 기간의 분석에서는 매우 상이한 맥락으로 파악되는 구체적인 이슈가 오랜 기간의 분석에서는 북한이라는 큰 이슈에 함몰되어 가려지는 현상이 발생할 수 있다. 본 연구에서는 이러한 한계를 극복하기 위해 각 세부 기간의 문서에 대한 독립적인 분석을 통해 세부 기간별 주요 이슈를 도출한 후, 각 이슈의 유사도에 기반하여 이슈 흐름도를 도출하고자 한다. 또한 각 문서의 카테고리 정보를 활용하여 카테고리간의 이슈 전이 패턴을 분석하고자 한다. 본 논문에서는 총 53,739건의 신문 기사에 제안 방법론을 적용한 실험을 수행하였으며, 이를 통해 전통적인 이슈 트래킹을 통해 발굴한 주요 이슈의 세부 기간별 구성 내용을 살펴볼 수 있을 뿐 아니라, 특정 이슈의 선행 이슈와 후행 이슈를 파악할 수 있음을 확인하였다. 또한 카테고리간 분석을 통해 단방향 전이와 양방향 전이의 흥미로운 패턴을 발견하였다.

<영사정팔경도(永思亭八景圖)>와 팔영시로 본 영사정팔경의 경관구조와 의미 (A Study on the Landscape Structure and Meaning of Eight Scenic Views of Yeongsa-jeong Pavilion through the Painting and Poem)

  • 노재현;손희경;김홍균
    • 한국전통조경학회지
    • /
    • 제35권2호
    • /
    • pp.58-68
    • /
    • 2017
  • 문헌조사 및 시화(詩畵) 분석 및 해석 그리고 현장조사를 통해 <영사정팔경도>와 청계 양대박의 영사정팔영시에 드러난 영사정팔경의 경관구조와 의미를 분석 해석한 본 연구의 결론은 다음과 같다. 영사정과 그 일원은 조영자 안전이 선친의 음택을 향해 망배를 올리던 '영사'의 공간으로, 영사정팔경은 남원 형승의 거점이자 요체인 지리산과 순자강 그리고 요천, 금석교, 청계동 등 영사정을 중심으로 한 남원 승경을 관망대상으로 하고 있다. 영사정팔경은 일반적인 정자팔경과는 달리 다시점 구도와 시점 그리고 장소의 전이를 보이는 가운데 영사정은 물론 순자강과 요천 일대의 산수경관을 조망하는 파노라믹한 부감적 구도를 보인다. 영사정팔영은 중국 소상팔경과의 시각적 결속의 흔적이 다수 엿보이는 가운데 남원지역의 토속적인 경관과의 어울림을 추구한 조선중기 과도기적 특성을 지닌 제영 집경으로 판단된다. 팔영시와 팔경도 각 1 2영[경]에 등장하는 '창송취죽(蒼松翠竹)'은 영사정의 조영자인 안전 또는 팔영시의 저자인 양대박의 현신이자 경관 향유주체로 상정하고 있다. 표제에 등장하는 시어 및 화소의 음양론적 특성을 해석한 결과, 팔영시에서는 대부분 음적인 시어들로 충만해 있고 팔경도 또한 이에 조응한 것으로 보인다. 또한 영사정팔영에서 묘사된 행위와 <영사정팔경도>에 표현된 행위에 대한 비교 분석 결과, 제3경 순강모우를 제외하고는 두 매체 간에는 일치된 특성이나 공통성이 거의 발견되지 않음은 볼 때, 매체간의 형식적 유사성은 인정되지만 영사정팔영과 팔경도는 언어예술과 공간예술의 본질적 속성에 충실한 다른 결과물로 추정된다.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

국제프랜차이징 연구요소 및 연구방향 (Research Framework for International Franchising)

  • 김주영;임영균;심재덕
    • 마케팅과학연구
    • /
    • 제18권4호
    • /
    • pp.61-118
    • /
    • 2008
  • 본 연구는 국내외 프랜차이즈의 해외진출에 대한 연구들을 바탕으로 국제프랜차이징연구의 전체적인 연구체계를 세워보고, 연구체계를 형성하고 있는 연구요인들을 확인하여 각 연구요소별로 이루어지는 연구주제와 내용을 살펴보고, 앞으로의 연구주제들을 제안하고자 한다. 주요한 연구요소들은 국제프랜차이징의 동기 및 환경 요소과 진출의사결정, 국제프랜차이징의 진입양식 및 발전전략, 국제프랜차이징의 운영전략 및 국제프랜차이징의 성과이다. 이외에도 국제프랜차이징 연구에 적용할 수 있는 대리인이론, 자원기반이론, 거래비용이론, 조직학습이론 및 해외진출이론들을 설명하였다. 또한 국제프랜차이징연구에서 보다 중점적으로 개발해야 할 질적, 양적 방법론을 소개하였으며, 마지막으로 국내연구의 동향을 정리하여 추후의 연구방향을 종합적으로 정리하였다.

  • PDF