• 제목/요약/키워드: clustering algorithms

검색결과 606건 처리시간 0.022초

점진적 기계학습 기반의 레이더 위협체 역추정 모델 생성 및 갱신 (Managing the Reverse Extrapolation Model of Radar Threats Based Upon an Incremental Machine Learning Technique)

  • 김철표;노상욱
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권4호
    • /
    • pp.29-39
    • /
    • 2017
  • 다양한 전자전 상황에서 단위 위협체에 대하여 전자전 모델링과 시뮬레이션을 수행할 수 있는 통합 전자전 시뮬레이터의 개발 필요성이 대두되고 있다. 본 논문에서는 전자전 상황에서 전자정보 수집신호의 변수를 기반으로 전자파 신호를 발산하는 레이더 위협을 역추정하기 위한 시뮬레이션 시스템의 구성요소를 분석하고, 역추정 모델을 점진적으로 유지할 수 있는 방법을 제안한다. 또한, 실험을 통하여 점진적 역추정 모델 갱신 기법의 유효성 및 개별 역추정 결과의 통합 기법을 평가한다. 개별 역추정 모델의 생성을 위하여 의사결정트리, 베이지안 분류기, 인공신경망 및 유클리디안 거리 측정방식과 코사인 유사도 측정방식을 활용하는 군집화 알고리즘을 이용하였다. 첫 번째 실험에서 레이더 위협체에 대한 역추정 모델을 구축하기 위한 위협 예제의 크기를 점진적으로 증가시키면 역추정 모델의 정확도는 향상되었으며, 이러한 과정이 반복되면 역추정 모델에 대한 정확도는 일정한 값으로 수렴하였다. 두 번째 실험에서는 개별 역추정 모델의 결과를 통합하기 위하여 투표, 가중투표 및 뎀스터-쉐이퍼 알고리즘을 이용하였으며, 역추정 모델의 통합 결과는 뎀스터-쉐이퍼 알고리즘에 의한 역추정 정확도가 가장 좋은 성능을 보였다.

스마트 전시 환경에서 프로모션 적용 사례 및 분석 (Case Analysis of the Promotion Methodologies in the Smart Exhibition Environment)

  • 문현실;김남희;김재경
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.171-183
    • /
    • 2012
  • 세계가 급변하고 시시각각 발전하는 기술 속에서 전시 산업은 국가와 기업의 중요한 홍보 수단으로 부각되고 있다. 특히, 전시회에 참여하는 참여업체는 상품 또는 서비스를 전시하고 메시지를 전달하기 위해 마련된 개별 전시공간을 통해 기업들과 소비자들에게 단기간에 신제품과 신기술에 대한 정보를 제공할 수 있으며 국내외 시장의 욕구와 추세변화 및 경쟁업체들에 대한 정보를 파악할 수 있다. 참여업체들은 이러한 참가 목적의 달성을 위해 다양한 프로모션을 계획하고 실행하며 프로모션 정보를 참관객에게 실시간으로 제공할 수 있는 스마트 전시 환경의 구축은 이전보다 다양한 프로모션 기법의 적용 및 실행을 가능하게 하였다. 하지만, 이러한 스마트 전시 환경의 발전에도 불구하고 현재 실행되고 있는 프로모션은 참관객의 욕구나 목표에 대한 이해가 부족한 상태에서 무차별적인 매스마케팅 형태로 진행되어 그 본래의 목적을 상실하고 있다. 따라서, 본 연구에서는 참여업체의 차별화된 프로모션의 계획과 실행을 위해 기존에 널리 사용되는 마케팅 기법인 STP 전략의 프로세스를 도입하여 스마트 전시 환경에서 프로모션에 적합한 참관객을 자동적으로 선정하여 프로모션 정보를 제공하는 시스템을 제안하였다. 특히, 본 연구에서는 다음과 같은 스마트 전시회의 특성을 고려한다. 먼저, 전시회는 전시업체가 관람객과 상호작용하기 위해 모인 일시적이고 시간에 민감한 시장이다. 따라서, 불충분한 기존 참관객의 정보를 이용하는 것이 아닌 신규 참관객 분석의 관점에서 서비스를 제공할 수 있어야 한다. 두 번째로, 스마트 전시 환경에서는 참관객의 정보를 실시간으로 획득할 수 있다는 장점이 있는 반면에 데이터의 분석 및 서비스의 제공이 실시간으로 이루어져야 한다. 마지막으로, 참관객이 스마트 전시 환경에서 만들어 내는 데이터를 활용하는 기법이 필요하다. 스마트 전시 환경에서는 유용한 데이터를 실시간으로 획득할 수 있어 참관객이 전시회 내에서 하는 활동을 분석하는 행위적 세분화에 근거한 접근방식이 필요하다. 이러한 특성을 고려하여 본 연구에서는 제안한 시스템을 실제 전시회에 파일럿 시스템 형태로 적용하여 참관객을 실시간으로 분류 및 분석하고 각 메시지에 대한 성과를 측정하는 실험을 진행하였다. 그 결과, 전시 참관객의 행동 패턴을 4가지로 분류하여 각 군집별 특성을 프로모션 메시지의 성과로 측정하여 그에 적합한 프로모션 전략을 도출하였다. 이러한 프로모션 전략은 실제 전시 참여업체의 프로모션 기획 및 실행에 중요한 전략적 도구로 사용되어 프로모션 성과를 높일 수 있을 것으로 기대된다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

몬데카를로 기반 치료계획시스템의 성능평가 (Benchmark Results of a Monte Carlo Treatment Planning system)

  • Cho, Byung-Chul
    • 한국의학물리학회지:의학물리
    • /
    • 제13권3호
    • /
    • pp.149-155
    • /
    • 2002
  • 최근 들어 방사선 수송이론, 컴퓨터 하드웨어 성능, 및 병렬 연산 기법의 발전에 힘입어, 몬테카를로 기반의 선량계산 기법을 임상에 적용할 수 있게 되었다. 임상적용을 위해 개발된 몬테카를로 기반 선량계산 코드간의 계산 소요 시간과 정확도를 비교할 목적으로 제13차 ICCR (International Conference on the use of Computers in Radiation Therapy, Heidelberg, Germany, 2000) 학술대회에서 벤치마킹 절차서가 제안되었다. 최근, 본원에서도 임상적용을 목표로 28개의 인텔 펜티움 프로세서로 구성된 Linux cluster 시스템을 구축하고, 여기에 몬테카를로 선량계산을 위한 BEAMnrc 코드를 설치하였다. 본 연구의 목적은 위에서 제안된 벤치마킹 절차를 수행하여 본원에서 구축한 몬테카를로 선량계산 시스템의 정량적 성능 평가를 시도하고자 하는 것이었다. 벤치마킹 절차는 크게 다음의 세 과정으로 구성되어 있다. a) 30.5 cm $\times$ 39.5 cm $\times$ 30 cm 의 팬톰(5 ㎣ voxels) 에 대한 통계적 불확정도 2%이내 결과를 얻기 위한 광자선 선량계산 속도. b) 위 팬톰에 대한 전자선의 선량계산 속도. c) 비균질 평판 매질로 구성된 팬톰내 광자선 및 전자선의 선량계산 결과를 EGSr/PRESTA 계산 결과와 비교 제시. 18 MV 광자선에 대해 선량계산 속도 평가 결과 5.5분이 소용되었다. 전자선의 경우, 실제 계산 시간은 광자선에 비해 약 10배 정도 빨랐으나, 병렬 연산을 처리하기 위해 소용되는 추가 시간 때문에 전체 계산에 소요되는 시간은 광자선과 비슷하였다. 본 원에서 사용한 몬테카를로 코드는 EGSnrc로써 EGS4의 개선 버전으로 이들 간의 정확도 비교는 큰 의미가 없을 것으로 판단된다. 하지만 두 계산 결과가 기대했던 바와 같이 매우 잘 일치하였다. 결론적으로, 본원에서 구축한 몬테카를로 치료계획시스템은 임상적용에 무리가 없을 것으로 판단하였다. 추후 본 시스템을 본원에서 사용하는 상용 치료계획시스템과 인터페이스를 개발하여, 통합환경을 구축함으로써, 몬테카를로 기반의 치료계획시스템의 임상적용과 관련된 연구들을 수행해 나갈 계획이다.

  • PDF

텍스트마이닝을 활용한 북한 관련 뉴스의 기간별 변화과정 고찰 (An Investigation on the Periodical Transition of News related to North Korea using Text Mining)

  • 박철수
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.63-88
    • /
    • 2019
  • 북한의 변화와 동향 파악에 대한 연구는 북한관련 정책에 대한 방향을 결정하고 북한의 행위를 예측하여 사전에 대응 할 수 있다는 측면에서 매우 중요하다. 현재까지 북한 동향에 대한 연구는 전문가를 중심으로 과거 사례를 서술적으로 분석하여, 향후에 북한의 동향을 분석하고 대응하여 왔다. 이런 전문가 서술 중심의 북한 변화 및 동향 연구에서 비정형데이터를 이용한 텍스트마이닝 분석이 더해지면 보다 과학적인 북한 동향 분석이 가능할 것이다. 특히 북한의 동향 파악과 북한의 대남 관련 행위와 연관된 연구는 통일 및 국방 분야에서 매우 유용하며 필요한 분야이다. 본 연구에서는 북한의 신문 기사 내용을 활용한 텍스트마이닝 방법으로 북한과 관련한 핵심 단어를 구축하였다. 그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다. 북한과 관련한 주요 단어들을 세 개의 기간별로 분류하고 당시에 북한의 태도와 동향에 따라 해당 단어와 주제들의 관련성이 어떻게 변화하였는지를 파악하였다. 본 연구는 텍스트마이닝을 이용한 연구가 남북관계 및 북한의 동향을 이해하고 분석하는 방법론으로서 얼마나 유용한 것이지를 파악하는 것이었다. 앞으로 북한의 동향 분석에 대한 연구는 물론 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정 모델 구축을 위한 연구로 진행 될 것이다.