• Title/Summary/Keyword: Intelligent Distribution

Search Result 548, Processing Time 0.023 seconds

온라인 리뷰의 감성과 독해 용이성이 리뷰 유용성에 미치는 영향: 가산형 리뷰 유용성 정보 활용 (The Effects of Sentiment and Readability on Useful Votes for Customer Reviews with Count Type Review Usefulness Index)

  • 루스 안젤리 크루즈;이홍주
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.43-61
    • /
    • 2016
  • 온라인 쇼핑몰의 상품에 대한 고객 리뷰는 구매자들의 구매 의사결정에 영향을 미치고 있으며 중요한 구전효과의 원천과 의사결정의 정보 원천의 역할을 하고 있다. 한 제품에 대한 리뷰가 무척 많기에 온라인 쇼핑몰들은 고객 리뷰 평가 방안을 도입하였고, 이를 통해 고객들에게 유용하리라고 판단되는 리뷰들을 걸러서 보여주거나 강조할 수 있게 되었다. 리뷰 평가 방안은 해당 리뷰가 도움이 되었는지 혹은 도움이 되지 않았는 지를 리뷰를 읽은 고객이 평가하게 하는 방안이다. Amazon.com은 고객 평가를 바탕으로 총 투표 수 중에서 유용하다는 투표 수의 비율을 리뷰 유용성 지표로 삼고 있으며, Yelp.com은 유용하다는 투표 수 자체를 유용성 지표로 삼고 있다. 본 연구는 고객 리뷰의 감성과 독해 용이성이 리뷰의 유용성에 미치는 영향을 파악하고자 한다. Amazon.com의 고객 리뷰 자료를 활용하여 비율형 유용성 지표를 종속변수로 하는 유사한 연구들이 수행되어 왔다. 본 연구에서는 Yelp.com의 리뷰 자료를 활용하여 가산형 리뷰 유용성 지표인 경우에도 동일한 효과가 존재하는지를 검토하고자 한다. Yelp.com의 음료와 음식 카테고리에 해당하는 업종에 대한 리뷰를 자료로 활용하였으며, 점포의 명성과 인기도 데이터를 파악할 수 있는 170,294개의 리뷰를 분석에 활용하였다. 분석결과는 리뷰의 긍정 정도는 유용 투표수를 늘리는데 음의 영향을 미쳤다. 평가가 긍정적인 리뷰에서는 음의 영향관계가 유의 하였으나, 평가가 부정적인 리뷰에서는 리뷰의 긍정 정도가 유용 투표 수에 미치는 영향은 유의하지 않았다. 독해 용이성은 리뷰가 읽기 어려울 수록 높은 값을 갖으며, 독해의 어려운 정도는 유용 투표수 획득에 음의 영향을 미쳤다. 독해 용이성은 긍정 리뷰, 부정 리뷰 관계없이 모두 음의 영향을 미치는 것으로 분석되었다. 이 결과는 유용 투표수가 0인 리뷰를 포함하여 영과잉 음이항 회귀분석을 수행한 경우와 유용 투표수가 0인 리뷰를 제외하고 음이항 회귀분석을 수행한 경우 모두 동일하게 파악되었다.

정보보호 대책의 성능을 고려한 투자 포트폴리오의 게임 이론적 최적화 (Game Theoretic Optimization of Investment Portfolio Considering the Performance of Information Security Countermeasure)

  • 이상훈;김태성
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.37-50
    • /
    • 2020
  • 사물 인터넷, 빅데이터, 클라우드, 인공지능 등 다양한 정보통신기술이 발전하면서, 정보보호의 대상이 증가하고있다. 정보통신기술의 발전에 비례해서 정보보호의 필요성이 확대되고 있지만, 정보보호 투자에 대한 관심은 저조한 상황이다. 일반적으로 정보보호와 관련된 투자는 효과를 측정하기 어렵기 때문에 적절한 투자가 이루어지지 않고 있으며, 대부분의 조직은 투자 규모를 줄이고 있다. 또한 정보보호 대책의 종류와 특성이 다양하기 때문에 객관적인 비교와 평가가 힘들고, 객관적인 의사결정 방법이 부족한 실정이다. 하지만 조직의 발전을 위해서는 정보보호와 관련된 정책과 의사결정이 필수적이며 적정 수준의 투자와 이에 대한 투자 효과를 측정 할 필요가 있다. 이에 본 연구에서는 게임 이론을 이용하여 정보보호 대책 투자 포트폴리오를 구성하는 방법을 제안하고 선형계획법을 이용하여 최적 방어 확률을 도출한다. 2인 게임 모형을 이용하여 정보보호 담당자와 공격자를 게임의 경기자로 구성한 뒤, 정보보호 대책을 정보보호 담당자의 전략으로, 정보보호 위협을 공격자의 전략으로 각각 설정한다. 게임 모형은 경기자의 보수의 합이 0인 제로섬 게임을 가정하고, 여러개의 전략 사이에서 일정한 확률 분포에 따라 전략을 선택하는 혼합 전략 게임의 해를 도출한다. 여러 종류의 위협이 존재하는 현실에서는 한 개의 정보보호 대책만으로 일정 수준 이상의 방어가 힘들기 때문에, 다수의 정보보호 대책을 고려해야한다. 따라서 다수의 정보보호 위협에 따른 정보보호 대책이 배치된 환경에서 정보보호 대책의 방어 비율을 이용하여 정보보호 대책 투자 포트폴리오를 산출한다. 또한 최적화된 포트폴리오를 이용하여 방어 확률을 최대화하는 게임 값을 도출한다. 마지막으로 정보보호 대책의 실제 성능 데이터를 이용하여 수치 예제를 구성하고, 제안한 게임 모델을 적용하고 평가한다. 본 연구에서 제시한 최적화 모델을 이용하면 조직의 정보보호 담당자는 정보보호 대책의 방어 비율을 고려하여 정보보호 대책의 투자 가중치를 구할 수 있고, 효과적인 투자 포트폴리오를 구성하여 최적의 방어 확률을 도출 할 수 있을 것이다.

초기 시청시간 패턴 분석을 통한 대흥행 드라마 예측 (Prediction of a hit drama with a pattern analysis on early viewing ratings)

  • 남기환;성노윤
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.33-49
    • /
    • 2018
  • TV 드라마는 타 장르에 비해 시청률과 채널 홍보 효과가 매우 크며, 한류를 통해 산업적 효과와 문화적 영향력을 확인시켜줬다. 따라서, 이와 같은 드라마의 흥행 여부를 예측하는 일은 방송 관련 산업에서 매우 중요한 부분임은 주지의 사실이다. 이를 위해서 본 연구에서는 2003년부터 2012년까지 10년간, 지상파 채널을 통해 방송된, 총 280개의 TV 미니시리즈 드라마를 분석하였다. 이들 드라마 중 평균 시청률 상위 45개, 하위 시청률 45개를 선정하여 흥행 드라마의 시청시간 분포 (5%~100%, 11-Step) 모형을 만들었다. 이들 기준 모형과 신규 드라마의 시청시간 분포와의 이격 거리를 Euclidean/Correlation으로 측정한 유사도(Similarity)를 통해, 시청자의 초기(1~5회) 시청시간 분포로 신규 드라마의 성패 여부를 예측하는 모델을 만들었다. 또한 총 방송 시간 중 70% 이상 시청한 시청자를 열혈 시청층(이하 열혈층) 으로 분류하고, 상위/하위 드라마의 평균값과 비교하여, 신규 드라마의 흥행여부를 판별할 수 있도록 설계하였다. 연구 결과 드라마의 초반 시청자 충성도(시청시간)는 드라마의 대흥행 여부를 예측하는데 중요한 요소임을 밝혔으며, 최대 75.47%의 확률로 대흥행 드라마의 탄생을 예측할 수 있었다.

적대적 생성 모델을 활용한 사용자 행위 이상 탐지 방법 (Anomaly Detection for User Action with Generative Adversarial Networks)

  • 최남웅;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.43-62
    • /
    • 2019
  • 한때, 이상 탐지 분야는 특정 데이터로부터 도출한 기초 통계량을 기반으로 이상 유무를 판단하는 방법이 지배적이었다. 이와 같은 방법론이 가능했던 이유는 과거엔 데이터의 차원이 단순하여 고전적 통계 방법이 효과적으로 작용할 수 있었기 때문이다. 하지만 빅데이터 시대에 접어들며 데이터의 속성이 복잡하게 변화함에 따라 더는 기존의 방식으로 산업 전반에 발생하는 데이터를 정확하게 분석, 예측하기 어렵게 되었다. 따라서 기계 학습 방법을 접목한 SVM, Decision Tree와 같은 모형을 활용하게 되었다. 하지만 지도 학습 기반의 모형은 훈련 데이터의 이상과 정상의 클래스 수가 비슷할 때만 테스트 과정에서 정확한 예측을 할 수 있다는 특수성이 있고 산업에서 생성되는 데이터는 대부분 정답 클래스가 불균형하기에 지도 학습 모형을 적용할 경우, 항상 예측되는 결과의 타당성이 부족하다는 문제점이 있다. 이러한 단점을 극복하고자 현재는 클래스 분포에 영향을 받지 않는 비지도 학습 기반의 모델을 바탕으로 이상 탐지 모형을 구성하여 실제 산업에 적용하기 위해 시행착오를 거치고 있다. 본 연구는 이러한 추세에 발맞춰 적대적 생성 신경망을 활용하여 이상 탐지하는 방법을 제안하고자 한다. 시퀀스 데이터를 학습시키기 위해 적대적 생성 신경망의 구조를 LSTM으로 구성하고 생성자의 LSTM은 2개의 층으로 각각 32차원과 64차원의 은닉유닛으로 구성, 판별자의 LSTM은 64차원의 은닉유닛으로 구성된 1개의 층을 사용하였다. 기존 시퀀스 데이터의 이상 탐지 논문에서는 이상 점수를 도출하는 과정에서 판별자가 실제데이터일 확률의 엔트로피 값을 사용하지만 본 논문에서는 자질 매칭 기법을 활용한 함수로 변경하여 이상 점수를 도출하였다. 또한, 잠재 변수를 최적화하는 과정을 LSTM으로 구성하여 모델 성능을 향상시킬 수 있었다. 변형된 형태의 적대적 생성 모델은 오토인코더의 비해 모든 실험의 경우에서 정밀도가 우세하였고 정확도 측면에서는 대략 7% 정도 높음을 확인할 수 있었다.

KB-BERT: 금융 특화 한국어 사전학습 언어모델과 그 응용 (KB-BERT: Training and Application of Korean Pre-trained Language Model in Financial Domain)

  • 김동규;이동욱;박장원;오성우;권성준;이인용;최동원
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.191-206
    • /
    • 2022
  • 대량의 말뭉치를 비지도 방식으로 학습하여 자연어 지식을 획득할 수 있는 사전학습 언어모델(Pre-trained Language Model)은 최근 자연어 처리 모델 개발에 있어 매우 일반적인 요소이다. 하지만, 여타 기계학습 방식의 성격과 동일하게 사전학습 언어모델 또한 학습 단계에 사용된 자연어 말뭉치의 특성으로부터 영향을 받으며, 이후 사전학습 언어모델이 실제 활용되는 응용단계 태스크(Downstream task)가 적용되는 도메인에 따라 최종 모델 성능에서 큰 차이를 보인다. 이와 같은 이유로, 법률, 의료 등 다양한 분야에서 사전학습 언어모델을 최적화된 방식으로 활용하기 위해 각 도메인에 특화된 사전학습 언어모델을 학습시킬 수 있는 방법론에 관한 연구가 매우 중요한 방향으로 대두되고 있다. 본 연구에서는 금융(Finance) 도메인에서 다양한 자연어 처리 기반 서비스 개발에 활용될 수 있는 금융 특화 사전학습 언어모델의 학습 과정 및 그 응용 방식에 대해 논한다. 금융 도메인 지식을 보유한 언어모델의 사전학습을 위해 경제 뉴스, 금융 상품 설명서 등으로 구성된 금융 특화 말뭉치가 사용되었으며, 학습된 언어 모델의 금융 지식을 정량적으로 평가하기 위해 토픽 분류, 감성 분류, 질의 응답의 세 종류 자연어 처리 데이터셋에서의 모델 성능을 측정하였다. 금융 도메인 말뭉치를 기반으로 사전 학습된 KB-BERT는 KoELECTRA, KLUE-RoBERTa 등 State-of-the-art 한국어 사전학습 언어 모델과 비교하여 일반적인 언어 지식을 요구하는 범용 벤치마크 데이터셋에서 견줄 만한 성능을 보였으며, 문제 해결에 있어 금융 관련 지식을 요구하는 금융 특화 데이터셋에서는 비교대상 모델을 뛰어넘는 성능을 보였다.

부정 탐지를 위한 이상치 분석 활용방안 연구 : 농수산 상장예외품목 거래를 대상으로 (A Study on the Application of Outlier Analysis for Fraud Detection: Focused on Transactions of Auction Exception Agricultural Products)

  • 김동성;김기태;김종우;박성기
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.93-108
    • /
    • 2014
  • 기업 의사 결정 지원을 위하여 거래 데이터를 다양한 관점에서 분석하고 활용하려는 노력과 관심들이 증가하고 있다. 이러한 노력들은 고객 관리나 마케팅에만 국한되는 것이 아니라 부정행위에 대한 감시와 탐지를 목적으로도 다양한 분석 방안들이 연구되고 있다. 부정행위는 기술의 발전을 악용하여 다양한 형태로 진화하고 있으며, 이에 따라 목적에 맞는 부정탐지 방안 연구와 적용을 통하여 탐지 효용의 극대화를 위한 노력의 필요성이 증가하고 있다. 이러한 연구 동향의 일환으로 본 연구에서는 대용량 거래 데이터가 저장 관리되고 있는 국내 최대 농수산물 유통 시장의 2008년부터 2010년까지 상장예외품목의 거래 가격을 분석하여 부정 탐지 규칙을 도출하였으며, 전문가 검증을 통하여 도출 된 규칙의 신뢰성을 확보하였다. 본 연구의 주요 부정거래 분석 방안으로는 정상적인 데이터들은 발생 확률이 높은 반면에 특이한 데이터들의 발생 확률은 낮다고 가정하는 통계적 접근을 통한 이상치 식별 방안을 활용하였다. 이에 따라 부정거래 분석 별로 정의 된 Z-Score 값보다 클 경우 부정거래 탐지 대상이 된다. 다만 상장예외품목 거래의 경우 취급 가능한 중도매인의 수가 제한되어 있으며, 일반적인 상장품목의 거래보다 거래량이 적기 때문에 소수의 이상치가 품목의 평균에 미치는 영향이 크다. 그 예로 다른 소수의 중도매인들이 해당 품목을 정상적인 가격에 거래하였더라도, 특정한 중도매인 한 명이 지나치게 비정상적인 가격에 거래할 경우 모든 거래들이 부정거래로 탐지 될 가능성도 있다. 이러한 문제를 해결하기 위하여 기존의 Z-Score의 개념을 활용하여 수정된 Z-Score(Self-Eliminated Z-Score)를 사용하였다. 또한 부정 유형별 탐지 규칙 관리와 활용을 위한 시스템 프로토타입(prototype) 개발을 수행하였다. 이를 통하여 실제 부정거래 탐지 업무에 적용할 수 있는 효과적인 방안을 제시하였고, 농수산 유통시장의 공정성 및 투명성 확보를 위한 관리 감독의 기능 강화가 가능할 것이다.

지식 공유의 파레토 비율 및 불평등 정도와 가상 지식 협업: 위키피디아 행위 데이터 분석 (Pareto Ratio and Inequality Level of Knowledge Sharing in Virtual Knowledge Collaboration: Analysis of Behaviors on Wikipedia)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.19-43
    • /
    • 2014
  • 전체 결과의 80%가 전체 원인의 20%에 의해 일어난다는 파레토 법칙(Pareto principle)은 상위 20%의 핵심 고객에 대한 우선적인 마케팅을 비롯하여 기업 경영의 많은 부분에서 적용되어 왔다. 파레토 법칙과는 대조적으로, 80%의 사소한 다수가 20%의 핵심적인 소수보다 우월한 가치를 창출한다는 롱테일 법칙(Long Tail theory)은 ICT(Information and Communication Technology)의 발전과 함께 새로운 경영 패러다임으로 주목 받아오고 있다. 본 연구의 목적은 경영 현장에서 양대 흐름을 형성해온 이러한 법칙들이 변화무쌍한 글로벌 가상화 환경에서 기업의 핵심적인 성공 요인이라고 할 수 있는 가상 지식 협업에는 어떻게 관련되는지를 규명하는 것이다. 이를 위해, 대표적인 가상 지식 협업 커뮤니티인 위키피디아에서 품질 최상위 등급인 피쳐드 아티클(Featured Article) 레벨로 승급된 2,978개의 아티클에 대한 협업 행위를 분석하였다. 즉, 각 아티클 그룹에서 편집 횟수 기준 상위 20%에 속하는 참여자들의 총 편집 횟수가 전체 편집 횟수에서 차지하는 비율인 파레토 비율(Pareto ratio)이 지식 협업 효율성과 어떤 관계를 가지고 있는지를 도출하였다. 그리고, 이러한 연구를 편집 참여를 통한 지식 공유에 대한 전체적인 불평등 정도를 나타내는 지니 계수(Gini coefficient)의 영향 및 그룹의 작업 특성을 반영하도록 확장하였다. 결과적으로, 지식 공유의 파레토 비율과 지니 계수가 증가하면 지식 협업 효율성도 높아지지만, 이러한 변수들이 일정 수준 이상으로 증가하면 오히려 지식 협업 효율성이 낮아지는 역 U자(inverted U-shaped) 관계가 있음을 확인하였다. 그리고, 이러한 관계는 인지적 노력을 상대적으로 더 많이 요구하는 학문적인 특성의 작업에서 더 민감하게 작용하는 것으로 보인다.

이미지 감성분류를 위한 CNN과 K-means RGB Cluster 이-단계 학습 방안 (A Two-Stage Learning Method of CNN and K-means RGB Cluster for Sentiment Classification of Images)

  • 김정태;박은비;한기웅;이정현;이홍주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.139-156
    • /
    • 2021
  • 이미지 분류에서 딥러닝 모형을 사용하는 가장 큰 이유는 이미지의 전체적인 정보에서 각 지역 특징을 추출하여 서로의 관계를 고려할 수 있기 때문이다. 하지만 이미지의 지역 특징이 없는 감정 이미지 데이터는 CNN 모델이 적합하지 않을 수 있다. 이러한 감정 이미지 분류의 어려움을 해결하기 위하여 매년 많은 연구자들이 감정 이미지에 적합한 CNN기반 아키텍처를 제시하고 있다. 색깔과 사람 감정간의 관계에 대한 연구들도 수행되었으며, 색깔에 따라 다른 감정이 유도된다는 결과들이 도출되었다. 딥러닝을 활용한 연구에서도 색깔정보를 활용하여 이미지 감성분류에 적용하는 연구들이 있어왔으며, 이미지만을 가지고 분류 모형을 학습한 경우보다 이미지의 색깔 정보를 추가로 활용한 경우가 이미지 감성 분류 정확도를 더 높일 수 있었다. 본 연구는 사람이 이미지의 감정을 분류하는 기준 중 많은 부분을 차지하는 색감을 이용하여 이미지 감성 분류 정확도를 향상시키는 방안을 제안한다. 이미지의 RGB 값에 K 평균 군집화 방안을 적용하여 이미지를 대표하는 색을 추출하여, 각 감성 클래스 별 해당 색깔이 나올 확률을 가중치 식으로 변형 후 CNN 모델의 최종 Layer에 적용하는 이-단계 학습방안을 구현하였다. 이미지 데이터는 6가지 감정으로 분류되는 Emotion6와 8가지 감정으로 분류되는 Artphoto를 사용하였다. 학습에 사용한 CNN 모델은 Densenet169, Mnasnet, Resnet101, Resnet152, Vgg19를 사용하였으며, 성능 평가는 5겹 교차검증으로 CNN 모델에 이-단계 학습 방안을 적용하여 전후 성과를 비교하였다. CNN 아키텍처만을 활용한 경우보다 색 속성에서 추출한 정보를 함께 사용하였을 때 더 좋은 분류 정확도를 보였다.

국방 온톨로지를 통한 지능형 의사결정지원시스템 구축 및 활용 - 공군 군수상황관리체계 적용 사례 (Construction and Application of Intelligent Decision Support System through Defense Ontology - Application example of Air Force Logistics Situation Management System)

  • 조원기;김학진
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.77-97
    • /
    • 2019
  • 제 4차 산업혁명의 초연결 환경에서 발생하는 많은 양의 데이터는 제 4차 산업혁명을 기존의 생산 환경과 구분지어 주는 주요한 요소이다. 이러한 환경은 데이터를 필요로 하는 동시에 데이터를 생산하는 양면적인 특징을 가진다. 때문에 앞으로의 정보 시스템은 기존의 정보시스템보다 양적인 측면에서 더 많은 데이터를 처리해야 하며, 질적인 측면에서는 많은 데이터 중 사용자의 목적에 부합하는 목표 데이터만을 추출하는 능력이 요구된다. 작은 규모의 정보 시스템에서는 사람이 그 시스템을 정확히 이해하고 필요한 정보를 획득하는 것이 가능하지만, 시스템에 대해 정확한 이해가 어려워진 다양하고 복잡한 시스템에서는 원하는 정보를 획득하는 것이 점점 더 어려워진다. 이러한 문제는 데이터를 사람뿐 아니라 컴퓨터가 이해할 수 있는 온톨로지로 표현하여 다양한 정보처리가 가능하도록 하는 시맨틱 웹(Semantic Web) 구축이 해결책이 될 수 있다. 군에서도 현재 대부분의 업무가 정보 시스템을 통해 이루어지고 있는데, 정보의 입력이나 가공 등 단순처리 중심으로 구축된 기존 시스템이 점점 더 많은 양의 데이터를 포함하게 되면서 시스템을 쉽게 활용하기 위한 노력이 필요한 상황이다. 본 연구에서는 온톨로지를 통한 지능형 의사결정지원시스템의 예로 온톨로지 기반 군수상황관리체계를 제안하고자 한다. 온톨로지 기반 군수상황관리체계는 기존의 군수정보체계의 복잡한 정보를 직관적으로 보여주기 위해 구축된 군수상황관리체계를 온톨로지를 통해 구축하였으며, 성과기반군수지원 계약관리, 부품사전 등의 유용한 기능을 추가 식별하여 온톨로지에 포함하였다. 또한 구축된 온톨로지가 의사결정지원에 활용할 수 있는지를 확인하기 위해 시맨틱 웹 기술을 통해 기본적인 질의응답은 물론 추론 및 함수를 통한 분석기능을 구현하였다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.