• 제목/요약/키워드: Summarization Model

검색결과 89건 처리시간 0.026초

도메인 특수성이 도메인 특화 사전학습 언어모델의 성능에 미치는 영향 (The Effect of Domain Specificity on the Performance of Domain-Specific Pre-Trained Language Models)

  • 한민아;김윤하;김남규
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.251-273
    • /
    • 2022
  • 최근 텍스트 분석을 딥러닝에 적용한 연구가 꾸준히 이어지고 있으며, 특히 대용량의 데이터 셋을 학습한 사전학습 언어모델을 통해 단어의 의미를 파악하여 요약, 감정 분류 등의 태스크를 수행하려는 연구가 활발히 이루어지고 있다. 하지만 기존 사전학습 언어모델이 특정 도메인을 잘 이해하지 못한다는 한계를 나타냄에 따라, 최근 특정 도메인에 특화된 언어모델을 만들고자 하는 방향으로 연구의 흐름이 옮겨가고 있는 추세이다. 도메인 특화 추가 사전학습 언어모델은 특정 도메인의 지식을 모델이 더 잘 이해할 수 있게 하여, 해당 분야의 다양한 태스크에서 성능 향상을 가져왔다. 하지만 도메인 특화 추가 사전학습은 해당 도메인의 말뭉치 데이터를 확보하기 위해 많은 비용이 소요될 뿐 아니라, 고성능 컴퓨팅 자원과 개발 인력 등의 측면에서도 많은 비용과 시간이 투입되어야 한다는 부담이 있다. 아울러 일부 도메인에서 추가 사전학습 후의 성능 개선이 미미하다는 사례가 보고됨에 따라, 성능 개선 여부가 확실하지 않은 상태에서 도메인 특화 추가 사전학습 모델의 개발에 막대한 비용을 투입해야 하는지 여부에 대해 판단이 어려운 상황이다. 이러한 상황에도 불구하고 최근 각 도메인의 성능 개선 자체에 초점을 둔 추가 사전학습 연구는 다양한 분야에서 수행되고 있지만, 추가 사전학습을 통한 성능 개선에 영향을 미치는 도메인의 특성을 규명하기 위한 연구는 거의 이루어지지 않고 있다. 본 논문에서는 이러한 한계를 극복하기 위해, 실제로 추가 사전학습을 수행하기 전에 추가 사전학습을 통한 해당 도메인의 성능 개선 정도를 선제적으로 확인할 수 있는 방안을 제시한다. 구체적으로 3개의 도메인을 분석 대상 도메인으로 선정한 후, 각 도메인에서의 추가 사전학습을 통한 분류 정확도 상승 폭을 측정한다. 또한 각 도메인에서 사용된 주요 단어들의 정규화된 빈도를 기반으로 해당 도메인의 특수성을 측정하는 지표를 새롭게 개발하여 제시한다. 사전학습 언어모델과 3개 도메인의 도메인 특화 사전학습 언어모델을 사용한 분류 태스크 실험을 통해, 도메인 특수성 지표가 높을수록 추가 사전학습을 통한 성능 개선 폭이 높음을 확인하였다.

중학생의 필기에 대한 인식, 실태 및 필기태도에 영향을 미치는 요인들 (Middle School Students' Perceptions and Practice of Handwriting and Factors Affecting their Attitudes towards Handwriting)

  • 정민선;신나민
    • 한국콘텐츠학회논문지
    • /
    • 제14권10호
    • /
    • pp.416-428
    • /
    • 2014
  • 최근 컴퓨터와 스마트 폰 사용의 증가로 학생들의 필기 능력 및 필기 행위 자체가 감소되는 추세에 있다. 이런 변화를 체계적으로 살펴보고자 본 연구는 중학생들의 필기에 대한 인식 및 실태 그리고 필기에 대한 태도에 영향을 주는 요인들을 탐색하였다. 연구 자료는 서울, 인천 지역의 9개 중학교에 재학 중인 346명의 학생들로부터 수집되었다(남 172명, 여 172명, 미기재 2명, 평균연령=13.5세, SD=.94). 필기에 대한 인식을 알아보기 위해 실시된 인터뷰는 동일 군 학생 가운데 학년별 남녀 2명씩, 총 12명의 학생을 대상으로 하였다. 인식 및 실태 연구결과는 다음과 같다. 첫째, 필기의 필요성에 대한 학생들의 인식은 기억, 암기, 요약, 정리 그리고 성적향상, 수행평가 및 필기 검사 등과 관련 있는 것으로 나타났다. 둘째, 자신의 필체에 대해서는 그리 만족하지 않으며 자신보다는 친구들의 필기 능력을 더 높이 평가하는 경향이 있었다. 셋째, 최초 필기교육은 어머니로부터 이루어진다는 응답이 가장 많았고(45.7%), 절반 정도 학생이 노트 필기 방법에 대해 배운적이 없다고 응답하였다(49.7%). 필기 태도에 대한 설문 자료 분석 결과는 다음과 같다. 첫째, 여학생이 남학생보다, 학년별로는 1학년이 2, 3학년보다 필기에 대한 태도가 긍정적이었다. 둘째, 만들기, 그림 그리기, 낙서하기를 좋아하는 정서가 높을수록, 그리고 시력, 기억력, 손의 힘 조절 능력이 높을수록 필기 태도에 긍정적인 것으로 나타났다. 셋째, 한글에 대한 긍정적인 인식 역시 필기 태도에 정적인 영향을 미치는 것으로 나타났다. 넷째, 컴퓨터 사용 시간은 필기 태도에 부적인 영향을 주었다. 요약하자면, 중학생의 필기에 대한 태도에는 성, 학년, 정서적 태도, 신체적 요인, 컴퓨터 사용시간, 한글에 대한 인식 등이 모두 유의미한 영향을 주었다. 논의에서는 연구결과가 중학생의 필기 실태 이해 및 교육에 주는 시사점이 다루어진다.

『외대비요방(外臺秘要方)』, 『천금방(千金方)』, 『의심방(醫心方)』의 서지학적 연구 -『산번방(刪繁方)』 산재문헌의 서지사항- (A bibliography about 『OedaeBiyo-bang(外臺秘要方)』, 『Cheongeum-bang(千金方)』, and 『Uisim-bang(醫心方)』 -Documents which directly quoted 『Sanbeon-bang』-)

  • 김도훈;정창현
    • 한국의사학회지
    • /
    • 제17권1호
    • /
    • pp.31-55
    • /
    • 2004
  • For the sake of the Restoration(to the original state) of "Sanbeon-bang(刪繁方)", in this study observed carefully the bibliographical results of "Oedaebiyo-bang", "Cheongeumyo-bang", "Cheongeumik-bang" and "Uisim-bang", which directly quoted "Sanbeon-bang". "Sanbeon-bang" is mostly remained in "Oedaebiyo-bang", and the other provisions of "Sanbeon-bang" mostly lie scattered in "Cheongeumyo-bang" and "Cheongeumik-bang", established 100years before "Oedaebiyo-bang" and "Uisim-bang", established 200years after "Oedaebiyo-bang". And there are few other documents which quoted the "Sanbeon-bang". "Cheongeumyo-bang", a synthetic medical work was compiled in 652, and which refered large quantity of medical documents before Dang-dynasty(唐代) by Son Sa-mak(孫思邈). And he linked the technical opinion of himself. The comments of medicine, as well as the prescriptions are refleting the outcome before Dang-dynasty systematically. For the most part of the medical arguments in "Sanbeon-bang" lie scattered in "Cheongeumyo-bang". "Cheongeumik-bang", also a synthetic medical work which is for the sake of supplement of "Cheongeumyo-bang" was complied in 682 by Son Sa-mak. As well as "CheongeumYo-bang" it doesn't make clear the sources of quotation from "Sanbeon-bang". So it used as the data for confirmation. "Oedaebiyo-bang" was compiled in 752 of Dang-Dynasty by Wang Do(王燾) the a governor-general of Eop-gun. Wang Do was descended from a noble family, and usually visited the palace and dealed with large number of books in Hongmunguan(弘文館), the national library. He programmed the book on the base of wide scopic collection of medical documents. And he took charge of gverment post at the same time as Wang Bing(王氷) who compiled "Chaju-Hwangje-Naegyeong-Somun(次注黃帝內經素問)" in 762. So we can guess they might have seen the same documents and holded the medical knowledge in common. The 40 volume "Oedaebiyo-bang" was a great medical complete book in those days. In particular, it became the model of medical complete books of after ages. The description of the book is mostly the qutation of medical documents of before ages. The character is recording of quotation documents and the order of volume. On the base of the recording, we can reconstruct the table of contents of Sanbeon-bang. By way of the contens, we can understand the purpose of "Sanbeon-bang". Besides, I can see a lot of qouotations of "Sanbeon-bang" in "Cheongeum-bang" and "Uisim-bang" are repeatedly quotated in "Oedaebiyo-bang". For that reason, I observed the bibliographical results of "Oedaebiyo-bang" in detail. "Uisim-bang" was compiled in 982 by the Japanese Niwayasyori(丹波綱賴). It followed the example of the structure of "Oedaebiyo-bang", refered to the contents of "Cheongeumyo-bang", collected chinese medical classic books spreaded in Japan. It contains medical documents of before Su-Dang(隋唐)-era, indicated the source of quotation. The importance of the book is summarization and preservation of large quantity of chinese medicine before 10th century. In this study, a lot of the quotation in "Uisim-bang" from "Sanbeon-bang" were not in "Oedaebiyo-bang".

  • PDF

딥러닝 중심의 자연어 처리 기술 현황 분석 (Analysis of the Status of Natural Language Processing Technology Based on Deep Learning)

  • 박상언
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.63-81
    • /
    • 2021
  • 자연어 처리는 최근 기계학습 및 딥러닝 기술의 발전과 적용으로 성능이 빠르게 향상되고 있으며, 이로 인해 활용 분야도 넓어지고 있다. 특히 비정형 텍스트 데이터에 대한 분석 요구가 증가함에 따라 자연어 처리에 대한 관심도 더욱 높아지고 있다. 그러나 자연어 전처리 과정 및 기계학습과 딥러닝 이론의 복잡함과 어려움으로 인해 아직도 자연어 처리 활용의 장벽이 높은 편이다. 본 논문에서는 자연어 처리의 전반적인 이해를 위해 현재 활발히 연구되고 있는 자연어 처리의 주요 분야와 기계학습 및 딥러닝을 중심으로 한 주요 기술의 현황에 대해 살펴봄으로써, 보다 쉽게 자연어 처리에 대해 이해하고 활용할 수 있는 기반을 제공하고자 한다. 이를 위해 인공지능 기술 분류체계의 변화를 통해 자연어 처리의 비중 및 변화 과정을 살펴보았으며, 기계학습과 딥러닝을 기반으로 한 자연어 처리 주요 분야를 언어 모델, 문서 분류, 문서 생성, 문서 요약, 질의응답, 기계번역으로 나누어 정리하고 각 분야에서 가장 뛰어난 성능을 보이는 모형들을 살펴보았다. 그리고, 자연어 처리에서 활용되고 있는 주요 딥러닝 모형들에 대해 정리하고 자연어 처리 분야에서 사용되는 데이터셋과 성능평가를 위한 평가지표에 대해 정리하였다. 본 논문을 통해, 자연어 처리를 자신의 분야에서 다양한 목적으로 활용하고자 하는 연구자들이 자연어 처리의 전반적인 기술 현황에 대해 이해하고, 자연어 처리의 주요 기술 분야와 주로 사용되는 딥러닝 모형 및 데이터셋과 평가지표에 대해 보다 쉽게 파악할 수 있기를 기대한다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

생육모의에 의한 북한지방 시ㆍ군별 벼 재배기후 예비분석 (Agroclimatology of North Korea for Paddy Rice Cultivation: Preliminary Results from a Simulation Experiment)

  • 윤진일;이광회
    • 한국농림기상학회지
    • /
    • 제2권2호
    • /
    • pp.47-61
    • /
    • 2000
  • 북한 시ㆍ군별 벼 생육모의결과를 토대로 벼 재배 적합성 여부를 판정하였다. 생육모의에 필요한 시ㆍ군 별 일 기상자료는 지형기후학적 공간내삽기법을 근거로 한 3단계 과정을 통해 생산하였다. 우선 기온의 경우 51개 남북한 표준관측소의 14년간(1981~1994) 월평균값을 관측지점 위도, 해발고도, 해안거리, 경사도, 개방도 등 지리지형변수에 회귀시켜 얻은 통계모형(RMSE=0.4~1.6$^{\circ}C$)을 북한전역에 적용시켜 1 km$\times$1 km수평 격자점 단위로 월별 평균값을 추정하였다. 강수량의 경우 상대적으로 자료가 풍부한 남한의 지형-강수 관계를 도출하여 이를 북한지방에 적용한 윤 (2000)의 방법에 의해 월별 강수량 분포도를 작성하였다. 일사량의 경우 남한 19개 관측소의 14년간(1984~1997) 월 평균 수평면 전천일사량 관측값의 추정식([일사량, MJ m$^{-2}$ day$^{-1}$)=0.344+0.4756[대기외 일사량]+0.0299[남쪽 개방도]-1.307[운량]-0.01[상대습도], 결정계수 0.92, RMS error 0.95)에 의해 북한 지방 27개 지점의 일사량 자료를 복원하였다. 이를 거리역산가중법으로 공간내삽하여 북한전역의 월별 일사량 분포도를 작성하였다. 두 번째 단계에서는 얻어진 1 km$\times$1km 격자점 기후값을 183개 북한 시ㆍ군별로 공간평균값을 취했다. 마지막으로 시ㆍ군 단위 월별 기후값을 이용하여 통계적인 방법 (Pickering et al., 1994)에 의해 30년간의 일별 기상자료를 생성하였다. 북한의 대표적인 벼 품종 생육조사자료를 토대로 CERES-rice 모형의 유전적 모수를 조정하고, 준비된 기상자료를 입력시켜 183개 시ㆍ군별 벼의 생육을 30년치씩 모의하였다. 생육모의결과 중 성숙기와 수량 관련 특성을 점수화 하여 각 시ㆍ군의 벼 재배용 농업기후학적 잠재력을 정량적으로 표현하였다.

  • PDF

농촌 농특산품 전시판매시설 디자인 소비자 의식 분석 및 디자인 개발 - 농촌관광마을을 중심으로 - (An Analysis on Consumers' Awareness of a Rural Specialties Exhibition Shop and the Design Development : Focusing on Rural Tourism Village)

  • 진혜련;서지예;조록환
    • 농촌계획
    • /
    • 제20권4호
    • /
    • pp.253-262
    • /
    • 2014
  • This, an association research for design-improvement and model-development of exhibition shops at rural tourism communities, is to secure objective data by analyzing customers' awareness-tendency of and demand for agricultural-specialty exhibition shops. Survey-questions for finding out consumers' awareness-tendency and demand were determined through brainstorming of a professional council, 30 rural communities of which visit-rate by consumers is considerably high were selected for the recruit of 200 consumers. For investigation and analysis, survey and in-depth interview were carried out at the scene with the application of frequency analysis and summarization of their opinions, which revealed that they have a strong will to visit the rural tourism communities for the purchase of agricultural specialties along with the experience of learning-program and on-the-scene direct dealing and that their viewpoint on the direct dealing at the scene was very positive. Also it was confirmed hat their satisfaction with the purchase of agricultural specialties by on-the-scene direct dealing, their pleasure at the purchase, their satisfaction with services and their intention for re-purchase of them were very high while their satisfaction with the exhibition shops was very low. With on-the-scene survey, the consumers' opinions could be listened to in depth. Almost all of them said their satisfaction with the trip to those rural tourism communities was considerably high since they could go to those communities themselves to relieve the stress from their modern life, to experience healing and to see the goods on the scene. Their satisfaction also was attributed to the fact that they have enough trust in purchase along with feeling the warm-heartedness of rural residents. As to their awareness of exhibition shops, they showed a positive response to the on-the-scene direct dealing at rural communities while they, thinking that the space in those exhibition shops was not sufficiently wide, demanded for more systematic counters in more accessible and affordable exhibition shops so that they might be more satisfied with the exhibition shops. Their demand for the necessity of exhibition shops selling agricultural specialties was found to be over 80%, which indicates that the necessity is very high. As to the suitability of function, they have the opinion that the business at those shops had better be focused on sales since they have the understanding of information when they take a trip to the rural communities, while there was another opinion: since agricultural products are seasonal items they should be exhibited and sold at the same time. More than 90% of the respondents had a positive viewpoint on direct dealing of agricultural specialties on the scene, which showed that their response to it was very high. They preferred the permanent shops equipped with roll-around table-booths. In addition, it was revealed that they want systematic exhibition shops in rural communities because they frequent those communities for on-the-scene direct purchase. The preferred type and opinion resulting from estimation of consumers' demands have been reflected for development of practical designs. The structure of variable principles has been designed so that the types of display-case and table-booth might be created. The result of this study is a positive data as a design model which can be utilized at rural communities and will be commercialized for the verification of its validity.

잠재 토픽 기반의 제품 평판 마이닝 (Latent topics-based product reputation mining)

  • 박상민;온병원
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.39-70
    • /
    • 2017
  • 최근 여론조사 분야에서 데이터에 기반을 둔 분석 기법이 널리 활용되고 있다. 기업에서는 최근 출시된 제품에 대한 선호도를 조사하기 위해 기존의 설문조사나 전문가의 의견을 단순 취합하는 것이 아니라, 온라인상에 존재하는 다양한 종류의 데이터를 수집하고 분석하여 제품에 대한 대중의 기호를 정확히 파악할 수 있는 방안을 필요로 한다. 기존의 주요 방안에서는 먼저 해당 분야에 대한 감성사전을 구축한다. 전문가들은 수집된 텍스트 문서들로부터 빈도가 높은 단어들을 정리하여 긍정, 부정, 중립을 판단한다. 특정 제품의 선호를 판별하기 위해, 제품에 대한 사용 후기 글을 수집하여 문장을 추출하고, 감성사전을 이용하여 문장들의 긍정, 부정, 중립을 판단하여 최종적으로 긍정과 부정인 문장의 개수를 통해 제품에 대한 선호도를 측정한다. 그리고 제품에 대한 긍 부정 내용을 자동으로 요약하여 제공한다. 이것은 문장들의 감성점수를 산출하여, 긍정과 부정점수가 높은 문장들을 추출한다. 본 연구에서는 일반 대중이 생산한 문서 속에 숨겨져 있는 토픽을 추출하여 주어진 제품의 선호도를 조사하고, 토픽의 긍 부정 내용을 요약하여 보여주는 제품 평판 마이닝 알고리즘을 제안한다. 기존 방식과 다르게, 토픽을 활용하여 쉽고 빠르게 감성사전을 구축할 수 있으며 추출된 토픽을 정제하여 제품의 선호도와 요약 결과의 정확도를 높인다. 실험을 통해, K5, SM5, 아반떼 등의 국내에서 생산된 자동차의 수많은 후기 글들을 수집하였고, 실험 자동차의 긍 부정 비율, 긍 부정 내용 요약, 통계 검정을 실시하여 제안방안의 효용성을 입증하였다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).