• Title/Summary/Keyword: 연관단어

Search Result 252, Processing Time 0.033 seconds

Document Summarization Based on Sentence Clustering Using Graph Division (그래프 분할을 이용한 문장 클러스터링 기반 문서요약)

  • Lee Il-Joo;Kim Min-Koo
    • The KIPS Transactions:PartB
    • /
    • v.13B no.2 s.105
    • /
    • pp.149-154
    • /
    • 2006
  • The main purpose of document summarization is to reduce the complexity of documents that are consisted of sub-themes. Also it is to create summarization which includes the sub-themes. This paper proposes a summarization system which could extract any salient sentences in accordance with sub-themes by using graph division. A document can be represented in graphs by using chosen representative terms through term relativity analysis based on co-occurrence information. This graph, then, is subdivided to represent sub-themes through connected information. The divided graphs are types of sentence clustering which shows a close relationship. When salient sentences are extracted from the divided graphs, summarization consisted of core elements of sentences from the sub-themes can be produced. As a result, the summarization quality will be improved.

A WordNet-based Feature Merge Method for HyperText Classification (하이퍼텍스트 문서의 자동분류를 위한 워드넷 기반 특징 합병 기법)

  • Roh, Jun-Ho;Kim, Han-Joon;Chang, Jae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.406-409
    • /
    • 2012
  • 본 논문은 하이퍼텍스트 문서의 자동분류 성능을 높이기 위한 새로운 접근법을 제시한다. 하이퍼텍스트 문서는 일반 문서와 달리 하이퍼링크로 서로 연결된 구조를 가진다. 이 하이퍼링크 정보는 대상문서와 연관도가 높은 정보를 가지고 있으며, 이러한 링크 정보로부터 특징을 보다 잘 선별하기 위해서는 보다 정밀한 접근법이 필요하다. 본 논문은 단어간 의미 유사도를 기반으로 하이퍼텍스트 링크 정보를 활용한 특징 가공기법을 제안한다. 제안 기법은 하이퍼링크 문서로부터 대상문서와 연관도가 높은 특징을 추출하기 위해 단어간 유사도 함수를 사용하며, 유사도 함수는 워드넷의 상/하위어 관계를 이용한다. 그리고 추출된 특징들 중 의미적으로 비슷한 개념의 특징들을 합병함으로써 의미적으로 보다 견고한 분류 모델을 구축한다. 제안 기법을 검증하기 위해 Web-KB 문서집합을 이용하여 실험을 수행하였고 실험 결과 기존 방법보다 우수한 성능을 보였다.

A study on the Change of Perception of Public Health before and after COVID-19 (COVID-19 발생 전·후 공공의료에 대한 인식변화)

  • Kim, Yu Jeong;Lee, Dong Su
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.367-370
    • /
    • 2022
  • 본 연구는 코로나19 발생 전·후 공공의료를 둘러싼 사회적 인식변화를 뉴스빅데이터를 통해 파악하고자 시도되었다. 뉴스빅데이터는 코로나19 확진자가 처음 발생한 2020년 1월을 기준으로 나누었으며, 코로나19 발생 이전(2018년 1월~2019년 12월, 총 24개월) 40,834건과 코로나19가 발병 이후(2020년 1월~2021년 12월, 총 21개월) 61,761건이었다. 수집된 빅데이터는 R 4.1.1 for Windows를 활용하여 단어 빈도 분석, 연관규칙분석을 실시하였다. 연구결과, 코로나19 발생 전후 뉴스기사에서 공공의료를 둘러싼 핵심어를 비교할 때 코로나19 발생 후에 발생 전보다 큰 폭으로 상승한 단어는 '확산'(664%), '대응'(658%), '의사'(518%), '상황'(504%), '공공병원'(486%), '의료진'(455%), '확충'(324%), '인력'(305%), '어려움'(272%), '정부'(247%)순으로 나타났다. 코로나19 발생 전후 공공의료를 둘러싼 키워드의 연관규칙 분석을 통해서 의료의 패러다임이 일자리 산업에서 감염증 대응을 위한 보건의료로 전환되는 것을 알수 있었다.

  • PDF

Ontology Construction and Its Application to Disambiguate Word Senses (온톨로지 구축 및 단어 의미 중의성 해소에의 활용)

  • Kang, Sin-Jae
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.491-500
    • /
    • 2004
  • This paper presents an ontology construction method using various computational language resources, and an ontology-based word sense disambiguation method. In order to acquire a reasonably practical ontology the Kadokawa thesaurus is extended by inserting additional semantic relations into its hierarchy, which are classified as case relations and other semantic relations. To apply the ontology to disambiguate word senses, we apply the previously-secured dictionary information to select the correct senses of some ambiguous words with high precision, and then use the ontology to disambiguate the remaining ambiguous words. The mutual information between concepts in the ontology was calculated before using the ontology as knowledge for disambiguating word senses. If mutual information is regarded as a weight between ontology concepts, the ontology can be treated as a graph with weighted edges, and then we locate the weighted path from one concept to the other concept. In our practical machine translation system, our word sense disambiguation method achieved a 9% improvement over methods which do not use ontology for Korean translation.

Exploring the Research Topic Networks in the Technology Management Field Using Association Rule-based Co-word Analysis (연관규칙 기반 동시출현단어 분석을 활용한 기술경영 연구 주제 네트워크 분석)

  • Jeon, Ikjin;Lee, Hakyeon
    • Journal of Technology Innovation
    • /
    • v.24 no.4
    • /
    • pp.101-126
    • /
    • 2016
  • This paper identifies core research topics and their relationships by deriving the research topic networks in the technology management field using co-word analysis. Contrary to the conventional approach in which undirected networks are constructed based on normalized co-occurrence frequency, this study analyzes directed networks of keywords by employing the confidence index of association rule mining for pairs of keywords. Author keywords included in 2,456 articles published in nine international journals of technology management in 2011~2014 are extracted and categorized into three types: THEME, METHOD, and FIELD. One-mode networks for each type of keywords are constructed to identify core research keywords and their interrelationships with each type. We then derive the two-mode networks composed of different two types of keywords, THEME-METHOD and THEME-FIELD, to explore which methods or fields are frequently employed or studied for each theme. The findings of this study are expected to be fruitfully referred for researchers in the field of technology management to grasp research trends and set the future research directions.

Topic Expansion based on Infinite Vocabulary Online LDA Topic Model using Semantic Correlation Information (무한 사전 온라인 LDA 토픽 모델에서 의미적 연관성을 사용한 토픽 확장)

  • Kwak, Chang-Uk;Kim, Sun-Joong;Park, Seong-Bae;Kim, Kweon Yang
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.9
    • /
    • pp.461-466
    • /
    • 2016
  • Topic expansion is an expansion method that reflects external data for improving quality of learned topic. The online learning topic model is not appropriate for topic expansion using external data, because it does not reflect unseen words to learned topic model. In this study, we proposed topic expansion method using infinite vocabulary online LDA. When unseen words appear in learning process, the proposed method allocates unseen word to topic after calculating semantic correlation between unseen word and each topic. To evaluate the proposed method, we compared with existing topic expansion method. The results indicated that the proposed method includes additional information that is not contained in broadcasting script by reflecting external documents. Also, the proposed method outperformed on coherence evaluation.

A novel on Context Information Analysis and Prediction Process using Text Mining (텍스트 마이닝을 이용한 상황 정보 분석 및 예측 프로세스에 관한 연구)

  • Jung, Se-hoon;Kang, Joo-hee;Kim, Jong-chan;Sim, Chun-bo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.10a
    • /
    • pp.1039-1040
    • /
    • 2015
  • 최근 IoT 및 인공지능 기술을 활용한 상황 정보 예측 서비스가 각광을 받고 있다. 본 논문에서는 특정 메타 데이터(Meta Data)로부터 입력되는 정보를 기반으로 상황 정보 분석 및 예측하는 프로세스를 제안한다. 주성분 분석 및 데이터의 집단화(Corpus), 문서 매트릭스(Document Matrix), 단어 빈도수(Frequency)에 따른 데이터 전처리 과정을 통해 상황정보 데이터를 확보한다. 또한 연관 규칙분석을 통해 분류된 데이터의 연관성을 분석하여 예측 데이터의 연관성을 확보한다. 제안하는 상황정보 분석 및 예측 모델은 R을 적용하여 설계한다.

  • PDF

SNS news Recommendation by Using Cosine Similarity (코사인 유사도 기법을 이용한 뉴스 추천 시스템)

  • Kim, Simon;Kim, Hyung-Jun;Han, In-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.163-166
    • /
    • 2013
  • 사용자별로 SNS/RSS 구독 뉴스 분석을 통해 사용자가 관심이 있는 새로운 뉴스를 추천해 주는 시스템을 설계하고 구현한다. 뉴스 추천 시스템의 설계를 위해 전체 시스템에서 사용자와 서버에서의 작업을 명세하고, 이중에 주요 기능을 담당하는 부분을 구현한다. 구현된 주요 기능은 선호 문서가 들어왔을 때 특징을 추출하고 이를 저장하는 것과 새로운 문서가 들어왔을 때 선호 문서군과 얼마나 유사한지 판별하여 문서에 대한 추천 여부를 결정하는 것이다. 선호 문서의 특징 추출에 대해서는 형태소 분석을 통해 단어와 빈도를 추출하고 이를 누적하여 저장한다. 또한, 새로운 문서가 들어왔을 때 코사인 유사도를 계산하여 사용자가 선호하는 학습문서와의 유사도 비교를 통해 문서 추천 여부를 결정한다. 구현된 시스템에서 실제로 연관된 선호 문서군을 학습시키고, 연관된 새로운 문서 혹은 연관되지 않은 새로운 문서에 대한 추천 여부를 비교하는 것으로 시스템 정확도를 파악한다.

  • PDF

Identifying issues facing youth through emotional dialogue corpus (감성대화 말뭉치로 보는 청소년의 문제 도출)

  • Kim, Sangmin;Lee, Byeongchun;Woo, Jiyoung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.331-332
    • /
    • 2022
  • 현대사회에서는 다양한 방법, 통로로 자신들의 의견을 표현하고 또한 감정들을 표출한다. 이렇게 표출된 다양한 문장 및 감정들을 통해 각 연령별로 어떤 문제를 가지고 있는지, 무슨 상황에 놓여있는지 등을 알 수 있다. 본 논문에서는 이렇게 모여진 감성대화 말뭉치를 이용해 청소년들이 문장에서 추출한 단어들과 감정, 상황과 어떠한 연관성을 보이는지 확인해보고자 연구를 진행하였다. 청소년들이 남성의 경우 학교폭력 및 따돌림과 관련한 문제, 여성의 경우 가족관계와 관련한 문제와 연관성이 크다는 것을 확인하였다.

  • PDF

Analysis and Evaluation of Term Suggestion Services of Korean Search Portals: The Case of Naver and Google Korea (검색 포털들의 검색어 추천 서비스 분석 평가: 네이버와 구글의 연관 검색어 서비스를 중심으로)

  • Park, Soyeon
    • Journal of the Korean Society for information Management
    • /
    • v.30 no.2
    • /
    • pp.297-315
    • /
    • 2013
  • This study aims to analyze and evaluate term suggestion services of major search portals, Naver and Google Korea. In particular, this study evaluated relevance and currency of related search terms provided, and analyzed characteristics such as number and distribution of terms, and queries that did not produce terms. This study also analyzed types of terms in terms of the relationship between queries and terms, and investigated types and characteristics of harmful terms and terms with grammatical errors. Finally, Korean queries and English queries, and popular queries and academic queries were compared in terms of the amount and relevance of search terms provided. The results of this study show that the relevance and currency of Naver's related search terms are somewhat higher than those of Google. Both Naver and Google tend to add terms to or delete terms from original queries, and provide identical search terms or synonym terms rather than providing entirely new search terms. The results of this study can be implemented to the portal's effective development of term suggestion services.