• Title/Summary/Keyword: 연관단어

Search Result 252, Processing Time 0.039 seconds

Optimization of Associative Word Knowledge Base using Apriori-Genetic Algorithm (연역적 유전자 알고리즘을 이용한 연관 단어 지식베이스의 최적화)

  • Go, Su-Jeong;Choe, Jun-Hyeok;Lee, Jeong-Hyeon
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.8
    • /
    • pp.560-569
    • /
    • 2001
  • 지식 기반 정보검색 시스템에서의 질의 확장은 단어간의 의미 관계를 고려한 지식베이스를 필요로 한다. 기존의 단순 마이닝 기법은 사용자의 선호도를 고려하지 않은 채 연관 단어를 추출하므로 재현율은 향상되나 정확도는 저하된다. 본 논문에서는 단어간의 의미 관게를 고려한 연관 단어 중에서 사용자가 선호하는 연관 단어만을 포함하는 정확도가 향상된 최적화된 연관 단어 지식베이스 구축을 위한 방법을 제안한다. 이를 위해 컴퓨터 분야의 웹문서를 8개의 클래스로 분류하고, 각 클래스별 웹문서에서 명사를 추출한다. 추출된 명사를 대상으로 Apriori 알고리즘을 이용하여 연관 단어를 추출하고, 유전자 알고리즘을 이용하여 사용자가 선호하지 않은 연관 단어를 지식베이스의 구축 대상에서 제외시킨다. 본 논문에서 제안된 Apriori 알고리즘과 유전자 알고리즘의 성능을 평가하기 위하여 Apriori 알고리즘은 상호 정보량과 Rocchio 알고리즘과 비교하며, 유전자 알고리즘은 TF.IDF를 이용한 단어 정제 방법과 비교한다.

  • PDF

Visualizer of Associated Word by Analyzing News Articles (신문 기사 분석을 통한 연관어 비주얼라이저)

  • Kim, Hyun-Jin;Moon, Sung-Young;Jeong, Yong-Gi;Lee, Jeong-Joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1189-1192
    • /
    • 2013
  • 신문기사 분석을 통한 연관어 비주얼라이저는 신문 기사의 단어를 추출하여 단어 간 연관도를 분석하여 다양한 그래프로 표현하는 시스템이다. 인터넷 신문사의 뉴스 기사들을 수집하고 형태소 분석을 통해 기사별로 단어의 출현 횟수를 데이터베이스에 저장하고 단어와 단어 간의 연관성을 분석한다. 단어 간 연관성을 측정하기 위한 기준으로 두 단어 간 동일기사에 존재여부, 동일날짜에 존재여부를 이용한다. 이 값을 바탕으로 웹 페이지 상에서 다양한 그래프로 상위 연관성을 가진 단어들을 표현한다. 표현 되는 그래프는 다양한 형태의 그래프로 단어와 단어사이에 연관성을 보다 쉽게 파악 할 수 있다.

Feature Extraction of Web Document using Association Word Mining (연관 단어 마이닝을 사용한 웹문서의 특징 추출)

  • 고수정;최준혁;이정현
    • Journal of KIISE:Databases
    • /
    • v.30 no.4
    • /
    • pp.351-361
    • /
    • 2003
  • The previous studies to extract features for document through word association have the problems of updating profiles periodically, dealing with noun phrases, and calculating the probability for indices. We propose more effective feature extraction method which is using association word mining. The association word mining method, by using Apriori algorithm, represents a feature for document as not single words but association-word-vectors. Association words extracted from document by Apriori algorithm depend on confidence, support, and the number of composed words. This paper proposes an effective method to determine confidence, support, and the number of words composing association words. Since the feature extraction method using association word mining does not use the profile, it need not update the profile, and automatically generates noun phrase by using confidence and support at Apriori algorithm without calculating the probability for index. We apply the proposed method to document classification using Naive Bayes classifier, and compare it with methods of information gain and TFㆍIDF. Besides, we compare the method proposed in this paper with document classification methods using index association and word association based on the model of probability, respectively.

Bayesian Automatic Document Categorization Using Apriori-Genetic Algorithm (Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류)

  • Go, Su-Jeong;Lee, Jeong-Hyeon
    • The KIPS Transactions:PartB
    • /
    • v.8B no.3
    • /
    • pp.251-260
    • /
    • 2001
  • 기존의 베이지안 문서 분류는 문서의 특징 표현에 있어서 단어간의 의미를 정확하게 반영하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류 방법을 제안한다. Apriori 알고리즘은 단어간의 의미를 반영한 연관 단어의 형태로 문서의 특징을 추출하며 추출된 연관 단어로 연관 단어 지식베이스를 구축한다. Aprrori 알고리즘만으로 연관 단어 지식베이스를 구축할 경우, 지식베이스 안에 부적당한 연관 단어가 포함된다. 따라서 문서 분류의 정확도가 낮아지는 단점이 있다. 이러한 단점을 보완하기 위해, Genetic 알고리즘을 이용하여 연관 단어 지식베이스를 최적화하는 방법을 사용한다. 베이지안 확률을 이용하는 분류자는 최적화된 연관 단어 지식베이스를 기반으로 문서를 클래스별로 분류한다. Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류의 성능을 평가하기 위해, Apriori 알고리즘을 이용한 베이지안 문서 분류 방법, 역문헌빈도를 사용한 베이지안 문서 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다.

  • PDF

A Topic Related Word Extraction Method Using Deep Learning Based News Analysis (딥러닝 기반의 뉴스 분석을 활용한 주제별 최신 연관단어 추출 기법)

  • Kim, Sung-Jin;Kim, Gun-Woo;Lee, Dong-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.873-876
    • /
    • 2017
  • 최근 정보검색의 효율성을 위해 데이터를 분석하여 해당 데이터를 가장 잘 나타내는 연관단어를 추출 및 추천하는 연구가 활발히 이루어지고 있다. 현재 관련 연구들은 출현 빈도수를 사용하는 방법이나 LDA와 같은 기계학습 기법을 활용해 데이터를 분석하여 연관단어를 생성하는 방법을 제안하고 있다. 기계학습 기법은 결과 값을 찾는데 사용되는 특징들을 전문가가 직접 설계해야 하며 좋은 결과를 내는 적절한 특징을 찾을 때까지 많은 시간이 필요하다. 또한, 파라미터들을 직접 설정해야 하므로 많은 시간과 노력을 필요로 한다는 단점을 지닌다. 이러한 기계학습 기법의 단점을 극복하기 위해 인공신경망을 다층구조로 배치하여 데이터를 분석하는 딥러닝이 최근 각광받고 있다. 본 논문에서는 기존 기계학습 기법을 사용하는 연관단어 추출연구의 한계점을 극복하기 위해 딥러닝을 활용한다. 먼저, 인공신경망 기반 단어 벡터 생성기인 Word2Vec를 사용하여 다양한 텍스트 데이터들을 학습하고 룩업 테이블을 생성한다. 그 후, 생성된 룩업 테이블을 바탕으로 인공신경망의 한 종류인 합성곱 신경망을 활용하여 사용자가 입력한 주제어와 관련된 최근 뉴스데이터를 분석한 후, 주제별 최신 연관단어를 추출하는 시스템을 제안한다. 또한 제안한 시스템을 통해 생성된 연관단어의 정확률을 측정하여 성능을 평가하였다.

Classification of Web Documents Using Associative Word Frequency for Collaborative Filtering (협력적 필터링을 위해 연관 단어 빈도를 이용한 웹 문서 분류)

  • 하원식;정경용;정헌만;류중경;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.160-162
    • /
    • 2004
  • 기존의 웹 문서 분류 시스템서는 많은 시간과 노력을 요구하며, 연관 단어가 아닌 단일 단어만으로 웹 문서들을 분류하여 단어의 중의성을 반영하지 못해 많은 오분류가 있었다. 이러한 문제점을 해결하기 위해 본 논문에서는 협력적 필터링을 위한 연관 단어 빈도를 사용한 웹 문서 분류 방법을 제안한다. 제안된 방법에서는 웹 문서 내에서 단어들을 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘에 의해 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 반영한다. 수정된 신뢰도를 ARHP 알고리즘에 적용하여 연관 단어들 사이의 유사정도를 계산하고 유사 클래스를 구성한다 생성된 유사 클래스들을 기반으로 웹 문서를 $\alpha$-cut을 이용하여 분류한다 성능평가를 위해 기존의 문서 분류 방법들과 비교 평가를 하였다.

  • PDF

Automatic Classification of Documents Using Word Correlation (단어의 연관성을 이용한 문서의 자동분류)

  • Sin, Jin-Seop;Lee, Chang-Hun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.9
    • /
    • pp.2422-2430
    • /
    • 1999
  • In this paper, we propose a new method for automatic classification of web documents using the degree of correlation between words. First, we select keywords from term frequency and inverse document frequency (TF*IDF) and compute the degree of relevance between the keywords in the whole documents,, using the probability model word that was closely connected with them and create a profile that characterizes each class. Finally, if we repeat the above process until lower than threshold value, we will make several profiles which are in keeping with users concern. And, we classified each document with the profiles and compared these with those of other automatic classification methods.

  • PDF

Document Classification using Weighted Associative Classifier (가중치가 부여된 연관 규칙을 이용한 문서 분류)

  • 김흥남;이기성;조근식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.154-156
    • /
    • 2003
  • 인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Document Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘들은 문서들의 각 단락의 비중을 고려하지 않은 채 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인하여 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 .가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Na$\square$ve Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.

  • PDF

Development of chatting program using social issue keyword information (사회적 핵심 이슈 키워드 정보를 활용한 채팅 프로그램 개발)

  • Yoon, Kyung-Suob;Jeong, Won-Hyeok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.307-310
    • /
    • 2020
  • 본 논문에서 이슈 키워드 추출을 위해 텍스트 마이닝(Text Mining) 기술을 요구한다. 사회적 이슈 키워드를 추출하기 위해 키워드 수집 모델이 되는 사이트에서 크롤링(crawling)을 수행한 뒤, 형태소 단위 의미있는 단어를 수집하기 위해 형태소 분석(morphological analysis)을 수행한다. 한국어 형태소 분석을 위해 파이썬의 코엔엘파이(KoNLPy) 패키지를 활용한다. 형태소 분석을 통해 나뉘어진 단어에서 통계를 내어 이슈 키워드 추출한다. 이슈 키워드를 뒷받침할 연관 단어를 분석하기 위해 단어 임베딩(Word Embedding)을 수행한다. 단어 임베딩 수행을 위해 Word2Vec 모델 중 Skip-Gram 방법론을 적용하여 연관 단어를 분석하도록 개발하였다. 웹 소켓(Web Socket) 통신을 통한 채팅 프로그램의 상단에 분석한 이슈 키워드와 연관 단어를 출력하도록 개발하였다.

  • PDF

Implementation of ″Kyonggi21Search″ combining GIS with The Web : Optimization of Index Association (웹과 GIS를 통합한 ″Kyonggi21Search″ 구현 : 색인어간 연관도 생성 및 최적화)

  • 장정훈;이룡;상임미언;권용진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.79-81
    • /
    • 2003
  • Kyonggi21Search시스템은 GIS와 웹을 통합한 지역정보 검색 시스템이다. 웹과 GIS를 연동하여 지리정보를 검색하기 위해 웹 문서에서 지역관련 색인어를 추출하고, 색인어간의 관련성을 계산한다. "Kyonggi21Search"시스템에서는 웹 문서에 많이 나타나는 일반적인 단어보다는, 많은 문서에 나타나지 않는 지리적 문화적인 단어들 간의 관련성을 찾는 것이 더 중요한데, 본 연구에서는 단어들 간의 관련성을 찾는데 연관규칙과 연관클러스터를 이용하여 연관도를 계산한다. 그리고 이런 단어들의 관련성을 찾는데는 연관 클러스터를 이용하는 것이 더 적합하다는 것을 보여준다. 한편 웹 문서와 색인어를 이용하여 만든 행렬은 희소행렬이라는 점을 이용하여 연관 클러스터 방법의 단점인 높은 계산량을 줄이는 최적화 방법을 제안한다.

  • PDF