• Title/Summary/Keyword: 키워드 추출 방법

Search Result 355, Processing Time 0.027 seconds

Intelligent Spam-mail Filtering Based on Textual Information and Hyperlinks (텍스트정보와 하이퍼링크에 기반한 지능형 스팸 메일 필터링)

  • Kang, Sin-Jae;Kim, Jong-Wan
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.7
    • /
    • pp.895-901
    • /
    • 2004
  • This paper describes a two-phase intelligent method for filtering spam mail based on textual information and hyperlinks. Scince the body of spam mail has little text information, it provides insufficient hints to distinguish spam mails from legitimate mails. To resolve this problem, we follows hyperlinks contained in the email body, fetches contents of a remote webpage, and extracts hints (i.e., features) from original email body and fetched webpages. We divided hints into two kinds of information: definite information (sender`s information and definite spam keyword lists) and less definite textual information (words or phrases, and particular features of email). In filtering spam mails, definite information is used first, and then less definite textual information is applied. In our experiment, the method of fetching web pages achieved an improvement of F-measure by 9.4% over the method of using on original email header and body only.

Boolean Query Formulation From Korean Natural Language Queries using Syntactic Analysis (구문분석에 기반한 한글 자연어 질의로부터의 불리언 질의 생성)

  • Park, Mi-Hwa;Won, Hyeong-Seok;Lee, Geun-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.10
    • /
    • pp.1219-1229
    • /
    • 1999
  • 일반적으로 AND, OR, NOT과 같은 연산자를 사용하는 불리언 질의는 사용자의 검색의도를 정확하게 표현할 수 있기 때문에 검색 전문가들은 불리언 질의를 사용하여 높은 검색성능을 얻는다고 알려져 있지만, 일반 사용자는 자신이 원하는 정보를 불리언 형태로 표현하는데 익숙하지 않다. 본 논문에서는 검색성능의 향상과 사용자 편의성을 동시에 만족하기 위하여 사용자의 자연어 질의를 확장 불리언 질의로 자동 변환하는 방법론을 제안한다. 먼저 자연어 질의를 범주문법에 기반한 구문분석을 수행하여 구문트리를 생성하고 연산자 및 키워드 정보를 추출하여 구문트리를 간략화한다. 다음으로 간략화된 구문트리로부터 명사구를 합성하고 키워드들에 대한 가중치를 부여한 후 불리언 질의를 생성하여 검색을 수행한다. 또한 구문분석의 오류로 인한 검색성능 저하를 최소화하기 위하여 상위 N개 구문트리에 대해 각각 불리언 질의를 생성하여 검색하는 N-BEST average 방법을 제안하였다. 정보검색 실험용 데이타 모음인 KTSET2.0으로 실험한 결과 제안된 방법은 수동으로 추출한 불리언 질의보다 8% 더 우수한 성능을 보였고, 기존의 벡터공간 모델에 기반한 자연어질의 시스템에 비해 23% 성능향상을 보였다. Abstract There have been a considerable evidence that trained users can achieve a good search effectiveness through a boolean query because a structural boolean query containing operators such as AND, OR, and NOT can make a more accurate representation of user's information need. However, it is not easy for ordinary users to construct a boolean query using appropriate boolean operators. In this paper, we propose a boolean query formulation method that automatically transforms a user's natural language query into a extended boolean query for both effectiveness and user convenience. First, a user's natural language query is syntactically analyzed using KCCG(Korean Combinatory Categorial Grammar) parser and resulting syntactic trees are structurally simplified using a tree-simplifying mechanism in order to catch the logical relationships between keywords. Next, in a simplified tree, plausible noun phrases are identified and added into the same tree as new additional keywords. Finally, a simplified syntactic tree is automatically converted into a boolean query using some mapping rules and linguistic heuristics. We also propose an N-BEST average method that uses top N syntactic trees to compensate for bad effects of single incorrect top syntactic tree. In experiments using KTSET2.0, we showed that a proposed method outperformed a traditional vector space model by 23%, and surprisingly manually constructed boolean queries by 8%.

Ontology Construction of Technological Knowledge for R&D Trend Analysis (연구 개발 트렌드 분석을 위한 기술 지식 온톨로지 구축)

  • Hwang, Mi-Nyeong;Lee, Seungwoo;Cho, Minhee;Kim, Soon Young;Choi, Sung-Pil;Jung, Hanmin
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.12
    • /
    • pp.35-45
    • /
    • 2012
  • Researchers and scientists spend huge amount of time in analyzing the previous studies and their results. In order to timely take the advantageous position, they usually analyze various resources such as paper, patents, and Web documents on recent research issues to preoccupy newly emerging technologies. However, it is difficult to select invest-worthy research fields out of huge corpus by using the traditional information search based on keywords and bibliographic information. In this paper, we propose a method for efficient creation, storage, and utilization of semantically relevant information among technologies, products and research agents extracted from 'big data' by using text mining. In order to implement the proposed method, we designed an ontology that creates technological knowledge for semantic web environment based on the relationships extracted by text mining techniques. The ontology was utilized for InSciTe Adaptive, a R&D trends analysis and forecast service which supports the search for the relevant technological knowledge.

Semantic Visualization of Dynamic Topic Modeling (다이내믹 토픽 모델링의 의미적 시각화 방법론)

  • Yeon, Jinwook;Boo, Hyunkyung;Kim, Namgyu
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.1
    • /
    • pp.131-154
    • /
    • 2022
  • Recently, researches on unstructured data analysis have been actively conducted with the development of information and communication technology. In particular, topic modeling is a representative technique for discovering core topics from massive text data. In the early stages of topic modeling, most studies focused only on topic discovery. As the topic modeling field matured, studies on the change of the topic according to the change of time began to be carried out. Accordingly, interest in dynamic topic modeling that handle changes in keywords constituting the topic is also increasing. Dynamic topic modeling identifies major topics from the data of the initial period and manages the change and flow of topics in a way that utilizes topic information of the previous period to derive further topics in subsequent periods. However, it is very difficult to understand and interpret the results of dynamic topic modeling. The results of traditional dynamic topic modeling simply reveal changes in keywords and their rankings. However, this information is insufficient to represent how the meaning of the topic has changed. Therefore, in this study, we propose a method to visualize topics by period by reflecting the meaning of keywords in each topic. In addition, we propose a method that can intuitively interpret changes in topics and relationships between or among topics. The detailed method of visualizing topics by period is as follows. In the first step, dynamic topic modeling is implemented to derive the top keywords of each period and their weight from text data. In the second step, we derive vectors of top keywords of each topic from the pre-trained word embedding model. Then, we perform dimension reduction for the extracted vectors. Then, we formulate a semantic vector of each topic by calculating weight sum of keywords in each vector using topic weight of each keyword. In the third step, we visualize the semantic vector of each topic using matplotlib, and analyze the relationship between or among the topics based on the visualized result. The change of topic can be interpreted in the following manners. From the result of dynamic topic modeling, we identify rising top 5 keywords and descending top 5 keywords for each period to show the change of the topic. Existing many topic visualization studies usually visualize keywords of each topic, but our approach proposed in this study differs from previous studies in that it attempts to visualize each topic itself. To evaluate the practical applicability of the proposed methodology, we performed an experiment on 1,847 abstracts of artificial intelligence-related papers. The experiment was performed by dividing abstracts of artificial intelligence-related papers into three periods (2016-2017, 2018-2019, 2020-2021). We selected seven topics based on the consistency score, and utilized the pre-trained word embedding model of Word2vec trained with 'Wikipedia', an Internet encyclopedia. Based on the proposed methodology, we generated a semantic vector for each topic. Through this, by reflecting the meaning of keywords, we visualized and interpreted the themes by period. Through these experiments, we confirmed that the rising and descending of the topic weight of a keyword can be usefully used to interpret the semantic change of the corresponding topic and to grasp the relationship among topics. In this study, to overcome the limitations of dynamic topic modeling results, we used word embedding and dimension reduction techniques to visualize topics by era. The results of this study are meaningful in that they broadened the scope of topic understanding through the visualization of dynamic topic modeling results. In addition, the academic contribution can be acknowledged in that it laid the foundation for follow-up studies using various word embeddings and dimensionality reduction techniques to improve the performance of the proposed methodology.

Design and Implementation of the Extraction Mashup for Reported Disaster Information on SNSs (SNS에 제보되는 재해정보 추출 매시업 설계 및 구현)

  • Seo, Tae-Woong;Park, Man-Gon;Kim, Chang-Soo
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.11
    • /
    • pp.1297-1304
    • /
    • 2013
  • The quick report and propagate information are increasingly important because nowadays it is hard to predict the damages of flooding by unexpected heavy rain. In addition, there are not many ways to receive disaster information in real time. Accordingly, we designed the system which can earn information from a lot of messages on twitter. Above all, our system can extract and deploy disaster information by comparison with erstwhile social network service mash-up system as only broadcast media. Significant objective of this paper is to design the fastest extract disaster information system of mass media.

XML Fulltext Retrieval System by Extracting Navigation Information (네비게이션 정보추출에 의한 XML 본문검색시스템)

  • 강남규;이응봉;이석형
    • Journal of the Korean Society for information Management
    • /
    • v.19 no.3
    • /
    • pp.91-110
    • /
    • 2002
  • Recently, to overcome the limit of keyword based retrieval system, the study based structured document has been studied. But it is hard for structured retrieval system to adapt a real service, in this paper, we propose a method of retrieval mechanism for the fulltext of XML documents. We explain DTD of XML based report, extracting navigation information and planing to adapt the retrieval system for article retrieval. Using the fulttext retrieval scheme, suggested system can be an alternative plan of professional structured based retrieval system.

Classification Performance of News Filtering System by Fuzzy Inference and Kohonen Network (퍼지추론과 코호넨 신경망을 사용한 뉴스 필터링 시스템의 분류 능력)

  • Kim, Jong-Wan;Cho, Kyu-Cheol;Kim, Byeong-Man
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.291-294
    • /
    • 2003
  • 많은 양의 유즈넷 뉴스 중에서 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것은 중요하다. 하지만 뉴스 문서는 이메일과 달라서 미리 자신에게 맞는 뉴스그룹을 등록해 주어야만 정보를 얻을 수 있다. 본 연구에서는 다양한 뉴스그룹들 중에서 사용자와 취향이 가장 유사한 뉴스그룹을 코호넨 신경망을 이용하여 분류하는 서비스를 제공한다. 신경망을 학습시키기 위한 뉴스 문서의 키워드들을 선택하기 위해 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표 용어들을 선택한다. 뉴스 필터링 시스템의 분류 성능을 평가하기 위하여 유클리드 거리 면에서 비교한 결과, 제안한 방법의 유용성을 확인할 수 있었다.

  • PDF

Sentiment Analysis for Korean Product Review Using Stacked Bi-LSTM-CRF Model (Stacked Bi-LSTM-CRF 모델을 이용한 한국어 상품평 감성 분석)

  • Youn, Jun Young;Park, Jung Ju;Kim, Do Won;Min, Tae Hong;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.633-635
    • /
    • 2018
  • 최근 소셜 커머스 데이터를 이용하여 상품에 대한 소비자들의 수요와 선호도 등을 조사하는 등의 감성분석 연구가 활발히 진행되고 있다. 본 연구에서는 Stacked Bi-LSTM-CRF 모델을 이용하여 한국어의 복합적인 형태로 이루어지는 감성표현에 대하여 어휘단위로 감성분석을 진행하고, 상품의 세부주제(특징, 관심키워드 등)를 추출하여 세부주제별 감성 분석을 할 수 있는 방법을 제안한다.

  • PDF

A Design of Intelligent Web Image Retrival System using Texture and Color Information (질감과 칼라 정보를 이용한 지능적 웹 이미지 검색 시스템 설계)

  • 홍성용;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.61-63
    • /
    • 2001
  • 최근들어, 인터넷상의 E-business나 쇼핑몰사이트와 같은 웹 사이트에서 멀티미디어 정보를 많이 사용하고 있다. 멀티미디어 정보 중에서도 이미지 정보가 가장 많이 사용되고 있으며, 이는 사용자들이 가장 많이 접하는 정보이다. 기존의 이미지 검색 기법은 내용 기반 검색이나 키워드를 이용한 검색 방법을 지원하지만, 사용자의 의도를 적용하지는 못하고 있다. 본 논문에서는 웹에서 사용자가 이미지를 검색하고 접근하는 패턴을 이미지의 칼라와 질감을 특징으로 한 벡터를 기반으로 시스템에 학습 시키고 사용자의 검색 성향을 분석하여 시스템에 적용한다. 이미지 검색의 효율을 높이기 위하여 질감을 기반으로 비트 벡터 인덱스(bit vector index) 기법을 적용하며, 인덱스에 의한 이미지 자동 분류 기법을 제안한다. 또한 이미지 칼라의 정보를 영역별로 추출하여 칼라 부분매칭 검색을 가능하게 한다. 이러한 이미지 검색 시스템을 사용하는 사용자의 정보를 시스템에 학습시키고 학습된 결과를 이용해서 사용자가 검색 하고자 하는 이미지 정보에 편리성을 제공하고 검색의 효율성을 증대시킨다.

  • PDF

A Study for Effective Retrieval Method Through Definition of Component Metadata (컴포넌트 메타데이터의 정의를 통한 효율적인 검색 방법에 관한 연구)

  • 김병준;김행곤;차정은;김철홍
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.507-509
    • /
    • 2000
  • 소프트웨어 공학의 새로운 패러다임인 컴포넌트가 지니는 다양한 속성들과 장점은 아직 많은 문제점들이 남아있는 상태이지만 소프트웨어 개발시의 높은 생산성과 효율성, 그리고 재사용성과 유지보수의 이점으로 크게 주목받고 있다. 컴포넌트의 뛰어난 장점들을 효과적으로 이용하기 위해선 우선 표준화된 명세를 통해 컴포넌트가 개발되어 유통업체나 벤더의 저장소에 저장되어 있어야 하며 구축된 저장소에서 사용자는 컴포넌트 검색 서비스를 이용하여 자신의 요구에 적합한 컴포넌트를 구매, 사용할 수 있는 체계화된 프로세스가 필요하다. 따라서 본 논문에서는 컴포넌트 검색을 위한 선행 작업으로서, 검색용 메타데이터를 메타데이터가 가져야 하는 원칙을 적용하여 정의한다. 컴포넌트가 가지는 일반적인 속성과 성질로부터 사용자가 컴포넌트를 검색하고자 할 때 사용되어질 수 있는 키워드를 메타데이터의 항목으로 추출하였으며 이렇게 정의된 메타데이터를 바탕으로 일반적인 정보의 분류에 적합한 기존 웹 검색과는 다른 컴포넌트만의 검색을 다루는 새로운 검색 시스템을 설계하였다. 따라서 효과적인 컴포넌트 재사용을 위해 검색용 메타데이터와 이를 바탕으로 한 컴포트 검색 시스템을 제안하고자 한다.

  • PDF