• Title/Summary/Keyword: 그래프 구축

Search Result 288, Processing Time 0.029 seconds

Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method (듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법)

  • Hwang, Jae-Won;Ko, Young-Joong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews (화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축)

  • Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Choi, Seong-Yong;Shin, Dong-Heouk;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.400-405
    • /
    • 2018
  • 본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.

  • PDF

Constructing the Advanced National Backbone Network Using Petersen's Graph (피터슨 그래프를 이용한 국가 정보 통신망 구축)

  • 유진근;박근수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.298-300
    • /
    • 2002
  • 급격한 기술의 발전 및 신기술의 등장에 따라 국가적 차원에서 고속, 대량의 데이터를 처리하는 네트워크를 구축할 필요성이 발생하였다. 이에 고속 통신망을 구축, 운영 중에 있으나, 현재의 network은 망의 안정성, 생존성 확보를 위하여 다수의 장거리 전용회선을 사용하고 있다. 본 논문에서는 현재의 network 구조에 피터슨 그래프를 이용하여 약간의 수정을 가하여 기존 운영중인 망에서 생존성을 보장하고 경제성을 향상시키는 효율적 망 활용 방법을 제시한다.

  • PDF

An Iterative Approach to Graph-based Word Sense Disambiguation Using Word2Vec (Word2Vec을 이용한 반복적 접근 방식의 그래프 기반 단어 중의성 해소)

  • O, Dongsuk;Kang, Sangwoo;Seo, Jungyun
    • Korean Journal of Cognitive Science
    • /
    • v.27 no.1
    • /
    • pp.43-60
    • /
    • 2016
  • Recently, Unsupervised Word Sense Disambiguation research has focused on Graph based disambiguation. Graph-based disambiguation has built a semantic graph based on words collocated in context or sentence. However, building such a graph over all ambiguous word lead to unnecessary addition of edges and nodes (and hence increasing the error). In contrast, our work uses Word2Vec to consider the most similar words to an ambiguous word in the context or sentences, to rebuild a graph of the matched words. As a result, we show a higher F1-Measure value than the previous methods by using Word2Vec.

  • PDF

Graph-Based Word Sense Disambiguation Using Iterative Approach (반복적 기법을 사용한 그래프 기반 단어 모호성 해소)

  • Kang, Sangwoo
    • The Journal of Korean Institute of Next Generation Computing
    • /
    • v.13 no.2
    • /
    • pp.102-110
    • /
    • 2017
  • Current word sense disambiguation techniques employ various machine learning-based methods. Various approaches have been proposed to address this problem, including the knowledge base approach. This approach defines the sense of an ambiguous word in accordance with knowledge base information with no training corpus. In unsupervised learning techniques that use a knowledge base approach, graph-based and similarity-based methods have been the main research areas. The graph-based method has the advantage of constructing a semantic graph that delineates all paths between different senses that an ambiguous word may have. However, unnecessary semantic paths may be introduced, thereby increasing the risk of errors. To solve this problem and construct a fine-grained graph, in this paper, we propose a model that iteratively constructs the graph while eliminating unnecessary nodes and edges, i.e., senses and semantic paths. The hybrid similarity estimation model was applied to estimate a more accurate sense in the constructed semantic graph. Because the proposed model uses BabelNet, a multilingual lexical knowledge base, the model is not limited to a specific language.

How to Find Three Dimensional Symmetry in Series Parallel Digraphs (직병렬 유향 그래프의 삼차원 대칭성 탐지 알고리즘)

  • ;Peter Eades
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.689-691
    • /
    • 2000
  • 대칭성(symmetry)은 그래프를 가시화하여 기하학적 표현을 구축하는 그래프 드로잉 분야에서 그래프의 구조와 특성을 명확하게 표현해주는 가장 중요한 평가 기준이다. 하지만 현재까지는 이차원 평면에서의 대칭성 문제에 대해서만 기존 연구가 이루어져왔을 뿐 해상도를 증가시키고 대칭성을 보다 풍부하게 표현할 수 있는 그래프의 삼차원 대칭 드로잉에 관한 연구는 아직 미약한 실정이다. 본 논문에서는 직병렬 유향 그래프에서의 삼차원 대칭성을 탐지하는 알고리즘을 제안하였다. 직병렬 유향 그래프는 소프트웨어 가시화난 네트워크 모델링 등에 자주 사용되는 유용한 그래프이다. 이 알고리즘은 직병렬 유향 그래프의 최대의 대칭성을 보여주는 삼차원 드로잉 알고리즘의 기반이 된다.

  • PDF

Automatic Collecting of Natural Language Expressions of Relations for Natural Language Interface (자연어 인터페이스를 위한 관계에 대한 자연어 표현 자동 수집 방법)

  • Han, Yong-Jin;Park, Se-Young;Park, Seong-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.221-224
    • /
    • 2011
  • 관계에 대한 다양한 자연어 표현을 다루는 것은 구조 정보에 대한 자연어 질의 인터페이스 연구의 중요한 문제 중에 하나이다. 이러한 문제를 해결하기 위한 기존의 연구들은 자연어 질의 인터페이스를 대상 분야에 적합하게 구축하기 위한 수작업에 의존하였다. 이러한 접근은 소규모 구조 정보에 대한 자연어 질의 인터페이스 구축 시 효율적으로 적용될 수 있다. 하지만 최근에는 RDF와 OWL과 같은 그래프 구조 정보가 다양한 분야에서 대량으로 생성되고 있다. 수작업에 의존하는 접근을 통해 이러한 대량의 그래프 구조 정보에 대한 자연어 인터페이스를 구축하기에는 어려움이 있다. 본 논문은 자연어 인터페이스에 대한 자연어 표현의 다양성 문제를 해결하기 위해 자동으로 관계에 대한 자연어 표현을 수집하는 방법을 제안한다. 그래프 구조 정보에서 관계는 두 객체를 연결하는 유일한 에지(edge)로 표현된다. 제안한 방법은 주어진 에지로 연결되는 서로 다른 객체 쌍을 말뭉치(corpus)에서 검색하고 검색된 객체 쌍 주변에서 빈번하게 등장하는 자연어 표현을 수집한다. 자동으로 수집한 자연어 질의 표현을 자연어 인터페이스에 적용한 결과 수작업에 의존하는 기존 연구들과 비교할 만한 실험 결과를 보였다.

Context Extension In Concept-based Searching Using the Conceptual Graph (개념 그래프를 이용한 개념 기반 검색시 검색 질의어의 문맥 확장)

  • 배환국;전성진;김기태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.331-333
    • /
    • 2002
  • 웹그래프는 웹문서 간의 하이퍼링크를 각 웹문서의 핵심어간의 링크관계로 추상화하대 이 관계를 이용하여 핵심어의 개념 그래프를 구축하고 질의의 확장이나 영역지식을 제공하는 개념 기반 검색이 가능한 검색 시스템이다 본 논문에서는 웹그래프에서 가능했던 질의어에 대한 한 단계의 질의 확장에 그치지 않고. 최초의 질의어와 이후 확장어들에 대한 문맥을 유지하대 추가적인 다단계의 확장이 가능하도록 하는 방법을 계시한다. 검색 시스템 사용자는 최초 질의어가 속하는 해당 분야에 대한 지식이 부족한 경우, 문맥을 유지한 확장을 통하여 자신이 찾고자 하는 바를 명확히 해 나가며 세부 질의를 구축할 수 있고 해당 분야에 대한 지식을 얻는 것이 가능하다

  • PDF

System Design and Implementation for Building a Place Information based on Crowdsourcing Utilizing the Graph Data Model (그래프 데이터 모델을 활용한 크라우드 소싱 기반의 장소 정보 구축을 위한 시스템 설계 및 구현)

  • Lee, Jae-Eun;Rho, Gon-Il;Jang, Han-Me;Yu, Kiy-Un
    • Journal of Cadastre & Land InformatiX
    • /
    • v.46 no.1
    • /
    • pp.117-131
    • /
    • 2016
  • The development of LBS(location-based services) due to the widespread mobile environment highlights the importance of POI(point of interest) information. The accurate and up-to-date POI has to be ensured to reflect the information of rapidly changing places. For the efficient construction of POI, here we propose the novel construction system for t he place information. This system is based on crowd-sourcing in which a great number of users participate. In addition, we utilize the graph data model to build the new concept of the place information covering the wide areas extending from the specific point. Moreover, the implementation of the new system applying the graph data model and crowd-sourcing is realized in this paper. That is, this study suggests the whole new concept of the place information and shows the clustering and the renewal of the place information through crowd-sourcing.

Graph-based Wi-Fi Radio Map Construction and Update Method (그래프 기반 Wi-Fi 신호 지도 구축 및 갱신 기법)

  • Yu, Subin;Choi, Wonik
    • Journal of KIISE
    • /
    • v.44 no.6
    • /
    • pp.643-648
    • /
    • 2017
  • Among Wi-Fi based indoor positioning systems, fingerprinting localization is the most common technique with high precision. However, construction of the initial radio map and the update process require considerable labor and time effort. To address this problem, we propose an efficient method that constructs the initial radio map at each vertex based on a graph. In addition, we introduce a method to update the radio map automatically by mapping signal data acquired from users to the reference point created on each edge. Since the proposed method collects signal data manually only at the vertex of the graph to build the initial radio map and updates it automatically, our proposed method can dramatically reduce labor and time effort, which are the disadvantages of the conventional fingerprinting method. In our experimental study, we show validity of our radio map update method by comparing with the actual reference point data. We also show that our proposed method is able to construct the radio map with an accuracy of about 3.5m by automatically updating the radio map.