• 제목/요약/키워드: Semantic Classification

검색결과 329건 처리시간 0.024초

A Step towards the Improvement in the Performance of Text Classification

  • Hussain, Shahid;Mufti, Muhammad Rafiq;Sohail, Muhammad Khalid;Afzal, Humaira;Ahmad, Ghufran;Khan, Arif Ali
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권4호
    • /
    • pp.2162-2179
    • /
    • 2019
  • The performance of text classification is highly related to the feature selection methods. Usually, two tasks are performed when a feature selection method is applied to construct a feature set; 1) assign score to each feature and 2) select the top-N features. The selection of top-N features in the existing filter-based feature selection methods is biased by their discriminative power and the empirical process which is followed to determine the value of N. In order to improve the text classification performance by presenting a more illustrative feature set, we present an approach via a potent representation learning technique, namely DBN (Deep Belief Network). This algorithm learns via the semantic illustration of documents and uses feature vectors for their formulation. The nodes, iteration, and a number of hidden layers are the main parameters of DBN, which can tune to improve the classifier's performance. The results of experiments indicate the effectiveness of the proposed method to increase the classification performance and aid developers to make effective decisions in certain domains.

Word-Level Embedding to Improve Performance of Representative Spatio-temporal Document Classification

  • Byoungwook Kim;Hong-Jun Jang
    • Journal of Information Processing Systems
    • /
    • 제19권6호
    • /
    • pp.830-841
    • /
    • 2023
  • Tokenization is the process of segmenting the input text into smaller units of text, and it is a preprocessing task that is mainly performed to improve the efficiency of the machine learning process. Various tokenization methods have been proposed for application in the field of natural language processing, but studies have primarily focused on efficiently segmenting text. Few studies have been conducted on the Korean language to explore what tokenization methods are suitable for document classification task. In this paper, an exploratory study was performed to find the most suitable tokenization method to improve the performance of a representative spatio-temporal document classifier in Korean. For the experiment, a convolutional neural network model was used, and for the final performance comparison, tasks were selected for document classification where performance largely depends on the tokenization method. As a tokenization method for comparative experiments, commonly used Jamo, Character, and Word units were adopted. As a result of the experiment, it was confirmed that the tokenization of word units showed excellent performance in the case of representative spatio-temporal document classification task where the semantic embedding ability of the token itself is important.

Multiple Case Marking Constructions in Korean Revisited

  • Ryu, Byong-Rae
    • 한국언어정보학회지:언어와정보
    • /
    • 제17권2호
    • /
    • pp.1-27
    • /
    • 2013
  • This paper presents a unified approach to multiple nominative and accusative constructions in Korean. We identify 16 semantic relations holding between two consecutive noun phrases (NPs) in multiple case marking constructions, and propose each semantic relation as a licensing condition on double case marking. We argue that the multiple case marking constructions are merely the sequences of double case marking, which are formed by dextrosinistrally sequencing the pairs of the same-case marked NPs of same or different type. Some appealing consequences of this proposal include a new comprehensive classification of the sequences of same-case NPs and a straightforward account of some long standing problems such as how the additional same-case NPs are licensed, and in what respects the multiple nominative marking and the multiple accusative marking are alike and different from each other.

  • PDF

한국어 동사의 어휘의미망 구축을 위한 중립동사의 의미분할 (Word Sense Distinction of Middle Verbs for Korean Verb Wordnet)

  • 이은령;윤애선
    • 한국언어정보학회지:언어와정보
    • /
    • 제9권2호
    • /
    • pp.23-48
    • /
    • 2005
  • This study aims to discuss the word sense distinction of Korean middle verbs for restructuring KorLexVerb 1.0. Despite the duality of its meaning and syntactic structure, the word senses of middle verb are not clearly distinguished in current dictionaries. The underspecification causes very often mismatches that a same Korean word sense is used for two different English verb senses. A close examination on the syntactic and semantic properties of middle verb shows us that the word sense distinction and the reconstruction of hierarchical structure are indispensable. Finally, by doing this fine grained word sense distinction, we propose an alternative way of classification and description of the verb polysemy for KorLexVerb 1.0 as well as for dictionary-like language resources.

  • PDF

Semantic Word Categorization using Feature Similarity based K Nearest Neighbor

  • Jo, Taeho
    • Journal of Multimedia Information System
    • /
    • 제5권2호
    • /
    • pp.67-78
    • /
    • 2018
  • This article proposes the modified KNN (K Nearest Neighbor) algorithm which considers the feature similarity and is applied to the word categorization. The texts which are given as features for encoding words into numerical vectors are semantic related entities, rather than independent ones, and the synergy effect between the word categorization and the text categorization is expected by combining both of them with each other. In this research, we define the similarity metric between two vectors, including the feature similarity, modify the KNN algorithm by replacing the exiting similarity metric by the proposed one, and apply it to the word categorization. The proposed KNN is empirically validated as the better approach in categorizing words in news articles and opinions. The significance of this research is to improve the classification performance by utilizing the feature similarities.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

군집분석을 이용한 하이브리드 클라우드 컴퓨팅 환경에서의 시맨틱 클라우드 자원 추천 서비스 기법 (Semantic Cloud Resource Recommendation Using Cluster Analysis in Hybrid Cloud Computing Environment)

  • 안윤선;김윤희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권9호
    • /
    • pp.283-288
    • /
    • 2015
  • 하이브리드 클라우드 컴퓨팅 환경에서 많은 과학자들이 과학 응용을 수행하고 있으나, 클라우드 컴퓨팅 서비스를 제공하는 각 회사들의 자원 표기법이 상이하고 복잡하여 사용에 어려움이 따르고, 응용에 적합한 클라우드 자원을 선택하는 것이 어렵다. 클라우드 서비스 간에 상호 호환성을 제공해주는 하이브리드 클라우드 환경에서의 표준화된 자원 명세 표기법이 필요하다. 과학자들은 기존에 자신들이 수행했던 자원이나 가장 좋은 성능의 자원에서만 수행하려는 경향이 있어, 비용, 시간을 효율적으로 수행하면서 응용에 적합하고, 기존의 실험과 유사하게 진행할 수 있는 자원을 추천해주는 서비스가 필요하다. 하이브리드 클라우드 서비스의 표준화를 위해 인터클라우드 프로젝트가 진행되고 있으나, 과학 응용 실험에 적합한 자원의 선택을 위해 필요한 클라우드 자원의 특성들을 나타내는 데 한계가 있다. 본 논문에서는 하이브리드 클라우드 환경에서 시맨틱 클라우드 자원 서비스를 제안한다. 통계 기법으로 과학 응용의 특징에 따라 응용에 적합한 클라우드 자원을 그룹으로 분류하고 분류된 유사한 클라우드 자원 그룹을 가지고 시맨틱 클라우드 자원 추천 서비스 기법을 제공한다. 제안한 알고리즘을 통해 시맨틱 클라우드 추천 서비스 기법을 제공하면, 효율적인 자원의 가용성과 비용으로 응용을 수행할 수 있고, 응용에 적합한 클라우드 자원을 추천할 수 있다.

의미적 멀티미디어 메타데이터 생성을 위한 MPEG-7 기술기반 주석도구의 개발 (Development of MPEG-7 Description-based Annotation Tool for Production of Semantic Multimedia Metadata)

  • 안형근;고재진
    • 정보처리학회논문지D
    • /
    • 제14D권1호
    • /
    • pp.35-44
    • /
    • 2007
  • 최근 멀티미디어 데이터의 급격한 양적 팽창은 원하는 데이터를 빠르고 정확하게 검색해야 한다는 새로운 과제를 안겨주었다. 이러한 효율적 검색을 위해서 가장 중요한 기반이 되는 것이 바로 멀티미디어 데이터의 적절한 표현이다. 국제 표준으로 제정된 MPEG-7은 바로 이러한 이유로 멀티미디어 데이터의 표현에 대한 표준화를 다루고 있다. 본 논문에서 메타데이터 생성을 위한 새로운 접근법을 제안한다. 사용자는 주어진 멀티미디어 컨텐츠를 작은 단위들로 분해를 하고, 분해된 단위들에 시간, 위치 둥과 같은 추가적인 기본정보뿐만 아니라 MPEG-7표준을 따르는 사건, 관계 등과 같은 분류정보를 쉽게 주석할 수 있다. 이 주석의 목적은 자동적으로 의미기술을 만들기 위한 것이고, 이 의미기술에서 노드들은 사건들이고, 링크는 그들 사이의 관계인 하나의 그래프이다. 마지막으로 제안된 기법을 기반으로 의미기술을 위한 주석도구(SMAT)를 구현하였고, 실제 실험을 통하여 성능을 평가하였다. 최종적으로, 제안 도구는 재사용성과 확장성의 두 개의 중요한 타당의 특징이 있다고 말할 수 있다.

시소러스를 기반으로 한 온톨로지 시스템 구현에 관한 연구 (A Study on the Thesaurus-based Ontology System for the Semantic Web)

  • 정도헌;김태수
    • 정보관리학회지
    • /
    • 제20권3호
    • /
    • pp.155-175
    • /
    • 2003
  • 본 연구는 W3C를 중심으로 시맨틱 웹을 위한 표준 온톨로지 언어로 제안된 OWL(Web Ontology Language)을 바탕으로 패싯형 시소러스인 AAT(Art and Architecture Thesaurus)의 개념 체계를 이용한 온톨로지 스키마를 구현하여 시맨틱 웹 환경의 온톨로지 기반 시스템을 구축하였다. 특히, 개념의 범위를 AAT의 Furniture 패싯 이하의 용어에 한정하였고 이 중 개념관계가 다양하고 많은 어휘를 가진 하위 패싯인 Chair 개념을 중심으로 시스템 구현 및 테스트를 하였다. 이 시스템은 올톨로지로 정의된 개념을 검색하며, 동의어에 대해 항상 우선어(Preferred term)를 제시하여 어휘를 제어한다. 또한 질의어를 중심으로 한 용어간의 관계를 이용자에게 제시하고 관련어 및 개념의 분류기준 속성을 제시한다. 그 밖에 개념에 인스턴스 값을 입력하고 이를 RDF 문서로 재생산하는 시스템을 구축하여 온톨로지 시스템 응용의 일례를 제시하였다. 이 과정에서 여러 온톨로지를 도입하였고, 인스턴스 값을 담기위한 컨테이너 기반으로 메타데이터 요소를 사용하였다.

언어네트워크분석을 이용한 야외지질학습 전후의 퇴적암에 대한 개념 구조 변화 분석 (An Analysis of the Changes of High School Students' Conceptual Structure about Sedimentary Rocks before and after the Field Trip using the Semantic Network Analysis)

  • 박경진;정덕호;조규성
    • 한국지구과학회지
    • /
    • 제34권2호
    • /
    • pp.173-186
    • /
    • 2013
  • 본 연구의 목적은 언어네트워크분석을 이용하여 야외지질학습에서 학생들의 퇴적암에 대한 개념 구조 변화를 알아보기 위한 것이다. 이를 위하여 고등학생 15명을 대상으로 퇴적암에 대한 정의, 분류, 생성과정 및 특징을 묻는 개방형 문항을 개발하였으며, 이 텍스트 자료를 언어네트워크분석법을 통해 분석하였다. 그 결과 첫째, 야외지질학습을 통해 학생들의 퇴적암에 대한 개념 구조는 사전에 비해 사후에 크게 확장되었다. 둘째, 학생들의 개념 구조를 구성하는 하위 클러스터는 서로 긴밀하게 연결되어 있는 '작은 세상 네트워크'를 형성하였다. 셋째, 학생들의 개념 구조의 규모는 수개월이 지난 후 감소하였지만, 하위 클러스터의 연결 상태는 그대로 유지하고 있었다.