• 제목/요약/키워드: Lexical semantic network

검색결과 26건 처리시간 0.028초

단어클러스터링 시스템을 이용한 어휘의미망의 활용평가 방안 (The Method of the Evaluation of Verbal Lexical-Semantic Network Using the Automatic Word Clustering System)

  • 김혜경;송미영
    • 한국한의학연구원논문집
    • /
    • 제12권3호통권18호
    • /
    • pp.1-15
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만, 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다. 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68,455,856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '[-하]동사류' 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 여부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론, 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

  • PDF

동사 어휘의미망의 반자동 구축을 위한 사전정의문의 중심어 추출 (The Extraction of Head words in Definition for Construction of a Semi-automatic Lexical-semantic Network of Verbs)

  • 김혜경;윤애선
    • 한국언어정보학회지:언어와정보
    • /
    • 제10권1호
    • /
    • pp.47-69
    • /
    • 2006
  • Recently, there has been a surge of interests concerning the construction and utilization of a Korean thesaurus. In this paper, a semi-automatic method for generating a lexical-semantic network of Korean '-ha' verbs is presented through an analysis of the lexical definitions of these verbs. Initially, through the use of several tools that can filter out and coordinate lexical data, pairs constituting a word and a definition were prepared for treatment in a subsequent step. While inspecting the various definitions of each verb, we extracted and coordinated the head words from the sentences that constitute the definition of each word. These words are thought to be the main conceptual words that represent the sense of the current verb. Using these head words and related information, this paper shows that the creation of a thesaurus could be achieved without any difficulty in a semi-automatic fashion.

  • PDF

동사 어휘의미망 평가를 위한 단어클러스터링 시스템의 활용 방안 (The Method of Using the Automatic Word Clustering System for the Evaluation of Verbal Lexical-Semantic Network)

  • 김혜경;윤애선
    • 한국문헌정보학회지
    • /
    • 제40권3호
    • /
    • pp.175-190
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만. 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68.455.856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '(-하)동사류' 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 석부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론. 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

어휘망(U-WIN)의 구문관계 자동구축 (Automatic Construction of Syntactic Relation in Lexical Network(U-WIN))

  • 임지희;최호섭;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권10호
    • /
    • pp.627-635
    • /
    • 2008
  • 본 연구에서는 사용자 어휘지능망(U-WIN)의 어휘 관계 중의 하나인 구문관계를 자동으로 구축하는 방법을 제시하고자 한다. 먼저, 구문관계를 형성할 수 있는 후보명사를 용언의 용례에서 문형 정보를 기준으로 추출함으로써, 용언의 세분화된 의미별로 정확하고 다양한 후보명사를 추출할 수 있다. 그러나 추출된 후보명사는 다양한 의미를 지니고 있으므로, 어휘간의 명확한 구문관계를 설정하기 위해서는 후보명사의 여러 의미 중에서 정확한 의미로 결정해야 한다. 그래서 본 연구에서는 용례 매칭 규칙, 구문 패턴, 의미 유사도, 빈도 정보 등을 이용하여 후보명사의 의미를 분별한다. 또한 구문패턴의 빈도 정보를 이용하여 용례에 나타나지 않지만 구문관계를 형성할 수 있는 명사를 추출하여 구문관계를 확장하고자 하였다. 이러한 연구는 명사 중심의 어휘망이 용언과의 구문관계 구축을 통해 형태소 분석, 구문 분석, 의미분석 등에 광범위하게 활용할 수 있는 어휘망의 기반을 다지는 작업이 될 수 있을 것이다.

이종 개념체계의 상호보완방안 연구 - 세종의미부류와 KorLexNoun 1.5 의 사상을 중심으로 (Cross-Enrichment of the Heterogenous Ontologies Through Mapping Their Conceptual Structures: the Case of Sejong Semantic Classes and KorLexNoun 1.5)

  • 배선미;윤애선
    • 한국언어정보학회지:언어와정보
    • /
    • 제14권1호
    • /
    • pp.165-196
    • /
    • 2010
  • The primary goal of this paper is to propose methods of enriching two heterogeneous ontologies: Sejong Semantic Classes (SJSC) and KorLexNoun 1.5 (KLN). In order to achieve this goal, this study introduces the pros and cons of two ontologies, and analyzes the error patterns found during the fine-grained manual mapping processes between them. Error patterns can be classified into four types: (1) structural defectives involved in node branching, (2) errors in assigning the semantic classes, (3) deficiency in providing linguistic information, and (4) lack of the lexical units representing specific concepts. According to these error patterns, we propose different solutions in order to correct the node branching defectives and the semantic class assignment, to complement the deficiency of linguistic information, and to increase the number of lexical units suitably allotted to their corresponding concepts. Using the results of this study, we can obtain more enriched ontologies by correcting the defects and errors in each ontology, which will lead to the enhancement of practicality for syntactic and semantic analysis.

  • PDF

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템 (Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network)

  • 이용훈;옥철영;이응봉
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.63-76
    • /
    • 2012
  • 본 논문에서는 통계기반의 복합명사 분해 방법과 어휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안한다. 본 시스템은 크게 복합명사 분해, 의미제약, 그리고 의미 태깅의 세 가지 부분으로 이루어진다. 분해과정은 세종말뭉치에서 추출한 위치별명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행한다. 의미범위 제약과정은 유사도 비교의 계산량을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의미를 선 제약한다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행한다. 본 시스템의 성능 평가를 위해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 의미 태깅된 테스트 셋을 구축하였다. 이를 이용한 실험에서 99.26%의 분해 정확도를 보였으며, 95.38%의 의미 분석 정확도를 보였다.

网络流行语"X+人"探析 - 从"打工人", "尾款人", "工具人"等谈起

  • 유철
    • 중국학논총
    • /
    • 제71호
    • /
    • pp.41-59
    • /
    • 2021
  • With the progress of social economy and science and technology, network media technology has developed rapidly, China has ushered in the network information age, and the network buzzwords emerged to reflect the interaction and influence between language and society. The network buzzwords of "X+ ren "indirectly show the social psychology and value orientation of modern people with their unique structural characteristics, semantic connotation and cultural deposits, and so on. Based on this, we have conducted a multi-angle investigation on the network buzzwords "X+ ren". This paper first analyzes the structure types and syntactic functions of the lexical model of "X+ ren ", then makes a semantic analysis of the lexical model of "X+ Ren ", and finally investigates the causes and influences of the popularity of "X+ ren ". Through the investigation, we believe that "X+ ren "will continue to grow, and "X+ ren" will continue to attract the attention of the academic community.

어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 의미 중의성 해소 (Disambiguation of Homograph Suffixes using Lexical Semantic Network(U-WIN))

  • 배영준;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.31-42
    • /
    • 2012
  • 현재까지 대부분의 한국어처리시스템에서는 가급적 많은 접미파생명사를 사전에 등재하여 처리하였다. 그러나 접미사는 생산성이 높기 때문에 모든 접미파생명사를 사전에 등재하는 것은 한계가 있다. 따라서 접미파생명사의 의미 분석을 통해서 미등재 접미파생명사를 분석할 필요가 있다. 본 논문에서는 접미파생명사의 의미 분석의 일환으로 한국어 어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 중의성 해소 방법을 제시한다. 형태 의미 주석 세종 말뭉치에서 동형이의어 접미사를 포함한 33,104개의 접미파생명사를 대상으로 실험하였다. 실험을 위해 먼저 동형이의어 접미사를 의미 태깅하였으며, 접미사 앞의 어근을 추출하여 U-WIN의 노드에 매핑시켰다. 또한 동형이의어 접미사와 결합되는 U-WIN 상의 노드들에 대해 거리 가중치를 부여하여 이를 동형이의어 접미사 중의성 해소에 사용하였다. 동형이의어 접미사 49종 중 세종말뭉치에 나타난 35개의 동형이의어 접미사를 대상으로 실험한 결과 91.01%의 정확률을 보였다.

한국어 어휘의미망(UWordMap)을 이용한 동형이의어 분별 개선 (Improvement of Korean Homograph Disambiguation using Korean Lexical Semantic Network (UWordMap))

  • 신준철;옥철영
    • 정보과학회 논문지
    • /
    • 제43권1호
    • /
    • pp.71-79
    • /
    • 2016
  • 한국어처리 분야에서 동형이의어 분별은 의미처리를 위해서는 매우 중요하고 오랫동안 연구되어온 주제이다. 최근에 말뭉치를 학습하는 기계학습 방법이 정확률과 속도면에서 좋은 결과를 보이고 있으며, 미학습 어절을 처리하기 위해 어휘의미망을 이용한 지식기반 방법도 연구되고 있다. 본 논문은 말뭉치를 학습한 기계학습 방법에 어휘의미망과 함께 사용하는 방법을 제시한다. 이 방법의 기본 전략은 하위범주화 정보를 말뭉치화하여서 기존 말뭉치와 함께 학습시키고, 동형이의어 태깅 시점에서 분석 대상 명사의 상위어를 찾아서 학습정보와 같이 사용하는 것이다. 이 방법의 효과를 확인하기 위해 세종말뭉치와 UWordMap으로 실험을 하였으며, 정확률이 96.51%에서 96.52%로 미미하지만 상승하는 것을 확인하였다.

의미적 유사성과 그래프 컨볼루션 네트워크 기법을 활용한 엔티티 매칭 방법 (Entity Matching Method Using Semantic Similarity and Graph Convolutional Network Techniques)

  • 단홍조우;이용주
    • 한국전자통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.801-808
    • /
    • 2022
  • 대규모 링크드 데이터에 어떻게 지식을 임베딩하고, 엔티티 매칭을 위해 어떻게 신경망 모델을 적용할 것인가에 대한 연구는 상대적으로 많이 부족한 상황이다. 이에 대한 가장 근본적인 문제는 서로 다른 레이블이 어휘 이질성을 초래한다는 것이다. 본 논문에서는 이러한 어휘 이질성 문제를 해결하기 위해 재정렬 구조를 결합한 확장된 GCN(Graph Convolutional Network) 모델을 제안한다. 제안된 모델은 기존 임베디드 기반 MTransE 및 BootEA 모델과 비교하여 각각 53% 및 40% 성능이 향상되었으며, GCN 기반 RDGCN 모델과 비교하여 성능이 5.1% 향상되었다.