• Title/Summary/Keyword: 세종 전자 사전

Search Result 35, Processing Time 0.026 seconds

Construction and application of semantic classes of Korean nouns (한국어 명사 의미 부류 체계의 구축과 활용)

  • Kang, Beom-Mo;Pak, Dong-Ho;Lee, Seong-Heon;Park, Jin-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.247-251
    • /
    • 2001
  • 명사 의미 부류 체계는 언어 처리의 다양한 분야에서 그 필요성이 부각되고 있다. 예를 들어, 기계 번역에 있어서의 단어 의미의 중의성 해소(word sense disambiguation), 정보검색 시스템에서도 재현율과 정확률의 향상, 추론 시스템 등을 위하여 명사 의미 부류는 중요한 역할을 한다. 명사 의미 부류 체계의 이러한 중요성 때문에 여러 온톨로지(ontology)가 기존에 구축되어 있다. 그런데 이러한 온톨로지들은 대개 순수한 개념적 기준에 입각한 것이며 단어의 통사적 특성을 별로 고려하고 있지 않다. 정보검색 시스템이나 추론 시스템의 경우에는 통사적 고려가 별로 중요하지 않을 수 있으나 기계번역의 경우 통사적 특성에 대한 고려가 매우 중요하다. 이러한 점에 주목하여 21세기 세종계획 전자사전 분과에서는 개념적 기준과 통사적 기준을 모두 고려하여 명사 의미 부류 체계를 구축하고 있다. 즉, 해당 부류에 속하는 명사들이 결합할 수 있는 술어(적정 술어) 등의 통사적 요인을 중요시하여 명사들을 분류하고 있는 것이다. 이에 따라 세종 체언 사전의 모든 명사들에 대해 의미부류 정보가 주어지고, 용언 사전의 용언의 각 논항에 대한 선택제약 정보도 이 명사 의미부류 체계를 이용하여 제시되고 있다. 이러한 정보들은 한국어 처리에 중요한 자료로 이용될 것이다.

  • PDF

Rule Construction for Determination of Thematic Roles by Using Large Corpora and Computational Dictionaries (대규모 말뭉치와 전산 언어 사전을 이용한 의미역 결정 규칙의 구축)

  • Kang, Sin-Jae;Park, Jung-Hye
    • The KIPS Transactions:PartB
    • /
    • v.10B no.2
    • /
    • pp.219-228
    • /
    • 2003
  • This paper presents an efficient construction method of determination rules of thematic roles from syntactic relations in Korean language processing. This process is one of the main core of semantic analysis and an important issue to be solved in natural language processing. It is problematic to describe rules for determining thematic roles by only using general linguistic knowledge and experience, since the final result may be different according to the subjective views of researchers, and it is impossible to construct rules to cover all cases. However, our method is objective and efficient by considering large corpora, which contain practical osages of Korean language, and case frames in the Sejong Electronic Lexicon of Korean, which is being developed by dozens of Korean linguistic researchers. To determine thematic roles more correctly, our system uses syntactic relations, semantic classes, morpheme information, position of double subject. Especially by using semantic classes, we can increase the applicability of the rules.

Korean Semantic Tagged Corpus Construction working (한국어 의미 표지 부착 말뭉치 구축 작업)

  • Lee, Min-Ji;Lee, Yoon-Jeong;Lee, Jung-Kuk;Kim, Jong-Dae;Park, Chan-Young;Song, Hae-Jung;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.99-103
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장 내의 술어-논항 요소들의 의미 관계를 결정하는 과정이다. 이를 위해서는 의미 표지 부착 말뭉치가 필요하지만 한국어의 경우 이 데이터가 매우 부족한 상황이다. 본 논문에서는 한국어 Proposition Bank(이하 PropBank) 말뭉치와 세종 용언 격틀 말뭉치 구축을 위한 의미 표지 부착 작업에 대해 설명한다. 표지 부착 작업은 말뭉치의 의존 관계를 사람이 파악하여 적절한 의미 역 태그를 다는 과정이고, 이 과정으로부터 얻은 말뭉치는 의미 역 결정을 위한 기계 학습 방법론의 훈련 자료로 이용된다. 이 과정에서 필요한 구문 표지 부착 밀뭉치로는 한국전자통신연구원의 구문표지 부착 말뭉치를, 그리고 언어자원으로는 한국어 PropBank의 frame file과 세종 용언 격틀 사전을 사용한다.

  • PDF

A Study of the Automatic Extraction of Hypernyms and Hyponyms from the Corpus (코퍼스를 이용한 상하위어 추출 연구)

  • Pang, Chan-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.46-53
    • /
    • 2007
  • 본 연구는 코퍼스 내 어휘들의 상하위 관계를 중심으로 패턴들을 추출하는 방법을 제안한다. 한국어 어순의 자유로움으로 인한 제약으로 주로 사전 뜻풀이말을 중심으로 하였던 패턴 추출 방식에서 벗어나 본 연구는 코퍼스를 이용하여 다양한 패턴들을 제시하고자 하였다. 연구 방법으로는 세종전자 사전을 이용하여 상하위어 쌍들의 목록을 선정한 후 코어넷으로 상하위어 목록을 추가한다. 그리고 이 두 상하위어 목록의 어휘 쌍들을 포함하는 문장들을 코퍼스에서 추출한 후 체계적으로 패턴화 할 수 있는 문장들을 추출하여 21가지 패턴으로 일반화하였다. 21가지 패턴들을 정규식으로 표현한 뒤 각각 동일한 패턴들을 가진 문장들을 코퍼스에서 다시 추출한 결과 57%의 정확률이 측정되었다.

  • PDF

Korean Morphological Analysis and Part-Of-Speech Tagging with LSTM-CRF based on BERT (BERT기반 LSTM-CRF 모델을 이용한 한국어 형태소 분석 및 품사 태깅)

  • Park, Cheoneum;Lee, Changki;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.34-36
    • /
    • 2019
  • 기존 딥 러닝을 이용한 형태소 분석 및 품사 태깅(Part-Of-Speech tagging)은 feed-forward neural network에 CRF를 결합하는 방법이나 sequence-to-sequence 모델을 이용한 방법 등의 다양한 모델들이 연구되었다. 본 논문에서는 한국어 형태소 분석 및 품사 태깅을 수행하기 위하여 최근 자연어처리 태스크에서 많은 성능 향상을 보이고 있는 BERT를 기반으로 한 음절 단위 LSTM-CRF 모델을 제안한다. BERT는 양방향성을 가진 트랜스포머(transformer) 인코더를 기반으로 언어 모델을 사전 학습한 것이며, 본 논문에서는 한국어 대용량 코퍼스를 어절 단위로 사전 학습한 KorBERT를 사용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 한국어 형태소 분석 및 품사 태깅 연구들 보다 좋은 (세종 코퍼스) F1 98.74%의 성능을 보였다.

  • PDF

Bootstrapping for Semantic Role Assignment of Korean Case Marker (부트스트래핑 알고리즘을 이용한 한국어 격조사의 의미역 결정)

  • Kim Byoung-Soo;Lee Yong-Hun;Na Seung-Hoon;Kim Jun-Gi;Lee Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.4-6
    • /
    • 2006
  • 본 논문은 자연언어처리에서 문장의 서술어와 그 서술어가 가지는 명사 논항들 사이의 문법관계를 의미 관계로 사상하는 즉 논항이 서술어에 대해 가지는 역할을 정하는 문제를 다루고 있다. 의미역 결정은 단어의 의미 중의성 해소와 함께 자연언어의 의미 분석의 핵심 문제 중 하나이며 반드시 해결해야 하는 매우 중요한 문제 중 하나이다. 본 연구에서는 언어학적으로 유용한 자원인 세종전자사전을 이용하여 용언격틀사전을 구축하고 격틀 선택 방법으로 의미역을 결정한 후. 결정된 의미역들에 대한 확률 정보를 확률 모델에 적용하여 반복적으로 학습하는 부트스트래핑(Bootstrapping) 알고리즘을 사용하였다. 실험 결과, 기본 모델에 대해 10% 정도의 성능 향상을 보였다.

  • PDF

Ontology Construction and Its Application to Disambiguate Word Senses (온톨로지 구축 및 단어 의미 중의성 해소에의 활용)

  • Kang, Sin-Jae
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.491-500
    • /
    • 2004
  • This paper presents an ontology construction method using various computational language resources, and an ontology-based word sense disambiguation method. In order to acquire a reasonably practical ontology the Kadokawa thesaurus is extended by inserting additional semantic relations into its hierarchy, which are classified as case relations and other semantic relations. To apply the ontology to disambiguate word senses, we apply the previously-secured dictionary information to select the correct senses of some ambiguous words with high precision, and then use the ontology to disambiguate the remaining ambiguous words. The mutual information between concepts in the ontology was calculated before using the ontology as knowledge for disambiguating word senses. If mutual information is regarded as a weight between ontology concepts, the ontology can be treated as a graph with weighted edges, and then we locate the weighted path from one concept to the other concept. In our practical machine translation system, our word sense disambiguation method achieved a 9% improvement over methods which do not use ontology for Korean translation.

Unsupervised Semantic Role Labeling for Korean Adverbial Case (비지도 학습을 기반으로 한 한국어 부사격의 의미역 결정)

  • Kim, Byoung-Soo;Lee, Yong-Hun;Lee, Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.34 no.2
    • /
    • pp.112-122
    • /
    • 2007
  • Training a statistical model for semantic role labeling requires a large amount of manually tagged corpus. However. such corpus does not exist for Korean and constructing one from scratch is a very long and tedious job. This paper suggests a modified algorithm of self-training, an unsupervised algorithm, which trains a semantic role labeling model from any raw corpora. For initial training, a small tagged corpus is automatically constructed iron case frames in Sejong Electronic Dictionary. Using the corpus, a probabilistic model is trained incrementally, which achieves 83.00% of accuracy in 4 selected adverbial cases.

On "Dimension" Nouns In Korean (한국어 "크기" 명사 부류에 대하여)

  • Song, Kuen-Young;Hong, Chai-Song
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.260-266
    • /
    • 2001
  • 본 논문은 불어 명사의 의미 통사적 분류와 관련된 '대상부류(classes d'objets)' 이론을 바탕으로 한국어의 "크기" 명사 부류에 대한 의미적, 형식적 기준을 설정함으로써 자연언어 처리에의 활용 방안을 모색하고자 한다. 한국어의 일부 명사들은 어떤 대상 혹은 현상의 다양한 속성이 특정 차원에서 갖는 규모의 의미를 표현한다 예를 들어, '길이', '깊이', '넓이', '높이', '키', '무게', '온도', '기온' 등이 이에 해당하는데, 이들은 측정의 개념과도 밀접한 연관을 가지며, 통사적으로도 일정한 속성을 공유한다. 즉 '측정하다', '재다' 등 측정의 개념을 나타내는 동사 및 수량 표현과 더불어 일정한 통사 형식으로 실현된다는 점이다. 본 논문에서는 이러한 조건을 만족시키는 한국어 명사들을 "크기" 명사라 명명하며, "크기" 명사와 특징적으로 결합하는 '측정하다', '재다' 등의 동사를 "크기" 명사 부류에 대한 적정술어라 부른다. 또한 "크기" 명사는 결합 가능한 단위명사의 종류 및 호응 가능한 정도 형용사의 종류 등에 따라 세부 하위유형으로 분류할 수도 있다. 따라서 주로 술어와의 통사적 결합관계를 기준으로 "크기" 명사 부류를 외형적으로 한정하고, 이 부류에 속하는 개개 명사들의 통사적 세부 속성을 전자사전의 체계로 구축한다면 한국어 "크기" 명사에 대한 전반적이고 총체적인 의미적 통사적 분류와 기술이 가능해질 것이다. 한편 "크기" 명사에 대한 연구는 반드시 이들 명사를 특징지어주는 단위명사 부류의 연구와 병행되어야 한다. 본 연구는 한국어 "크기" 명사를 한정하고 분류하는 보다 엄밀하고 형식적인 기준과 그 의미 통사 정보를 체계적으로 제시해 줄 것이다. 이러한 정보들은 한국어 자동처리에 활용되어 "크기" 명사를 포함하는 구문의 자동분석 및 산출 과정에 즉각적으로 활용될 수 있을 것이다. 또한, 이러한 정보들은 현재 구축중인 세종 전자사전에도 직접 반영되고 있다.teness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에 따라 단백질(蛋白質) 함량(含量)도 증가(增加)하였다. 7. CHS-13 균주(菌株)의 RNA 함량(含量)은 $4.92{\times}10^{-2 }\;mg/m{\ell}$이었으며 yeast extract 농도(濃度)가 증가(增加)함에 따라 증가(增加)하다가 농도(濃度) 0.2%에서 최대함량(最大含量)을 나타내고 그후는 감소(減少)하였다.

  • PDF

Mapping Heterogenous Ontologies for the HLP Applications - Sejong Semantic Classes and KorLexNoun 1.5 - (인간언어공학에의 활용을 위한 이종 개념체계 간 사상 - 세종의미부류와 KorLexNoun 1.5 -)

  • Bae, Sun-Mee;Im, Kyoung-Up;Yoon, Ae-Sun
    • Korean Journal of Cognitive Science
    • /
    • v.21 no.1
    • /
    • pp.95-126
    • /
    • 2010
  • This study proposes a bottom-up and inductive manual mapping methodology for integrating two heterogenous fine-grained ontologies which were built by a top-down and deductive methodology, namely the Sejong semantic classes (SJSC) and the upper nodes in KorLexNoun 1.5 (KLN), for HLP applications. It also discusses various problematics in the mapping processes of two language resources caused by their heterogeneity and proposes the solutions. The mapping methodology of heterogeneous fine-grained ontologies uses terminal nodes of SJSC and Least Upper Bounds (LUB) of KLN as basic mapping units. Mapping procedures are as follows: first, the mapping candidate groups are decided by the lexfollocorrelation between the synsets of KLN and the noun senses of Sejong Noun Dfotionaeci(SJND) which are classified according to SJSC. Secondly, the meanings of the candidate groups are precisely disambiguated by linguistic information provided by the two ontologies, i.e. the hierarchicllostructures, the definitions, and the exae les. Thirdly, the level of LUB is determined by applying the appropriate predicates and definitions of SJSC to the upper-lower and sister nodes of the candidate LUB. Fourthly, the mapping possibility ic inthe terminal node of SJSC is judged by che aring hierarchicllorelations of the two ontologies. Finally, the ituorrect synsets of KLN and terminologiollocandidate groups are excluded in the mapping. This study positively uses various language information described in each ontology for establishing the mapping criteria, and it is indeed the advantage of the fine-grained manual mapping. The result using the proposed methodology shows that 6,487 LUBs are mapped with 474 terminal and non-terminal nodes of SJSC, excluding the multiple mapped nodes, and that 88,255 nodes of KLN are mapped including all lower-level nodes of the mapped LUBs. The total mapping coverage is 97.91% of KLN synsets. This result can be applied in many elaborate syntactic and semantic analyses for Korean language processing.

  • PDF