• Title/Summary/Keyword: 의미처리

Search Result 3,545, Processing Time 0.026 seconds

Conditional Random Fields based Named Entity Recognition Using Korean Lexical Semantic Network (한국어 어휘의미망을 활용한 Conditional Random Fields 기반 한국어 개체명 인식)

  • Park, Seo-Yeon;Ock, Cheol-Young;Shin, Joon-Choul
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.343-346
    • /
    • 2020
  • 개체명 인식은 주어진 문장 내에서 OOV(Out of Vocaburary)로 자주 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 개체명이 문장 내에서 OOV로 등장하는 문제를 해결하기 위해 외부 리소스를 활용하는 연구들이 많이 진행되었다. 본 논문은 의미역, 의존관계 분석에 한국어 어휘지도를 이용한 자질을 추가하여 성능 향상을 보인 연구들을 바탕으로 이를 한국어 개체명 인식에 적용하고 평가하였다. 실험 결과, 한국어 어휘지도를 활용한 자질을 추가로 학습한 모델이 기존 모델에 비해 평균 1.83% 포인트 향상하였다. 또한, CRF 단일 모델만을 사용했음에도 87.25% 포인트라는 높은 성능을 보였다.

  • PDF

A Development of the Automatic Predicate-Argument Analyzer for Construction of Semantically Tagged Korean Corpus (한국어 의미 표지 부착 말뭉치 구축을 위한 자동 술어-논항 분석기 개발)

  • Cho, Jung-Hyun;Jung, Hyun-Ki;Kim, Yu-Seop
    • The KIPS Transactions:PartB
    • /
    • v.19B no.1
    • /
    • pp.43-52
    • /
    • 2012
  • Semantic role labeling is the research area analyzing the semantic relationship between elements in a sentence and it is considered as one of the most important semantic analysis research areas in natural language processing, such as word sense disambiguation. However, due to the lack of the relative linguistic resources, Korean semantic role labeling research has not been sufficiently developed. We, in this paper, propose an automatic predicate-argument analyzer to begin constructing the Korean PropBank which has been widely utilized in the semantic role labeling. The analyzer has mainly two components: the semantic lexical dictionary and the automatic predicate-argument extractor. The dictionary has the case frame information of verbs and the extractor is a module to decide the semantic class of the argument for a specific predicate existing in the syntactically annotated corpus. The analyzer developed in this research will help the construction of Korean PropBank and will finally play a big role in Korean semantic role labeling.

Disambiguation of Homograph Suffixes using Lexical Semantic Network(U-WIN) (어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 의미 중의성 해소)

  • Bae, Young-Jun;Ock, Cheol-Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.1 no.1
    • /
    • pp.31-42
    • /
    • 2012
  • In order to process the suffix derived nouns of Korean, most of Korean processing systems have been registering the suffix derived nouns in dictionary. However, this approach is limited because the suffix is very high productive. Therefore, it is necessary to analyze semantically the unregistered suffix derived nouns. In this paper, we propose a method to disambiguate homograph suffixes using Korean lexical semantic network(U-WIN) for the purpose of semantic analysis of the suffix derived nouns. 33,104 suffix derived nouns including the homograph suffixes in the morphological and semantic tagged Sejong Corpus were used for experiments. For the experiments first of all we semantically tagged the homograph suffixes and extracted root of the suffix derived nouns and mapped the root to nodes in the U-WIN. And we assigned the distance weight to the nodes in U-WIN that could combine with each homograph suffix and we used the distance weight for disambiguating the homograph suffixes. The experiments for 35 homograph suffixes occurred in the Sejong corpus among 49 homograph suffixes in a Korean dictionary result in 91.01% accuracy.

A study on knowledge distillation to preserve semantic information (의미적 정보를 보존하는 지식 증류에 대한 연구)

  • Seong-hyun Park;Sangkyun Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.772-773
    • /
    • 2024
  • 의미적 정보까지 학생 모델에게 학습시키기 위한 지식 증류 기법은 많이 논의되어 왔다. 그러나 학생 모델의 용량이 교사 모델의 용량에 비해 부족함에서 발생하는 의미적 정보 손실에 대한 논의는 아직 진행되지 않았다. 본 논문에서는 의미적 정보의 최소 단위를 교사 모델의 레이어로 설정하여 학생 모델이 지식 증류를 시작하기 전 최적의 지식 증류 대상을 설정하는 최적 은닉층 선정 알고리즘을 제시한다.

Image Retrieval using Annotation Expansion based on WordNet (WordNet기반 주석확장을 이용한 이미지 검색)

  • Hwang, Kwang-Su;Kim, Pan-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.165-168
    • /
    • 2007
  • 이미지 데이터를 의미적으로 검색하기 위한 가장 중요한 요소는 이미지의 정보를 표현하고 있는 주석이라고 할 수 있다. 이미지의 주석은 관리자가 사용자 입장에서 검색이 가능한 이미지를 표현할 수 있는 키워드를 선별하여 데이터화한 것이다. 그러다보니 이미지내 의미를 모두 표현하기위해 주석에 수는 증가되고, 증가된 주석은 각각에 이미지에서 차지하고 있는 의미량을 고려하지않고 동일한 크기를 가지게 된다. 이러한 경우 실제적으로 검색하였을 때 의미량에 상관없이 질의어와 주석이 일치한 모든 이미지를 검색하므로 사용자가 검색 결과에서 의미량이 큰 이미지를 다시 재검색하거나 주석입력자와 사용자와 어휘 표현에 차이 때문에 검색에 재검색해야한다. 따라서 본 논문에서는 의미량을 이용하여 효율적인 이미지 검색을 하기 위해 각 키워드 간에 의미적인 관계를 어휘 온톨로지인 WordNet을 이용하여 유사도 측정을 하고, 측정한 데이터를 이용하여 전체 이미지 의미량에서 해당 키워드가 갖는 의미량을 측정한다. 의미량은 이미지 검색시 질의어가 이미지에서 차지하고 있는 비율을 비교하여 가장 높은 의미량을 갖는 이미지를 우선 검색하고 의미량이 가장 큰 키워드를 대표키워드로 추출하여 WordNet상에서 동일한 의미를 갖는 계층에 단어들로 주석을 확장한다.

Two Languages in One Brain Shown by fMRI: Orthography Specific Effects in L2 (fMRI에 나타난 모국어와 외국어로서의 한국문자와 중국문자의 차이)

  • 이동훈;이홍재;문찬홍;유재욱;남기춘
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.216-221
    • /
    • 2002
  • 본 연구는 문자 규칙 심층성이 다른 문자체계인 한국어와 중국어의 차이가 이중언어화자의 모국어 처리와 외국어 처리에서 각각 어떤 대뇌 활성화의 차이를 가져오는지 fMRI (functional Magnetic Resonance Imaging)를 이용하여 살펴보았다. 중국어 (Ll)-한국어(L2) 이중언어화자 및 한국어(Ll)-중국어(L2) 이중언어화자를 제 2언어 습득시기에 따라 초기 및 후기 이중언어화자로 구분하여 모국어 차이와 습득시기에 따른 영향을 알아보았다. 실험 1에서는 어휘 판단 과제(lexical decision task)를 실시하였고, 실험 2에서는 의미 판단 과제(semantic decision task)를 각각 실시하였다. 어휘판단과제를 사용한 실험 1의 결과는 음운처리와 관련된 좌반구 SMG(supramarginal gyrus), 하두정소엽(inferior parietal lobule, BA 39, 40)에서 중국어-한국어 초기 및 후기이중언어화자의 경우, 한국어 조건에서 보다 많은 활성화를 보였으나, 한국어-중국어 화자의 경우 활성화가 나타나지 않았다. 철자처리에 관련된 방추상회(fusiform gyrus, BA 37, 19) 영역에서는 중국어-한국어 화자뿐만 아니라, 한국어-중국어 인중언어화자의 경우도 중국어 조건에서 보다 많은 활성화를 보였다. 실험 2에서 사용한 의미판단과제의 경우, 중국어-한국어 이중언어화자의 경우 어휘판단과제를 사용한 실험 1의 결과에서 보고된 한국어 특정적인 반응, 즉 SMG영역에서의 활성화의 증가가 실험 2에서는 나타나지 않았다. 그러나 한국어-중국어 이중언어화자의 경우, 실험 1에서 나타난 것과 같이 철자처리 혹은 의미처리와도 관련된다고 보고되는 방추상회(fusiform gyrus)등의 영역 유의미한 차이를 나타났다. 이는 어휘 판단과제와 의미판단과제가 유도하는 뇌 활성화 양상이 다름을 시사한다. 종합해 볼 때, 이중언어화자의 뇌 영상 연구에서 어휘수준에서는 거의 공통적인 활성화를 보인다는 개략적 수준의 연구 결과를 넘어, 음운처리 및 철자처리와 같은 어휘접근 수준에서는 이중언어화자들의 뇌 활성화가 다르게 일어남을 보여주고 있다. 따라서 이중언어 화자의 뇌 기전을 밝히기 위해서도 보다 개략적 수준을 넘어 언어처리의 세부적인 수준에 따른 접근이 필요함을 시사한다.

  • PDF

The Lexical Sence Tagging for Word Sense Disambiguation (어휘의 중의성 해소를 위한 의미 태깅)

  • 추교남;우요섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.201-203
    • /
    • 1998
  • 한국어의 의미 분석을 위해서 의미소가 부여된 말뭉치(Sense-Tagged Corpus)의 구축은 필수적이다. 의미 태깅은 어휘의 다의적 특성으로 인해, 형태소나 구문 태깅에서와 같은 규칙 기반의 처리가 어려웠다. 기존의 연구에서 어휘의 의미는 형태소와 구문적 제약 등의 표층상에서 파악되어 왔으며, 이는 의미 데이터 기반으로 이루어진 것이 아니었기에, 실용적인 결과를 얻기가 힘들었다. 본 연구는 한국어의 구문과 의미적 특성을 고려하고, 용언과 모어 성분간의 의존 관계 및 의미 정보를 나타내는 하위범주화사전과 어휘의 계층적 의미 관계를 나타낸 의미사전(시소러스)을 이용하여, 반자동적인 방법으로 의미소가 부여된 말뭉치의 구축을 위한 기준과 알고리즘을 논하고자 한다.

  • PDF

Syntactic and Semantic Integration Processes during Korean Sentence Comprehension: using ERPs as an neurophysiological index (ERP로 확인된 한국어 문장 이해과정에서의 통사 및 의미 처리특성 연구)

  • Kim, Choong-Myung;Lee, Kyoung-Min
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.259-263
    • /
    • 2004
  • 본 연구는 머리어-후행언어(head-final language)로 분류되는 한국어의 통사 및 의미 처리 과정의 언어간(cross linguistic) 일반성과 언어내(intra-language) 특이성을 ERP(event- related potentials) 실험결과를 통해 알아보고자 하였다. 한국어 문장처리 과정에서의 통사 및 의미 처리특성은, 우선 이들을 지표하는 각각의 오류문을 통해 P600과 N400 이라는 언어일반의 처리과정을 보이면서도 각 성분의 영역분포는 오류가 출현된 위치에 따라 분기하고 있음을 관찰할 수 있었다. 곧, 문미위치의 술어오류에서 중심-두정 부위의 활성화 우세로 각 오류간 영역분화를 보이는 패턴을 새롭게 확인하였다. 이로써 오류의 유형별 재분류과정으로 드러난 오류출현 위치가 오류의 유형 내에 영향을 끼치는 한 변수가 될 수 있으며. 이는 이들 보어 및 술어를 구성하는 고유의 범주 특성으로 해석할 수 있는 근거가 될 수 있음도 아울러 확인하였다.

  • PDF

Construction of A Semantic Hierarchy of Korean Nouns (한국어 명사 의미 계층 구조 구축)

  • Cho, Pyeong-Ok;Ok, Cheol-Yung
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.129-135
    • /
    • 1997
  • 한국어 명사들을 의미별로 분류하여 계층화시킨 '한국어 명사 의미 계층 구조'는, 한국어 문장을 처리할 때 한국어의 의미 정보를 제공할 수 있는 매우 중요한 정보들 중의 하나이다. 본 논문에서는, 국어 사전의 명사에 대한 뜻풀이말을 이용하여 bottom-up 방식으로 '한국어 명사 의미 계층 구조'를 구축하였다. 본 논문에서 구축한 '한국어 명사 의미 계층 구조'는, tree가 43개, node가 12,833개, terminal node가 10,347 개이며, 깊이가 17인 하나의 forest이다. 이것의 제 1, 2 계층(level 1,2)에서의 분류 형태는 top-down 방식에 의한 기존의 분류들과 매우 다른 모습인 반면에, 제 3 계층 이하에서의 분류 형태는 의미소성(意味素性)에 의한 기존의 분류와 거의 일치하는 모습을 나타낸다.

  • PDF

Word recognition process of Chinese homophone (한자표기동음이철어(漢子表記同音異綴語)의 재인과정(再認過程))

  • Park, Tae-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.228-235
    • /
    • 1989
  • 한자표기동음이철어의 어휘접근과정을 탐색하기 위해 두개의 실험들이 수행되었다. 피험자들은 한자표기 동음이철어(점화어)의 표기상 관련된 의미나 음운상 관련된 의미 각각의 연상어(한글표기표적어)에 대해 어휘판단을 하였다. 실험 I 은 200ms SOA 와 1000ms SOA 에서 두 의미들의 활성화의 시간경로를 탐색했는데, 그 결과 두 의미들이 동시에 인출 되며 어휘의미에 대한 접근이 음운표상에 의해 매개됨이 밝혀졌다. 실험 II 에 따르면 주의할당에 의한 손실이 음운상 관련된 의미에 있어서만 가능하였다. 긴 SOA에서는 통제처리가 작용하지만 철자상 관련된 의미에 대한 통제는 불가능한 것으로 판단되었다.

  • PDF