• Title/Summary/Keyword: 한국어 시소러스

Search Result 69, Processing Time 0.028 seconds

Measuring the Specificity of Korean Terms Using Modifiers (수식어구를 이용한 한국어 용어의 전문성 측정)

  • Koo Heekwan;Jung Hanmin;Lee Byeong-Hee;Sung Won-Kyung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.439-441
    • /
    • 2005
  • 용어의 전문성은 전문용어의 판넬 기준을 정하고 그 계층구조를 밝히는데 유용하다. 본 논문에서는 말뭉치로부터 추출한 한국어 용어의 전문성을 측정하는 효과적인 방법을 제안한다. 말뭉치에서 관형형 전성어미('ㄴ/은/는')가 부여된 전문용어와 함께 출현하는 수식어구는 일반명사의 수식어구보다 제한적인 형태로 나타난다. 이런 점에 착안하여 본 논문에서는 수식어구를 포함하는 문맥정보에 대해 엔트로피를 측정하여 용어의 전문성을 측정하였다. 이를 위해 한국어 수식어구를 분석하고 기존 전문성 측정 방법에서 간과되어진 수식어구 출현빈도를 고려하여 엔트로피를 상대적 비율로 계산함으로써 한국어에 적합한 전문성 측정을 하였다. 400만 어절의 신문 말뭉치에서 추출한 전문용어와 ETRI 시소러스를 이용하여 실험을 해 본 결과 본 논문에서 제안하는 한국어 용어 전문성 측정방법이 효과적임을 알 수 있었다.

  • PDF

확률 벡터를 사용한 전자 문서의 개념적 분류 기법

  • 조완섭;김영렬;강원석;강현규
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 1997.11a
    • /
    • pp.53-62
    • /
    • 1997
  • 본 논문에서는 전자문서의 개념적 분류기법을 제안한다. 기존의 문서분류는 대부분 문서에 나타난 용어를 기반으로 분류하므로 개념적인 분류가 불가능하다. 제안된 기법에서는 한국어 시소러스를 사용하여 문서에 나타난 용어 뿐 아니라 용어의 상하위 개념을 기준으로 문서를 분류할 수 있다. 특히, 제안된 방법은 확률 벡터를 사용하는 방식으로써 점진적인 학습이 가능하다는 장점도 가진다.

  • PDF

Using WordNet for the Automatic Construction of Korean Thesaurus (WordNet을 이용한 한국어 시소러스 자동 구축)

  • Lee, Chang-Ki;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.156-163
    • /
    • 1999
  • 최근의 자연어 처리 분야의 연구들에서 광범위하고 완전한 어휘 지식 베이스의 필요성이 입증되었다. 영어권의 경우, 이에 대한 연구가 오래 전부터 있어 왔고, 그 결과로 현재 주로 사용되고 있는 개념체계에는 Roget's Thesaurus와 WordNet 등이 있다. 이러한 개념체계들은 자연어 처리의 여러 응용 분야에서 중요한 역할을 담담하고 있지만, 다른 언어의 경우 널리 사용되고 있는 개념체계가 없는 실정이다. 본 논문에서는 Princeton 대학의 WordNet을 기반으로 한영 사전과 국어 사전을 이용하여 한국어 명사의 개념체계를 자동으로 구축함으로써, 이미 구축되어진 다른 언어의 개념체계를 이용하여 새로운 언어의 개념체계를 자동으로 구축할 수 있음을 보인다. 먼저 한영 사전과 국어 사전으로부터 뽑아낸 한국어 단어 일부의 의미를 다양한 WSD(Word Sense Disambiguation) 방법을 적용시켜 WordNet의 synset에 자동으로 연결시킬 수 있음을 보인다. 그리고 각각의 자동변환으로 나온 결과들에 대해서 적용율과 정확도를 비교하도록 한다.

  • PDF

Sentiment words extraction method using pattern (패턴을 이용한 상품평 감정 단어 추출 방법)

  • Chun, Eun-Hye;Shim, Su-Jeong;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.112-113
    • /
    • 2010
  • 최근 오피니언 마이닝 관련 연구 중 감정 분류에 대한 관심이 높아지면서 많은 연구가 진행되고 있다. 기존 영어권 연구에서 제시되어온 방법은 한국어 상품평에 적용하는 것이 쉽지 않다. 영어 시소러스 기반 한국어 감정단어 추출 기술은 한국어와 영어 단어가 일대일로 일치하기가 어렵다는 문제가 있다. 기존 관련 연구 중 k-Structure 기법은 패턴의 길이가 3인 단순한 문장에 속성단어와 감정단어가 포함되었을 경우를 기준으로 한 것이므로 한정적이다. 본 논문에서 제안하는 방법은 상품평에서 의미적인 패턴을 추출하여 감정 단어의 위치를 파악하는 방법이다.

  • PDF

Automatic semantic annotation of web documents by SVM machine learning (SVM 기계학습을 이용한 웹문서의 자동 의미 태깅)

  • Hwang, Woon-Ho;Kang, Sin-Jae
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.12 no.2
    • /
    • pp.49-59
    • /
    • 2007
  • This paper is about an system which can perform automatic semantic annotation to actualize "Semantic Web." Since it is impossible to tag numerous documents manually in the web, it is necessary to gather large Korean web documents as training data, and extract features by using natural language techniques and a thesaurus. After doing these, we constructed concept classifiers through the SVM (support vector machine) teaming algorithm. According to the characteristics of Korean language, morphological analysis and syntax analysis were used in this system to extract feature information. Based on these analyses, the concept code is mapped with Kadokawa thesaurus, which made it possible to map similar words and phrase to one concept code, to make training vectors. This contributed to rise the recall of our system. Results of the experiment show the system has a some possibility of semantic annotation.

  • PDF

Constructing a Korean Subcategorization Dictionary with Semantic Roles using Thesaurus and Predicate Patterns (시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축)

  • Yang, Seung-Hyun;Kim, Young-Sum;Woo, Yo-Sub;Yoon, Deok-Ho
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.6 no.3
    • /
    • pp.364-372
    • /
    • 2000
  • Subcategorization, defining dependency relation between predicates and their complements, is an important source of knowledge for resolving syntactic and semantic ambiguities arising in analyzing sentences. This paper describes a Korean subcategorization dictionary, particularly annotated with semantic roles of complements coupled with thesaural semantic hierarchy as well as syntactic dependencies. For annotating roles, we defined 25 semantic roles associated with surface case markers that can be used to derive semantic structures directly from syntactic ones. In addition, we used more than 120,000 entries of thesaurus to specify concept markers of noun complements, and also used 47 and 17 predicate patterns for verbs and adjectives, respectively, to express dependency relation between predicates and their complements. Using a full-fledged thesaurus for specifying concept markers makes it possible to build an effective selectional restriction mechanism coupled with the subcategorization dictionary, and using the standard predicate patterns for specifying dependency relations makes it possible to avoid inconsistency in the results and to reduce the costs for constructing the dictionary. On the bases of these, we built a Korean subcategorization dictionary for frequently used 13,000 predicates found in corpora with the aid of a tool specially designed to support this task. An experimental result shows that this dictionary can provide 72.7% of predicates in corpora with appropriate subcategorization information.

  • PDF

A Design of Knowledge Base for the Service of Collaboration Support between Researchers (연구자 간 협업 지원 서비스를 위한 지식 베이스 설계)

  • Jung, Han-Min;Sung, Won-Kyung;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.173-178
    • /
    • 2005
  • 지식 베이스는 대량의 인적 물적 자원을 투입하고 철저한 설계에 기반하여 구축하여야 하는 부담이 큰 자원이다. 그렇지만, 지식 베이스 없이 다양한 응용 분야와 서비스를 만족시키는 시스템을 구축할 수 없기 때문에 그 중요성을 인정하지 않을 수 없다. 기존의 지식베이스 구축에 있어서 간과했던 것들의 하나는 응용 분야와 서비스를 명확히 하고, 해당분야에 안는 지식 베이스를 선택해야 한다는 것이다. 어휘의미망을 포함하여 시소러스를 범용 또는 여러 분야에서 구축하고 있으나 이들이 어떤 서비스에 도움이 되는지를 확실히 분석하지 못함으로 인해 응용 시스템에서 제 기능을 다하지 못하고 있으며, 온톨로지 또한 근본적으로 분야와 활용 목적에 의존적이어서 이를 고려하여 설계를 하지만 시소러스나 용어 사전과 같은 기본적인 지식 베이스와의 연계를 통한 효율성 재고라는 측면에서 약점을 보여왔다. 본 연구에서는 사용자 질의와 실 데이터간의 어휘 불일치 해소를 위해 시소러스를 설계 구축하고 온톨로지의 사례화 결과인 인스턴스와 연동시킴으로써 연구자 간 협업 지원 서비스를 제공할 수 있는 기반 자원으로서의 지식 베이스 구축에 초점을 둔다.

  • PDF

A Question Answering System Using the Information of the Category Information of Thesaurus (시소러스범주정보를 이용한 질의응답시스템)

  • Kim, Su-Min;Baek, Dae-Ho;Kim, Sang-Beom;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자연어질의를 입력받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분석단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보 중에서 정답을 추출하기 위해 각 후보단어의 질의어단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용한 것이 성능의 향상을 보였다.

  • PDF

A Korean Sentence and Document Sentiment Classification System Using Sentiment Features (감정 자질을 이용한 한국어 문장 및 문서 감정 분류 시스템)

  • Hwang, Jaw-Won;Ko, Young-Joong
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.14 no.3
    • /
    • pp.336-340
    • /
    • 2008
  • Sentiment classification is a recent subdiscipline of text classification, which is concerned not with the topic but with opinion. In this paper, we present a Korean sentence and document classification system using effective sentiment features. Korean sentiment classification starts from constructing effective sentiment feature sets for positive and negative. The synonym information of a English word thesaurus is used to extract effective sentiment features and then the extracted English sentiment features are translated in Korean features by English-Korean dictionary. A sentence or a document is represented by using the extracted sentiment features and is classified and evaluated by SVM(Support Vector Machine).

Construction of Korean WordNet (한국어 워드넷의 구축)

  • Lim, Sung-Shin;Lee, Eun-Ryoung;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.106-111
    • /
    • 2004
  • 사람의 언어를 이해하는 자연언어처리 시스템을 개발하기 위해서는 의미처리를 위한 지식 베이스(knowledge base)가 필요하다. 지금까지 사람이 가진 지식 베이스를 컴퓨터에 도입하려는 많은 노력을 기울이고 있고 그 결과물로 온톨로지(ontology)와 시소러스(thesaurus)가 만들어지고 있다. 외국에서는 지식 베이스의 중요성을 알고 많은 연구를 수행하고 있으며 그 대표적인 사례들에는 Roget's Thesaurus, WordNet, EDR 개념사전, CYC, Euro WordNet 등이 있다. 이 중에서 가장 대표적이며 많은 활용을 보이는 것이 Princeton 대학의 WordNet이다. WordNet은 인간의 어휘지식에 대한 심리 언어학적인 연구의 결과물로써 심리학자와 언어학자들에 의해 10여 년 동안 구축되고 있는 영어에 대한 어휘데이터베이스이다. 본 논문에서는 WordNet을 기반으로 명사에 대해서 영한사전과 국어사전을 이용하여 구축한 한국어 워드넷을 소개하구 구축시 고려한 기본지침을 소개하도록 하겠다.

  • PDF