• 제목/요약/키워드: Korean nouns

검색결과 232건 처리시간 0.026초

사전 뜻 풀이말에서 구축한 한국어 명사 의미 계층구조 (A Semantic Hierarchy of Korean Nouns using the Definitions of Words in a Dictionary)

  • 조평옥;안미정;옥철영;이수동
    • 인지과학
    • /
    • 제10권4호
    • /
    • pp.1-10
    • /
    • 1999
  • 한국어 명사들을 의미별로 분류하여 계층화시킨‘한국어 명사 의미 계층 구조’는, 한국어 문장을 처리할 때 의미 정보를 제공할 수 있는 매우 중요한 것들 중의 하나이다. 본 논문에서는, 국어 사전의 명사에 대한 뜻 풀이말을 이용하여 bottom-up 방식으로‘한국어 명사 의미 계층 구조’를 구축하였다. 본 논문에서 구축한‘한국어 명사 의미계층 구조’는, 트리(tree)가 43개, 중간 노드(node)가 2,443개, 단말 노드(terminal node)가 10,347개이며, 깊이(depth)가 17인 하나의 포리스트(forest)를 이룬다. 이것의 제 1, 2 계층(level 1, 2)에서의 분류 형태는 top-down 방식에 의한 기존의 분류들과 매우 다른 모습인 반면에, 제 3 이하의 계층들은 상당히 객관적이 형태를 이루고 있다.

  • PDF

사전 뜻 풀이말에서 구축한 한국어 명사 의미 계층구조 (A Semantic Hierarchy of Korean Nouns using the Definitions of Words in a Dictionary)

  • 조평옥;안미정;옥철영;이수동
    • 인지과학
    • /
    • 제10권3호
    • /
    • pp.1.1-10
    • /
    • 1999
  • 한국어 명사들을 의미별로 분류하여 계층화시킨‘한국어 명사 의미 계층 구조’는, 한국어 문장을 처리할 때 의미 정보를 제공할 수 있는 매우 중요한 것들 중의 하나이다. 본 논문에서는, 국어 사전의 명사에 대한 뜻 풀이말을 이용하여 bottom-up 방식으로‘한국어 명사 의미 계층 구조’를 구축하였다. 본 논문에서 구축한‘한국어 명사 의미계층 구조’는, 트리(tree)가 43개, 중간 노드(node)가 2,443개, 단말 노드(terminal node)가 10,347개이며, 깊이(depth)가 17인 하나의 포리스트(forest)를 이룬다. 이것의 제 1, 2 계층(level 1, 2)에서의 분류 형태는 top-down 방식에 의한 기존의 분류들과 매우 다른 모습인 반면에, 제 3 이하의 계층들은 상당히 객관적이 형태를 이루고 있다.

Bayes 정리에 기반한 개선된 동형이의어 분별 모텔 (An Improved Homonym Disambiguation Model based on Bayes Theory)

  • 김창환;이왕우
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권12호
    • /
    • pp.1581-1590
    • /
    • 2001
  • 본 연구에서는 동형이의어 분별을 위하여 허정(2000)이 제시한 "사전 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템"이 가지는 문제점과 향후 연구과제로 제시한 문제들을 개선하기 위하여 Bayes 정리에 기반한 동형이의어 분별 모델을 제안한다. 의미 분별된 사전 뜻풀이말 코퍼스에서 동형이의어를 포함하고 있는 뜻풀이말을 구성하는 체언류(보통 명사), 용언류(형용사, 동사) 및 부사류(부사)를 의미 정보로 추출한다. 동형이의어의 의미별 사전 출현 빈도수가 비교적 균등한 기존 9개의 동형이의어 명사를 대상으로 실험하여 비교하였고, 새로 7개의 동형이의어 용언(형용사, 동사)을 추가하여 실험하였다. 9개의 동형이의어 명사를 대상으로 한 내부 실험에서 평균 99.37% 정확률을 보였으며 7개의 동형이의어 용언을 대상으로 한 내부 실험에서 평균 99.53% 정확률을 보였다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 9개의 동형이의어 명사를 대상으로 평균 84.42% 정확률과 세종계획의 350만 어절 규모의 외부 코퍼스를 이용하여 7개의 동형이의 어 용언을 대상으로 평균 70.81%의 정확률을 보였다. 정확률을 보였다.

  • PDF

계층적 결합형 문서 클러스터링 시스템과 복합명사 색인방법과의 연관관계 연구 (The Experimental Study on the Relationship between Hierarchical Agglomerative Clustering and Compound Nouns Indexing)

  • 조현양;최성필
    • 한국문헌정보학회지
    • /
    • 제38권4호
    • /
    • pp.179-192
    • /
    • 2004
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결합 문서 클러스터링 시스템의 결과를 분석한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglomerative Clustering) 엔진에 대해서 설명하고 한글 색인 엔진에서 제공되는 3가지 복합명사 분석 모드에 대해서 기술한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 예시한다. 실험에서는 3가지 복합명사 색인 방법을 기준으로 문서 클러스터링을 수행하고, 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

Constructing the Semantic Information Model using A Collective Intelligence Approach

  • Lyu, Ki-Gon;Lee, Jung-Yong;Sun, Dong-Eon;Kwon, Dai-Young;Kim, Hyeon-Cheol
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제5권10호
    • /
    • pp.1698-1711
    • /
    • 2011
  • Knowledge is often represented as a set of rules or a semantic network in intelligent systems. Recently, ontology has been widely used to represent semantic knowledge, because it organizes thesaurus and hierarchal information between concepts in a particular domain. However, it is not easy to collect semantic relationships among concepts. Much time and expense are incurred in ontology construction. Collective intelligence can be a good alternative approach to solve these problems. In this paper, we propose a collective intelligence approach of Games With A Purpose (GWAP) to collect various semantic resources, such as words and word-senses. We detail how to construct the semantic information model or ontology from the collected semantic resources, constructing a system named FunWords. FunWords is a Korean lexical-based semantic resource collection tool. Experiments demonstrated the resources were grouped as common nouns, abstract nouns, adjective and neologism. Finally, we analyzed their characteristics, acquiring the semantic relationships noted above. Common nouns, with structural semantic relationships, such as hypernym and hyponym, are highlighted. Abstract nouns, with descriptive and characteristic semantic relationships, such as synonym and antonym are underlined. Adjectives, with such semantic relationships, as description and status, illustration - for example, color and sound - are expressed more. Last, neologism, with the semantic relationships, such as description and characteristics, are emphasized. Weighting the semantic relationships with these characteristics can help reduce time and cost, because it need not consider unnecessary or slightly related factors. This can improve the expressive power, such as readability, concentrating on the weighted characteristics. Our proposal to collect semantic resources from the collective intelligence approach of GWAP (our FunWords) and to weight their semantic relationship can help construct the semantic information model or ontology would be a more effective and expressive alternative.

사회과학 분야 도서의 목차 텍스트에 대한 통계적 특성에 관한 연구 (A Study on the Statistical Characteristics for Table of Contents Text of the Books in Social Sciences Field)

  • 이용구
    • 정보관리학회지
    • /
    • 제36권2호
    • /
    • pp.255-273
    • /
    • 2019
  • 이 연구는 최근 접근 및 활용이 높아지고 있는 목차에 대해 품사 측면과 주제 측면에서 가지는 기술통계와 비교 분석을 수행하였다. 이를 위해 대학 도서관의 수서 목록에서 사회과학분야 도서를 추출하고 해당하는 도서에 대해 종합목록으로부터 DDC 분류기호를, 인터넷 서점으로부터 목차 정보를 추출하였다. 서명과 목차를 대상으로 형태소 분석하여 명사 중심의 어휘에 대해 기술통계와 빈도 분석을 실시하였다. 그 결과 형태소 측면에서 서명과 목차는 명사가 대략 절반가량 차지하며, 서명과 비교하여 목차는 50배 정도 더 많은 명사를 가지며, 목차에 출현한 명사 중에 목차만이 고유하게 가지는 비율이 95.2%에 달하는 것으로 파악되었다. 또한 목차는 사회과학 학문분야에 따라 길이가 차이가 나는 것으로 나타났다.

확률 기반 미등록 단어 분리 및 태깅 (Probabilistic Segmentation and Tagging of Unknown Words)

  • 김보겸;이재성
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.430-436
    • /
    • 2016
  • 형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.

정보검색에서 어휘체인을 이용한 효과적인 색인어 추출 방안 (An Efficient Index Term Extraction Method in IR using Lexical Chains)

  • 강보영;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권8호
    • /
    • pp.584-594
    • /
    • 2002
  • 정보 검색(Information Retrieval)이나 디지털 도서관(Digital Library)과 같은 분야에서 가장 중요한 요소는 사용자가 필요로 하는 정보를 찾아주는 것이다. 이를 위해서 사용자가 사용하는 장치는 사용자의 의도뿐만 아니라 문서의 내용 또한 잘 파악하여야 한다. 본 논문은 문서의 의미적인 내용을 파악하는데 도움을 주는 효과적인 키워드 추출 시스템을 제안한다. 제안된 시스템은 문서에서 추출된 명사들의 의미(sense)를 결정(disambiguation)하고, 의미가 결정된 명사로 어휘체인을 생성한다. 특정 척도를 이용하여 강한 체인을 선별하고, 몇 개의 강한 체인에서 키워드들을 추출한다. 문서에서 사용된 명사들의 실제 센스를 결정하는 단계에서 semantic window라는 개념을 제안한다. 이것은 주변 명사들과의 의미관계를 미리 살펴보고, 문서내의 명사들의 센스를 결정하는 것이다. 본 시스템의 성능을 검증하기 위하여, 주요 구(key phrase) 추출 시스템인 KEA의 성능과 비교 분석하였다. 본 시스템은 정보 검색과 디지털 도서관을 포함한 범용적인 도메인에서 유용하게 사용될 수 있을 것으로 판단된다.

국어사전을 이용한 한국어 명사에 대한 상위어 자동 추출 및 WordNet의 프로토타입 개발 (The Automatic Extraction of Hypernyms and the Development of WordNet Prototype for Korean Nouns using Korean MRD (Machine Readable Dictionary))

  • 김민수;김태연;노봉남
    • 한국정보처리학회논문지
    • /
    • 제2권6호
    • /
    • pp.847-856
    • /
    • 1995
  • 인간은 문장 안에 있는 명사를 인식할 때 그 명사의 상위 개념을 머리에 떠올린다. 컴퓨터에게 인간의 단어 인식작용을 시뮬레이션하기 위해서는 단어의 상위 개념(상위어) 을 지식 베이스(WordNet)로 구축해야만 한다. 현재 한국에서는 많은 인력과 시간이 소요되기 때문에 WordNet의 작업을 시작하지 못하였으나 컴퓨터의 성능이 급격히 향상 되고 상용화된 MRD(Machine Readable Dictionary)가 이용하능하게 됨에 따라 자동으로 WordNet 구축의 가능성을 보이고 있다. 본 논문에서는 한국어 MRD(Machine Readable Dictionary)의 명사의 정의 (description)를 이용하여 자동으로 한국어 명사 WordNet 을 구축하는 방법을 제안한다. 한국어 문장의 구조적인 특징을 분석하여 상위 개념 (상위어)를 추출하는 규칙을 제안한다. 그것은 중심적인 말이 보통 뒤에 나타난다는 것과 명사의 정의는 특수한 구조를 갖는다는 것을 반영하였다. 또한, 이러한 규칙에 의해 만들어진 상위어들을 결합한 한국어 명사의 WordNet프로토타입을 개발 하였다. 약 250개 표본 단어의 상위어를 추출한 결과 약 92여 퍼센트가 상위어가 옳게 추출 되었다.

  • PDF

Interpretation of Korean Common Nouns

  • Kang, Beom-mo
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 1992년도 Language, Information and Computation = Proceedings of Asian Conference, Seoul
    • /
    • pp.218-234
    • /
    • 1992
  • PDF