• 제목/요약/키워드: 어휘지식베이스

검색결과 22건 처리시간 0.021초

세종 의미 부류와 KorLex 명사 어휘 의미망 자동 맵핑 (Automatic Mapping of Korean Wordnet "KorLex" to Semantic Classes of Sejong Dictionary)

  • 소길자;윤애선;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.92-96
    • /
    • 2009
  • 인간이 가진 개념을 지식베이스화하려는 시도 중 하나로 의미망이 구축되고 있다. 한국어를 대상으로 한 어휘 의미망 중 프린스턴 대학의 WordNet을 대역한 KorLex는 1,2단계에서 한국어 어휘의미의 특성을 반영하여 개념 및 의미구조를 재구조화하고 있다. 그러나 현재 KorLex의 동의어 집합을 구성하는 어휘 의미에는 논항정보를 따로 구성할 수 없었다. 본 연구는 세종 전자 사전 격틀정보내의 선택제약조건(selectional restriction)으로 사용되고 있는 의미 부류와 KorLex의 명사 어휘 의미망을 자동 맵핑하는 방안을 제안함으로써 KorLex에서 세종 전자 사전 격틀정보를 활용할 수 있는 가능성을 제공한다.

  • PDF

어휘정보구축을 위한 사전텍스트의 구조분석 및 변환 (A Structural Analysis of Dictionary Text for the Construction of Lexical Data Base)

  • 최병진
    • 한국언어정보학회지:언어와정보
    • /
    • 제6권2호
    • /
    • pp.33-55
    • /
    • 2002
  • This research aims at transforming the definition tort of an English-English-Korean Dictionary (EEKD) which is encoded in EST files for the purpose of publishing into a structured format for Lexical Data Base (LDB). The construction of LDB is very time-consuming and expensive work. In order to save time and efforts in building new lexical information, the present study tries to extract useful linguistic information from an existing printed dictionary. In this paper, the process of extraction and structuring of lexical information from a printed dictionary (EEKD) as a lexical resource is described. The extracted information is represented in XML format, which can be transformed into another representation for different application requirements.

  • PDF

PC통신과 웹에서 지역알림정보의 작성을 돕는 전문가적인 서비스 모형에 관한 연구: 지역주민의 견문을 중심으로 (Expertise Service Model Aiding Local Information Writing on the Web)

  • 이태영
    • 정보관리학회지
    • /
    • 제16권1호
    • /
    • pp.89-117
    • /
    • 1999
  • 지역정보 쓰기에서 이용자들을 돕기 위해 (1) 글 구조, (2) 단락 구성, (3) 문장 작성, (4) 어휘 구사에 대한지식을 글 분석을 통해 연구하였다. 글 구상과 단락 구성을 각각 도와주는 글틀과 단락틀 지식베이스가 고안되었고 단어, 절, 문장의 구현에 필요한 단어와 절 및 문장의 예들을 모은 사전 데이터베이스도 만들었다. 서비스의 질을 높이기 위해 전문가 지향적인 시스템을 추구하였다. PC통신과 웹에서 실용적인 시스템이 되려면 앞으로 (1) 글틀과 단락틀의 주제 추출, (2) 문장의 대표어 작성, (3) 각종 규칙의 정제, (4) 정밀한 지식베이스 구축이 필수적이라고 사려된다.

  • PDF

사전을 기반으로 한 한국어 의미망 구축과 활용 (Construction and application of Korean Semantic-Network based on Korean Dictionary)

  • 최호섭;옥철영;장문수;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.448-450
    • /
    • 2002
  • 시소러스 의미망, 온톨로지 등과 같은 지식베이스는 자연언어처리와 관련된 여러 분야에서 중요한 언어자원의 역할을 담당하고 있다. 하지만 정보검색, 기계번역과 같은 특정 분야마다 다르게 구축되어 이러한 지식베이스는 실질적인 한국어 처리에는 크게 효과를 보지 못하고 있는 실정이다. 본 논문은 한국어를 대상으로 한 시소러스, 의미망의 등의 구축 방법론적 문제를 지적하고 말뭉치를 중심으로 한 텍스트 언어처리에 필요한 의미망의 구축 방법과 포괄적인 활용방안을 모색한다. 의미망 구축의 기반이 되는 지식은 각종 사전(dictionary)를 이용했으며, 구축하고 있는 의미망의 활용 가능성을 평가하기 위하여 ETRI의 의미기반 정보검색과 언어처리의 큰 문제 중 하나인 단어 중의성 해소(WSD)에서 어떻게 활용되는지를 살핀다. 그리하여 언어자인의 처리 방안 중의 하나인 의미망을 구축함으로써 언어를 효과적으로 처리하기 위한 기본적이면서 중요한 어휘 데이터베이스 마련과 동시에 언어자원 구축의 한 방향을 제시하고자 한다.

  • PDF

데이타베이스 검색을 위한 자연 질의어 변환 시스템 (Natural Query Translation System for Database Retrieval)

  • 신누미;최준혁;이정현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.79-89
    • /
    • 1993
  • 본 논문에서는 대형 데이타베이스에서의 정보검색을 위한 자연언어 인터페이스 시스템을 구현하기 위한 방법을 제안한다. 질의문의 특성을 고찰하고 이를 일반적인 문장의 관점에서 수용하여 구문분석시에 반영한다. 구문분석 결과는 다음의 후처리 절차를 통해 정형 질의어인 SQL로 변환된다. 명사의 의미소성과 도메인의 어휘적 형태를 이용하여 질의문 내에 명시적으로 나타나지 않은 정보를 추출한다. 또한 질의문 내의 애트리뷰트, 릴레이션, 상수의 관련성을 규명한다. 이 두 절차를 통해 기존의 질의어 변환 시스템에서 지식베이스화하여 사용했던 자료들을 구축할 필요가 없어지므로 데이타베이스의 변경, 삽입, 삭제에 의한 영향을 받지 않으며, 자료구조 생성에 따른 부담을 없앨 수 있다.

  • PDF

시맨틱웹을 위한 효율적인 온톨로지 객체 모델 (Efficient Ontology Object Model for Semantic Web)

  • 윤보현;서창호
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.7-13
    • /
    • 2006
  • 시멘틱 웹의 대두로 인해 웹 상에서 데이터를 접근 할 수 있는 방법도 다양화 되었다. 이에 현재 진행되고 있는 웹 온톨로지 뿐만 아니라 기존에 구축된 지식베이스 시스템에 접근하여 데이터를 핸들링 할 수 있는 모델이 필요하다. 웹 온톨로지를 표현하기 위한 언어로 RDF(Resource Description Framework), DAML-OIL, OWL(Web Ontology Language)등이 사용되고 있다. 본 논문은 웹 온톨로지와 기존의 구축된 지식 베이스의 데이터를 접근, 표현 및 처리할 수 있는 온톨로지 객체 모델의 생성과 그 방법에 관한 것이다. 웹 온톨로지에 대한 접근 방법으로 각각의 언어에 맞는 파서(Parser)를 이용하여 메모리 상에 모델을 생성하여 접근하게 되어 있는 기존의 방법과는 다르게 본 논문에서는 웹 온톨로지를 표현하기 위한 모델을 계층별로 구별하여 프레임 기반의 상위 온톨로지(frame-based ontology layer), 다른 도메인에서도 사용이 가능한 공통된 어휘(vocabulary)를 표현한 핵심 온톨로지(generic ontology layer)와 각각의 온톨로지 언어에 의존적인 어휘를 표현한 기능 온톨로지(functional ontology layer)로 구성한다. 이는 표현의 중복을 없애고 재 사용성을 높이기 위한 모델을 제공함으로써, 외부 어플리케이션(온톨로지 추론, 온톨로지 병합, 온톨로지 저작 도구 등)에서의 온톨로지에 대한 쉬운 지식 표현과 접근 및 핸들링을 제공할 수 있다.

  • PDF

명사 워드넷과 단일어 사전을 이용한 한국어 동사 워드넷 구축 (Construction of Korean Verb Wordnet Using Preexisting Noun Wordnet and Monolingual Dictionary)

  • 이주호;배희숙;김은혜;김혜경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.92-97
    • /
    • 2002
  • 의미기반 정보 검색, 자연어 질의 응답, 지식 자동 습득, 담화 처리 등 높은 수준의 자연언어처리 시스템에서 의미처리를 위한 대용량의 지식 베이스가 필요하다. 이러한 지식 베이스 중에서 가장 기본적인 것이 워드넷이다. 이러한 워드넷을 이용함으로써 여러 의미 사이의 의미 유사도를 구할 수 있고, 속성을 물려받을 수 있기 때문에 비슷한 속성을 가진 의미들을 한꺼번에 다루는 데 유용하다. 본 논문에서는 기본 어휘를 바탕으로 기존의 명사 워드넷과 단일어 사전을 이용하여 한국어 동사 워드넷을 구축하는 방법을 제시한다. 본 논문에서 1차 작업을 통하여 구축한 동사 워드넷에는 동사 1,757개에 대한 4,717개의 의미(중복을 포함하면 모두 5,235개의 의미)를 포함하고 있으며 특별히 의미가 많이 편중된 14개의 개념에 속한 571개의 의미를 53개의 세부 개념으로 재분류하여 최종적으로 모두 767개의 계층적 개념으로 구성된 동사 워드넷이 만들어 졌다.

  • PDF

KONG-DB: 웹 상의 어휘 사전을 활용한 한국 소설 지명 DB, 검색 및 시각화 시스템 (KONG-DB: Korean Novel Geo-name DB & Search and Visualization System Using Dictionary from the Web)

  • 박성희
    • 정보관리학회지
    • /
    • 제33권3호
    • /
    • pp.321-343
    • /
    • 2016
  • 본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

다층어휘부와 어휘부 대 제약우위도 (Multi-Strata Lexikon vs. Constraintranking: Degemination im Deutschen)

  • 유시택
    • 한국독어학회지:독어학
    • /
    • 제1집
    • /
    • pp.313-348
    • /
    • 1999
  • 이 논문은 독일어의 겹자음회피현상을 설명함에 있어 어휘음운론에서의 분석이 보이는 문제들을 지적하고, 이 문제들이 제약에 바탕을 둔 이론에서는 어떻게 해결될 수 있는가를 보인다. 제약들간의 상호작용에서 특히 중요한 역할을 하는 것이 단일형태실현제약 (Uniform Exponence)으로서, 이 제약을 통해 독일어 동사의 현재시제, 단수, 2인칭 형태와 3인칭형태에서 나타나는 겹자음회피현상이 동사의 어형변화표 (Verbparadigma)와 밀접한 관련이 있음을 알 수 있다. 이는 규칙들을 통해 2인칭과 3인칭의 올바른 형태를 각각 개별적으로 찾아내는 어휘음운론의 분석과는 근본적으로 다르다. 왜냐하면 어휘음운론의 분석에 따를 때, 예를 들어 3인칭 동사 arbeitet에서 Schwa 모음의 삽입은 겹자음회피를 위해 일어난다고 설명되지만 겹자음이 없음에도 불구하고 Schwa 모음이 마찬가지로 삽입되는 2인칭동사 arbeitest는 설명되지 않기 때문이다. 이런 분석에서는 2인칭 형태와 3인칭 형태가 서로 아무런 관련 없이 각기 따로 존재하게된다. 이에 반해 단일형태제약은 이 두개의 형태를 동시에 비교하므로, 동사 굴절형태에서 마치 불필요한 것으로 보이는 모음삽입이나 자음탈락의 원인에 대해 이론적인 근거를 제시할 수 있다. 즉 2인칭 형태와 3인칭 형태는 보다 상위의 제약들이 막지 않는 한 서로 최대한 비슷한 형태를 가지려고 한다. 이 논문은 겹자음 회피를 위한 수단으로서 모음삽입이나 자음탈락은 오로지 이를 통해 동사의 어형변화표가 좋아질 때만 가능하다는 것을 보여줌으로써 규칙이론이 포착하지 못하고 있는 중요한 일반화를 제시하고 있다. 단일형태 실현제약의 중요성은 접두사 in- 과 un- 이 어간과 결합할 때 보이는 대조를 통해서도 확인된다. 여기서도 어휘음운론의 다층어휘부 구조에 의한 설명이 갖는 문제점이 제약들간의 상호작용을 통해 해결될 수 있음을 알 수 있다.VII-1 및 VII-2공의 3600 m 하부층은 건성 가스 생성 단계에까지 도달한 것으로 나타났다. JDZ VII-1, VII-2 시추공의 3500 m 하위 구간의 올리고세 퇴적층에서 유기물 함량 및 수소 지수가 급격히 감소하는 것은 매몰 심도가 깊어지면서 유기물이 열 분해되어 이미 탄화수소를 생성한 것으로 해석된다. JDZ VII-1 및 VII-2 시추공의 가스징후 및 길소나이트 (gilsonite)는 탄화수소가 생성되어 이동한 흔적을 시사한다.을 해석할 수 있음을 보여주는 것으로 평가된다. 다만 PLAYMAKER2가 보다 신뢰할 만한 퇴적환경 해석을 위한 전문가 시스템으로 구축되기 위해서는 향후 많은 퇴적학 전문가들이 추가로 참여하여 기존 규칙들을 재검증하고 새로운 규칙들을 첨가함으로써 보디 세련된 지식베이스를 개발하여야 할 것으로 판단된다.이며 세 개의 산소가 이루는 평면에서 $1.68{\AA}$ 소다라이트내로 이동하여 위치한다. 32개의 $Tl^{+}$ 이온은 결정학적 자리 II에 존재하고 있으며 산소와의 결합거리를 $2.70(1){\AA}$을 유지하면서 큰 동공속으로 $1.48{\AA}$ 이동하여 위치한다. 약 18개의 $Tl^+$ 이온은 결정학적 자리III에, 또 다른 10개의 $Tl^+$ 이온은 결정학적 자리III'에 존재하고 골조 산소와 각각 $2.86(2){\AA},\;2.96(4){\AA}$의 결합거리를 이룬다.

  • PDF

WordNet을 이용한 한국어 시소러스 자동 구축 (Using WordNet for the Automatic Construction of Korean Thesaurus)

  • 이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.156-163
    • /
    • 1999
  • 최근의 자연어 처리 분야의 연구들에서 광범위하고 완전한 어휘 지식 베이스의 필요성이 입증되었다. 영어권의 경우, 이에 대한 연구가 오래 전부터 있어 왔고, 그 결과로 현재 주로 사용되고 있는 개념체계에는 Roget's Thesaurus와 WordNet 등이 있다. 이러한 개념체계들은 자연어 처리의 여러 응용 분야에서 중요한 역할을 담담하고 있지만, 다른 언어의 경우 널리 사용되고 있는 개념체계가 없는 실정이다. 본 논문에서는 Princeton 대학의 WordNet을 기반으로 한영 사전과 국어 사전을 이용하여 한국어 명사의 개념체계를 자동으로 구축함으로써, 이미 구축되어진 다른 언어의 개념체계를 이용하여 새로운 언어의 개념체계를 자동으로 구축할 수 있음을 보인다. 먼저 한영 사전과 국어 사전으로부터 뽑아낸 한국어 단어 일부의 의미를 다양한 WSD(Word Sense Disambiguation) 방법을 적용시켜 WordNet의 synset에 자동으로 연결시킬 수 있음을 보인다. 그리고 각각의 자동변환으로 나온 결과들에 대해서 적용율과 정확도를 비교하도록 한다.

  • PDF