• 제목/요약/키워드: 전자사전

검색결과 922건 처리시간 0.026초

세종전자사전을 활용한 한국어 구문분석 (Korean Parsing using Sejong Dictionary)

  • 성열원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.261-268
    • /
    • 2007
  • 본 논문에서는 세종전자사전의 정보를 활용하여 논항 결합의 정확도를 향상시키는 한국어 구문분석 모델을 제안한다. 구문분석 과정에서 노드간의 결합 가능성을 계산할 때, 세종전자사전 동사사전의 격틀 정보, 논항 제약 정보와 명사사전의 의미부류 정보를 활용하여 가산점을 부여하여 사전의 내용과 일치하는 결합이 선호되도록 하였다. 이 과정에서 구조적 오류를 해결할 수 있었고, 결합에 참여하는 동사와 명사의 의미 중의성도 해소할 수 있었다. 평균 13어절 길이의 실험용 문장 50개를 대상으로 실험한 결과, 35% 정도의 오류 감소 효과를 볼 수 있었다. 또한 구문분석 결과 정보를, 전자 사전에 기술된 정보의 완결성을 시험하고 보완하는 데에도 활용하였다.

  • PDF

Finite State Transducer를 이용한 한국어 전자 사전의 구조 (A Structure of Korean Electronic Dictionary using the Finite State Transducer)

  • 백대호;이호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-187
    • /
    • 1995
  • 한국어 형태소 해석기와 같은 한국어 정보 치리 시스템은 많은 전자 사진 검색 작업을 요구하기 때문에 전자 사전의 성능은 전체 시스템의 성능에 많은 영향을 미친다. 이에 본 논문은 적은 기억 장소를 차지하면서 탐색 속도가 빠른 Finite State Transducer(FST)를 이용한 전자 사전 구조를 제안한다. 제안된 전자 사진은 Deterministic Finite State Automata(DFA)로 표제어를 표현하고 DFA 상태수 최소화 알고리즘으로 모든 위치에 존재하는 중복된 상태를 제거하여 필요한 기억 장소가 적으며, FST를 일차원 배열에 매핑하고 탐색시 이 배열내에서의 상태 전이만으로 탐색을 하기 때문에 탐색 속도가 매우 빠르다. 또한 TRIE 구조에서와 같이 한번의 탐색으로 입력된 단어로 가능한 모든 표제어들을 찾아 줄 수 있다. 실험 결과 표제어 수가 증가하여도 FST를 이용한 전자 사전의 크기는 표제어 수에 비례하여 커지지 않고, 전자 사전 탐색 시간은 표제어 수에 영향을 받지 않으며, 약 237만 단어를 검색하는 실험에서 TRIE나 $B^+-Tree$구조를 사용한 전자 사전보다 빠름을 알 수 있었다.

  • PDF

전문용어 대역사전의 구조와 배열에 관한 연구 (Structure Analysis of Multilingual Lexicon)

  • 김세주
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.35-40
    • /
    • 2001
  • 전문용어사전 중에서 개념 정보를 제시하지 않고 대역어나 음차어를 중심으로 제시하는 전문용어 대역사전을 선정하여 이들의 구조와 배열을 분석하였다. 실제로 전문용어 대역사전을 구성하고 있는 요소들의 기술 구조는 매우 다양하며 이들의 배열 방법도 사전마다 차이를 보이고 있는 것으로 나타났다. 이러한 특징은 사전의 이용자들에 많은 불편을 초래하며 표준화된 전자사전의 요구를 충족시키기 어려우므로 일관성있는 기술 방법이 요구된다.

  • PDF

형태 정보에 기반한 전자사전에서의 3음절 명사 처리 (Management of Three-Syllable Nouns in Electronic Dictionary based on Morphological Information)

  • 이은전;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.156-162
    • /
    • 2000
  • 언어학적 성과를 효과적으로 반영하고 운용할 수 있는 체계적인 전자 사전 구축을 위해선, 어휘들에 대한 총체적이고 체계적인 언어 정보 제공과 함께 효율적인 처리 방식이 무엇보다도 필요하다. 따라서 이번 전자 사전 구축 작업은 내용 면에서는 형태 정보를 중심으로 다양하고 상세한 어휘 특성들을 체계적으로 제시하였고, 기술 방식에 있어서는 모든 입력 정보를 코드화 시킴으로써 효율성을 추구했다. 또한 연구 과정에서 나타난 문제 유형에 대한 인식과 검토는 앞으로 사전 개발의 원칙 및 방향을 설정하는데 도움을 줄 수 있을 것으로 기대한다. 특히 단어 형성 정보에 있어서 접사 정보가 부착된 파생어 사전은 어휘 확장과 중의성 해결을 하는데 활용될 수 있을 것이다. 본고에서는 3음절 명사 사전 작업의 전반적인 파전, 분류 유형, 어휘 정보, 기술 방법 및 앞으로 논의될 문제 유형들을 담고 있다.

  • PDF

형태 정보에 기만한 전자사전에서의 3음절 명사 처리 (Management of Three-Syllable Nouns in Electronic Dictionary based on Morphological Information)

  • 이은전;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.156-162
    • /
    • 2000
  • 언어학적 성과를 효과적으로 반영하고 운용할 수 있는 체계적인 전자 사전 구축을 위해선, 어휘들에 대한 총체적이고 체계적인 언어 정보 제공과 함께 효율적인 처리 방식이 무엇보다도 필요하다. 따라서 이번 전자 사전 구축 작업은 내용 면에서는 형태 정보를 중심으로 다양하고 상세한 어휘 특성들을 체계적으로 제시하였고, 기술 방식에 있어서는 모든 입력 정보를 코드화시킴으로써 효율성을 추구했다. 또한 연구 과정에서 나타난 문제 유형에 대한 인식과 검토는 앞으로 사전 개발의 원칙 및 방향을 설정하는데 도움을 줄 수 있을 것으로 기대한다. 특히 단어 형성 정보에 있어서 접사 정보가 부착된 파생어 사전은 어휘 확장과 중의성 해결을 하는데 활용될 수 있을 것이다. 본고에서는 3음절 명사 사전 작업의 전반적인 과정, 분류 유형, 어휘 정보, 기술 방법 및 앞으로 논의될 문제 유형들을 담고 있다.

  • PDF

한국에 문장분석의 생성 어휘론적 접근

  • 최병진
    • 한국언어정보학회지:언어와정보
    • /
    • 제4권1호
    • /
    • pp.92-100
    • /
    • 2000
  • 본 논문에서는 컴퓨터를 이용하여 문장을 분석하기 위해 통합기반법이 구현된 PATR라는 문법형식을 살펴보고, 국어문장분석을 지원해 주는 사전을 계승메니카니즘이 가능한 형태로 구축하여 사전의 효율적인 구성을 제시하고, 사전과 구문분석기사이의 인터페이스가 어떻게 가능할 수 있는 지를 보여주고자 한다.

  • PDF

한국어 문장분석의 생성 어휘론적 접근

  • 최병진
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2000년도 하계 학술대회 발표 논문집
    • /
    • pp.92-100
    • /
    • 2000
  • 본 논문에서는 컴퓨터를 이용하여 문장을 분석하기 위해 통합기반문법이 구현된 PATR라는 문법형식을 살펴보고, 국어문장분석을 지원해 주는 사전을 계승메카니즘이 가능한 형태로 구축하여 사전의 효율적인 구성을 제시하고, 사전과 구문분석기사이의 인터페이스가 어떻게 가능할 수 있는 지를 보여주고자 한다.

  • PDF

워드 임베딩과 유의어를 활용한 단어 의미 범주 할당 (Assignment Semantic Category of a Word using Word Embedding and Synonyms)

  • 박다솔;차정원
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.946-953
    • /
    • 2017
  • 의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 의미 논항 역할 정보와 의미 범주 정보를 사용해야 한다. 세종 전자사전은 의미역을 결정하는데 사용한 격틀 정보가 포함되어 있다. 본 논문에서는 워드 임베딩과 유의어를 활용하여 세종 전자사전을 확장하는 방법을 제시한다. 연관 단어가 유사한 벡터 표현을 갖도록 하기 위해 유의어 사전의 정보를 사용하여 재구성된 벡터를 생성한다. 기존의 워드 임베딩과 재구성된 벡터를 사용하여 동일한 실험을 진행한다. 워드 임베딩을 이용한 벡터로 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%이다. 재구성된 벡터를 이용한 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 33.33%이고, 확장한 의미 범주 할당의 시스템 성능은 53.88%이다. 의미 범주가 할당되지 않은 새로운 단어에 대해서 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

표준화를 위한 일반 사전의 논리 구조 (The Logical Structure for Standardization of printed Dictionary)

  • 최병진;이재성;이운재;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.415-423
    • /
    • 1996
  • 컴퓨터의 발달과 더불어 최근 자연언어 처리 분야의 일부에서는 일반 문서들(human-readable text)을 전자 문서(machine-readable text)화 하려는 노력이 이루어지고 있다. 이러한 연구 중 대표적인 것으로 사전을 전자문서화된 형태로 바꾸는 작업을 들 수 있는데, 외국에서는 이미 10여년 전부터 이에 관한 연구가 꾸준히 진행되어 결실을 맺고 있다. 이에 반해 우리나라에는 아직 이에 견줄만한, 나아가 표준화할 만한 전자사전이 아직 개발되어 있지 않은 상황이다. 따라서 본고에서는, 일반 사전을 전자사전화 하기 위한 정형화된 논리적 구조를 검토해 보기로 한다.

  • PDF

게임전문용어전자사전 구현에 관한 연구 (Implementation of the Game Terminology Electronics Dictionary)

  • 임충재;윤태수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.355-358
    • /
    • 2002
  • 세계는 지식정보의 창출 및 활용정도가 국가경쟁력을 좌우하는 지식기반사회로 급격히 전환하고 있다. 이러한 상황에서 주요 지식정보의 집중적인 디지털화를 통해서 국가 지식정보 공유체계를 구축하는 것이 무엇보다 시급한 상황이다. 특히 급격하게 성장하고 있는 디지털 콘텐츠 분야의 체계적인 정보화 사업은 관련 분야의 선진국과 경쟁하기 위해서 절실하게 요구된다. 본 논문은 게임산업에 대한 체계적인 정보화를 추진하기 위해서 의미를 기반으로 한 게임전문용어전자사전 구축을 위한 연구 결과를 소개한다. 의미를 기반으로 한 게임전문용어전자사전 구축하기 위해서 다양한 형태의 게임 관련 자료를 통해서 망뭉치를 추출하였다. 추출한 망뭉치로부터 빈도수 등을 이용해서 중요한 의미를 갖는 표제어를 추출하였으며, 추출한 표제어를 이용해서 게임전문용어 시소러스를 구축하였다. 또한 웹 기반으로 게임전문용어전자사전을 구축하기 위해서 SDML 을 이용하여 전문용어를 표기했으며 다양한 검색 기능을 추가해서 게임전문용어전자사전의 프로토타입 시스템을 구축하였다.

  • PDF