• 제목/요약/키워드: Electronic Dictionary

검색결과 83건 처리시간 0.029초

대용량 전자사전 구축을 위한 국어 대사전의 통계 정보 (Statistical Information of Korean Dictionary to Construct an Enormous Electronic Dictionary)

  • 김철수;김양범
    • 한국콘텐츠학회논문지
    • /
    • 제7권6호
    • /
    • pp.60-68
    • /
    • 2007
  • 언어 정보 처리 응용 분야는 정보검색, 형태소분석, 철자검색, 음성인식, 문자 인식 등 다양하다. 이러한 정보처리 과정은 전자 사전이 필수적이다. 본 논문에서는 국어대사전에 대한 기본적인 통계 정보들을 살펴보고, 전자사전 구축에 대하여 알아보았다. 대상 정보는 고어 및 불완전음절을 포함하는 단어를 제외한 표제어들에 대하여, 대사전의 표제어수, 전자사전의 엔트리수, 사용된 전체음절수, 서로 다른 음절수, 엔트리들의 평균 길이, 품사별 분포, 전자사전을 트라이로 구축할 때 사용되는 노드 수 등 이다. 전자사전의 전체 엔트리 수는 361,980개, 사용된 음절수는 1,289,659개로 엔트리들의 평균 길이는 3.56이었으며 서로 다른 음절수는 2,463개였다. 이러한 통계 정보들은 전자사전 구축 및 한국어 정보처리에 도움이 될 것이다.

전자사전 컴포넌트의 구현 (Component Implementation of Electronic Dictionary)

  • 최성운
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.587-592
    • /
    • 2001
  • 사무자동화의 필요성이 증가함에 따라 많은 응용 프로그램이 개발되고 있으며, 전자사전은 이러한 사무용 프로그램의 주요 구성요소 중 하나이다. 효율적인 전자사전은 빠른 검색을 지원해야 하며, 타 사전과 데이터 교환을 통해 사어 및 신조어에 대처할 수 있어야 한다. 또한 전자 사전 프로그램 자체의 재사용의 고려하여 전자 사전 프로그램 구축비용 및 시간을 절감할 수 있어야 한다. 본 논문에서는 사전 내부 데이터 표현 형식을 정의하여 정의된 표현 방식에 기초한 타 전자 사전 데이터 교환을 가능하게 하는 방안을 제시하였다. 또한 재사용 및 호환성을 향상시키기 위하여 사전 구조를 시스템 사전 컴포넌트와 사용자 사전 컴포넌트로 나누어 구현하여 차후 바이너리 단위로의 재사용을 가능하게 하였다. 컴포넌트화로 인한 검색속도 저하 가능성은 트라이 및 B 트리 인덱스 구조를 통하여 효과적으로 방지하였다.

  • PDF

세종 전자사전과 한국어 어휘의미망을 이용한 용언의 어의 중의성 해소 (Word Sense Disambiguation of Predicate using Sejong Electronic Dictionary and KorLex)

  • 강상욱;김민호;권혁철;전성규;오주현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.500-505
    • /
    • 2015
  • 21세기 세종계획을 통하여 개발된 세종 전자사전은 한국어 어휘의 내재정보에 대한 체계적인 분석 정보를 담고 있다. 이는 일반적으로 사용하는 텍스트 사전이 가지는 전산적 표상 문제를 해결하는데 많은 도움을 주고 있다. 자연언어처리 분야에서 끊이지 않는 문제인 어의 중의성 해소(Word Sense Disambiguation) 문제 또한 세종 전자사전의 상세 정보를 이용하여 해결할 수 있지만, 실제 제시된 문형과 논항의 선택제약 명사로는 어의 중의성 해소 문제를 해결하는 데 한계를 보인다. 본 연구에서는 세종 전자사전의 용언 하위범주화 정보를 이용한 어의 중의성 해소의 한계점을 보이고, 한국어 어휘의미망(Korean Lexico-semantic network)을 이용하여 논항의 선택제약 정보를 일반화한다.

Fast Super-Resolution Algorithm Based on Dictionary Size Reduction Using k-Means Clustering

  • Jeong, Shin-Cheol;Song, Byung-Cheol
    • ETRI Journal
    • /
    • 제32권4호
    • /
    • pp.596-602
    • /
    • 2010
  • This paper proposes a computationally efficient learning-based super-resolution algorithm using k-means clustering. Conventional learning-based super-resolution requires a huge dictionary for reliable performance, which brings about a tremendous memory cost as well as a burdensome matching computation. In order to overcome this problem, the proposed algorithm significantly reduces the size of the trained dictionary by properly clustering similar patches at the learning phase. Experimental results show that the proposed algorithm provides superior visual quality to the conventional algorithms, while needing much less computational complexity.

대용량 OWL 온톨로지 자동구축을 위한 세종전자사전 활용 방법론 연구 (A Study of Methodology for Automatic Construction of OWL Ontologies from Sejong Electronic Dictionary)

  • 송도규
    • 한국언어정보학회지:언어와정보
    • /
    • 제9권1호
    • /
    • pp.19-34
    • /
    • 2005
  • Ontology is an indispensable component in intelligent and semantic processing of knowledge and information, such as in semantic web. However, ontology construction requires vast amount of data collection and arduous efforts in processing these un-structured data. This study proposed a methodology to automatically construct and generate ontologies from Sejong Electronic Dictionary. As Sejong Electronic Dictionary is structured in XML format, it can be processed automatically by computer programmed tools into an OWL(Web Ontology Language)-based ontologies as specified in W3C . This paper presents the process and concrete application of this methodology.

  • PDF

Memory Performance of Electronic Dictionary-Based Commercial Workload

  • Lee, Changsik;Kim, Hiecheol;Lee, Yongdoo
    • 한국산업정보학회논문지
    • /
    • 제7권5호
    • /
    • pp.39-48
    • /
    • 2002
  • 인터넷의 급속한 성장에 따라 전자사전에 대한 트랜잭션 처리를 기반으로 하는 상용 응용 소프트웨어의 사용이 증가하고 있다. 그 전형적인 예로서 인터넷 검색엔진을 들을 수 있다. 본 논문에서는 고성능 전자사전의 구축을 위한 새로운 접근방법을 제시한다 전자사전의 메모리 구현에 있어 트라이 데이터 구조를 사용하는 기존의 방식과는 달리, 본 논문에서 제시하는 방식은 다차원 이진트리 구조를 사용한다. 본 논문에서는 다차원 이진트리 기반의 전자사전이 ED-MBT(Electronic Dictionary based on Multidimensional Binary Tree)의 구현 내용과 실용적인 응용 소프트웨어에서 ED-MBT가 갖는 성능향상에 관한 세부적인 분석 결과를 제시한다.

  • PDF

세종 전자사전과 준지도식 학습 방법을 이용한 용언의 어의 중의성 해소 (Word Sense Disambiguation of Predicate using Semi-supervised Learning and Sejong Electronic Dictionary)

  • 강상욱;김민호;권혁철;오주현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.107-112
    • /
    • 2016
  • 국립국어원의 주관으로 10년에 걸쳐 구축된 21세기 세종 계획의 결과물들은 한국어를 대상으로 한 대부분의 자연언어 처리 시스템 및 연구에 널리 이용되고 있다. 21세기 세종 계획의 결과물 중, 세종 전자사전은 한국어 어휘의 내재정보에 대한 체계적인 분석 정보를 담고 있어 세종 전자사전 내의 상세 정보를 이용하여 어의 중의성 해소(Word Sense Disambiguation) 규칙을 구축하는 데 이용할 수 있다. 하지만 한국어의 특성상 다양한 문형과 논항이 출현할 수 있으므로 문형과 논항에 대한 모든 정보를 담을 수 없는 단점이 존재한다. 본 연구에서는 세종 전자사전의 용언 하위범주화 정보와 한국어 어휘의미망(Korean Lexico-semantic Network)을 이용하여 구축한 어의 중의성 해소 규칙을 준지도 학습 방법을 이용하여 논항의 선택제약 정보를 확장 및 일반화한다.

워드 임베딩과 유의어를 활용한 단어 의미 범주 할당 (Assignment Semantic Category of a Word using Word Embedding and Synonyms)

  • 박다솔;차정원
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.946-953
    • /
    • 2017
  • 의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 의미 논항 역할 정보와 의미 범주 정보를 사용해야 한다. 세종 전자사전은 의미역을 결정하는데 사용한 격틀 정보가 포함되어 있다. 본 논문에서는 워드 임베딩과 유의어를 활용하여 세종 전자사전을 확장하는 방법을 제시한다. 연관 단어가 유사한 벡터 표현을 갖도록 하기 위해 유의어 사전의 정보를 사용하여 재구성된 벡터를 생성한다. 기존의 워드 임베딩과 재구성된 벡터를 사용하여 동일한 실험을 진행한다. 워드 임베딩을 이용한 벡터로 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%이다. 재구성된 벡터를 이용한 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 33.33%이고, 확장한 의미 범주 할당의 시스템 성능은 53.88%이다. 의미 범주가 할당되지 않은 새로운 단어에 대해서 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

효율적인 고장진단을 위한 딕셔너리 구조 개발 (A New Dictionary Mechanism for Efficient Fault Diagnosis)

  • 김상욱;김용준;전성훈;강성호
    • 대한전자공학회논문지SD
    • /
    • 제43권4호
    • /
    • pp.49-55
    • /
    • 2006
  • 고장 진단은 고장이 빈번히 발생하는 위치를 파악하여 공정상의 문제점을 해결할 수 있도록 하는 매우 유용한 기법이다. 그러나 이 경우 일반적인 고장검출을 위한 것보다 훨씬 많은 고장에 대한 정보가 필요하며, 이는 딕셔너리라고 하는 형태로 저장된다. 이때 집적도가 높은 회로의 경우 고장에 대한 모든 정보를 포함한 딕셔너리를 구성하는 것은 매우 비효율적인 커다란 딕셔너리 크기를 요구하게 되어, 효과적인 딕셔너리 구조가 필요하다. 본 논문에서 제안하는 딕셔너리 구조는 고장에 대한 모든 정보를 포함하면서도 크기가 작은 딕셔너리이며, 이는 단일 고착 고장뿐 아니라 다중 고장의 경우에도 적용이 가능한 효과적인 딕셔너리 구조이다.

Hierarchical Regression for Single Image Super Resolution via Clustering and Sparse Representation

  • Qiu, Kang;Yi, Benshun;Li, Weizhong;Huang, Taiqi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권5호
    • /
    • pp.2539-2554
    • /
    • 2017
  • Regression-based image super resolution (SR) methods have shown great advantage in time consumption while maintaining similar or improved quality performance compared to other learning-based methods. In this paper, we propose a novel single image SR method based on hierarchical regression to further improve the quality performance. As an improvement to other regression-based methods, we introduce a hierarchical scheme into the process of learning multiple regressors. First, training samples are grouped into different clusters according to their geometry similarity, which generates the structure layer. Then in each cluster, a compact dictionary can be learned by Sparse Coding (SC) method and the training samples can be further grouped by dictionary atoms to form the detail layer. Last, a series of projection matrixes, which anchored to dictionary atoms, can be learned by linear regression. Experiment results show that hierarchical scheme can lead to regression that is more precise. Our method achieves superior high quality results compared with several state-of-the-art methods.