• 제목/요약/키워드: TRIE dictionary

검색결과 17건 처리시간 0.021초

효율적인 한글 탐색을 위한 CB 트라이의 재구성 (Reconstitution of CB Trie for the Efficient Hangul Retrieval)

  • 정규철
    • 융합보안논문지
    • /
    • 제7권4호
    • /
    • pp.29-34
    • /
    • 2007
  • 본 논문에서는 CB 트라이의 단점을 보완한 RCB 트라이를 제안한다. 먼저 CB 트라이의 경우 처음으로 축약된 구조를 시도하였으나 데이터의 양이 증가함에 따라 트리의 균형을 맞추기 위해 사용되는 더미노드들로 인해 삽입에 상당한 어려움을 가지고 있다. 반면 계층적으로 표현한 HCB 트라이는 map이 오른쪽으로 증가하는 것을 막기 위해 일정 깊이를 주어 깊이에 다다르면 새로운 트리를 만들어 연결시키는 방법을 이용하였다. 결과적으로 입력과 검색 속도를 상당히 빠르게 진전시킬 수 있었으나 CB 트라이와 마찬가지로 더미노드를 사용하고 여러 트리의 링크를 사용하기 때문에 저장공간이 커지는 단점을 안고 있다. 본 논문에서 제안한 RCB 트라이는 더미노드를 완전히 없애 성능이 60% 향상되었다.

  • PDF

한글인식 후처리용 단어사전의 기억구조 (A Word Dictionary Structure for the Postprocessing of Hangul Recognition)

  • 김상운
    • 한국통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.1702-1709
    • /
    • 1994
  • 한글인식 후처리에서 문맥정보의 저장구조는 인식율 및 인식속도를 결정짓는 중요한 요소이다. 단어사전의 형태로 문맥정보를 표현하기 위해서는 트라이(trie)를 주로 이용하지만, 기억공간 이용효율이 저조하다는 단점이 있다. 따라서 이 논문에서는 트라이의 장점을 유지하면서 공간효율을 향상시키는 기억구조를 제안한다. 한글은 조합문자이기 때문에 자모나 문자별로 기억시킬 수 있다. 그런데 자모단위로 기억시키면(P-모드) 검색시간은 빠르지만 공간효율이 나쁘고, 또한 문자단위로 기억시키면(C-모드) 공간효율은 좋지만 검색시간이 길어진다. 따라서 노드이용율과 분산율로 최적레벨을 선정한 다음, 입력단어의 시작자모부터 최적레벨까지는 자모 단위의 트라이로 기억시키고, 그 이상은 문자단위의 순차연결구조로 저장시켰다. (H-모드). 6가지 단어집합에 대하여 실험한 결과, H-모드에서의 검색시간은 P-모드만큼 빠르면서, 공간효율은 C-모드와 같게 되어 그 효용성을 확인할 수 있었다.

  • PDF

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation (Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction)

  • 최준휘;류성한;유환조;이근배
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.211-216
    • /
    • 2016
  • 현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

  • PDF

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation (Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction)

  • 최준휘;류성한;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.211-216
    • /
    • 2016
  • 현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

  • PDF

모바일 기기의 입력 문자열 추천 및 오타수정 모델을 위한 주요 기술 (Related Works for an Input String Recommendation and Modification on Mobile Environment)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 춘계학술대회
    • /
    • pp.602-604
    • /
    • 2011
  • 스마트폰과 모바일 인터넷의 활발한 보급으로 문자 메시지 작성, 정보검색, 소셜 네트워크 참여 등 다양한 분야에 모바일 기기를 활용하는 사용자가 증가하고 있다. 모바일 기기의 특성상 키패드는 비교적 작은 크기로 구성되어 있어, 사용자가 원하는 문장을 정확하고 신속하게 입력하는데 어려움이 있다. 본 연구에서는 모바일 기기에 적용하여 키패드 입력에 도움을 줄 수 있는 입력 문자열 추천 및 오타수정 기술을 살펴보고자 한다. 기존의 온라인 검색엔진의 검색어 추천 모델에 적용되는 주요기술인 트라이(TRIE) 사전과 n-그램 언어모델을 이용한 관련 연구를 살펴본다.

  • PDF

RCB트라이를 이용한 빠른 검색과 소용량 색인 구조에 관한 연구 (A Study on Small-sized Index Structure and Fast Retrieval Method Using The RCB trio)

  • 정규철
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.11-19
    • /
    • 2007
  • 본 논문에서는 CB 트라이와 HCB 트라이의 단점을 보완한 RCB 트라이를 제안한다. 먼저 CB 트라이의 경우 처음으로 축약된 구조를 시도하였으나 데이터의 양이 증가함에 따라 트리의 균형을 맞추기 위해 사용되는 더미노드들로 인해 삽입에 상당한 어려움을 가지고 있다. 반면 계층적으로 표현한 HCB트라이는 map이 오른쪽으로 증가하는 것을 막기 위해 일정 깊이를 주어 깊이에 다다르면 새로운 트리를 만들어 연결시키는 방법을 이용하였다. 결과적으로 입력과 검색 속도를 상당히 빠르게 진전시킬 수 있었으나 CB트라이와 마찬가지로 더미노드를 사용하고 여러 트리의 링크를 사용하기 때문에 저장공간이 커지는 단점을 안고 있다. 본 논문에서 제안한 RCB트라이는 더미노드를 완전히 없애 treemap을 약 35%정도 줄일 수 있었고 HCB트라이에 비해 전체 색인의 크기를 절반으로 줄였다.

  • PDF

전자사전 컴포넌트의 구현 (Component Implementation of Electronic Dictionary)

  • 최성운
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.587-592
    • /
    • 2001
  • 사무자동화의 필요성이 증가함에 따라 많은 응용 프로그램이 개발되고 있으며, 전자사전은 이러한 사무용 프로그램의 주요 구성요소 중 하나이다. 효율적인 전자사전은 빠른 검색을 지원해야 하며, 타 사전과 데이터 교환을 통해 사어 및 신조어에 대처할 수 있어야 한다. 또한 전자 사전 프로그램 자체의 재사용의 고려하여 전자 사전 프로그램 구축비용 및 시간을 절감할 수 있어야 한다. 본 논문에서는 사전 내부 데이터 표현 형식을 정의하여 정의된 표현 방식에 기초한 타 전자 사전 데이터 교환을 가능하게 하는 방안을 제시하였다. 또한 재사용 및 호환성을 향상시키기 위하여 사전 구조를 시스템 사전 컴포넌트와 사용자 사전 컴포넌트로 나누어 구현하여 차후 바이너리 단위로의 재사용을 가능하게 하였다. 컴포넌트화로 인한 검색속도 저하 가능성은 트라이 및 B 트리 인덱스 구조를 통하여 효과적으로 방지하였다.

  • PDF

대용량 전자사전 구축을 위한 국어 대사전의 통계 정보 (Statistical Information of Korean Dictionary to Construct an Enormous Electronic Dictionary)

  • 김철수;김양범
    • 한국콘텐츠학회논문지
    • /
    • 제7권6호
    • /
    • pp.60-68
    • /
    • 2007
  • 언어 정보 처리 응용 분야는 정보검색, 형태소분석, 철자검색, 음성인식, 문자 인식 등 다양하다. 이러한 정보처리 과정은 전자 사전이 필수적이다. 본 논문에서는 국어대사전에 대한 기본적인 통계 정보들을 살펴보고, 전자사전 구축에 대하여 알아보았다. 대상 정보는 고어 및 불완전음절을 포함하는 단어를 제외한 표제어들에 대하여, 대사전의 표제어수, 전자사전의 엔트리수, 사용된 전체음절수, 서로 다른 음절수, 엔트리들의 평균 길이, 품사별 분포, 전자사전을 트라이로 구축할 때 사용되는 노드 수 등 이다. 전자사전의 전체 엔트리 수는 361,980개, 사용된 음절수는 1,289,659개로 엔트리들의 평균 길이는 3.56이었으며 서로 다른 음절수는 2,463개였다. 이러한 통계 정보들은 전자사전 구축 및 한국어 정보처리에 도움이 될 것이다.

트라이 인덱스를 이용한 이형태 검색 (Searching for Variants Using Trie-Index)

  • 박인철
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.1986-1992
    • /
    • 2009
  • 사용자는 정보검색에서 단어의 약어나 부분문자열, 혹은 오타가 포함된 단어와 같은 이형태로 자료를 검색하고자 한다. 이형태 검색을 위한 단순한 방법은 사전에 모든 이형태를 등록하는 것이다. 그러나 이 방법은 이형태 사전 구축에 막대한 시간과 비용이 필요할 뿐만 아니라 오타로 인해 생기는 이형태를 처리할 수 없는 문제점이 있다. 이에 대한 대안으로 근사 문자열 매칭 기법을 이용한 방법이 개발되었으나 이 방법 또한 약어 형태의 이형태를 처리하기 어렵다는 단점이 있다. 본 논문에서는 트라이 인덱스를 이용해 약어나 오타를 포함한 대부분의 이형태를 검색할 수 있는 방법을 제안한다. 먼저, 패스 가중치의 계산을 통한 이형태 매칭 방법을 보이고, 검색 속도 향상을 위한 이형태 검색 알고리즘을 제시한다.

Memory Performance of Electronic Dictionary-Based Commercial Workload

  • Lee, Changsik;Kim, Hiecheol;Lee, Yongdoo
    • 한국산업정보학회논문지
    • /
    • 제7권5호
    • /
    • pp.39-48
    • /
    • 2002
  • 인터넷의 급속한 성장에 따라 전자사전에 대한 트랜잭션 처리를 기반으로 하는 상용 응용 소프트웨어의 사용이 증가하고 있다. 그 전형적인 예로서 인터넷 검색엔진을 들을 수 있다. 본 논문에서는 고성능 전자사전의 구축을 위한 새로운 접근방법을 제시한다 전자사전의 메모리 구현에 있어 트라이 데이터 구조를 사용하는 기존의 방식과는 달리, 본 논문에서 제시하는 방식은 다차원 이진트리 구조를 사용한다. 본 논문에서는 다차원 이진트리 기반의 전자사전이 ED-MBT(Electronic Dictionary based on Multidimensional Binary Tree)의 구현 내용과 실용적인 응용 소프트웨어에서 ED-MBT가 갖는 성능향상에 관한 세부적인 분석 결과를 제시한다.

  • PDF