• 제목/요약/키워드: trie

검색결과 87건 처리시간 0.022초

임베디드 시스템에 적합한 한국어 복합명사 분해 (Korean Compound Nouns Decomposition Suitable for Embedded Systems)

  • 최민석;김창현;천민아;박호민;남궁영;윤호;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.316-320
    • /
    • 2018
  • 복합명사는 둘 이상의 말이 결합된 명사를 말하며 문장에서 하나의 단어로 간주된다, 그러나 맞춤법 및 띄어쓰기 검사나 정보검색의 색인어 추출, 기계번역의 미등록어 추정 등의 분야에서는 복합명사를 구성하는 개별 단어를 확인할 필요가 있다. 이 과정을 복합명사 분해라고 한다. 복합명사를 분해하는 방법으로 크게 규칙 기반 방법, 통계 기반 방법 등이 있으며 본 논문에서는 규칙을 기반으로 최소한의 통계 정보를 이용하는 방법을 제안한다. 본 논문은 4개의 분해 규칙을 적용하여 분해 후보를 생성하고 분해 후보들 중에 우선순위를 정하여 최적 후보를 선택하는 방법을 제안한다. 기본 단어(명사)로 트라이(trie)를 구축하고 구축된 트라이를 이용하여 양방향 최장일치를 적용하고 음절 쌍의 통계정보를 이용해서 모호성을 제거한다. 성능을 평가하기 위해 70,000여 개의 명사 사전과 음절 쌍 통계정보를 구축하였고, 이를 바탕으로 복합명사를 분해하였으며, 분해 정확도는 단어 구성비를 반영하면 96.63%이다. 제안된 복합명사 분해 방법은 최소한의 데이터를 이용하여 복합명사 분해를 수행하였으며 트라이 자료구조를 사용해서 사전의 크기를 줄이고 사전의 검색 속도를 개선하였다. 그 결과로 임베디드 시스템과 같은 소형 기기의 환경에 적합한 복합명사 분해 시스템을 구현할 수 있었다.

  • PDF

대용량 전자사전 구축을 위한 국어 대사전의 통계 정보 (Statistical Information of Korean Dictionary to Construct an Enormous Electronic Dictionary)

  • 김철수;김양범
    • 한국콘텐츠학회논문지
    • /
    • 제7권6호
    • /
    • pp.60-68
    • /
    • 2007
  • 언어 정보 처리 응용 분야는 정보검색, 형태소분석, 철자검색, 음성인식, 문자 인식 등 다양하다. 이러한 정보처리 과정은 전자 사전이 필수적이다. 본 논문에서는 국어대사전에 대한 기본적인 통계 정보들을 살펴보고, 전자사전 구축에 대하여 알아보았다. 대상 정보는 고어 및 불완전음절을 포함하는 단어를 제외한 표제어들에 대하여, 대사전의 표제어수, 전자사전의 엔트리수, 사용된 전체음절수, 서로 다른 음절수, 엔트리들의 평균 길이, 품사별 분포, 전자사전을 트라이로 구축할 때 사용되는 노드 수 등 이다. 전자사전의 전체 엔트리 수는 361,980개, 사용된 음절수는 1,289,659개로 엔트리들의 평균 길이는 3.56이었으며 서로 다른 음절수는 2,463개였다. 이러한 통계 정보들은 전자사전 구축 및 한국어 정보처리에 도움이 될 것이다.

IP 주소 검색을 위한 트리 레벨을 사용한 이진 검색 구조 (Binary Search on Tree Levels for IP Address Lookup)

  • 문주형;임혜숙
    • 한국통신학회논문지
    • /
    • 제31권2B호
    • /
    • pp.71-79
    • /
    • 2006
  • 인터넷 트래픽의 급속한 성장으로 인하여, 인터넷 라우터에서는 보다 빠른 주소 검색을 지원하면서도 매우 큰 라우팅 데이터에 대하여도 잘 동작하는 인터넷 주소 검색 구조를 요구하고 있다. 본 논문에서는 이진 검색에 기초한 인터넷 주소 검색 구조를 심도있게 연구하였다. 기존에 연구되어온 대부분의 이진 검색 구조들은 프리픽스의 값에 따르는 이진 검색을 수행하는 구조로서 프리픽스 개수의 로그 함수에 비례하는 검색 속도를 보인다. 한편 프리픽스 길이에 따르는 이진 검색 구조가 연구되어 검색 성능에 있어서는 매우 우수한 성질을 보이나, 순수한 의미의 이진 검색이 불가능하여, 이진 검색시 접근되는 노드에 특수 목적의 마커를 저장하고, 또한 가장 잘 일치하는 프리픽스를 미리 계산하여 저장하는 방식을 통하여 해결하였다. 이러한 복잡한 선계산은 라우팅 테이블의 구성을 매우 어렵게 할 뿐 아니라, 프리픽스의 부가적 추가를 불가능하게 만드는 단점이 있다. 본 논문에서는 이러한 복잡한 선계산 없이 리프-푸슁만을 통하여 프리픽스 길이에 대하여 이진 검색을 수행하는 매우 효율적인 구조를 제안하고, 제안하는 구조의 성능을 실험한 후, 기존에 연구되어온 다른 이진 검색 구조와 성능을 비교하였다.

Bi-directional Maximal Matching Algorithm to Segment Khmer Words in Sentence

  • Mao, Makara;Peng, Sony;Yang, Yixuan;Park, Doo-Soon
    • Journal of Information Processing Systems
    • /
    • 제18권4호
    • /
    • pp.549-561
    • /
    • 2022
  • In the Khmer writing system, the Khmer script is the official letter of Cambodia, written from left to right without a space separator; it is complicated and requires more analysis studies. Without clear standard guidelines, a space separator in the Khmer language is used inconsistently and informally to separate words in sentences. Therefore, a segmented method should be discussed with the combination of the future Khmer natural language processing (NLP) to define the appropriate rule for Khmer sentences. The critical process in NLP with the capability of extensive data language analysis necessitates applying in this scenario. One of the essential components in Khmer language processing is how to split the word into a series of sentences and count the words used in the sentences. Currently, Microsoft Word cannot count Khmer words correctly. So, this study presents a systematic library to segment Khmer phrases using the bi-directional maximal matching (BiMM) method to address these problematic constraints. In the BiMM algorithm, the paper focuses on the Bidirectional implementation of forward maximal matching (FMM) and backward maximal matching (BMM) to improve word segmentation accuracy. A digital or prefix tree of data structure algorithm, also known as a trie, enhances the segmentation accuracy procedure by finding the children of each word parent node. The accuracy of BiMM is higher than using FMM or BMM independently; moreover, the proposed approach improves dictionary structures and reduces the number of errors. The result of this study can reduce the error by 8.57% compared to FMM and BFF algorithms with 94,807 Khmer words.

최장 길이 우선 검색에 기초한 프리픽스 길이에 따른 이진 IP 검색 구조 (Longest First Binary Search on Prefix Length for IP Address Lookup)

  • 추하늘;임혜숙
    • 한국통신학회논문지
    • /
    • 제31권8B호
    • /
    • pp.691-700
    • /
    • 2006
  • 라우터는 입력된 패킷의 목적지 주소에 따라 IP 주소검색을 통해 패킷의 최종 목적지로 갈 수 있는 다음 흡으로 패킷을 전달하는 역할을 한다. 인터넷에 접속된 단일 호스트 네트워크 수의 증가로 인해 라우팅 테이블의 크기가 급격히 증가하고 있으며, 통신 링크의 속도 또한 기하급수적으로 빠르게 증가하고 있다. 라우터에 입력된 패킷은 선속도(wire-speed)로 처리되어야 하므로, 링크 속도의 증가는 라우터에서의 패킷 처리시간이 감소됨을 의미한다. 그러므로 차세대 라우터는 더 효율적이고 빠른 IP 주소검색 기술을 필요로 한다. 기존에 연구되어온 대부분의 검색 구조들에서는 짧은 길이의 프리픽스로부터 긴 길이의 프리픽스로 검색 영역을 확장하였다. 이 때문에 일치하는 가장 긴 프리픽스를 찾을 때까지 현재까지 일치된 가장 긴 프리픽스를 기억하면서 검색을 진행하였다. 본 논문에서는 긴 프리픽스를 먼저 검색하는 프리픽스 길이에 따른 이진 IP 주소 검색 구조를 제안한다. 제안하는 구조는 트라이의 리프에 존재하는 프리픽스들만으로 이루어진 독립적인 여러 개의 트라이를 구성하고, 길이에 따르는 이진 검색을 통해 긴 길이의 프리픽스와의 일치 여부를 먼저 확인함으로써 보다 빠른 검색속도를 제공한다. 또한, 이 구조는 기존의 프리픽스 길이에 따른 이진검색 구조가 선처리(pre-processing)가 많아 프리픽스의 부가적 추가가 힘들었던 것과는 다르게 선처리가 없이 프리픽스의 부가적 추가가 가능한 장점을 갖는다. 본 논문에서는 제안하는 구조의 성능을 실험한 후, 기존에 연구되어온 다른 IP 주소 검색 구조와 성능을 비교하였다.$와 혼합된 rubrene에 의한 낮은 전하주 입장벽, 높은 전류밀도에서 나타나는 발광감쇄현상의 감소, 그리고 발광층의 DLD구조에 의한 전하의 trap & confinement 에 따른 발광 exciton의 형성확률이 증가한데서 나타났다고 생각된다. 차이가 없었으나 고급알코올함량을 비교하였을 때 Sacch. cerevisiae Wine 3이 와인제조에 가장 적합한 것으로 평가되었다.장 낮은 값을 나타내었으며, 홍국의 함유량이 증가할수록 유의적으로 증가하였다. b값은 CSB가 가장 낮은 값을 나타내었으며, 홍국의 함유량이 증가할수록 유의적으로 증가하였다. 물성측정 결과 경도와 응집성은 각 시료들 간의 유의적인 차이가 나타나지 않았다. 탄력성과 부서짐성은 CSB가 가장 낮았으며, 홍국의 함유량이 증가할수록 증가하였다. 점착성은 SDB1이 가장 낮았으며, 홍국의 함유량이 증가할수록 증가하였다. 관능검사 결과 기공의 균일성은 SDB1이 가장 균일한 것으로 나타났으며, 색은 홍국의 함유량이 증가할수록 높게 나타났다. 경도, 탄력성, 단맛 및 신맛 등은 홍국 함유량이 증가할수록 증가하는 것으로 나타났다. 이취는 SDB1이 가장 적게 나는 것으로 나타났으며, 전반적인 기호도는 SDB1이 가장 높았다. 따라서 홍국을 10% 첨가한 sourdough starter를 3일 동안 발효한 후 반죽에 첨가하여 sourdough bread를 제조할 때 품질이 가장 우수한 제품을 얻을 수 있었다.생수와 여러 물질의 혼합용액의 온도가 장에 끼치는 자극에 차이가 있지 않나 추측되며 이에 관한 추후 연구가 요망된다. 총대장통과시간의

버스 정류소 주변에서 자동차-이동기지국 (V2MR) 통신의 연결시간에 대한 성능분석모형 (Model for the Connection-Time of Vehicle-to-Mobile RSU (V2MR) Communications Near a Bus Station)

  • 정한유;막달레나 트리 푸르나닝타스;응웬 호아 흥
    • 한국통신학회논문지
    • /
    • 제41권12호
    • /
    • pp.1969-1977
    • /
    • 2016
  • 자동차 통신망의 구축비용을 획기적으로 절감하기 위해 자동차 통신망과 이동통신망을 연결하는 기지국을 대중교통수단인 버스에 설치한 자동차-이동기지국 (Vehicle-to-Mobile Roadside Unit, V2MR) 통신에 대해 연구한다. 자동차-이동기지국 통신에서 자동차들은 이동기지국에 애드 혹 연결을 설정하여 연결성을 크게 향상한다. 본 논문에서는 동일한 경로를 주행하는 자동차들과 이동기지국 간의 통신연결 시간에 대한 새로운 분석모형을 제시한다. 자동차 통신망에서 연결시간은 매우 동적이고 예측하기 힘들기 때문에, 본 논문에서 제안하는 분석모형은 자동차-이동기지국 간의 통신연결 시간을 예측하기 위한 토대를 제공할 수 있다. VEINS 시뮬에이션을 통해 수집한 실험결과를 통해 제안하는 성능분석모형이 V2MR 통신연결시간 추정 오차를 약 1 퍼센트 이내로 줄일 수 있음을 보인다. 또한, V2MR 통신이 V2R 통신에 비해 통신연결 시간을 약 3.85배 증가시킬 수 있음을 보인다.

자모 결합 유형을 이용한 적은 어휘에서의 필기 한글 단어 인식 (Handwritten Hangul Word Recognition from Small Vocabulary using Grapheme Combination Type)

  • 진유호;김호연;김인중;김진형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권1호
    • /
    • pp.52-63
    • /
    • 2001
  • 필기 단어 인식 방법에는 낱자별 분할 및 낱자 단위 인식을 통해 인식하는 방법과 단어 사전을 이용하여 단어와 영상을 직접 비교하는 방법이 있다. 이 중 후자는 인식 대상이 되는 단어들이 작은 수의 어휘로 제한되었을 대 매우 효과적이다. 본 논문에서는 입력 영상이 주어졌을 때 자모를 순차적으로 탐색하고 그 결과의 최적 조합을 찾아 인식하는 사전을 이용한 필기 한글 단어 인식 방법을 제안한다. 입력 영상은 사전의 각 단어와의 매칭을 통해 인식된다. 단어는 필기 순서로 정렬된 자모열로 표현하고 입력 영상은 획들의 집합으로 표현한다. 단어의 자모들은 입력 영상으로부터 추출된 획들의 집합으로부터 단계적으로 탐색된다. 각 단계에서는 전 단계까지의 매칭 상태와 탐색하려는 자모의 형태로부터 자모가 존재할 것이라고 기대되는 정합 기대 영역을 설정한 후 그 안에서 자모 탐색기를 이용해 자모를 찾는다. 자모 탐색기는 획들의 집합으로 이루어진 복수의 자모 후보와 그 점수를 출력한다. 각 단계마다 생성된 자모 후보들은 최적의 단어 매칭을 찾기 위한 탐색 공간을 이룬다. 본 연구에서는 단어 사전을 trie로 구성하고, 탐색 과정에서 dynamic programming을 이용하여 효과적으로 탐색을 수행하였다. 또한 인식 속도를 향상시키기 위해 산전 축소, 탐색 공간 축소 등 다양한 지식을 이용하였다. 제안하는 방법은 무제약으로 쓰여진 필기 단어도 인식 할 수 있을 뿐 아니라, 동적 사전을 이용하기 때문에 사전의 내용이 변하는 환경에서도 적용할 수 있다. 인식 실험에서는 39개의 단어로 이루어진 사전에 대하여 613개의 단어 영상에 대해 실험한 결과 98.54%의 높은 인식률을 보임으로써 제안하는 방법이 매우 효과적임을 확인하였다. 아니라 곰팡이 균주도 실제 praxis에 적합하게 개발시킬수 있다. 따라서 앞으로 발효육제품제조에 있어 starter culture가 갖는 의미는 매우 중요하며 특히 짧은 숙성기간을 거치는 발효소시지의 제조에 있어서는 필수불가결한 공정의 한 분야로 자리잡게 될 것이다.큰 차이 없었으나 이중포장과 진공포장은 상당히 효과적임을 알 수 있었다.로는 18%에 비하여 22%가 더 적합한 것으로 생각되었다.$0.15{\sim}0.35%$이었다.irc}C$에서 $13.49{\times}10^{-3}$이었다. 이 값들을 Arrhenius식에 대입하여 구한 활성화 에너지는 24.795 kJ/Kmol이었다. 이 값으로부터 결정한 살균 포장약주 명가의 상용 저장 수명은 $10^{\circ}C$에서 2년, $20^{\circ}C$에서 1년 4개월, $25^{\circ}C$에서 1년 2개월 이었다. 서울의 매월 평균 온도를 기준으로 계산할 때 본제품의 상용저장기간은 1년 8개월이었다.로 반죽이 호화되고 가열시간이 그 이상으로 증가할 때도 반죽의 호화가 약간은 진행되지만 $90^{\circ}C$ 이상의 가열온도에서는 가열시간 0.5분 이내에 반죽의 호화가 급속히 일어나고 가열 시간을 증가시켜도 더이상의 호화는 일어나지 않았다. 같은 조건에서는 waxy corn starch 반죽의 호화 속도가 corn starch보다 더 빠른 것으로 나타났다. 대표적으로 52% 수분함량에서 반응속도상수(k)와 가열온도(T)사이의 관계식은 corn starch의 경우 $logk=11.1140-4.1226{\times}10^3(1/T)

  • PDF