• Title/Summary/Keyword: 한글인덱스

Search Result 7, Processing Time 0.024 seconds

A Study of the framework of search patterns for Hangul characters and its relationship with Hangout code for Hangout Character based Index (한글 글자 단위 인덱스를 위한 검색 유형 정의 및 한글 부호계와의 연관성에 관한 연구)

  • Lee, Jung-Hwa;Lee, Jong-Min;Kim, Seong-Woo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2007.06a
    • /
    • pp.327-330
    • /
    • 2007
  • 본 논문에서는 한글 인덱스를 구현할 때 글자 단위를 기본으로 하는 경우 적용될 수 있는 검색유형 (search pattern) 들은 어떠한 것들이 존재할 수 있는지에 대해 살펴보고, 검색 알고리즘에 적용시켜 본다. 이 때 부호계와의 연관성과 효율성을 따져보기 위해서 $KS\;{\times}\;1001$의 두 바이트 조합형과 두 바이트 완성형, 그리고 유니코드 3.0의 조합형 부호계와 완성형 부호계 등 여러가지 부호계를 사용할 때에 대해 기본 검색 알고리즘을 적용해 본다.

  • PDF

A Study of the framework of search patterns for Hangul characters and its relationship with Hangout code for Hangeul Character based Index (한글 글자 단위 인덱스를 위한 검색 유형 정의 및 한글 부호계와의 연관성에 관한 연구)

  • Lee, Jung-Hwa;Lee, Jong-Min;Kim, Seong-Woo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.11 no.6
    • /
    • pp.1083-1088
    • /
    • 2007
  • In this paper, We investigate the search patterns that are applied to the character based word search and make the search algorithm. We used to various hangout coded set that are KS X 1001 hangeul coded set and unicode 3.0 for the character based word search algorithm. In each case, We study of efficiency of algorithms that are related to hangeul coded set.

An Anti-Forensic Technique for Hiding Data in NTFS Index Record with a Unicode Transformation (유니코드 변환이 적용된 NTFS 인덱스 레코드에 데이터를 숨기기 위한 안티포렌식 기법)

  • Cho, Gyu-Sang
    • Convergence Security Journal
    • /
    • v.15 no.7
    • /
    • pp.75-84
    • /
    • 2015
  • In an "NTFS Index Record Data Hiding" method messages are hidden by using file names. Windows NTFS file naming convention has some forbidden ASCII characters for a file name. When inputting Hangul with the Roman alphabet, if the forbidden characters for the file name and binary data are used, the codes are convert to a designated unicode point to avoid a file creation error due to unsuitable characters. In this paper, the problem of a file creation error due to non-admittable characters for the file name is fixed, which is used in the index record data hiding method. Using Hangul with Roman alphabet the characters cause a file creation error are converted to an arbitrary unicode point except Hangul and Roman alphabet area. When it comes to binary data, all 256 codes are converted to designated unicode area except an extended unicode(surrogate pairs) and ASCII code area. The results of the two cases, i.e. the Hangul with Roman alphabet case and the binary case, show the applicability of the proposed method.

An Efficient Dictionary for Syllable-based Korean Morphological Analyzer (음절 기반 형태소 분석을 위한 효율적인 사전 구성)

  • Kim, Nam-Churl;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.411-415
    • /
    • 1997
  • 형태소 분석기의 처리 속도는 분석 알고리즘과 형태소 사전의 탐색 기법에 따라 크게 좌우된다. 형태소 분석 성능의 향상을 위하여 많은 형태소 분석 방법이 제안되었으며, 음절 정보를 이용하는 형태소 분석기는 한국어 음절의 통계적 특성 정보를 이용함으로써, 분석 후보의 개수를 최대한 적게 하여 처리 속도를 향상시켰다. 본 논문은 형태소 분석시 발생하는 분석 후보들의 특성을 고려하여 사전 탐색 요구시 가장 많은 처리 시간을 필요로 하는 디스크 읽기 횟수를 줄일 수 있도록 음절별 블록 인덱싱한 사전 구성 방법을 제안한다. 이 방법은 형태소 사전을 첫 음절별로 블록화하고 인덱싱하여 3개의 추가적인 인덱스 테이블을 구축하는 사전 구성 방법으로, 인덱스 테이블을 모두 주기억장치에 적재하였을 때에는 평균 61.6%, 크기가 작은 두 개의 인덱스 테이블만 주기억장치에 적재하였을 때에는 평균 25%의 디스크 읽기 횟수를 줄일 수 있다.

  • PDF

HyREX: Universal XML Retrieval Engine for XML (다국어를 지원하는 XML 문서 검색 시스템: HyREX)

  • Han, Ye-Ji;Chae, Jong-Dae;Kim, Su-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1713-1716
    • /
    • 2002
  • HyREX는 연구용 프로토타입 XML 하이퍼미디어 문서 검색시스템으로 다국어를 지원하고 있다. HyREX는 검색을 위한 효율적인 접근 경로들을 처리하는 물리적 계층 HyPath와 질의어를 처리하는 논리적 계층 XIRQL 그리고 사용자 인터페이스인 HyGate 계층으로 이루어져 있다. 이 연구에서는 영어와 독일어 등의 검색을 지원하는 기존의 HyREX 시스템을 한글 XML 문서 검색시스템으로 확장하기 위해 먼저 한글 데이터타입을 위한 클래스를 구현하였다. 앞으로 한글 XML 문서 검색에서 정확율과 재현율을 향상하기 위해 각 문서의 인덱스에 대해 $tf{\cdot}idf$ 공식을 이용하여 가중치를 부여하고 이를 개발하고자 한다.

  • PDF

Design and Implementation of a Robot Agent for Interactive Indexing (대화형 인덱싱을 위한 로봇 에이전트의 설계 및 구현)

  • Park, Min-Woo;Park, Chul-Jae
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.219-226
    • /
    • 1997
  • 에이전트는 분산 환경에서 작업을 수행하는 지적인 특성을 갖는 응용 프로그램으로 정의되며, 연구 분야에 따라 다양한 의미로 해석이 가능하다. 그중에서 로봇 에이전트는 전세계에 산재된 방대한 양의 정보를 스스로 추적하며 새로운 정보를 찾는다. 로봇 에이전트에 대한 기존의 연구는 대부분 통계적인 목적이나 검색엔진을 위한 데이터의 수집을 목적으로 사용되었다. 많은 정보를 수집하기 위해 더 높은 성능의 로봇 에이전트들이 제작되었고, 이러한 프로그램들이 팽창하면서 네트워크를 과부하시키는 현상을 초래하게 되었다. 재귀적인 방법으로 수행되는 로봇 에이전트의 사용을 억제하기 위한 연구들이 많이 발표되었으나, 수동적인 방법에 의존하는 연구가 대부분이며 대표적인 것이 로봇 배제를 위한 표준안 정도이다. 본 연구에서는 이러한 로봇 에이전트의 문제점을 개선하여, 서버와 클라이언트간에 대화형으로 수행되는 인덱스 로봇 에이전트를 제안하며, 사용자의 요구에 따라 수행되는 로봇 에이전트에 의한 정보 획득의 방법을 시도하여 네트워크의 과부하를 억제하면서도 정보의 신뢰성과 정확성을 보장한다.

  • PDF

Integrated Sentence Preprocessing System for Web Indexing (웹 인덱싱을 위한 통합 전처리 시스템의 개발)

  • Shim, Jun-Hyuk;Cha, Jong-Won;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.216-223
    • /
    • 2000
  • 웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML 형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

  • PDF