• 제목/요약/키워드: 한글인덱스

검색결과 7건 처리시간 0.02초

한글 글자 단위 인덱스를 위한 검색 유형 정의 및 한글 부호계와의 연관성에 관한 연구 (A Study of the framework of search patterns for Hangul characters and its relationship with Hangout code for Hangout Character based Index)

  • 이중화;이종민;김성우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 춘계종합학술대회
    • /
    • pp.327-330
    • /
    • 2007
  • 본 논문에서는 한글 인덱스를 구현할 때 글자 단위를 기본으로 하는 경우 적용될 수 있는 검색유형 (search pattern) 들은 어떠한 것들이 존재할 수 있는지에 대해 살펴보고, 검색 알고리즘에 적용시켜 본다. 이 때 부호계와의 연관성과 효율성을 따져보기 위해서 $KS\;{\times}\;1001$의 두 바이트 조합형과 두 바이트 완성형, 그리고 유니코드 3.0의 조합형 부호계와 완성형 부호계 등 여러가지 부호계를 사용할 때에 대해 기본 검색 알고리즘을 적용해 본다.

  • PDF

한글 글자 단위 인덱스를 위한 검색 유형 정의 및 한글 부호계와의 연관성에 관한 연구 (A Study of the framework of search patterns for Hangul characters and its relationship with Hangout code for Hangeul Character based Index)

  • 이중화;이종민;김성우
    • 한국정보통신학회논문지
    • /
    • 제11권6호
    • /
    • pp.1083-1088
    • /
    • 2007
  • 본 논문에서는 한글 인덱스를 구현할 때 글자 단위를 기본으로 하는 경우 적용될 수 있는 검색 유형 (search pattern) 들은 어떠한 것들이 존재할 수 있는지에 대해 살펴보고, 검색 알고리즘에 적용시켜 본다. 이때 부호계와의 연관성과 효율성을 따져보기 위해서 KS X 1001의 두 바이트 조합형과 두 바이트 완성형, 그리고 유니코드 3.0의 조합형 부호계와 완성형 부호계 등 여러가지 부호계를 사용할 때에 대해 기본 검색 알고리즘을 적용해 본다.

유니코드 변환이 적용된 NTFS 인덱스 레코드에 데이터를 숨기기 위한 안티포렌식 기법 (An Anti-Forensic Technique for Hiding Data in NTFS Index Record with a Unicode Transformation)

  • 조규상
    • 융합보안논문지
    • /
    • 제15권7호
    • /
    • pp.75-84
    • /
    • 2015
  • 윈도우즈 NTFS 파일시스템에서 인덱스 레코드에 데이터를 숨기기 위한 기법은 파일명을 이용하여 메시지를 숨기는 방법이다. 윈도우즈 NTFS의 파일명 규칙에서 일부 ASCII 문자는 파일명으로 사용할 수 없는 문제가 있다. 영문과 함께 한글, 기호 문자가 함께 입력이 될 때와 바이너리 형태의 데이터들이 입력될 때 인덱스 레코드에 데이터 숨기기 방법 수행 시에 파일생성 에러 문제가 발생하는 것을 해결하기 위한 방법으로 유니코드의 특정 영역으로 변환하는 방법을 제안한다. 에러가 발생하는 문자들을 한글과 영문 영역이 아닌 유니코드로 변환하고. 바이너리 형태의 데이터인 경우는 확장 유니코드 영역과 아스키 코드의 영역이 아닌 유니코드의 영역으로 256개의 코드 전체를 변환하는 방식을 적용한다. 영문과 함께 한글이 사용된 경우에 제안한 방식이 적용된 사례의 결과를 보이고. 바이너리의 경우는 PNG이미지 파일의 바이너리 코드를 유니코드로 변환한 사례를 통해서 제안한 방법이 타당함을 보인다.

음절 기반 형태소 분석을 위한 효율적인 사전 구성 (An Efficient Dictionary for Syllable-based Korean Morphological Analyzer)

  • 김남철;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.411-415
    • /
    • 1997
  • 형태소 분석기의 처리 속도는 분석 알고리즘과 형태소 사전의 탐색 기법에 따라 크게 좌우된다. 형태소 분석 성능의 향상을 위하여 많은 형태소 분석 방법이 제안되었으며, 음절 정보를 이용하는 형태소 분석기는 한국어 음절의 통계적 특성 정보를 이용함으로써, 분석 후보의 개수를 최대한 적게 하여 처리 속도를 향상시켰다. 본 논문은 형태소 분석시 발생하는 분석 후보들의 특성을 고려하여 사전 탐색 요구시 가장 많은 처리 시간을 필요로 하는 디스크 읽기 횟수를 줄일 수 있도록 음절별 블록 인덱싱한 사전 구성 방법을 제안한다. 이 방법은 형태소 사전을 첫 음절별로 블록화하고 인덱싱하여 3개의 추가적인 인덱스 테이블을 구축하는 사전 구성 방법으로, 인덱스 테이블을 모두 주기억장치에 적재하였을 때에는 평균 61.6%, 크기가 작은 두 개의 인덱스 테이블만 주기억장치에 적재하였을 때에는 평균 25%의 디스크 읽기 횟수를 줄일 수 있다.

  • PDF

다국어를 지원하는 XML 문서 검색 시스템: HyREX (HyREX: Universal XML Retrieval Engine for XML)

  • 한예지;채종대;김수희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1713-1716
    • /
    • 2002
  • HyREX는 연구용 프로토타입 XML 하이퍼미디어 문서 검색시스템으로 다국어를 지원하고 있다. HyREX는 검색을 위한 효율적인 접근 경로들을 처리하는 물리적 계층 HyPath와 질의어를 처리하는 논리적 계층 XIRQL 그리고 사용자 인터페이스인 HyGate 계층으로 이루어져 있다. 이 연구에서는 영어와 독일어 등의 검색을 지원하는 기존의 HyREX 시스템을 한글 XML 문서 검색시스템으로 확장하기 위해 먼저 한글 데이터타입을 위한 클래스를 구현하였다. 앞으로 한글 XML 문서 검색에서 정확율과 재현율을 향상하기 위해 각 문서의 인덱스에 대해 $tf{\cdot}idf$ 공식을 이용하여 가중치를 부여하고 이를 개발하고자 한다.

  • PDF

대화형 인덱싱을 위한 로봇 에이전트의 설계 및 구현 (Design and Implementation of a Robot Agent for Interactive Indexing)

  • 박민우;박철제
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.219-226
    • /
    • 1997
  • 에이전트는 분산 환경에서 작업을 수행하는 지적인 특성을 갖는 응용 프로그램으로 정의되며, 연구 분야에 따라 다양한 의미로 해석이 가능하다. 그중에서 로봇 에이전트는 전세계에 산재된 방대한 양의 정보를 스스로 추적하며 새로운 정보를 찾는다. 로봇 에이전트에 대한 기존의 연구는 대부분 통계적인 목적이나 검색엔진을 위한 데이터의 수집을 목적으로 사용되었다. 많은 정보를 수집하기 위해 더 높은 성능의 로봇 에이전트들이 제작되었고, 이러한 프로그램들이 팽창하면서 네트워크를 과부하시키는 현상을 초래하게 되었다. 재귀적인 방법으로 수행되는 로봇 에이전트의 사용을 억제하기 위한 연구들이 많이 발표되었으나, 수동적인 방법에 의존하는 연구가 대부분이며 대표적인 것이 로봇 배제를 위한 표준안 정도이다. 본 연구에서는 이러한 로봇 에이전트의 문제점을 개선하여, 서버와 클라이언트간에 대화형으로 수행되는 인덱스 로봇 에이전트를 제안하며, 사용자의 요구에 따라 수행되는 로봇 에이전트에 의한 정보 획득의 방법을 시도하여 네트워크의 과부하를 억제하면서도 정보의 신뢰성과 정확성을 보장한다.

  • PDF

웹 인덱싱을 위한 통합 전처리 시스템의 개발 (Integrated Sentence Preprocessing System for Web Indexing)

  • 심준혁;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.216-223
    • /
    • 2000
  • 웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML 형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

  • PDF