• Title/Summary/Keyword: 검색기

Search Result 1,064, Processing Time 0.031 seconds

Design and Implementation of a Structure Information Extractor for XML Documents (XML 문서를 위한 구조정보 추출기의 설계 및 구현)

  • 민영수;강승헌;강형일;유재수;이하욱;최한석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.81-83
    • /
    • 1999
  • XML 문서의 구조검색을 위한 기존 구조정보 표현방법들은 특정 엘리먼트의 조상, 자손, 형제에 대한 구조검색을 효율적으로 지원하지 못한다. 본 논문에서는 XML 문서의 효율적인 관리와 구조검색을 위해 DTD(Document Type Definition)의 논리적 구조를 따르는 XML 문서의 구조정보 표현을 고안하고 구조정보 추출기를 설계하고 구현한다. 이를 통하여 특정 엘리먼트에 접근이 가능하도록 하고, 다양한 구조적 질의를 효과적으로 처리할 수 있도록 한다.

  • PDF

Indexing System comparison and analysis (색인어 추출기 비교 및 분석)

  • Choi, Lim Cheon;Park, Soon Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.429-432
    • /
    • 2007
  • 정보화 시대에 범람하는 정보들 중 원하는 정보를 빠르고 정확하게 검색할 수 있도록 도와주는 정보검색 시스템의 중요성이 대두 되고 있다. 정보 검색 시스템의 한 축을 담당하는 색인어 추출기는 보통 형태소 분석을 통하여 작성이 되지만 색인어 추출만을 위하여선 불필요한 작업들이 있는 것이 사실이다. 그래서 이 논문에서는 미리 정의된 색인어 리스트를 가진 사전을 이용한 색인어 추출 시스템을 제안하고 그에 맞는 데이터 구조들을 분석하여 성능 비교를 하였다.

Music retrieval system implementation based on multi-level quantization scheme (다중 레벨 양자화 기법 기반의 음악 검색기 구현)

  • Song, Won-Sik;Park, Man-Soo;Kim, Hoi-Rin
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1182-1187
    • /
    • 2006
  • 본 논문은 필립스의 오디오 핑거프린트 추출 방식을 기반으로 기존의 방식이 주파수 영역을 너무 조밀하게 분석하는 특징을 지적하고 개선 방안으로 양자화를 통해 필터 뱅크의 에너지 변화율을 오디오 핑거프린트 추출시 반영하는 방법을 제안하였다. 또한 제안된 알고리즘을 사용하여 PDA 로 실제 어플리케이션을 구현하는 것을 목적으로 하고 있다. 제안된 방식은 필립스 방식과 동일한 메모리 크기를 유지하기 위하여 필터 뱅크의 개수를 33 개에서 17 개로 줄이고 필터 뱅크의 변화량을 2 비트로 할당하는 방식을 사용하였다. 변화량을 비트에 할당하기 위하여 음악 데이터 베이스로부터 추출된 각 밴드의 pmf를 통해 음악의 고유성을 최대로 증진 시킬 수 있는 임계치를 찾아내고 이것을 바탕으로 필터 뱅크의 변화량을 2 비트로 할당하였다. 이 같이 추출된 오디오 핑거프린트를 기반으로 PDA 와 음악 검색기 서버와의 통신을 이용하여 사용자가 요청한 쿼리 음악에 관련된 정보를 제공하는 시스템을 구현했다. 제안된 방식은 다양한 주변 잡음 환경에서 평가되어 기존의 필립스 방식 보다 성능 향상 물론 검색 속도 또한 개선되는 특징을 확인할 수 있었다.

  • PDF

A Design and Implementation of XML Document Retrieval System Based on XQL supporting Web Publishing Framework (웹 출판 프레임워크를 지원하는 XQL기반 XML 문서 검색 시스템 설계 및 구현)

  • Moon, Jong-Hwan;Kim, Cheol-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1095-1098
    • /
    • 2001
  • 정보의 구조적 표현 가능하고 인터넷을 기반으로 하는 정보교환의 매개체로써 다양한 응용분야에 확산되고 있는 XML(extensible Markup Language)은 차세대 인터넷 전자문서 표준으로 주목받고 있다. 최근들어 기존 문서를 XML로 변환하거나 신규 문서를 XML로 작성하는 사례가 늘면서 대량의 XML문서가 생성되고 있으며 이에 따라 대량의 XML 문서를 효율적으로 검색하기 위한 XML 검색 시스템이 요구되어지고 있다. 본 논문에서는 내용기반, 구조기반, 속성기반 검색을 지원하는 XML 문서의 질의언어로 제안되어진 XQL과 XML 문서를 분석하는 문서 구조 처리기, 사용자 입력 질의를 실행하기 위한 질의 언어 처리기를 가지는 XML 문서검거 시스템을 제시하고 검색된 문서의 견과를 웹 출판 프레임워크(Web Publishing Framework) 인 Cocoon을 적용하여 다른 포맷의 문서로 전환 가능한 시스템을 설계 및 구현하였다.

  • PDF

A LECTURE SEARCH SYSTEM USING RELEVANT INFORMATION AND SPEECH TRANSCRIPTION (보조 자료와 음성 전사를 사용한 강의 검색 시스템)

  • Lee, Donghyeon;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.140-144
    • /
    • 2008
  • 음성 오디오 검색 시스템을 구축하기 위해서는 몇 가지 과정이 필요하다. 첫 번째 과정이 음성 인식기를 이용하여 음성 오디오를 텍스트 형태로 표현하는 것이다. 하지만, 음성 인식기에서 수반되는 음성 인식 오류를 피할 수는 없다. 음성 인식 오류를 최소화하기 위해서 음성 인식 출력의 lattice를 색인(index)해야 하는데, 보다 효과적인 처리를 위하여 압축된 형태를 사용한다. 본 연구에서는 특별히 한국어 강의를 대상으로 검색 시스템을 구축했다. 강의에서는 특별히 관련된 자료를 쉽게 구할 수 있는 데, 이런 자료를 언어 모델에 이용하여 음성 인식 성능을 향상 시킬 수 있다. 또한, 강의 자료를 이용한 추가 색인 테이블(index table)을 생성하여 검색 성능 향상에 도움을 준다. 실험에서 고등학교 과정 수학 강의 동영상을 이용하여 자동화된 강의 검색 시스템을 구축하고, 보조 자료를 이용해 성능을 향상 시키는 것을 보인다.

  • PDF

Improving the Retrieval Effectiveness by Incorporating Word Sense Disambiguation Process (정보검색 성능 향상을 위한 단어 중의성 해소 모형에 관한 연구)

  • Chung, Young-Mee;Lee, Yong-Gu
    • Journal of the Korean Society for information Management
    • /
    • v.22 no.2 s.56
    • /
    • pp.125-145
    • /
    • 2005
  • This paper presents a semantic vector space retrieval model incorporating a word sense disambiguation algorithm in an attempt to improve retrieval effectiveness. Nine Korean homonyms are selected for the sense disambiguation and retrieval experiments. The total of approximately 120,000 news articles comprise the raw test collection and 18 queries including homonyms as query words are used for the retrieval experiments. A Naive Bayes classifier and EM algorithm representing supervised and unsupervised learning algorithms respectively are used for the disambiguation process. The Naive Bayes classifier achieved $92\%$ disambiguation accuracy. while the clustering performance of the EM algorithm is $67\%$ on the average. The retrieval effectiveness of the semantic vector space model incorporating the Naive Bayes classifier showed $39.6\%$ precision achieving about $7.4\%$ improvement. However, the retrieval effectiveness of the EM algorithm-based semantic retrieval is $3\%$ lower than the baseline retrieval without disambiguation. It is worth noting that the performances of disambiguation and retrieval depend on the distribution patterns of homonyms to be disambiguated as well as the characteristics of queries.

The Design and Implementation of Automatic Query Term Refiner for Term Expansion/Restriction in Information Retrieval (정보검색에서 질의 용어 확장/한정을 위한 자동 질의 용어 정련기의 설계 및 구현)

  • Kang, Hyun-Su;Kang, Hyun-Kyu;Lee, Yong-Seok;Kim, Young-Sum
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.65-72
    • /
    • 1998
  • 인터넷 정보 검색에서 이용자들이 주로 사용하는 질의는 2-3개의 용어로 이루어진 짧은 질의이다. 또만 동음이의어를 갖는 용어를 사용하기도 한다. 짧은 질의를 처리하는 일반적인 방법은 시소러스[8]나 Wordnet[1]을 이용한 질의 확장이다. 그러나 시소러스나 Wordnet과 같은 지식 베이스는 구축하기가 용이하지 않으며, 도메인 종속적인 면과 단어의 회귀(sparseness) 문제를 극복하기 어려운 단점이 있다. 또한 동음이의어 용어로 인하여 검색의 정확성이 털어지는 문제점이 있다. 한편, 사용자의 질의를 주의 깊게 살펴보면, 질의로부터 관련 용어 분류 정보를 추출할 수 있다. 본 논문은 사용자의 질의가 관련 용어 분류 정보에 의해 유기적으로 관계를 가지고 있다는 사실에 기인하여 관련 용어 분류 정보에 따라 자동으로 용어 확장 및 한정을 수행하며 적절한 용어 가중치를 부여하는 자동 질의 용어 정련기를 제안한다. 자동 질의 용어 정련기는 용어의 확장, 한정 및 가중치 부여를 통하여 사용자의 정보 검색 요구를 명확히 하여 검색의 정확성을 향상시킨다.

  • PDF

Multimedia Data Management System for the Store arid Retrieval of Large-scale Data (대용량 멀티미디어 데이터 저장 및 검색을 위한 데이터 관리 시스템)

  • Bok, Joong-Hyo;Kim, Kwang-Jong;Lee, Yon-Sik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.739-742
    • /
    • 2000
  • 본 논문에서는 객체지향 데이터베이스 시스템을 이용하여 대용량 멀티미디어 데이터를 저장 및 검색하는 멀티미디어 데이터 관리 시스템(Multimedia Data Management System : MDMS)을 설계 구현한다. 따라서, 사용자, 응용 및 데이터베이스 각 계층에 객체지향 설계 방법을 적용시켜 일관된 인터페이스와 다양한 응용 분야의 확장을 유도하고 기존의 파일 단위의 관리 방법과 데이터베이스 저장 관리 방법을 선택 또는 동시 이용 할 수 있도록 하여 관리자 요구 수용의 폭을 넓힌다. 또한, 질의에 대한 효율적인 검색을 위하여 질의 분석기, 객체 질의기, 객체 추출기와 데이터베이스 연산전, 후의 데이터 일관성 유지를 위한 객체 관리기를 구현한다. 향후에는 제안된 시스템을 기반으로 내용 기반 질의 처리 및 웹 연동 통합 관리 시스템의 개발이 요구된다.

  • PDF

Syllable-Based Korean Morphological Analyzer (음절에 기반한 한국어 형태소 분석기)

  • Jang, Dong-Su;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.331-339
    • /
    • 1993
  • 본 논문에서는 한국어의 음절 특성을 이용한 한국어 형태소 분석기를 제시하였다. 이 형태소 분석기는 품사별 음절 정보, 불규칙 음절 정보, 활용어절 음절 정보, 선어말 어미 음절 정보 등을 이용하여 음절 단위로 형태소 분석을 한다. 음절 단위의 형태소 분석 방법은 음소 단위의 방법보다 형태소 분석시에 생성될 수 있는 잘못된 중간 분석 결과를 크게 감소시켜, 사전 탐색 부담을 최소화한다. 시스템의 사전은 품사별 결합 특성과 사전 표제어의 길이별 분포 특성을 이용하여 구성하였으며, 그 규모는 약 16만 어휘이다. 이러한 사전 구성은 효율적인 사전검색을 제공하며, 특히 철자 검색기와 자동 인덱싱 등의 다양한 응용 시스템 요구를 곧바로 수용할 수 있는 유연성과 효율성을 갖고 있다.

  • PDF

Design and Implementation of Interactive Search Service based on Deep Learning and Morpheme Analysis in NTIS System (NTIS 시스템에서 딥러닝과 형태소 분석 기반의 대화형 검색 서비스 설계 및 구현)

  • Lee, Jong-Won;Kim, Tae-Hyun;Choi, Kwang-Nam
    • Journal of Convergence for Information Technology
    • /
    • v.10 no.12
    • /
    • pp.9-14
    • /
    • 2020
  • Currently, NTIS (National Technology Information Service) is building an interactive search service based on artificial intelligence technology. In order to understand users' search intentions and provide R&D information, an interactive search service is built based on deep learning models and morpheme analyzers. The deep learning model learns based on the log data loaded when using NTIS and interactive search services and understands the user's search intention. And it provides task information through step-by-step search. Understanding the search intent makes exception handling easier, and step-by-step search makes it easier and faster to obtain the desired information than integrated search. For future research, it is necessary to expand the range of information provided to users.