• Title/Summary/Keyword: 텍스트형 색인

Search Result 12, Processing Time 0.051 seconds

A Study on the Extraction and Utilization of Index from Bibliographic MARC Database (서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 -)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.36 no.2
    • /
    • pp.327-348
    • /
    • 2005
  • The purpose of this study is to emphasize the importance of index definition and to prepare the basis of optimal index in bibliographic retrieval system. For the purpose, this research studied a index extraction theory on index tag definition and index normalization from the bibliographic marc database and analyzed a retrieval utilization rate of extracted index. In this experiment, we divided index between text-type and code-type about the generated 29,219,853 indexes from 2,200,488 bibliographic records and analyzed utilization rate by the comparison of index-type and index term of web logs. According to the result, the text-type indexes such as title, author, publication, subject are showed high utilization rate while the code-type indexes were showed low utilization rate. So this study suggests that the unused index is removed from index definition to optimize index.

  • PDF

A Pattern Matching Method of Large-Size Text Log Data using In-Memory Relational Database System (인메모리 관계형 데이터베이스 시스템을 이용한 대용량 텍스트 로그 데이터의 패턴 매칭 방법)

  • Han, Hyeok;Choi, Jae-Yong;Jin, Sung-Il
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.837-840
    • /
    • 2017
  • 각종 사이버 범죄가 증가함에 따라 실시간 모니터링을 통한 사전 탐지 기술뿐만 아니라, 사후 원인 분석을 통한 사고 재발 방지 기술의 중요성이 증가하고 있다. 사후 분석은 시스템에서 생산된 다양한 유형의 대용량 로그를 기반으로 분석가가 보안 위협 과정을 규명하는 것으로 이를 지원하는 다양한 상용 및 오픈 소스 SW 존재하나, 대부분 단일 분석가 PC에서 운용되는 파일 기반 SW로 대용량 데이터에 대한 분석 성능 저하, 다수 분석가 간의 데이터 공유 불가, 통계 연관 분석 한계 및 대화형 점진적 내용 분석 불가 등의 문제점을 해결하지 못하고 있다. 이러한 문제점을 해결하기 위하여 고성능 인메모리 관계형 데이터베이스 시스템을 로그 스토리지로 활용하는 대용량 로그 분석 SW 개발하였다. 특히, 기 확보된 공격자 프로파일을 활용하여 공격의 유무를 확인하는 텍스트 패턴 매칭 연산은 전통적인 관계형 데이터베이스 시스템의 FTS(Full-Text Search) 기능 활용이 가능하나, 대용량 전용 색인 생성에 따른 비현실적인 DB 구축 소요 시간과 최소 3배 이상의 DB 용량 증가로 인한 시스템 리소스 추가 요구 등의 단점이 있다. 본 논문에서는 인메모리 관계형 데이터베이스 시스템 기반 효율적인 텍스트 패턴 매칭 연산을 위하여, 고성능의 대용량 로그 DB 적재 방법과 새로운 유형의 패턴 매칭 방법을 제안하였다.

Korea Electronic Technology Institute (멀티미디어 컨텐츠의 지능형 선택/검색 시스템 구현)

  • 이종설;이윤주;박우출;정하중;조위덕
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.61-63
    • /
    • 2002
  • 멀티미디어 컨텐츠의 지능형 선택/검색 시스템(MISS: Multimedia Content Intelligent Selection/search) 는 콘텐츠를 공급하는 서버에 다량의 멀티미디어 컨텐츠들이 존재하며, 이 컨텐츠 중에서 원하는 것을 검색, 선택하는 시스템이다. 지능적 검색, 선택기능을 갖는 MISS 시스템은 인터넷 및 네트워크상에 연결된 시스템들간의 맞춤형 서비스 구현에 필요한 핵심이며, 모든 종류의 멀티미디어 콘텐츠에 적용 가능하다. 현재 WWW 서비스경우는 정보를 찾기 위하여 웹상에서 문서를 찾아주는 텍스트 기반 정보검색기술이 사용되고 있는데, 점점 우리가 접하는 정보의 형태는 텍스트와 함께 화상, 음성, 동영상 등의 멀티미디어화 및 디지털화하고 있다. 사용자들에게는 멀티미디어 데이터를 효과적으로 찾아야 하는 필요성이 증가하고 이에 따라 방대한 양의 분산된 멀티미디어 데이터를 처리할 수 있는 색인 및 검색 도구의 요구가 커지게 되었다. MISS 시스템은 WWW 서비스의 요구에도 적용될 수 있다. MISS 시스템은 다량의 동영상 콘텐츠 중에서 특정 배우, 감독등의 여러 가지 검색 조건으로 콘텐츠를 검색/선택할 수 있고, 하나의 동영상 콘텐츠 내에서 특정Video Segment를 검색할 수 있다. 본 MISS 시스템은 동영상에 대한 Search/Query를 위한DS 구조로써 MPEG-7의 User preference metadata를 이용하였다.

  • PDF

Intelligent missing persons index system based on the OpenCV and TensorFlow (OpenCV와 TensorfFlow 기반의 지능형 실종자 색인 시스템)

  • Baek, Yong-Tae;Kim, Ji-Sung;Lee, Kang-Min;Shin, Jin;Lee, Se-Hoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.59-62
    • /
    • 2016
  • 본 논문에서는 실종자 데이터베이스에 등록된 실종자에 대한 색인으로 텍스트 기반의 통제 색인만을 사용할 때 발생하는 문제점에 대한 해결책을 다룬다. 기존 실종자를 등록할 때 함께 등록하게 되는 실종자에 대한 이미지는 정형화 할 수 없어 실종자 조회에 사용될 수 없었다. 이러한 문제점을 해결하고자 OpenCV와 TensorFlow 를 이용하여 영상의 유사도를 추출함으로써 실종자의 이미지를 정형화시켜 유의미한 정보로 변경하여 사용하고자 하는 방법을 제안한다.

  • PDF

Vector Space Model for Patent Information Retrieval System (특허정보 검색을 위한 벡터스페이스 검색모텔의 적용)

  • 원상훈;노태길;손기준;박정희;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.516-518
    • /
    • 2003
  • 본 논문은 특허 문서에 맞게 벡터스페이스 모델을 적용하여 특허정보 검색기를 구현한다. 기존의 상용 특허 검색 시스템의 문제점을 제시하고, 특허 문헌의 특징을 분석하여, 이를 반영한 특허 문헌 검색등의 벡터 스페이스 모델을 제시한다. 하나의 특허 문서는 서로 상이한 특성을 지닌 텍스트와 데이터의 조합으로 이루어져 있다. 따라서 이를 하나의 벡터로 표현하는 것이 용이하지 않다. 이에 대해 본 연구에서는 내용 필드들을 특성에 따라 둘 이상의 벡터로 표현하고, 수치 및 고유명 필드는 불린검색형태로 처리되는 혼합형 벡터 모델을 제안한다. 각 필드의 특징에 맞게 색인어를 추출하며, 텍스트 필드의 색인어률 벡터로 표현하는 과정에서는 잘 알려진 TF-IDF 가중치를 사용하되, 특허 문서가 IPC 특허 분류 기준에 따라 완전 분류되어 있는 문서라는 특징을 이용, 보다 정확한 가중치를 부여한다. 실험과 성능평가를 통하여 제안한 특허 모델의 유용성을 보인다.

  • PDF

A Study on Contents-based Retrieval using Wavelet (Wavelet을 이용한 내용기반 검색에 관한 연구)

  • 강진석;박재필;나인호;최연성;김장형
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.4 no.5
    • /
    • pp.1051-1066
    • /
    • 2000
  • According to the recent advances of digital encoding technologies and computing power, large amounts of multimedia informations such as image, graphic, audio and video are fully used in multimedia systems through Internet. By this, diverse retrieval mechanisms are required for users to search dedicated informations stored in multimedia systems, and especially it is preferred to use contents-based retrieval method rather than text-type keyword retrieval method. In this paper, we propose a new contents-based indexing and searching algorithm which aims to get both high efficiency and high retrieval performance. To achieve these objectives, firstly the proposed algorithm classifies images by a pre-processing process of edge extraction, range division, and multiple filtering, and secondly it searches the target images using spatial and textural characteristics of colors, which are extracted from the previous process, in a image. In addition, we describe the simulation results of search requests and retrieval outputs for several images of company's trade-mark using the proposed contents-based retrieval algorithm based on wavelet.

  • PDF

An emotional speech synthesis markup language processor for multi-speaker and emotional text-to-speech applications (다음색 감정 음성합성 응용을 위한 감정 SSML 처리기)

  • Ryu, Se-Hui;Cho, Hee;Lee, Ju-Hyun;Hong, Ki-Hyung
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.5
    • /
    • pp.523-529
    • /
    • 2021
  • In this paper, we designed and developed an Emotional Speech Synthesis Markup Language (SSML) processor. Multi-speaker emotional speech synthesis technology that can express multiple voice colors and emotional expressions have been developed, and we designed Emotional SSML by extending SSML for multiple voice colors and emotional expressions. The Emotional SSML processor has a graphic user interface and consists of following four components. First, a multi-speaker emotional text editor that can easily mark specific voice colors and emotions on desired positions. Second, an Emotional SSML document generator that creates an Emotional SSML document automatically from the result of the multi-speaker emotional text editor. Third, an Emotional SSML parser that parses the Emotional SSML document. Last, a sequencer to control a multi-speaker and emotional Text-to-Speech (TTS) engine based on the result of the Emotional SSML parser. Based on SSML which is a programming language and platform independent open standard, the Emotional SSML processor can easily integrate with various speech synthesis engines and facilitates the development of multi-speaker emotional text-to-speech applications.

Embeded-type Search Function with Feedback for Smartphone Applications (스마트폰 애플리케이션을 위한 임베디드형 피드백 지원 검색체)

  • Kang, Moonjoong;Hwang, Mintae
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.5
    • /
    • pp.974-983
    • /
    • 2017
  • In this paper, we have discussed the search function that can be embedded and used on Android-based applications. We used BM25 to suppress insignificant and too frequent words such as postpositions, Pivoted Length Normalization technique used to resolve the search priority problem related to each item's length, and Rocchio's method to pull items inferred to be related to the query closer to the query vector on Vector Space Model to support implicit feedback function. The index operation is divided into two methods; simple index to support offline operation and complex index for online operation. The implementation uses query inference function to guess user's future input by collating given present input with indexed data and with it the function is able to handle and correct user's error. Thus the implementation could be easily adopted into smartphone applications to improve their search functions.

Accessibility Improvement for Disabled Use of Public Library Website (장애인 이용자를 위한 공공도서관 웹사이트의 접근성 확장에 관한 연구)

  • Lee, Won-Kyung;Seo, Eun-Gyoung
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2012.08a
    • /
    • pp.33-36
    • /
    • 2012
  • 인터넷 발달로 인한 정보격차는 장애인들의 문화지체현상을 가속화 시키고 있다. 이에 웹사이트의 원스톱 서비스에 있어 경험에 기초한 디자인과 보편적 디자인을 기반으로 접근성을 확장해 나가야 할 것이다. 본 연구에서는 문헌을 통해 장애인을 위한 접근성 필수항목 7가지, 즉 콘텐츠구성, 키보드접근, 마우스접근, 이미지처리, 텍스트처리, 색, 코드를 선정하고 이를 근거로 장애인 자료실이 있는 공공도서관과 그렇지 못한 공공도서관, 해외 공공도서관의 웹사이트를 대상으로 평가하였다. 이를 토대로 접근성 확장을 위해 메인페이지 개선, 사용자 경험을 기초한 콘텐츠 구성, 콘텐츠의 접근성, 의미 있는 마크업, 이용자를 위한 맞춤형 콘텐츠, 제작 권장사항 등을 제안하였다. 앞으로 장애인을 포함한 모든 이용자를 위한 웹 접근성 지침은 경험적 데이터와 보편적 디자인에서 이루어져야 할 것이다.

  • PDF

A Study on automatic assignment of descriptors using machine learning (기계학습을 통한 디스크립터 자동부여에 관한 연구)

  • Kim, Pan-Jun
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.1 s.59
    • /
    • pp.279-299
    • /
    • 2006
  • This study utilizes various approaches of machine learning in the process of automatically assigning descriptors to journal articles. The effectiveness of feature selection and the size of training set were examined, after selecting core journals in the field of information science and organizing test collection from the articles of the past 11 years. Regarding feature selection, after reducing the feature set using $x^2$ statistics(CHI) and criteria that prefer high-frequency features(COS, GSS, JAC), the trained Support Vector Machines(SVM) performed the best. With respect to the size of the training set, it significantly influenced the performance of Support Vector Machines(SVM) and Voted Perceptron(VTP). However, it had little effect on Naive Bayes(NB).