• Title/Summary/Keyword: 한글 검색

Search Result 504, Processing Time 0.02 seconds

Internet Search Engine: Technological Mode that Draws User's Attention to Make Its Expertise Reinforce (인터넷 검색엔진: 사용자의 관심을 흡수하여 전문성을 강화하는 기술)

  • Kim, Ji Yeon
    • Journal of Science and Technology Studies
    • /
    • v.13 no.1
    • /
    • pp.181-216
    • /
    • 2013
  • This paper tries to analyze technologies of search engine generally, and reveal the additional modes of Korean search engine at the same time. Recently it said that search engine becomes a self-moving and is getting more strong power than the former one existed. There are many difference interpretative views from technological determination to instrumentalism surrounding this system. Search engine invents the technological mode that draws user's attention to make its own expertise reinforce. It is stemmed from the rationality of its own. Especially Korean search engine exposed unique mutation as self-proliferation of it during past a decade, as for example "related keyword" or "real-time popular keyword" service. Its automatic decision aroused democracy matter, now it is not only web guide. How we do make it to serve in democracy, accepting the independent expertise of it simultaneously? We might find new prospect when focusing on interactional modality between engine and human actor, instead counting both as a separate one.

  • PDF

The State of the Art in Internet Information Retrieval System (한글 인터넷 정보검색 시스템의 기술방향)

  • Lee, Soo-Hyun;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.59-62
    • /
    • 1996
  • 빠르고 다양하게 늘어나는 정보 더미 속에서 사용자가 원하는 정보를 쉽고 정확하게 찾아주는 방법이 바로 정보 검색이다. 최근에는 인터넷을 이용하여 세계 각처에 흩어져 있는 데이터를 찾거나 웹 홈 폐이지를 찾아 주는 인터넷 정보 검색 프로그램들이 각광을 받고 있다. 본 논문에서는 현재 국내외에서 상용되고 있는 인터넷 정보검색 시스템의 검색 방법에 따른 특성을 살펴보고 국내에서 개발된 한국어 정보검색 시스템과 외국에서 개발된 정보검색 시스템과의 기능을 비교함으로써, 한국어 정보검색 시스템의 처리 항목을 제시한다.

  • PDF

Support on Ideograph Characters Search of Unicode Based Information System (정보 시스템의 유니코드 기반 한자 검색 지원)

  • Yoon, So-Young
    • Journal of the Korean Society for information Management
    • /
    • v.24 no.4
    • /
    • pp.375-391
    • /
    • 2007
  • Unicode Han ideograph character set differed from the our principle of the phonetic value ordering in that it followed the principle of KangXi radical-stroke ordering of the characters. Therefore, information system should support ideograph search on precise analysis of materials which consist of korean character (hangul) and ideograph character (hanja). History Information system has been maintaining Hanja(Chinese Character) to Hangul Dictionary, Terminology Dictionary for composition, borrowing, non-ideographic principles, Variant Forms Dictionary, and Recently discovered Chinese Characters List.

Analysis and Localization of freeWAIS-sf (FreeWAIS-sf의 분석 및 한글화)

  • O, Jeong-Seok;Kim, Ji-Seung;Lee, Jun-Ho;Lee, Sang-Ho
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.5 no.5
    • /
    • pp.611-618
    • /
    • 1999
  • An efficient and effective access to needed information becomes an important factor in the modern information society. Many people have developed information retrieval (IR) systems that retrieve needed information from a large amount of data at a given time. However, most freely available IR systems have been developed for English text rather than for Korean text. In this research, we have analyzed the IR system freeWAIS-sf, and localized it with the Korean morphological analyzer, namely HAM. The localized freeWAIS-sf can handle both English text and Korean text simultaneously. We have also modified the weighting scheme of freeWAIS-sf. The experimental result shows that the modified weighting scheme outperforms the original one in terms of retrieval effectiveness.

Keyword Spotting on Hangul Document Images Using Character Feature Models (문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색)

  • Park, Sang-Cheol;Kim, Soo-Hyung;Choi, Deok-Jai
    • The KIPS Transactions:PartB
    • /
    • v.12B no.5 s.101
    • /
    • pp.521-526
    • /
    • 2005
  • In this Paper, we propose a keyword spotting system as an alternative to searching system for poor quality Korean document images and compare the Proposed system with an OCR-based document retrieval system. The system is composed of character segmentation, feature extraction for the query keyword, and word-to-word matching. In the character segmentation step, we propose an effective method to remove the connectivity between adjacent characters and a character segmentation method by making the variance of character widths minimum. In the query creation step, feature vector for the query is constructed by a combination of a character model by typeface. In the matching step, word-to-word matching is applied base on a character-to-character matching. We demonstrated that the proposed keyword spotting system is more efficient than the OCR-based one to search a keyword on the Korean document images, especially when the quality of documents is quite poor and point size is small.

코퍼스를 이용한 정보검색용 전자사전구축에 관한 연구

  • Nam, Yeong-Jun
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.430-440
    • /
    • 1996
  • 지능형 정보검색시스템이 효율적으로 운용되기 위해서는 여러개의 서브시스템이 필요하다. 특히, 시소러스와 색인 및 검색시스템용 전자사전은 중요한 지식베이스이다. 본 연구에서는 한글전자사전의 개발에 필요한 이론과 구축기술에 대해 조사하였다. 그 내용은 1)전자사전의 의미, 2)전자사전의 형태, 3) 전자사전개발을 위한 코퍼스 구축기술 및 방법이라는 이론적인 부분과 실제 과기원코퍼스2를 이용한 균형코퍼스를 설계하였다. 한편, 균형코퍼스를 이용한 기본적인 명사사전과 공기사전, 전문용어사전구축방법도 제시하였다.

  • PDF

A Hangul Document Image Retrieval System Using Rank-based Recognition (웨이브렛 특징과 순위 기반 인식을 이용한 한글 문서 영상 검색 시스템)

  • Lee Duk-Ryong;Kim Woo-Youn;Oh Il-Seok
    • The Journal of the Korea Contents Association
    • /
    • v.5 no.2
    • /
    • pp.229-242
    • /
    • 2005
  • We constructed a full-text retrieval system for the scanned Hangul document images. The system consists of three parts; preprocessing, recognition, and retrieval components. The retrieval algorithm uses recognition results up to k-ranks. The algorithm is not only insensitive to the recognition errors, but also has the advantage of user-controllable recall and precision. For the objective performance evaluation, we used the scanned images of the Journal of Korea Information Science Society provided by KISTI. The system was shown to be practical through theevaluationofrecognitionandretrievalrates.

  • PDF

Korean Approximate String Searching System by Hierarchical Metric Space Structure (계층적 메트릭 공간(metric space) 구조의 한글 근사 단어 검색 시스템)

  • Yoon, Taijin;Cho, Hwan-Gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.397-400
    • /
    • 2010
  • 우리는 지난 연구에서 변형 비속어 필터링 시스템을 위하여 근사 문자열 검색 시스템을 적용하여 서열 정렬 횟수를 비약적으로 줄일 수 있었다. 다차원 데이터 구조를 이용한 한글 근사 검색 시스템은 기준축인 Base-Pivot의 숫자에 따라 검색 결과의 정확도를 높일 수 있으나 BP이 증가한 만큼 질의 단어의 좌표를 계산하기 위한 시간이 오래 걸린다. 소규모 데이터 검색에는 문제가 되지 않으나 60,000단어 이상의 데이터가 수록되는 국어사전과 같은 대규모 데이터를 검색하게 될 경우 요구되는 BP의 숫자도 증가하여 많은 연산시간을 필요로 한다. 본 논문에서는 기존의 근사 단어 검색 시스템을 계층구조화 하여 요구되는 BP 숫자를 감소 시켜 성능을 향상 시키는 방법을 제안하고자 한다. 그리고 실험을 통하여 본 아이디어의 실효성을 증명하였다. 본 아이디어는 기존의 6000개의 비속어에 대하여 약 20%정도의 성능향상을 보였다.

Developing the KRIST Test Collection for Researches in Information Retrieval (정보 검색 연구를 위한 KRIST 테스트 컬렉션의 개발)

  • 이준호
    • Journal of the Korean Society for information Management
    • /
    • v.12 no.2
    • /
    • pp.225-232
    • /
    • 1995
  • It has been known that test collections play an important role for researches in information retrieval. A variety of test collections have been created in foreign countries, and have been heavily used by researchers. Although research interests in Hangul information retrieval have been rapidly grown up in Korea these days, lack of Hangul test collec tions makes it difficult to develop retrieval techniques for Hangul texts. This study describes the development of the KRIST test collection. The KRIST test collection consists of 13.515 bibliographic records. 30 queries and a list of relevant documents to the queries.

  • PDF

The evaluation of statistic processing on korean compound nouns (복합명사의 통계적 처리에 대한 평가)

  • Nam, Se-Jin;Lee, Ji-Yun;Shin, Dong-Wook;Chae, Mi-Ok
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.36-41
    • /
    • 1996
  • 한글을 대상으로 하는 검색 시스템의 강우 문서의 대부분을 차지하는 복합명사는 원칙적으로 단어와 단어 사이를 띄어 써야 하지만 붙여쓰기 또한 허용하므로 정보 검색 시스템에서는 이를 고려하여야 한다. 본 논문에서는 MIDAS/IR 정보검색 시스템에서 통계적인 정보를 이용하여 복합명사를 처리하는 방법을 구현하고 이를 실험을 통하여 평가하고자 한다. MIDAS/IR은 크게 복합명사의 통계적인 정보를 이용하는 색인 부분과 확장 불리한 모델 및 벡터 공간 모델을 제공하는 검색 부분으로 이루어져 있다. 색인기에서는 복합명사를 처리할 뿐 아니라 고유명사와 같이 사전에 등록되지 않은 명사를 처리하는 작업을 하게 되며 검색 부분은 클래스 라이브러리로 구현되어 있어 임의의 검색 모델도 쉽게 추가 될 수 있도록 설계하였다. 본 연구에서는 KTSET을 이용하여 불리한 모델 및 벡타 공간 모델에서의 성능을 실험을 통하여 평가하였으며, n-그램을 사용한 시스템과 비교 분석하였다.

  • PDF