• Title/Summary/Keyword: Text Retrieval

Search Result 342, Processing Time 0.029 seconds

Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique (정보검색 기술을 이용한 비교사 학습 기반 문서 분류 시스템 개발)

  • Noh, Dae-Wook;Lee, Soo-Yong;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.98-106
    • /
    • 2006
  • 문서분류기의 개발에 있어 교사학습기법을 이용할 경우 많은 양의 사람에 의한 범주 부착 말뭉치가 필요하다. 그러나 이의 구축은 많은 시간과 노력을 필요로 한다. 최근 이러한 범주 부착 말뭉치 대신 원시말뭉치와 범주마다 약간의 씨앗 정보를 이용하여 학습을 수행하여 문서분류기를 개발하는 방법론이 제시되었다. 본 논문에서는 이 방법론 하에서 다른 연구에서의 결과보다 좋은 성능을 나타내는 비교사 학습 기법을 소개한다. 본 논문에서 제시하는 기법의 특징은 씨앗 단어에서 출발하여 평균상호정보를 이용하여 다른 대표단어 및 그들의 가중치를 학습한 다음, 정보검색에서 많이 사용하는 기술을 이용하여 그 가중치를 갱신하는 것이다. 그리고 이 과정을 반복 수행하여 최종적으로 높은 성능의 시스템을 개발할 수 있음을 제시하였다.

  • PDF

Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing (음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기)

  • Jeon, Nam-Youl;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

Image Retrieval System Using Image Attributes and Links (이미지의 속성 및 랭크 정보를 이용한 이미지 검색 시스템)

  • Han, Gi-Deok;Jung, Sung-Won;Yun, Keun-Soo;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.333-336
    • /
    • 2003
  • 컴퓨터와 네트워크의 처리속도 증가와, 인터넷의 발달로 인하여 이미지, 사운드, 동영상 등 각종 멀티미디어 정보가 인터넷상에 다수 등록되고 있으며, 이에 대한 검색 요구도 증가하고 있다. 그에 따라 다양한 멀티미디어 정보 검색을 위한 방법이 연구되고 있지만, 그에 대하 활용도는 미미하며, 데이터 베이스에 등록된 단순 멀티미디어 정보 검색에 머물고 있는 실정이다. 이에 본 연구는 인터넷상의 멀티미디어 정보 중 이미지 정보를 능동적으로 수집, 정보를 추출하여 검색에 이용한다 이를 위하여, 이미지에 대한 text 정보와 이미지의 속성 및 Link 정보를 이용, 의미 있는 이미지와 의미 없는 이미지를 분류하여 검색의 효율을 높이고, 속성 및 Link 정보를 가중치로 사용함으로써 검색 시 이미지의 중요도를 평가할 수 있도록 한다.

  • PDF

A Study on Access Control of the Multimedia Text Data Retrieval (멀티미디어 텍스트 데이터 검색을 위한 접근기법 연구)

  • Yang, Chang-Ho;Jung, Yoon-Ki;Lee, Bae-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.95-98
    • /
    • 2003
  • 컴퓨터와 통신의 급속한 발전으로 인하여 하루에도 수십 기가바이트의 정보가 매일매일 업데이트 되고 있다. 하지만 이러한 유용한 정보의 증가에도 불구하고 우리가 사용의 어려움과 검색시간이 길어진다면 엄청난 정보의 낭비를 초래할 것이다. 멀티미디어 정보에 대한 접근을 데이터의 특성상 매우 신속해야 하므로 검색시간 또한 최소화되어야 한다. 하지만 대용량의 멀티미디어 데이터베이스에서 데이터 접근은 막대한 시간을 낭비할 소지가 다분하다. 멀티미디어 데이터 접근은 데이터베이스를 구성하는 여러 미디어에 대해 생성되는 메타데이터에 기본을 둔다. 또한 사용되는 인덱스 구조는 미디어, 메타데이터, 질의 형식에 기반을 두고 생성된다. 즉 인덱싱의 기법에 따라 탁월한 검색성능의 향상을 보일 수 있다. 본 논문에서는 멀티미디어 데이터 중 텍스트 데이터 접근에 이용 가능한 여러 가지 인덱싱 기법들을 살펴보고 그에 따른 적용방법들을 제안한다.

  • PDF

Query Expansion Using Thesaurus for Korean to Chinese Cross- Language Text Retrieval (한.중 교차언어 검색에서 시소러스를 이용한 질의 확장)

  • Jin, Feng;Kang, In-Su;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.538-540
    • /
    • 2003
  • 본 논문은 한.중 교차언어 검색을 위한 효과적인 질의 확장에 대해 기술하고 있다. 한.중 교차언어 검색은 한국어 질의로 중국어 문서를 검색하는 것이고 본 논문에서는 대역어 사전을 이용하여 한국어 질의를 중국어 질의로 변환하는 방식을 사용한다. 질의 확장을 위한 방법으로 중국어 시소러스인“동의사사림”을 사용하였다. 그리고 동의어들과 주변 단어간의 상호 정보를 비교함으로서 재현률과 정확률을 높였다. 실험을 통하여 검증한 결과 사전만 사용하여 변환하는 방법에 비하여 검색 성능이 향상되었다.

  • PDF

Implementation and Performance Analysis of Group Communication using the CORBA & JAVA (CORBA와 JAVA를 이용한 그룹통신 구현 및 성능 분석)

  • Choe, Man-Eok;Gu, Yong-Wan
    • The KIPS Transactions:PartA
    • /
    • v.8A no.4
    • /
    • pp.461-468
    • /
    • 2001
  • Large-scale distributed applications based on Internet and client/server applications have to deal with series of problems such as load balancing, unpredictable communication delays, partial errors, and networking failures. Therefore, sophisticated applications such as teleconferencing, video-on-demand, and concurrent software engineering require an abstracted communication. In this paper, we present our design, implementation and performance analysis of group communication using the CORBA ORB, JAVA RMI, Socket based on distributed computing. We anticipate our study may apply to the various field of applications such as fault-tolerant client/server system, groupware, scalable text retrieval system, and financial information systems.

  • PDF

Paging Mechanism for Efficient XML Document Updates and Retrieval (효율적 XML 문서 변경 및 검색을 위한 페이징 기법)

  • 연제원;이강찬;이규철;나중철;이미영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.99-101
    • /
    • 1999
  • 최근 들어 XML에 대한 연구가 늘어나면서, XML(eXtensible Markup Language)문서에 대한 저장/검색에 대한 다양한 방법들이 제시되고 있다. 특히 XML 문서의 구조적인 특성을 살리면서 문서의 저장 및 변경을 원활하게 지원할 수 있는 방안에 대한 요구가 늘고 있다. 기존의 저장관리 시스템을 위한 저장 모델로는 크게, XML 문서의 빠른 검색을 지원할 수 있는 가상분할모델(Virtual Fragmentation Model)과 문서에 대한 변경을 빠르게 지원해 줄 수 있는 분할모델(Decomposition Model)로 나누어 볼 수 있는데, 본 연구에서는 이 두가지 모델의 장점을 취합하여 문서의 검색 속도는 가상분할모델정도로, 문서의 변경속도는 분할모델정도로 빠르게 지원해 줄 수 있는 페이징(Paging)기법에 대해 설계하였다. 본 페이징 기법은 XML문서뿐만 아니라, HTML(HiperText Markup Language) 문서의 저장관리 시스템에서도 똑같이 적용될 수 있다. 본 연구의 후반부에서는 페이징 기법과 다른 기법에 대한 비교를 통하여 페이징 기법의 성능을 분석하였다.

  • PDF

Storing Digital Information in Long-Read DNA

  • Ahn, TaeJin;Ban, Hamin;Park, Hyunsoo
    • Genomics & Informatics
    • /
    • v.16 no.4
    • /
    • pp.30.1-30.6
    • /
    • 2018
  • There is urgent need for effective and cost-efficient data storage, as the worldwide requirement for data storage is rapidly growing. DNA has introduced a new tool for storing digital information. Recent studies have successfully stored digital information, such as text and gif animation. Previous studies tackled technical hurdles due to errors from DNA synthesis and sequencing. Studies also have focused on a strategy that makes use of 100-150-bp read sizes in both synthesis and sequencing. In this paper, we a suggest novel data encoding/decoding scheme that makes use of long-read DNA (~1,000 bp). This enables accurate recovery of stored digital information with a smaller number of reads than the previous approach. Also, this approach reduces sequencing time.

A Study on the Performance Analysis of Entity Name Recognition Techniques Using Korean Patent Literature

  • Gim, Jangwon
    • Journal of Advanced Information Technology and Convergence
    • /
    • v.10 no.2
    • /
    • pp.139-151
    • /
    • 2020
  • Entity name recognition is a part of information extraction that extracts entity names from documents and classifies the types of extracted entity names. Entity name recognition technologies are widely used in natural language processing, such as information retrieval, machine translation, and query response systems. Various deep learning-based models exist to improve entity name recognition performance, but studies that compared and analyzed these models on Korean data are insufficient. In this paper, we compare and analyze the performance of CRF, LSTM-CRF, BiLSTM-CRF, and BERT, which are actively used to identify entity names using Korean data. Also, we compare and evaluate whether embedding models, which are variously used in recent natural language processing tasks, can affect the entity name recognition model's performance improvement. As a result of experiments on patent data and Korean corpus, it was confirmed that the BiLSTM-CRF using FastText method showed the highest performance.

A Study on the Indexing System Using a Controlled Vocabulary and Natural Language in the Secondary Legal Information Full-Text Databases : an Evaluation and Comparison of Retrieval Effectiveness (2차 법률정보 전문데이터베이스에 있어서 통제어 색인시스템과 자연어 색인시스템의 검색효율 평가에 관한 연구)

  • Roh Jeong-Ran
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.32 no.4
    • /
    • pp.69-86
    • /
    • 1998
  • The purpose of velop the indexing algorithm of secondary legal information by the study of characteristics of legal information, to compare the indexing system using controlled vocabulary to the indexing system using natural language in the secondary legal information full-text databases, and to prove propriety and superiority of the indexing system using controlled vocabulary. The results are as follows; 1)The indexing system using controlled vocabulary in the secondary legal information full-text databases has more effectiveness than the indexing system using natural language, in the recall rate, the precision rate, the distribution of propriety, and the faculty of searching for the unique proper-records which the indexing system using natural language fans to find 2)The indexing system which adds more words to the controlled vocabulary in the secondary legal information full-text databases does not better effectiveness in the retail rate, the precision rate, comparing to the indexing system using controlled vocabulary. 3)The indexing system using word-added controlled vocabulary with an extra weight in the secondary legal information full-text databases does not better effectiveness in the recall rate, the precision rate, comparing to the indexing system using word-added controlled vocabulary without an extra weight. This study indicates that it is necessary to have characteristic information the information experts recognize - that is to say, experimental and inherent knowledge only human being can have built-in into the system rather than to approach the information system by the linguistic, statistic or structuralistic way, and it can be more essential and intelligent information system.

  • PDF