• 제목/요약/키워드: Text Retrieval

검색결과 342건 처리시간 0.022초

텍스트분할에 의한 색인방법 연구 (A Study on Indexing Method using Text Partition)

  • 강무영;이상구
    • 정보관리학회지
    • /
    • 제16권4호
    • /
    • pp.75-94
    • /
    • 1999
  • 색인은 데이터베이스에 저장된 문서를 효과적으로 검색하기 위한 정보검색시스템의 필수 기능이다. 컴퓨터의 발달로 전자정보가 점점 많아짐에 따라 데이터베이스에 저장해야할 문서가 대량화되고 있고, 이러한 대용량 문서를 색인하기 위해서는 많은 시스템 자원과 처리 시간을 필요로 한다. 따라서 본 논문에서는 대용량 문서를 적은 자원으로 짧은 시간에 색인할 수 있는 개선된 텍스트분할에 의한 색인기법을 제안한다. 제안한 색인기법은 실제 검색시스템에 적용하고, 실험을 통해 우수성을 증명한다.

  • PDF

표절 원본 문서 추출 및 표절 위치 탐색 기법 (Plagiarism Detected Source Retrieval and Text Alignment)

  • 이현영;전승철;강유진;김승환;이아르미;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.187-192
    • /
    • 2014
  • 인터넷과 스마트기기 발전으로 정보에 대한 접근이 쉬워짐에 따라 다른 문서에 대한 표절 행위가 쉽게 이루어지고 있습니다. 그리고 표절 검사를 수행하는데 시간적, 인적, 공간적 낭비가 이루어진다. 이러한 낭비와 표절에 대한 경각심을 일으키고자 본 논문에서는 표절 검사 속도 향상을 위한 표절 원본 문서 추출(source retrieval)과 추출된 문서의 단어를 이용하는 표절 위치 탐색(text alignment)기법을 이용하여 표절구간을 찾는 방법을 제안한다. 본 논문의 표절 원본 문서 추출 및 표절 위치 탐색 기법을 활용하면 표절 검사의 시간과 정확도가 향상될 것으로 기대한다.

  • PDF

교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환 (Korean-to-English Query Translation based on Multilingual Ontology in Cross-Language Text Retrieval)

  • 천정훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.43-49
    • /
    • 1999
  • 본 논문에서는 교차언어 문서검색(CLTR: Cross-Language Text Retrieval)에서의 한-영 질의어 변환을 다룬다. 질의어 변환시 영어 대역어 획득과정에서는 다음 두 가지를 고려한다. 첫째, 한국어 질의어를 구성하는 단어가 한가지 개념을 기호화하지만 이에 대응되는 영어 대역어들이 하나 이상인 경우이다. 둘째, 질의어 구성 단어가 둘 이상의 개념들을 기호화하는 다의성을 지닌 경우이다. 전자의 경우는 영어 대역어들이 모두 동일한 개념, 또는 유사한 개념을 나타내므로 그대로 검색에 이용한다 해도 검색 성능을 크게 좌우하지 않지만, 후자의 경우는 모든 개념을 다 검색에 이용하게 되면 정확률(precision)이 크게 떨어지게 된다. 이에 본 연구에서는 개념 선택단계와 선택된 개념의 영어 대역어들에 가중치를 주는 가중치 부가단계로 나누어 질의어 변환을 수행한다. 본 논문의 질의어 변환에서 영어 대역어는 대역사전 대신 다국어 온톨로지인 KAIST 분류어휘표와 한영 음차복원 모듈을 통해 얻어진다.

  • PDF

Classifying Biomedical Literature Providing Protein Function Evidence

  • Lim, Joon-Ho;Lee, Kyu-Chul
    • ETRI Journal
    • /
    • 제37권4호
    • /
    • pp.813-823
    • /
    • 2015
  • Because protein is a primary element responsible for biological or biochemical roles in living bodies, protein function is the core and basis information for biomedical studies. However, recent advances in bio technologies have created an explosive increase in the amount of published literature; therefore, biomedical researchers have a hard time finding needed protein function information. In this paper, a classification system for biomedical literature providing protein function evidence is proposed. Note that, despite our best efforts, we have been unable to find previous studies on the proposed issue. To classify papers based on protein function evidence, we should consider whether the main claim of a paper is to assert a protein function. We, therefore, propose two novel features - protein and assertion. Our experimental results show a classification performance with 71.89% precision, 90.0% recall, and a 79.94% F-measure. In addition, to verify the usefulness of the proposed classification system, two case study applications are investigated - information retrieval for protein function and automatic summarization for protein function text. It is shown that the proposed classification system can be successfully applied to these applications.

Text Embedded JPEG을 이용한 Image Retrieval System의 설계 및 구현 (Design and Implementation of Image Retrieval System using Text Embedded JPEG)

  • 천시영;곽미라;조동섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.99-102
    • /
    • 2003
  • 본 논문에서는 JPEG 이미지파일을 효율적으로 검색하기 위해서 확장된 JPEG파일의 포맷을 제안하고자 한다. 확장된 JPEG 파일의 포맷 안에는 JPEG 파일을 검색할 때에 사용될 키워드에 대한 설명, 이미지가 만들어진 날짜, 만든 이, 해상도와 같은 이미지에 대한 정보가 들어가게 된다. 이렇게 확장된 포맷을 어떻게 검색에 이용하는지 보이기 위해서 검색 어플리케이션을 설계하였다. 이 어플리케이션은 사용자가 검색 시에 찾고자 하는 이미지의 정보 값들을 지정해 줌으로써 자시의 의도에 적합한 이미지를 보다 정확하게 찾을 수 있게 된다. 피리고 이렇게 찾아진 이미지들은 여러 이미지 정보값들에 따라 다양한 방식으로 정렬되어 보여 지도록 하였다. 또한 이렇게 확장된 JPEG 파일포맷에 사용자가 접근하여 정보를 변경하거나 추가할 수 있는 인터페이스도 제공하도록 하였다.

  • PDF

A Study on the DB-IR Integration: Per-Document Basis Online Index Maintenance

  • Jin, Du-Seok;Jung, Hoe-Kyung
    • Journal of information and communication convergence engineering
    • /
    • 제7권3호
    • /
    • pp.275-280
    • /
    • 2009
  • While database(DB) and information retrieval(IR) have been developed independently, there have been emerging requirements that both data management and efficient text retrieval should be supported simultaneously in an information system such as health care, customer support, XML data management, and digital libraries. The great divide between DB and IR has caused different manners in index maintenance for newly arriving documents. While DB has extended its SQL layer to cope with text fields due to lack of intact mechanism to build IR-like index, IR usually treats a block of new documents as a logical unit of index maintenance since it has no concept of integrity constraint. However, In the DB-IR integrations, a transaction on adding or updating a document should include maintenance of the posting lists accompanied by the document. Although DB-IR integration has been budded in the research filed, the issue will remain difficult and rewarding areas for a while. One of the primary reasons is lack of efficient online transactional index maintenance. In this paper, performance of a few strategies for per-document basis transactional index maintenance - direct index update, pulsing auxiliary index and posting segmentation index - will be evaluated. The result shows that the pulsing auxiliary strategy and posting segmentation indexing scheme, can be a challenging candidates for text field indexing in DB-IR integration.

이미지데이터 활용을 위한 문서인식시스템 연구 및 개발 (Research and Development of Document Recognition System for Utilizing Image Data)

  • 곽희규
    • 정보처리학회논문지B
    • /
    • 제17B권2호
    • /
    • pp.125-138
    • /
    • 2010
  • 본 연구는 공공기관이 소장한 이미지데이터의 검색 및 열람 등의 활용성을 높이기 위한 전문검색서비스 구현 시 필수적인 문서인식시스템의 고도화를 목표로 한다. 주요한 연구방향은 공공기관이 소장하고 있는 데이터를 사전에 분석하여 문서이미지 전처리 및 문서구조분석 기술을 개발하고, 문서인식 과정에서 활용하기 위한 이미지내용DB, 문자모델DB, 용어DB로 구성되는 특화된 지식베이스를 구축하는 것이다. 또한, 지식베이스 관리도구를 개발하여 향후 다양한 형태의 문서이미지로의 확장을 가능하게 한다. 최근 본 연구는 국가기록원에서 소장하고 있는 이미지데이터에 적합한 문서구조분석 라이브러리와 특화된 지식베이스를 결합한 문서인식 프로토타입 시스템 개발을 완료했다. 향후 본 연구의 결과는 방대한 소장자료의 검색 및 활용을 극대화할 전문검색시스템 연계를 위한 성능평가 및 테스트베드 구축에 활용될 것이다.

정보검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발 (Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique)

  • 노대욱;이수용;나동열
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.160-168
    • /
    • 2007
  • 문서분류기의 개발에 있어 지도학습기법을 이용할 경우 많은 양의 사람에 의한 범주 부착 말뭉치가 필요하다. 그러나 이의 구축은 많은 시간과 노력을 필요로 한다. 최근 이러한 범주 부착 말뭉치 대신 원시말뭉치와 범주마다 약간의 씨앗 정보를 이용하여 학습을 수행하여 문서분류기를 개발하는 방법론이 제시되었다. 본 논문에서는 이 방법론 하에서 다른 연구에서의 결과보다 좋은 성능을 나타내는 비지도 학습 기법을 소개한다. 본 논문에서 제시하는 기법의 특징은 씨앗 단어에서 출발하여 평균상호정보를 이용하여 다른 대표단어 및 그들의 가중치를 학습한 다음, 정보검색에서 많이 사용하는 기술을 이용하여 그 가중치를 갱신하는 것이다. 그리고 이 과정을 반복 수행하여 최종적으로 높은 성능의 시스템을 개발 할 수 있음을 제시하였다.

신뢰성 있는 웹 전문지식 검색을 위한 하이브리드 랭크 매트릭스 제안 (A Proposal on Hybrid-Rank Metrics for Retrieval of Reliable Expert Knowledge in Web)

  • 이은정;이민주;이승희;박영호;김목련;안후영
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권4호
    • /
    • pp.625-633
    • /
    • 2008
  • 최근 사용자들의 참여, 개방, 공유가 주요 이슈로 떠오르면서 전문적이고 정확한 정보를 웹에서 찾고자하는 사용자의 요구가 증가하고 있다. 그러나 정보의 범람으로 사용자가 원하는 정보를 정확하게 검색하기 어려우며, 원하는 정보를 검색해도 그 정보에 대한 신뢰성을 판단하기가 어렵다. 따라서 본 논문에서는 신뢰성이 결여되기 쉬운 특정 정보에 대한 신뢰성과 검색의 효율성을 높이기 위해 새로운 랭크 매트릭스를 제안한다. 그리고 제안한 새로운 랭크 매트릭스를 적용한 민간의학 정보 웹 사이트를 구현한다. 제안하는 매트릭스를 사용자 레벨에 기반 하여, 레벨에 따른 평가 가중치를 차등화하여 글의 점수를 부여하는 방법이다. 이러한 방법은 참여자의 심리적 요소를 반영하여 글의 신뢰도를 높이는 방법으로 신뢰성이 결여되기 쉬운 정보의 신뢰도를 높일 수 있는 방안으로 사용될 수 있다.

  • PDF