• 제목/요약/키워드: Document searching

검색결과 170건 처리시간 0.031초

확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML 문서 순위화 기법 (A Ranking Technique of XML Documents using Path Similarity for Expanded Query Processing)

  • 김현주;박소미;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.113-120
    • /
    • 2010
  • 정보기술의 표준으로 사용되고 있는 XML환경에서 방대한 양의 데이터에 대한 사용자의 질의를 효율적이고 정확하게 처리하기 위한 연구가 이슈화되고, 특히 웹 환경에서의 XML문서들은 용어적, 구조적인 측면에서 다양한 형태로 존재하고 있다. 이러한 특성을 갖는 XML 문서들을 대상으로 사용자가 특정한 정보를 얻고자 한다면, 사용자의 질의가 가진 용어 및 구조적 특성과 정확히 일치하지 않는 문서의 정보에 대해서 추가적인 기법이 필요하다. 본 논문은 이와 같은 경우에도 동일한 용어 및 구조를 사용하던 환경에서와 마찬가지로 최상위 순위로 정보를 검색할 수 있는 기법을 제시한다. 또한 정확히 일치하지 않는 문서의 경우에 대해서도 사용자 질의 측과의 경로간 의미적 유사성을 측정하여 사용자 질의와 의미적으로 유사한 경로를 가진 순으로 문서들을 순위화하여 제공한다. 제안된 기법은 실험을 통하여 기존의 기법보다 세밀하고 정확한 검색 결과를 도출함을 보인다.

XSL-FO 문서를 PostScript Format으로 변환하기 위한 PostScript-Converter에 관한 연구 (A Study on PostScript-Converter for conversion XSL-FO into PostScript Format)

  • 유동석;김차종
    • 한국정보통신학회논문지
    • /
    • 제8권3호
    • /
    • pp.614-621
    • /
    • 2004
  • 현재의 전자문서처리 환경은 WYSIWYG 방식이다. 이를 위해 문서를 논리적인 구조와 물리적인 구조로 구조화하였고 이러한 구조를 마크업언어로 표현하고 있다. 특히 인터넷상의 전자문서 작성 및 교환을 위한 마크업언어로 XML이 발표되어 전자문서의 표현과 같은 전통적인 사용에서부터 검색을 위한 데이터베이스화에 이르기까지 전자문서의 활용 영역이 다양해지고 있다. 그러나 출력 품질면에서 워드프로세서나 전자출판에 의한 전자문서와 XML 문서의 출력 품질은 매우 큰 차이가 있다. 이는 비록 XML 문서가 스타일 정보를 포함하고 있긴 하지만 화면 출력과 인쇄 매체로의 출력 모두 고품질의 출력을 위한 적용이 부족했기 때문이다. 이러한 문제 해결을 위해 W3C에서는 고품질의 XML 출력 문서를 얻을 수 있도록 XSL-FO(XSL-Formatting Object)를 개발하였다. 한편 고품질의 전자출판물을 얻기 위해 폐이지 기술 언어(PDL)가 필요하고, 이의 업계표준인 Postscript가 이미 널리 사용되고 있다. 따라서 본 논문에서는 XML-FO를 PostScript에 적용함으로써 고품질의 XML 출력문서를 얻기 위한 변환기를 설계하였다.

빅데이터 검색 정확도에 미치는 다양한 측정 방법 기반 검색 기법의 효과 (Impact of Diverse Document-evaluation Measure-based Searching Methods in Big Data Search Accuracy)

  • 김지영;한다현;김종권
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.553-558
    • /
    • 2017
  • 빅데이터의 공급이 늘어남에 따라, 이로부터 유용한 정보를 추출해내기 위한 학계와 업계의 연구가 활발히 진행 되고 있다. 특히 분석한 정보의 특징과 함께, 정보 검색 시 검색자의 의도를 함께 반영하여 정보를 여과해 주는 것이 대부분의 연구의 최종 목표이다. 정확하게 분석된 자료는 기업이 제공하는 서비스에 대한 사용자의 충성도를 높여주고, 사용자 스스로 보다 효율적이고 효과적으로 정보를 이용할 수 있게 된다. 본 논문에서는 가장 높은 빈도로 사용되는 검색 분야인 기사를 검색하는 경우의 정확도를 높이기 위해, 관련 데이터를 TF-IDF, 결정 트리, 코사인 유사도, 단순 베이지안 분류기 등의 다양한 측도방법으로 평가해 보고, 이를 분석하였다. 또한, 분석 결과를 바탕으로 가장 적합한 측도 방법을 제안한다.

잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템 (Similar Patent Search Service System using Latent Dirichlet Allocation)

  • 임현근;김재윤;정회경
    • 한국정보통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1049-1054
    • /
    • 2018
  • 유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다. 그 동안 두 가지 방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 분석하는 방법이 다르기 때문에 동시 적용에는 알고리즘 상의 문제가 있었다. 이에 본 논문에서는 문서에서 함축된 키워드를 검출하고 잠재 의미 분석(LDA) 방식을 사용하여 사람이 개입하지 않고 문서를 효율적으로 자동분류하고 유사 특허를 검색할 수 있는 방법을 연구하였다.

U-learning 환경의 대용량 학습문서 판리를 위한 효율적인 점진적 문서 (An Effective Increment리 Content Clustering Method for the Large Documents in U-learning Environment)

  • 주길홍;최진탁
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.859-872
    • /
    • 2004
  • 컴퓨터와 통신 기술이 발전함에 따라 최근의 교육 환경은 학습자 스스로 학습 내용, 학습 시간 및 학습 순서를 선택하고 조직하는 유비쿼터스 학습 방향으로 나아가고 있다. 방대한 양의 학습정보들은 대부분 문서 형태로 관리되고 있기 때문에 문서 단위로 표현된 많은 정도들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서틀을 주제별로 통합하는 방법으로 대용량의 문서들을 자통으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 따라서 본 논문에서는 새로운 학습 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 학습 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고. 이미 생성된 클러스터들의 구조를 적응적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 글러스터링의 정확도극 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안한다.

  • PDF

연관규칙을 이용한 뉴스기사의 계층적 자동분류기법 (Hierarchical Automatic Classification of News Articles based on Association Rules)

  • 주길홍;신은영;이주일;이원석
    • 한국멀티미디어학회논문지
    • /
    • 제14권6호
    • /
    • pp.730-741
    • /
    • 2011
  • 인터넷과 컴퓨터 기술이 발전함에 따라 정보의 양이 폭발적으로 증가하였으며 사용자의 다양한 요구가 생겨나게 되었다. 이로 인해 대용량의 문서를 효과적으로 분류하기 위한 다양한 방법의 연구가 필요하게 되었다. 기존의 문서 범주화는 분서의 분류를 위해 연관된 문서의 키워드를 중심으로 하는 방법을 사용하였다. 그러나 본 논문에서는 연관규칙을 이용하여 범주 내의 문서들 간에 연관성 있는 키워드들의 집합을 추출하고 각 범주 별로 의미적으로 대표성을 가진 키워드들로 분류 규칙을 생성한다. 또한 효율적인 키워드 생성을 위한 데이터 전처리 방안을 제시하고, 새로운 문서 범주를 예측한다. 프로파일의 분류성능을 높이기 위한 분류함수를 설계하고 실험을 통하여 성능을 측정한다. 마지막으로 평면적인 범주 구조에서 확장하여 계층적인 분류체계 구조에서도 적용할 수 있는 자동분류 방안을 제시한다.

XML 기반 교수-학생 학습지도 시스템의 설계 및 구현 (Design and Implementation of Lesson Plan System for teacher-student based on XML)

  • 최문경;김행곤
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1055-1062
    • /
    • 2002
  • 현재 교육현장에서 사용되고 있는 학습지도안 문서는 교육 정보의 체계적인 제공이 미흡하고 교수 개인이 모든 교수 활동에 필요한 지도안을 작성하는데는 어려움이 있으므로 많은 추가적인 시간과 노력이 필요하다. 네트워크가 확산되어 사용되고 있는 현 시점에서는 웹을 기반으로 한 학습지도안 작성이 더욱 요구되어 진다. 따라서, 웹에서 표준화된 XML을 이용하여 문서의 생성과 검색, 그리고 재사용이 가능하도록 제공함으로써, 교수자의 다양한 요구사항을 융통성 있게 수용할 수 있다. 본 논문에서는 학습지도안을 분석하여 공통 DTD(Document Type Definition)를 생성하고 공통 DTD를 통해 표준화된 XML(eXtensible markup Language) 문서를 제공한다. 시스템에서는 학습지도안을 쉽게 작성할 수 있는 에디터를 제공하고. 이미 작성된 학습지도안의 재사용성을 높이기 위해 검색 기능을 제공하고 있다. 검색으로는 구조기반, 패싯, 키워드 검색 방법을 제시하고 있으며, 작성된 학습지도안은 데이타베이스와 연동되어 구현되어진다. 따라서, XML을 이용하여 학습지도안을 작성함으로써 웹 상에서의 정보를 공유할 수 있고, 웹에서 학습지도안을 바로 작성함으로써 시간과 비용이 절약될 수 있으며. 또한 보다 향상된 학습 환경을 제공할 수 있다

스타일 기반 키워드 추출 및 키워드 마이닝 프로파일 기반 웹 검색 방법 (An Efficient Web Search Method Based on a Style-based Keyword Extraction and a Keyword Mining Profile)

  • 주길홍;이준휘;이원석
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1049-1062
    • /
    • 2004
  • World Wide Web의 대중화로 인해 전자 정보량이 급속하게 증가하였고, 이러한 많은 양의 다양한 정보에 대한 효율적인 검색 시스템의 필요성이 증대되었다. 정확한 검색 결과를 제공하기 위해 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 웹 검색 방법에 있어서 목표 검색어만을 가지고 검색을 수행하는 기존 검색 방법과 달리 검색어가 나타나는 문맥 정보를 추가하여 검색하는 방법을 제안하고 구현하였다. 또한 본 논문에서는 제안된 새로운 키워드 추출 방법으로 추출된 키워드를 기반으로 키워드 마이닝 프로파일에 기반한 웹 검색 시스템을 제안하고 구현하였다. 이는 원하는 정보를 대표하는 목표 검색어만 가지고 검색을 수행하는 기존의 검색방법과 달리 검색어가 포함된 문맥정보를 추가하여 검색하기 때문에 기존의 검색방법보다 정확하고 효율적인 정보를 제공한다. 특정 도메인으로부터 순위가 매겨진 도메인 키워드 리스트를 작성하여 이를 기준으로 기존의 출현빈도기반의 차이를 실험을 통하여 보였으며, 예제 기반 질의를 바탕으로 키워드 마이닝 프로파일을 만들어 검색을 수행하는 검색 방법으로 이의 효용성을 실험을 통해 검증하였다.

PDFindexer: Distributed PDF Indexing system using MapReduce

  • Murtazaev, JAziz;Kihm, Jang-Su;Oh, Sangyoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제4권1호
    • /
    • pp.13-17
    • /
    • 2012
  • Indexing allows converting raw document collection into easily searchable representation. Web searching by Google or Yahoo provides subsecond response time which is made possible by efficient indexing of web-pages over the entire Web. Indexing process gets challenging when the scale gets bigger. Parallel techniques, such as MapReduce framework can assist in efficient large-scale indexing process. In this paper we propose PDFindexer, system for indexing scientific papers in PDF using MapReduce programming model. Unlike Web search engines, our target domain is scientific papers, which has pre-defined structure, such as title, abstract, sections, references. Our proposed system enables parsing scientific papers in PDF recreating their structure and performing efficient distributed indexing with MapReduce framework in a cluster of nodes. We provide the overview of the system, their components and interactions among them. We discuss some issues related with the design of the system and usage of MapReduce in parsing and indexing of large document collection.

사용자 중심의 블로그 정보 검색 기법 (User-Centered Information Retrieving Method in Blogs)

  • 김승종
    • 한국산학기술학회논문지
    • /
    • 제11권9호
    • /
    • pp.3458-3464
    • /
    • 2010
  • 최근 빠른 주기로 많은 양의 새로운 정보가 생성되기 때문에, 사용자 중심의 정보 검색을 위해 RSS라는 신디케이션 기술이 제공되고 있다. RSS는 새롭게 갱신된 콘텐츠를 자동으로 전달받을 수 있어 신규 정보를 찾기 위해 사이트에 지속적으로 접근하지 않아도 된다. 본 논문에서는 블로그 정보 검색을 위해 RSS 문서의 주소를 수집하는 수집기와 사용자 질의에 따른 RSS 문서의 순위결정 방법을 제안한다. 제안하는 정보 검색 기법을 이용하면 사용자가 RSS 문서를 효과적으로 검색할 수 있다.