• 제목/요약/키워드: Document Search

검색결과 384건 처리시간 0.027초

사용자 정보와 자동 문서 분류를 이용한 웹 에이전트의 설계 (Design of Web Agent Using User Profile and Automatic Document Categorization)

  • 이승원;권영훈;류제;한광록
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.407-410
    • /
    • 1999
  • WWW is an important method for retrieving or providing informations. Not only the amount of information but also it is widely located on the web, it is difficult for users to get or search information. Furthermore, to use search engine is also inconvenient, because it just uses a keyword without concerning a user's interest. At this point, we propose a design of web agent that uses the automatic document categorization system and user's profile concerning with a user's interest, so the agent can actively provide a information.

  • PDF

웹 번역문서 판별과 병렬 말뭉치 구축 (Judging Translated Web Document & Constructing Bilingual Corpus)

  • Jee-hyung, Kim;Yill-byung, Lee
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.787-789
    • /
    • 2004
  • People frequently feel the need of a general searching tool that frees from language barrier when they find information through the internet. Therefore, it is necessary to have a multilingual parallel corpus to search with a word that includes a search keyword and has a corresponding word in another language, Multilingual parallel corpus can be built and reused effectively through the several processes which are judgment of the web documents, sentence alignment and word alignment. To build a multilingual parallel corpus, multi-lingual dictionary should be constructed in each language and HTML should be simplified. And by understanding the meaning and the statistics of document structure, judgment on translated web documents will be made and the searched web pages will be aligned in sentence unit.

  • PDF

XML.을 적용한 표준 문서 관리 시스템의 설계 및 구현 (Design and Implementation of Standard Document Management System)

  • 이준섭;유정연;권석훈;나재열;이규철;구경철;박기식;박치항
    • 한국문헌정보학회지
    • /
    • 제35권1호
    • /
    • pp.77-99
    • /
    • 2001
  • 급속한 과학 기술의 발달로 인해 상호간의 정보교환의 요구는 증가하게 되었으나 서로 다른 시스템 환경으로 인해 정보 교환에 많은 문제점이 발생하였다. XML 기반의 정보 교환은 이를 위한 해결하기 위한 방안이며 여러 연구자들이 공동으로 의견을 교환하여 작성해야 하는 표준 문서의 관리에 XML을 적용하면 매우 효과적이다. 본 논문에서는 표준 문서 제정 과정에서 이루어지는 문서의 공유 및 상호 교환을 보다 생산적이며 효율적으로 제공하기 위해 기존 시스템 환경의 변화 없이 차세대 인터넷 문서의 표준인 XML을 기반으로 문서를 교환하며 이를 효과적으로 저장, 검색, 관리 할 수 있는 시스템 모델을 설계 및 구현하였다.

  • PDF

주변정보 분할을 이용한 주제 중심 웹 문서 수집기 (A Focused Crawler by Segmentation of Context Information)

  • 조창희;이남용;강진범;양재영;최중민
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.697-702
    • /
    • 2005
  • 주제 중심 웹 문서 수집기는 검색엔진에서 최신의 웹 문서 색인을 유지하는 대안방안으로 부상하고 있다. 그러나 주제 중심 웹 문서 수집기는 비 관심문서에서 연결된 관심문서들을 수집할 수 없는 문제점을 가지고 있다. 이러한 문제점은 문서의 구조적 특징을 고려하지 않아서 발생한다. 특히 문서분석 방법인 문서의 발생 횟수 및 역문헌 발생빈도는 이러한 문제를 야기하는 주요 원인이 된다 주제 중심 웹 문서 수집기의 성능을 향상하기 위해서 본 논문에서는 국소 정보기반의 문서 분할법을 제안한다. 본 논문에서는 문서를 하이퍼링크 주변의 문맥을 고려한 특징 정보들을 사용하여 여러 소각의 문서로 나눈다. 본 논문에서 제안하는 주제 중심 웹 문서 수집기는 나누어진 문서들을 이용하여 하이퍼링크가 관심문서를 가리키는 것인지를 판단하여 문서를 수집할 것인지를 판단한다.

XML 문서 키워드 가중치 분석 기반 문단 추출 모델 (XML Document Keyword Weight Analysis based Paragraph Extraction Model)

  • 이종원;강인식;정회경
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2133-2138
    • /
    • 2017
  • 기존의 XML 문서나 다른 문서는 단어를 중심으로 분석이 진행되었다. 이는 형태소 분석기를 활용하여 구현이 가능하나 문서 내에 기재되어 있는 많은 단어를 분류할 뿐 문서의 핵심 내용을 파악하기에는 어려움이 있다. 사용자가 문서를 효율적으로 이해하기 위해서는 주요 단어가 포함되어 있는 문단을 추출하여 사용자에게 보여주어야 한다. 본 논문에서 제안하는 시스템은 정규화 된 XML 문서 내에 키워드를 검색하고 사용자가 입력한 키워드들이 포함되어 있는 문단을 추출하여 사용자에게 보여준다. 그리고 검색에 사용된 키워드들의 빈도수와 가중치를 사용자에게 알려주고 추출한 문단의 순서와 중복 제거 기능을 통해 사용자가 문서를 이해하는데 발생할 수 있는 오류를 최소화하였다. 제안하는 시스템은 사용자가 문서 전체를 읽지 않고 문서를 이해할 수 있게 하여 문서를 이해하는데 필요한 시간과 노력을 최소화할 수 있을 것으로 사료된다.

점자도서관의 문서 생산과 관리에 관한 연구 (A Study of Document Creation and Management in Braille Libraries)

  • 석정은
    • 기록학연구
    • /
    • 제40호
    • /
    • pp.181-223
    • /
    • 2014
  • 이 연구는 점자도서관 문서 생산과 관리의 실태파악을 하고, 개선방안을 제시하는 것을 목표로 하고 있다. 이 연구는 3개 기관을 현장조사와 면담을 실시하였고, ISO 15489의 품질요건을 기준으로 분석했다. 그 결과, 점자도서관 문서 관리 개선방안은 다음과 같다. 첫째, 정책 및 규정 정비가 필요하다. 사본 생산과 관리에 관한 규정, 접근권한과 관련된 문서 관리규정의 마련이 요구된다. 둘째, 문서 생산 프로세스 개선이 필요하다. 시각장애인의 책임 있는 생산을 위해 Electronic approval system을 도입하고, 문서 생산 시 시각장애인이 읽을 수 있는 문서를 함께 생산, 그리고 문서철에 점자라벨을 부착하는 방안도 마련되어야 할 것이다. 셋째, 문서 관리 프로세스 개선이 필요하다. 사본 생산 시 변경 내역을 기록하고, 원본과 사본의 보존기간을 동일하게 부여하여 함께 보존하고, 모든 사본을 진본사본으로 정하여 하나의 세트로 관리하는 방안도 필요하다. 마지막으로 문서관리를 위한 시스템 도입이 필요하다. 체계적인 문서 관리를 할 수 있는 시스템 도입이 요구된다. 이 시스템은 시각 장애인이 접근, 검색이 가능하도록 설계되어야 할 것이다.

동적 색인 스토리지 및 통합 검색 서비스 개발 (Dynamic index storage and integrated searching service development)

  • 이왕우;이석형;최호섭;윤화묵;김종환;허윤영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.346-349
    • /
    • 2007
  • 본 논문은 웹뉴스 및 리뷰 검색 서비스를 위해 만든 통합 검색 시스템을 소개한다. 검색 서비스를 위한 데이터 수집을 위해서 특정 사이트에서 수집한 뉴스와 리뷰 문서로부터 제목, 날짜, 저자, 본문처럼 특정한 영역의 데이터만 추출하는 XSLTRobot을 만들었다. XSLTRobot은 원하는 부분의 데이터만 추출하기 위해 XSLT 기술을 이용한다. 여러가지 검색 데이터 형식에 적합한 통합 검색엔진과 통합 검색엔진의 스토리지 모듈중 하나인 동적 색인 저장소(Dynamic Index Storage)를 소개한다. 동적 색인 저장소는 뉴스 데이터처럼 색인의 업데이트가 빨라야 하는 환경에 이용된다. 본 논문에서 제시하는 동적 색인 저장소는 대량의 실시간 업데이트 문서를 처리하지 않기 때문에 검색성능에 초점을 맞춰서 설계하였다.

  • PDF

용어간 관계를 이용한 검색문헌의 순위부여에 관한 연구 (A Study on Ranking Retrieved Documents Utilizing Term Relationship)

  • 강일중;정영미
    • 정보관리학회지
    • /
    • 제8권1호
    • /
    • pp.100-116
    • /
    • 1991
  • 본 연구에서는 지식베이스의 용어간 관계와 증거추론이론을 이용한 정보검색 시스템을 설계하였다. 실험을 위한 문헌파일은 한국전자통신연구소의 통신분야 기술문서를 대상으로 작성하였으며, 지식베이스는 INSPEC 시소러스의 통신분야 용어 및 용어간 관계들을 발췌하여 구성하였다. 그리고 용어간의 관련성은 용어간 관계의 종류에 따라 수치로 표현하였으며, 이들 수치를 이용하여 뎀스터-셰이퍼 이론에 따라 질문과 문헌간의 관련성을 추론, 산출하였다. 실험결과 질문의 탐색어외에도 관련된 용어의 확장검색을 통하여 포괄적인 검색을 할 수 있었으며, 용어간 관계를 반영하여 질문과 문헌간의 관련성을 산출하고, 관련성 순위에 따라 검색결과를 제시할 수 있었다.

  • PDF

DFR 속성 관리를 위한 확장된 디렉토리 시스템의 설계 및 구현 (Design and Implementation of an Extended Directory System for Management of the DFR Attributes)

  • 임재홍;김영준
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1542-1552
    • /
    • 1996
  • 본 논문에서는 문서 화일링 및 검색(DFR:Document Filing and Retrieval) 시스템 에서 DFR 객체의 속성(attribute)을 체계적으로 관리하여 DFR 객체의 효율적인 탐색 (search) 기능을 제공하기 위한 확장된 디렉토리 시스템의 설계 및 구현에 관하여 논 한다. 이를 위하여 DFR 시스템과 디렉토리 시스템 상호연동을 위한 구성 모델 및 두 응용 시스템 동작들 사이의 연계 매카니즘, 확장된 디렉토리 스키마(schema), 확장된 데릭토리 트리 구조(DIT:Directory Information Tree) 를 설계, 구현한다. 분산 환경 하에서 DFR 시스템과 ISODE(ISO Development Environment) 디렉토리 시스템인 QUIPU 8.0을 이용하여 구현한 확장된 디렉토리 시스템 사이의 연동 시험을 하고 본 논문의 결과를 기반으로 다양한 응용 시스템의 객체 탐색을 위한 확장된 디렉토리 시스템 모 델을 제시한다.

  • PDF

인터넷 검색과 형태소분석을 이용한 표절검사시스템의 개발에 관한 연구 (Development of A Plagiarism Detection System Using Web Search and Morpheme Analysis)

  • 황인수
    • Journal of Information Technology Applications and Management
    • /
    • 제16권1호
    • /
    • pp.21-36
    • /
    • 2009
  • As the World Wide Web (WWW) has become a major channel for information delivery, the data accumulated in the Internet increases at an incredible speed, and it derives the advances of information search technologies. It is the search engine that solves the problem of information overloading and helps people to identify relevant information. However, as search engines become a powerful tool for finding information, the opportunities of plagiarizing have increased significantly in e-Learning. In this paper, we developed an online plagiarism detection system for detecting plagiarized documents that incorporates the functions of search engines and acts in exactly the same way of plagiarizing. The plagiarism detection system uses morpheme analysis to improve the performance and sentence-based comparison to investigate document comes from multiple sources. As a result of applying this system in e-Learning, the performance of plagiarism detection was improved.

  • PDF