• 제목/요약/키워드: Automatic Retrieval

검색결과 250건 처리시간 0.022초

지리도면의 자동 벡터화를 위한 영상 세선화 알고리즘의 체계적인 성능평가 (A Systematic Evaluation of Thinning Algorithms for Automatic Vectorization of Cartographic Maps)

  • 이경호;김경호;조성배;최윤철
    • 한국정보처리학회논문지
    • /
    • 제4권12호
    • /
    • pp.2960-2970
    • /
    • 1997
  • 최근에 사회 여러 분야에 걸쳐서 지리정보를 효과적으로 저장하여 검색할 수 있도록 하는 지리정보시스템에 대한 관심이 고조되고 있다. 이를 구축하는데 가장 많은 시간과 비용이 소요되는 부분은 지리정보의 입력 부분으로 효율적인 입력 방법을 선택하는 것이 매우 중요하다. 여기에서 입력 영상으로부터 한 화소 두께의 골격선을 추출하는 영상 세선화 알고리즘은 전처리 단계로서 필수적이라 할 수 있다. 본 논문에서는 그동안 주로 문 자 인식 등의 영상처리를 위해 발표된 영상 세선화 알고리즘들 중에서 대표적인 알고리즘을 등고선도와 지적도 및 상하수도 등의 지리도면에 적용하여 비교 분석함으로써 각각의 지리도면의 자동 벡터화에 적합한 알고리즘을 제시하고자 한다. 여러가지 평가 기준에 의해 실험한 결과, 등고선도의 경우에는 Arcelli의 방법, 지적도는 Holt의 방법, 그리고 상하수도는 Chen의 방법이 각각 적합하다는 것을 알 수 있었다.

  • PDF

사례기반 추론을 위한 적응 지식의 자동 학습 (An Automatic Learning of Adaptation Knowledge for Case-Based Reasoning)

  • 이재필;조경달;김기태
    • 한국정보처리학회논문지
    • /
    • 제6권1호
    • /
    • pp.96-106
    • /
    • 1999
  • 사례기반 추론은 이전에 해결된 문제에 대한 해를 재사용 함으로써 새로운 문제를 해결한다. 그러나 과거의 사례와 새로운 문제 사이에는 차이가 있다. 이러한 문제점을 해결하기 위해서 사례기반 추론 시스템은 이전 사례의 해를 새로운 상황에 맞게 적응 시켜야 한다. 최근의 사례기반 추론 시스템에서, 사례 적응은 시스템 개발자에 의해 손으로 코딩된 규칙을 사용하는 규칙기반 방법을 이용한다. 따라서 시스템 설계자는 과거의 전통적인 전문가 시스템 설계에서 발견되는 지식획득의 병목방법을 제안하였다. 적응 지식을 학습하기 위해 사례 베이스의 사례들을 비교하는 방법을 사용하였다. 본 논문에서 제안한 방법은 여행 가격 결정을 위한 영역에서 실험하였다. 실험 결과 사례 추출만을 지원하는 시스템보다 해에 대한 정확도가 향상되었음을 확인할 수 있었다.

  • PDF

반자동 웹 서비스 조합을 위한 WS-BPEL과 OWL-S의 융합 시스템 (A Fusion System of WS-BPEL and OWL-S for Semi-Automatic Composition of Web Services)

  • 이용주
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.569-580
    • /
    • 2008
  • 웹 서비스는 현재 서비스 지향 아키텍처(SOA)를 구현하기 위한 가장 유망한 기술이다. 그렇지만 웹 서비스에 대한 많은 관심에도 불구하고 내부 통합 프로젝트에서만 사용되어지고, 파트너들이 '온 디맨드(on demand)' 방식으로 결합되는 가상 엔터프라이즈 환경에서는 아직 활용되지 못하고 있는 실정이다. 이러한 주된 이유는 현재의 웹 서비스 기술들이 동적인 웹 서비스 발견 및 통합에 대한 적절한 기법을 제공하지 못하기 때문이다. 본 논문에서는 반자동 웹 서비스 조합 시스템을 구현하기 위해 WS-BPEL 기법과 OWL-S 기법의 장점만을 채택한 새로운 SemanticBPEL 조합 기법을 기술한다. 특히, 동적 웹 서비스 발견 및 통합 문제를 해결하기 위해 다단계 웹 서비스 탐색 방법을 제안한다. 이 방법은 실험 분석을 통해 기존의 키워드 기반 검색 방법보다 성능이 우수함을 보인다.

XML 태그를 분류에 따른 가중치 결정 (An XML Tag Indexing Method Using on Lexical Similarity)

  • 정혜진;김용성
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.71-78
    • /
    • 2009
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

주 키워드와 부 키워드를 이용한 자연언어 정보 검색 모델 (A Model of Natural Language Information Retrieval Using Main Keywords and Sub-keywords)

  • 강현규;박세영
    • 한국정보처리학회논문지
    • /
    • 제4권12호
    • /
    • pp.3052-3062
    • /
    • 1997
  • 정보 검색이란 사용자의 정보 요구를 만족하는 관련 정보를 검색하는 것이다. 그러나 정보 검색 시스템의 하나의 역활은 관련 정보의 집합들을 단순히 제시하는 것이 아니라 주어진 요구 사항에 가장 가까운 문서를 결정하는데 도움을 주는 것이다. 최근에 여러 가지 텍스트 분석 시스템들에서 내용을 인식하기 위해 구문 분석 방법 사용이 시도되고 있다. 불행히도 단독의 구문 이해 방법으로는 임의의 텍스트 예들을 완벽하게 분석하기 위해 불충분한 것으로 알려지고 있다. 이 논문에서는 2단계 문서 순위에 기반한 문서 순위 결정 방법에 대하여 논한다. 1단계는 문서를 검색하기 위해 사용하고 2단계는 검색된 문서를 재순서화하는데 사용한다. 1단계에서 이용된 주키워드는 문서를 구별할 수 있는 좋은 능력을 가지는 명사나 복합명사로서 정의될 수 있다. 2단계에서 이용된 부 키워드는 주키워드나 기능어가 아닌 형용사나 부사 또는 동사로 정의 될 수 있다. 실험은 23,113 항목을 가지는 한국어 백과사전과 일반 사용자들로부터 수집된 161개의 한국어 자연언어 질의로부터 이루어졌다. 자연언어 질의의 85%가 부 키워드를 가지고 있었다. 2단계 문서 순위 방법은 일반 문서 순위 방법보다 현격한 검색 효율의 향상을 제공한다.

  • PDF

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

즐겨찾기를 이용한 교육용 정보공유시스템의 설계 및 구현 (Design and Implementation of Educational Information Sharing Systems using Bookmark)

  • 한선관
    • 컴퓨터교육학회논문지
    • /
    • 제7권6호
    • /
    • pp.77-84
    • /
    • 2004
  • 본 연구는 웹브라우저의 즐겨찾기를 이용하여 교육정보를 공유하기 위한 에이전트 시스템의 설계와 구현에 관한 내용이다. 즐겨찾기를 효과적으로 공유하고 검색하기 위하여 DAML+OIL의 형태로 설계하였다. 제안된 시스템 구조는 CS기반의 P2P 방식을 이용하였다. 연구에서 제안된 에이전트는 즐겨찾기된 정보를 기초로 문서의 정확성 판단과 우선순위 기법에 의해 사용자에게 검색과정과 결과를 제시한 수 있다. 또한 에이전트가 Semantic Web환경에서 DAML을 통해 보다 지능적으로 교육정보를 공유하고 검색할 수 있는 시스템을 구현하였다.

  • PDF

Social Media Mining Toolkit (SMMT)

  • Tekumalla, Ramya;Banda, Juan M.
    • Genomics & Informatics
    • /
    • 제18권2호
    • /
    • pp.16.1-16.5
    • /
    • 2020
  • There has been a dramatic increase in the popularity of utilizing social media data for research purposes within the biomedical community. In PubMed alone, there have been nearly 2,500 publication entries since 2014 that deal with analyzing social media data from Twitter and Reddit. However, the vast majority of those works do not share their code or data for replicating their studies. With minimal exceptions, the few that do, place the burden on the researcher to figure out how to fetch the data, how to best format their data, and how to create automatic and manual annotations on the acquired data. In order to address this pressing issue, we introduce the Social Media Mining Toolkit (SMMT), a suite of tools aimed to encapsulate the cumbersome details of acquiring, preprocessing, annotating and standardizing social media data. The purpose of our toolkit is for researchers to focus on answering research questions, and not the technical aspects of using social media data. By using a standard toolkit, researchers will be able to acquire, use, and release data in a consistent way that is transparent for everybody using the toolkit, hence, simplifying research reproducibility and accessibility in the social media domain.

병렬말뭉치를 이용한 대체어 자동 추출 방법 (Automatic Extraction of Alternative Words using Parallel Corpus)

  • 백종범;이수원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권12호
    • /
    • pp.1254-1258
    • /
    • 2010
  • 정보 검색에 있어서 통일 객체를 다양한 표기로 기술하는 문제는 시스템의 성능을 저하시키는 요인이 된다. 본 연구에서는 이러한 문제를 해결하기 위하여 특허 정보의 국/영문 제목을 병렬말뭉치로 이용하여 대역어 뭉치를 추출하고, 이를 각 단어의 특징(Feature)으로 이용하여 대체어 목록을 자동 추출하는 방법을 제안한다. 또한 대체어 목록 내에 대체어가 아닌 다수의 연관단어들이 포함되는 문제점을 해결하기 위하여 국문 제목에서 추출한 연관단어 뭉치를 이용하여 대체어 목록 내 연관단어들을 필터링하는 방법을 제안한다. 평가결과에 따르면 본 연구에서 제안한 방법이 기존의 대체어 추출 방법들보다 더 우수한 것으로 나타났다.

StrokePortal: a Complete Stroke Information Resource Based on Oriental and Western Medicine

  • Kim, Jin-Ho;Kim, Young-Uk;Bang, Ok-Sun;Cha, Min-Ho;Park, Young-Kyu;Lee, Sun-Young;Kim, Young-Joo
    • Interdisciplinary Bio Central
    • /
    • 제2권3호
    • /
    • pp.7.1-7.3
    • /
    • 2010
  • Stroke, also called an attack on the brain, is a complex disease that results from the interaction of many genetic and environmental factors. StrokePortal is a comprehensive resource for information on stroke that integrates and provides essential findings regarding stroke pathology, diagnostics, and treatments, based on Oriental and Western medicine. The stroke information was collected from various sources, such as journal articles, books, websites, and news stories, and it was refined, classified, and stored into a relational database system by automatic classification and manual curation. To provide the stored information effectively to users, a specialized retrieval system, based on web interfaces, was implemented. StrokePortal provides cutting-edge information to experts; interested people, including patients and their families; and investigators to broaden their knowledge of effective treatments for patients and offer many preventive measures. It provides a specialized feature with which users can upload their information and opinions to StrokePortal, which will enrich and mature the content even further. StrokePortal is freely accessible at http://genomics.kribb.re.kr/StrokePortal/.