• 제목/요약/키워드: Automatic Query Generation

검색결과 22건 처리시간 0.023초

모바일 인터넷 기반 이미지 검색을 위한 초기질의 자동생성 기법 (An Automatic Generation Method of the Initial Query Set for Image Search on the Mobile Internet)

  • 김덕환;조윤호
    • 지능정보연구
    • /
    • 제13권1호
    • /
    • pp.1-14
    • /
    • 2007
  • 휴대전화의 배경화면을 위한 캐릭터 이미지의 수요가 모바일 컨텐츠 시장에서 빠르게 성장함에도 불구하고 지능형 검색 도구의 부재로 인해 사용자들은 원하는 이미지를 검색하는 데 많은 어려움을 겪고 있다. 이 문제를 해결하기 위한 방법으로 이미지 검색을 위해 가장 널리 사용되는 내용기반 이미지 검색(Content-Based Image Retrieval; CBIR)이 사용될 수 있겠으나 PC-기반 시스템과는 달리 초기 질의 요구를 만족시킬 수 없는 모바일 응용 소프트웨어의 제약 사항의 극복이 필요하다. 본 연구에서는 적합성 피드백과정에서 얻어진 선호도 정보를 이용하는 협업필터링(Collaborative Filtering; CF) 기법을 사용하여 내용기반 이미지 검색의 초기 질의로 사용될 수 있는 후보이미지의 리스트를 자동 생성하는 IQS-AutoGen이라고 하는 새로운 방법을 제안한다. IQS-AutoGen은 CBIR로부터 피드백된 이미지들에 대한 적합성 정보를 이용하여 목표 사용자와 선호도가 유사한 이웃(neighbor)을 확인하고 이웃들이 선호하는 이미지들의 리스트를 제공하는 CF 프로세스를 통해 CBIR을 위한 초기 질의 집합(Initial Query Set : IQS)을 자동으로 생성한다. 따라서 모바일 사용자는 IQS에 있는 이미지들 중의 하나를 선택하여 CBIR 세션을 위한 질의 이미지로 사용할 수 있게 된다. PC-기반 프로토타입 시스템을 사용하여 실험한 결과로부터 제안한 방법이 모바일 인터넷 환경에서 CBIR의 초기질의 요구를 성공적으로 만족시킬 뿐만 아니라 현재의 검색 방법보다 우수한 성능을 보여주고 있음을 알 수 있다.

  • PDF

교수-학습지원시스템에서 학습자 질의응답 자동분류를 위한 토픽 모델링 (Topic modeling for automatic classification of learner question and answer in teaching-learning support system)

  • 김경록;송혜진;문남미
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권2호
    • /
    • pp.339-346
    • /
    • 2017
  • 기사와 댓글, 질의응답과 같은 비정형 데이터에 기반한 텍스트 분석에 대한 관심이 증가하고 있다. 이는 사람들의 견해인 비정형 텍스트 데이터로부터 특징을 파악하고, 평가, 예측 및 추천에 활용할 수 있기 때문이다. TEL 분야에서도 MOOC 서비스의 확대로 교수학습지원시스템 기반 토론, 질의응답 서비스를 자동화하기 위한 관심이 증가하고 있다. 시스템에 축적된 질의응답 데이터를 기반으로 질의 토픽을 생성하고, 새로운 질의에 대해 토픽을 자동분류하기 위해서이다. 따라서 본 연구에서는 새로운 질의 토픽을 자동분류 할 수 있도록 LDA기법을 활용한 토픽 모델링을 제안하고자 한다. 이를 바탕으로 질의 토픽 사전을 생성하고 새로운 질의에 대해 토픽을 자동분류 할 수 있다. 일부 질의에서는 0.7 이상의 높은 자동 분류를 보였으며, 새로운 질의가 여러 토픽에 포함될수록 좀 더 좋은 자동분류 결과를 보였다.

신경회로망기법에 의한 조립작업시간의 추정 및 라인밸런싱을 고려한 조립순서 추론 (On the Generation of Line Balanced Assembly Sequences Based on the Evaluation of Assembly Work Time Using Neural Network)

  • 신철균;조형석
    • 대한기계학회논문집
    • /
    • 제18권2호
    • /
    • pp.339-350
    • /
    • 1994
  • This paper presents a method for automatic generation of line balanced assembly sequences based on disassemblability and proposes a method of evaluating an assembly work time using neural networks. Since a line balancing problem in flexible assembly system requires a sophisticated planning method, reasoning about line balanced assembly sequences is an important field of concern for planning assembly lay-out. For the efficient inference of line balanced assembly sequences, many works have been reported on how to evaluate an assembly work time at each work station. However, most of them have some limitations in that they use cumbersome user query or approximated assembly work time data without considering assembly conditions. To overcome such criticism, this paper proposes a new approach to mathematically verify assembly conditions based on disassemblability. Based upon the results, we present a method of evaluating assembly work time using neural networks. The proposed method provides an effective means of solving the line balancing problem and gives a design guidance of planning assembly lay-out in flexible assembly application. An example study is given to illustrate the concepts and procedure of the proposed scheme.

PC-SAN: Pretraining-Based Contextual Self-Attention Model for Topic Essay Generation

  • Lin, Fuqiang;Ma, Xingkong;Chen, Yaofeng;Zhou, Jiajun;Liu, Bo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권8호
    • /
    • pp.3168-3186
    • /
    • 2020
  • Automatic topic essay generation (TEG) is a controllable text generation task that aims to generate informative, diverse, and topic-consistent essays based on multiple topics. To make the generated essays of high quality, a reasonable method should consider both diversity and topic-consistency. Another essential issue is the intrinsic link of the topics, which contributes to making the essays closely surround the semantics of provided topics. However, it remains challenging for TEG to fill the semantic gap between source topic words and target output, and a more powerful model is needed to capture the semantics of given topics. To this end, we propose a pretraining-based contextual self-attention (PC-SAN) model that is built upon the seq2seq framework. For the encoder of our model, we employ a dynamic weight sum of layers from BERT to fully utilize the semantics of topics, which is of great help to fill the gap and improve the quality of the generated essays. In the decoding phase, we also transform the target-side contextual history information into the query layers to alleviate the lack of context in typical self-attention networks (SANs). Experimental results on large-scale paragraph-level Chinese corpora verify that our model is capable of generating diverse, topic-consistent text and essentially makes improvements as compare to strong baselines. Furthermore, extensive analysis validates the effectiveness of contextual embeddings from BERT and contextual history information in SANs.

Semi Automatic Ontology Generation about XML Documents

  • Gu Mi Sug;Hwang Jeong Hee;Ryu Keun Ho;Jung Doo Yeong;Lee Keum Woo
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2004년도 Proceedings of ISRS 2004
    • /
    • pp.730-733
    • /
    • 2004
  • Recently XML (eXtensible Markup Language) is becoming the standard for exchanging the documents on the web. And as the amount of information is increasing because of the development of the technique in the Internet, semantic web is becoming to appear for more exact result of information retrieval than the existing one on the web. Ontology which is the basis of the semantic web provides the basic knowledge system to express a particular knowledge. So it can show the exact result of the information retrieval. Ontology defines the particular concepts and the relationships between the concepts about specific domain and it has the hierarchy similar to the taxonomy. In this paper, we propose the generation of semi-automatic ontology based on XML documents that are interesting to many researchers as the means of knowledge expression. To construct the ontology in a particular domain, we suggest the algorithm to determine the domain. So we determined that the domain of ontology is to extract the information of movie on the web. And we used the generalized association rules, one of data mining methods, to generate the ontology, using the tag and contents of XML documents. And XTM (XML Topic Maps), ISO Standard, is used to construct the ontology as an ontology language. The advantage of this method is that because we construct the ontology based on the terms frequently used documents related in the domain, it is useful to query and retrieve the related domain.

  • PDF

분석 CRM 실무자의 자연어 질의 처리를 위한 기업 데이터베이스 구성요소 인덱싱 방법론 (A PageRank based Data Indexing Method for Designing Natural Language Interface to CRM Databases)

  • 박성혁;황경서;이동원
    • CRM연구
    • /
    • 제2권2호
    • /
    • pp.53-70
    • /
    • 2009
  • 분석 CRM 영역에서는 고객 데이터 분석을 통하여 고객 행동과 관련된 통찰력을 얻는 것이 중요하다. 이러한 분석 과정에서, 사용자 스스로 기업 데이터베이스에서 대용량 고객 이력 데이터를 조회하고 추출하기 위해서는 SQL 을 사용하여 자유롭게 질의구문을 작성할 수 있어야 한다. 그런데 일반 사용자들이 이러한 업무를 수행하고자 할 때, 기업 데이터베이스 구성 요소에 대한 전문적인 지식이 부족하기 때문에 정보 탐색에 있어서 어려움을 겪는다. 이를 해결하기 위한 방안으로 본 연구에서는 사용자가 제공하는 자연어 수준의 질의를 분석하고, 데이터베이스를 구성하는 값을 중심으로 올바른 질의 결과를 제공하기 위한 데이터베이스 구성요소 인덱싱 방법론을 제안한다. 구체적으로 기업 데이터베이스를 구성하는 세 가지 요소인 관계, 속성, 값에 대한 정보를 읽어 들여 요약 정보에 대한 인덱스를 구성한 다음 사용자의 자연어 질의에서 분석된 의미 단위 별로 데이터베이스 요약 정보와 연결해주는 TableRank 기법을 소개한다. 실험용 데이터베이스를 대상으로 테스트를 수행한 결과, 사용자의 자연어 질의 결과가 데이터베이스를 구성하는 값 정보와 연결되는 것이 관찰되었다. 논문의 후반부에서는 자연어 질의를 자동적으로 처리하기 위한 선행 모듈 개발의 시사점을 정리하고, 향후 기업 데이터베이스 자동 검색 시스템으로 발전하기 위한 방안에 대해서도 설명한다.

  • PDF

FHIR를 이용한 심전도 자동 노티 연구 (Using FHIR, ECG Automatic notification Research)

  • 이진형;박대우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.344-346
    • /
    • 2016
  • HL7의 차세대 버전인 FHIR는 의료 환경에서 메시지 교환의 표준으로 이벤트 발생시점부터 데이터 교환을 손쉽게 할 수 있도록 지원하는 프로토콜이다. 응급실 등 심전도 기기로부터 환자의 자동 판독 결과를 FHIR 메시지로 생성하고, 생성된 메시지를 EMR 등 병원정보시스템에 전달하고 스마트 폰을 통해 해당 결과를 실시간으로 알려 줄 수 있음으로 다양한 의료기관에서 사용 될 것으로 생각한다. 또한, 향후 SMART on FHIR로 확대되어, 순환기내과, 흉부외과 병동에서 실시간 원격모니터링에도 활용 될 것으로 생각한다.

  • PDF

컴포넌트 기반 웹 데이터베이스 응용의 자동 생성기 (Automatic Generator for Component-Based Web Database Applications)

  • 음두헌;고민정;강이지
    • 정보처리학회논문지D
    • /
    • 제11D권2호
    • /
    • pp.371-380
    • /
    • 2004
  • 인터넷 기술의 급속한 발전과 함께 전자 상거래가 활성화되고 있다. 이러한 전자 상거래 응용의 핵심은 웹 기반 데이터베이스 응용이다. 현재는 데이터베이스 응용에 필요한 모든 폼과 질의 처리코드를 수동 또는 반자동으로 작성하므로 웹 응용 개발에 많은 시간이 소요된다. 따라서 웹 기반 데이터베이스 응용의 생산성 향상이 요구되고 있다. 본 논문에서는 데이터베이스부터 새롭게 생성해야 하는 응용과 기존 데이터베이스를 사용하는 응용의 생성을 위한 사용자 인터페이스 폼들과 이 폼들을 통해 이뤄질 질의를 처리하는 EJB 및 JSP 컴포넌트들을 자동으로 생성하는 도구인 WebSiteGen2를 소개한다. WebSiteGen2는 컴포넌트 기술을 기반으로 3-계층(3-tier) 구조를 가지는 응용을 자동 생성함으로써 웹 응용의 생산성을 향상시키고 확장성, 재사용성 및 이식성을 증대시킨다. 또한, WebSiteGen2가 생성하는 사용자 인터페이스 폼들은 질의의 대상인 개체 뿐 아니라 이와 직$.$간접으로 연관된 모든 개체들에 대한 정보를 한 폼에 제공한다. 본 논문에서는 WebSiteGen2의 기능 및 구현원리를 설명하고, 상용화된 타 웹 응용 생성기들과의 기능을 비교하여 WebSiteGen2의 장점을 설명한다.

웹 정보원 통합을 위한 내용 기반의 스키마 자동생성시스템 (An Automatic Schema Generation System based on the Contents for Integrating Web Information Sources)

  • 곽준영;배종민
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.77-86
    • /
    • 2008
  • 웹 정보원은 사용자에게 제공되는 가장 큰 분산 데이터베이스로 간주될 수 있다. 분산된 웹 정보원을 가상적으로 통합하여 하나의 정보원으로 보고, 이 가상의 데이터베이스에 대하여 데이터베이스 질의어를 이용하여 검색하는 기능은 여러 가지 웹 기반 응용프로그램 개발에서 중요한 역할을 한다. 이러한 기능을 지원하기 위해서 브라우징 중심의 웹 문서로부터 데이터베이스 스키마를 추출해야 한다. 본 논문은 반 구조적인 웹 문서로부터 XML 스키마를 자동으로 생성하는 경험적 알고리즘을 제시한다. 이를 위하여 미리 정의된 구조태그 기반으로 후보패턴영역을 추출하고 후보패턴영역으로부터 패턴영역을 경험적으로 결정한다. 그리고 패턴영역으로부터 스키마생성규칙을 유도한다. 스키마생성규칙은 XQuery로 표현되기 때문에 공개된다양한 XML 도구를 사용하여 응용시스템을 개발할 수 있다. 개발된 시스템의 유효성을 보이기 위하여 다양한 웹정보원에 대하여 실험한 결과를 제시한다.

  • PDF

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.