• 제목/요약/키워드: Structural Retrieval

검색결과 104건 처리시간 0.023초

On supporting full-text retrievals in XML query

  • Hong, Dong-Kweon
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제7권4호
    • /
    • pp.274-278
    • /
    • 2007
  • As XML becomes the standard of digital data exchange format we need to manage a lot of XML data effectively. Unlike tables in relational model XML documents are not structural. That makes it difficult to store XML documents as tables in relational model. To solve these problems there have been significant researches in relational database systems. There are two kinds of approaches: 1) One way is to decompose XML documents so that elements of XML match fields of relational tables. 2) The other one stores a whole XML document as a field of relational table. In this paper we adopted the second approach to store XML documents because sometimes it is not easy for us to decompose XML documents and in some cases their element order in documents are very meaningful. We suggest an efficient table schema to store only inverted index as tables to retrieve required data from XML data fields of relational tables and shows SQL translations that correspond to XML full-text retrievals. The functionalities of XML retrieval are based on the W3C XQuery which includes full-text retrievals. In this paper we show the superiority of our method by comparing the performances in terms of a response time and a space to store inverted index. Experiments show our approach uses less space and shows faster response times.

IMGT Unique Numbering for Standardized Contact Analysis of Immunoglobulin/antigen and T cell receptor/peptide/MHC Complexes

  • Kaas, Quentin;Chiche, Laurent;Lefrane, Marie-Paule
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.209-214
    • /
    • 2005
  • Immunoglobulins (IG) , T cell receptors (TR) and major histocompatibility complex (MHC) are major components of the immune system. Their experimentally determined three-dimensional (3D) structures are numerous and their retrieval and comparison is problematic. IMGT, the international ImMunoGeneTics information system$^{\circledR}$(http://imgt.cines.fr), has devised controlled vocabulary and annotation rules for the sequences and 3D structures of the IG TR and MHC. Annotated data from IMGT/3D sructure-DB, the IMGT 3D structure database, are used in this paper to compare 3D structure of the domains and receptor, and to characterize IG/antigen, peptide/MHC and TR/peptide/MHC interfaces. The analysis includes angle measures to assess receptor flexibility, structural superimposition and contact analysis. Up-to-date data and analysis results are available at the IMGT Web site, http://imgt.cines.fr.

  • PDF

효율적인 XML검색을 위한 상대 위치 좌표 기반의 BitmapInvert Index 기법 (An Efficient BitmapInvert Index based on Relative Position Coordinate for Retrieval of XML documents)

  • 김택곤;김우생
    • 전자공학회논문지CI
    • /
    • 제43권1호
    • /
    • pp.35-44
    • /
    • 2006
  • 최근 XML 문서의 저장 및 관리에 대한 연구가 활발히 이루어지고 있다. XML 문서를 위한 현재까지 연구된 대부분의 색인기법의 경우 절대좌표를 이용하여 표현하는 방법을 사용하므로 갱신연산이 커다란 부담으로 받아들여지고 있다. 본 논문에서는 이를 개선하기 위하여 상대위치좌표에 기반한 BitmapInvert 색인 기법을 제안하였다. 상대위치좌표는 부모 노드와 좌, 우 형제 노드들 간의 관계만을 표현하므로 갱신연산지 자주 발생하더라도 좋은 성능을 보인다. BitmapInvert 색인 기법은 bitwise 연산을 지원하는 텍스트 검색을 지원하고, PostUpdate 알고리즘을 적용하여 갱신에 따른 성능 저하를 줄이도록 하였다. 따라서, 제안하는 기법은 검색이나 갱신에 대해서 접근하는 노드를 줄임으로써 전체적인 성능을 향상시킬 수 있다.

A Data Design for Increasing the Usability of Subway Public Data

  • Min, Meekyung
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권4호
    • /
    • pp.18-25
    • /
    • 2019
  • The public data portal provides various public data created by the government in the form of files and open APIs. In order to increase the usability of public open data, a variety of information should be provided to users and should be convenient to use for users. This requires the structured data design plan of the public data. In this paper, we propose a data design method to improve the usability of the Seoul subway public data. For the study, we first identify some properties of the current subway public data and then classify the data based on these properties. The properties used as classification criteria are stored properties, derived properties, static properties, and dynamic properties. We also analyze the limitations of current data for each property. Based on this analysis, we classify currently used subway public data into code entities, base entities, and history entities and present the improved design of entities according to this classification. In addition, we propose data retrieval functions to increase the utilization of the data. If the data is designed according to the proposed design of this paper, it will be possible to solve the problem of duplication and inconsistency of the data currently used and to implement more structural data. As a result, it can provide more functions for users, which is the basis for increasing usability of subway public data.

Structural live load surveys by deep learning

  • Li, Yang;Chen, Jun
    • Smart Structures and Systems
    • /
    • 제30권2호
    • /
    • pp.145-157
    • /
    • 2022
  • The design of safe and economical structures depends on the reliable live load from load survey. Live load surveys are traditionally conducted by randomly selecting rooms and weighing each item on-site, a method that has problems of low efficiency, high cost, and long cycle time. This paper proposes a deep learning-based method combined with Internet big data to perform live load surveys. The proposed survey method utilizes multi-source heterogeneous data, such as images, voice, and product identification, to obtain the live load without weighing each item through object detection, web crawler, and speech recognition. The indoor objects and face detection models are first developed based on fine-tuning the YOLOv3 algorithm to detect target objects and obtain the number of people in a room, respectively. Each detection model is evaluated using the independent testing set. Then web crawler frameworks with keyword and image retrieval are established to extract the weight information of detected objects from Internet big data. The live load in a room is derived by combining the weight and number of items and people. To verify the feasibility of the proposed survey method, a live load survey is carried out for a meeting room. The results show that, compared with the traditional method of sampling and weighing, the proposed method could perform efficient and convenient live load surveys and represents a new load research paradigm.

상한론(傷寒論)온톨로지 구축 방법론 연구 (Study on a Methodology for Developing Shanghanlun Ontology)

  • 정태영;김희열;박종현
    • 동의생리병리학회지
    • /
    • 제25권5호
    • /
    • pp.765-772
    • /
    • 2011
  • Knowledge which is represented by formal logic are widely used in many domains such like artificial intelligence, information retrieval, e-commerce and so on. And for medical field, medical documentary records retrieval, information systems in hospitals, medical data sharing, remote treatment and expert systems need knowledge representation technology. To retrieve information intellectually and provide advanced information services, systematically controlled mechanism is needed to represent and share knowledge. Importantly, medical expert's knowledge should be represented in a form that is understandable to computers and also to humans to be applied to the medical information system supporting decision making. And it should have a suitable and efficient structure for its own purposes including reasoning, extendability of knowledge, management of data, accuracy of expressions, diversity, and so on. we call it ontology which can be processed with machines. We can use the ontology to represent traditional medicine knowledge in structured and systematic way with visualization, then also it can also be used education materials. Hence, the authors developed an Shanghanlun ontology by way of showing an example, so that we suggested a methodology for ontology development and also a model to structure the traditional medical knowledge. And this result can be used for student to learn Shanghanlun by graphical representation of it's knowledge. We analyzed the text of Shanghanlun to construct relational database including it's original text, symptoms and herb formulars. And then we classified the terms following some criterion, confirmed the structure of the ontology to describe semantic relations between the terms, especially we developed the ontology considering visual representation. The ontology developed in this study provides database showing fomulas, herbs, symptoms, the name of diseases and the text written in Shanghanlun. It's easy to retrieve contents by their semantic relations so that it is convenient to search knowledge of Shanghanlun and to learn it. It can display the related concepts by searching terms and provides expanded information with a simple click. It has some limitations such as standardization problems, short coverage of pattern(證), and error in chinese characters input. But we believe this research can be used for basic foundation to make traditional medicine more structural and systematic, to develop application softwares, and also to applied it in Shanghanlun educations.

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.

구조적 문서의 효율적인 구조 질의 처리 및 검색을 위한 알고리즘의 설계 (Design of Algorithm for Efficient Retrieve Pure Structure-Based Query Processing and Retrieve in Structured Document)

  • 김현주
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권8호
    • /
    • pp.1089-1098
    • /
    • 2001
  • 구조적 문서가 가지는 구조 정보는 문서로의 다양한 접근경로를 나타내는데 사용될 수 있다. 이러한 구조적 문서가 가지는 구조 정보를 활용하기 위해서는 문서의 구조에 대해서 색인을 해야 한다. 이때 내용색인뿐만 아니라 문서마다 구조정보를 저장하므로 색인에 필요한 공간이 커진다. 그러므로, 색인공간 오버헤드를 최소화시키면서도 엘리먼트간의 포함관계나 순서 등 문서의 순수 구조에 바탕을 둔 순수 구조 질의를 처리할 수 있어야 한다. 본 논문에서는 색인공간 오버헤드를 최소화하면서도 여러 유형의 구조 관련 질의를 효율적으로 처리할 수 있는 구조 색인 구조와 GDIT자료구조를 제시한다. 제안하는 구조 색인 구조는 문서에 존재하는 가장 하위 엘리먼트만을 색인대상으로 하며, 검색엘리먼트가 존재하는 문서개수에 영향을 받지 않는다. 그리고 이 색인구조를 바탕으로 순수 구조에 대한 질의 처리과정을 보이고 색인공간에 대해 그 성능을 평가한다. 제안된 색인 구조는 GDIT개념[2]에 바탕을 두고, GDIT기반의 색인기법을 사용한다.

  • PDF

저작관련 요소분석을 통한 폭소노미 태그의 활용 방안에 관한 연구: LibraryThing을 중심으로 (A Study on the Application of LibraryThing Folksonomy Tags through the Analysis of Elements related with Work)

  • 김동숙;정연경
    • 정보관리학회지
    • /
    • 제27권1호
    • /
    • pp.41-60
    • /
    • 2010
  • 본 연구에서는 FRBR의 저작 단위로 태그(tag)가 부여되고 있는 LibraryThing에 나타난 태그를 활용하여, 소설(Fiction) 분야 태그들의 특성, 패턴의 형식적인 측면과 동시에 태그의 내용 분석을 시도하였다. 저작의 서지사항 기술 용어, LCSH 용어와 비교하여 관련 정도를 파악하였고, 이에 포함되지 않는 기타 태그의 출처는 어디인지, 저작의 어떤 측면을 표현하고 있는지, 저작과 연계하여 태그의 용어를 살펴보았다. 특히 소설이란 한 분야로 한정함으로써, 소설만이 가지는 특성인 소설의 3요소(주제, 구성, 문체), 소설 구성의 3요소(인물, 사건, 배경)를 반영한 태그를 파악하여, 향후 소설 정보의 조직 및 검색 요소로서 활용할 수 있는 가능성을 보여주었다. 이를 통해 기존의 색인어를 보완하는 폭소노미 태그의 역할을 규명하고 태깅시스템이 나아갈 새로운 방향을 제시하였다.

확장된 나이브 베이즈 분류기를 활용한 질문-답변 커뮤니티의 질문 분류 (Modified Na$\ddot{i}$ve Bayes Classifier for Categorizing Questions in Question-Answering Community)

  • 연종흠;심준호;이상구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.95-99
    • /
    • 2010
  • 소셜 미디어(social media)는 블로그, 소셜 네트워크, 위키 등과 같이 사용자의 참여로 만들어지는 정보 컨텐츠이다. 사용자가 작성한 질문에 다른 사용자들이 답변을하는 질문-답변 커뮤니티 서비스도 이러한 소셜 미디어의 한 가지로서 지난 몇 년간 많은 양의 정보를 축적해왔다. 하지만 축적된 질문-답변의 양이 많아질수록 이전의 질문을 정확히 검색하는 것은 점점 어려운 작업이 되고 있다. 본 논문에서는 질문-답변 커뮤니티의 효율적인 정보 검색을 위해 확장된 나이브 베이즈 분류기(Na$\ddot{i}$ve Bayes classifier)를 이용하여 질문을 그 목적에 따라 정보형, 제안형, 의견형으로 자동 분류하는 기법을 제안한다. 정확한 분류를 위해 분류기는 질문-답변 문서의 구조적인 특징을 활용한다. 실제 질문-답변 커뮤니티의 질문들에 대해 실험을 수행한 결과 71.2%의 분류 정확도를 보였다.