• 제목/요약/키워드: schema extraction

검색결과 46건 처리시간 0.029초

XML데이터를 위한 효율적인 구조 정보 추출 기법 (Efficient Structural Information Extraction for XML Data)

  • 민준기
    • 정보처리학회논문지D
    • /
    • 제14D권3호
    • /
    • pp.285-292
    • /
    • 2007
  • XML 데이터가 웹 상의 데이터 표현 및 교환의 표준으로 각광 받음으로써, XML에 대한 관심이 증대되고 있다. XML 문서의 구조 정보는 몇 가지 중요한 역할을 수행한다. 이러한 중요성에도 불구하고 XML 문서의 구조정보는 필수 요소가 아니다. 따라서, 이러한 구조 정보를 추출하기 위한 다양한 연구들이 진행되어 왔다. 본 논문에서, 우리는 XML 문서를 위한 간결하고 정확한 DTD를 추출하는 기법을 제안한다. 특히 XML 문서의 구조 정보를 위한 DTD의 내용 모델을 DTD와 XML Schema의 혼합 내용(mixed contents)의 타당성 제약 조건을 이용하여 제한하고 본 논문에서 제안하는 몇 가지 경험적 규칙들을 적용함으로써, 우리는 간결성과 효율적을 이룩하였다. 실제 DTD를 이용한 실험을 통하여 본 논문에서 제안하는 기법이 기존의 접근 방법들에 비하여 뛰어남을 보였다.

HTML 태그페턴을 이용한 웹정보추출시스템 (Web Information Extraction using HTML Tag Pattern)

  • 박병권
    • 한국정보시스템학회:학술대회논문집
    • /
    • 한국정보시스템학회 2005년도 춘계학술대회 발표 논문집
    • /
    • pp.79-92
    • /
    • 2005
  • To query the vast amount of web pages which are available i]l the Internet, it is necessary to extract the encoded information in the web pages for converting it into structured data (e.g. relational data for SQL) or semistructured data (e.g. XML data for XQuery), In this paper, we propose a new web information extraction system, PIES, to convert web information into XML documents. PIES is based on a user-specified target schema and HTML tag pattern descriptions. The web information is extracted by the pattern descriptions and validated by the target schema. We designed a new language to describe extraction rules, and a new regular expression to describe HTML tag patterns. We implemented PIES and applied it to the US patent web site to evaluate its correctness. It successfully extracted more than thousands of US patent data and converted them into XML documents.

  • PDF

XML 문서에서의 단계화된 스키마 추출 (The Levelized Schema Extraction in XML Documents)

  • 김성림;윤용익
    • 한국멀티미디어학회논문지
    • /
    • 제5권1호
    • /
    • pp.105-113
    • /
    • 2002
  • 인터넷상에서 데이터를 표현하고 교환하는 새로운 표준으로 등장하는 XML 문서는 정해진 스키마를 가지고 있지 않다. XML 문서를 기존의 관계형 데이터베이스나 객체 지향 데이터 베이스 질의어에 바로 적용하기에는 부적합하여 이러한 XML문서에 대해 스키마를 추출하는 방법과 질의어에 대한 연구가 활발히 진행되고 있다. 스키마가 있다면 XML 문서에 대 해 사용자 질의를 효율적으로 처리할 수 있다. 그리고 수많은 데이터에서 사용자의 질의에 대한 결과는 너무 많거나 적을 수가 있다. 사용자에게 알맞은 질의 결과를 보여주는 것은 중요하다. 본 논문에서는 XML문서의 엘리먼트 정보를 바탕으로 스키마를 추출하고, 그 발생 빈도 수에 따라 여러 단계의 스키마를 추출하는 방법을 제시하고, 이를 구현하여 그 결과를 분석해본다.

  • PDF

개체 분포의 다양성을 유지시키는 GA를 위한 스키마 추출 기법 (The Schema Extraction Method for GA Preserving Diversity of the Distributions in Population)

  • Jo, Yong-Gun;Jang, Sung-Hwan;Hoon Kang
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 춘계학술대회 학술발표 논문집
    • /
    • pp.232-235
    • /
    • 2000
  • In this paper, we introduce a new genetic reordering operator based on the concept of schema to solve the Traveling Salesman Problem(TSP). Because TSP is a well-known combinatorial optimization problem and belongs to a NP-complete problem, there is a huge solution space to be searched. For robustness to local minima, the operator separates selected strings into two parts to reduce the destructive probability of good building blocks. And it applies inversion to the schema part to prevent the premature convergence. At the same time, it searches new spaces of solutions. In addition, we have the non-schema part to be applied to inversion as well as for robustness to local minima. By doing so, we can preserve diversity of the distributions in population and make GA be adaptive to the dynamic environment.

  • PDF

XML 스키마로부터 관계형 스키마 추출 기법 (Extraction of Relational Schema from XML Schema)

  • 김은욱;민미경
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.351-354
    • /
    • 2002
  • 데이터로서 XML의 의미가 중요해짐에 따라 XML 문서를 저장하는 방법들에 대한 연구가 활발히 진행되고 있다. 그 중 하나가 스키마를 이용하여 XML 문서를 관계형 데이터베이스에 저장하는 것으로서, 지금까지 DTD를 중심으로 연구가 이루어져 왔으나, XML 스키마의 등장으로 DTD의 단점을 보완하고, 기존 관계형 데이터베이스와 보다 유사하게 표현 할 수 있게 되었다. 본 논문에서는 XML 스키마에서 관계형 스키마를 추출하는 기법을 제시한다. 제시된 기법은 DTD에서 관계형 스키마를 추출하는 기법을 기반으로 하여, DTD에서 표현할 수 없는 사용자 정의 데이터형을 추가로 제공하는 등, XML 스키마의 속성과 요소에 따른 여러 특성을 표현할 수 있다.

  • PDF

XMDR을 이용한 정형화된 메시지 교환 기법 설계 (Design of Formalized message exchanging method using XMDR)

  • 황치곤;정계동;최영근
    • 한국정보통신학회논문지
    • /
    • 제12권6호
    • /
    • pp.1087-1094
    • /
    • 2008
  • 최근 들어 XML은 데이터 교환을 위한 표준으로 널리 사용되고 있으며, XML 문서의 크기가 커지는 경향이 나타나고 있다. 특히, 데이터 웨어하우스와 같이 대량의 데이터를 수집하여 분석하는 경우 데이터 이동은 트래픽의 증가로 인해 문제점이 발생할 수 있다. 따라서 이러한 문제를 해결하기 위해 XMDR 래퍼는 XML Schema의 트리 구조를 분석하고, 분석된 트리 구조를 통해 XML Schema를 재생성하여 XMDR_Query와 함께 각 스테이션에 전송한다. 결과로 반환되는 XML 문서는 XML Schema에 따라 XML 태그를 코드화하여 정형화된 메시지를 전달한다. 정형화된 XML 문서는 네트워크의 트래픽을 감소시키고, XML 계층정보를 포함하고 있어 데이터 추출, 변환 및 정렬에 효율적 이라는 장점을 가진다. 뿐만 아니라 정형화된 형식 이므로 XSLT를 통한 변환과정에서도 효율적이다. 각 스테이션에 전송되는 XML Schema와 XMDR_Query는 XMDR(eXtended Meta-Data Registry)을 통해 생성하고, 각 스테이션의 래퍼에서 결과 생성 및 XML 변환이 이루어지도록 하는 방법을 제안한다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

기본의미등록기의 RDF/OWL 연계방안에 관한 연구 (Designing Schemes to Associate Basic Semantics Register with RDF/OWL)

  • 오삼균
    • 정보관리학회지
    • /
    • 제20권3호
    • /
    • pp.241-259
    • /
    • 2003
  • 기본의미등록기(BSR)는 전자상거래 및 EDI 관련 시스템 사이의 상호연동을 가능하게 하기 위한 등록기이다. XML 기반 BSR 등록개체들의 구조정보나 다양한 관계의 자동추출은 현재 불가능하다. 이 연구에서는 BSR에 등록되는 정보를 자원기술-프레임웍(RDF)과 웹온톨로지언어(OWL)에 기반하는 기계가독형으로 정의한 대표적인 예를 제시하고 결론적으로 5개의 기본 권고안을 도출하였다. 즉 BSR 컴포넌트 소속의 클래스 정의에서 동의어의 표현에는 OWL의 'sameAs', 유사어 표현에는 OWL의 'equivalenlClass', BSR 개념들 간의 상.하 관계 표현은 RDF 스키마의 'subClassOF', BSR의 의미단위(BSU)에 관한 정의는 RDF 스키마의 'label', 인스턴스 용례에 관한 설명은 RDF 스키마의 'comment', 각 BSU의 클래스 소속에 관한 정의는 RDF 스키마의 'domain', BSU가 취할 수 있는 데이터유형에 대한 정의는 RDF 스키마의 'range'등을 적용하며, 나아가 BSR 데이터요소의 정의에 XML 스키마의 데이터 유형을 접목시키고 BSU들 간의 상.하 관계 표현에 RDF 스키마의 'subPropertyOF'를 적용할 것을 추천하였다.

협업적 제품 거래 환경에서 STEP 기반의 제품정보 추출 시스템 (Product Information Extraction System Based on STEP in CPC Environment)

  • 김준형;박상호;김현
    • 대한기계학회:학술대회논문집
    • /
    • 대한기계학회 2003년도 추계학술대회
    • /
    • pp.1840-1845
    • /
    • 2003
  • Collaborative product commerce (CPC) supports a collaboration that a global enterprise and customer related to life cycle of product share product information and a collaboration process for the collaboration, and integrating applications. In this paper, we use common data schema in order to solve a interoperability problem about shared product information between enterprises. And we map to common data schema from each other different data format. Therefore we implement CPC Adaptor in order to integrate distributed product information.

  • PDF

협업적 제품 거래 환경에서 STEP 기반의 제품정보 추출 시스템 (Product Information Extraction System Based on STEP in CPC Environment)

  • 박상호;김준형;김현
    • 대한기계학회논문집A
    • /
    • 제28권5호
    • /
    • pp.648-653
    • /
    • 2004
  • Collaborative product commerce (CPC) supports a collaboration that a global enterprise and customer related to lift cycle of product share product information and a collaboration process for the collaboration, and integrating applications. In this paper, we use common data schema in order to solve a interoperability problem about shared product information between enterprises. And we map to common data schema from each other different data format. Therefore we implement CPC Adaptor in order to integrate distributed product information.