• Title/Summary/Keyword: 구조 유사성

Search Result 2,639, Processing Time 0.038 seconds

A Similarity Evaluation using Structural Information of Documents (문서구조 정보 기반의 유사도 측정)

  • Shin, Mi-Hae;Ko, Bang-Won;Kim, Young-Chul;Jeong, Jin-Yeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2010.07a
    • /
    • pp.499-502
    • /
    • 2010
  • 인터넷의 발달로 인한 수많은 정보의 공유는 지식 정보사회의 발전을 가져왔다. 이러한 정보사회의 발전과 동시에 표절과 같은 새로운 지식 범죄도 급증하고 있다. 표절은 연구의 정직성과 창의성을 떨어뜨리고 학문의 발전을 저해하는 요소이다. 이러한 표절을 근절하기 위해서 그동안 많은 방법들과 시스템들이 제시되었다. 이중 자연어로 구성된 구조가 없는 일반 문서의 표절을 검사하는 방법은 지문법을 이용하였다. 지문법과 같이 통계적인 방법을 이용한 유사도 검사 방법은 문서 대 문서 전체를 비교하기 때문에 부분적 유사성, 즉 문장이나 문단 단위의 비교를 할 수 없는 단점이 있다. 본 논문에서 제시하는 시스템은 자연어로 이루어진 일반문서 중 특별한 문서의 구조 정보를 가질 수 있는 일반 텍스트 문서를 대상으로 유사도를 측정하였다. 즉 텍스트 문서 구조를 AST 형태의 자료구조로 표시하고 이를 이용하여 사용자가 원하는 부분 또는 전체 유사도 측정 방법을 제시한다.

  • PDF

An Automatic Evaluation Metric for Korean Paraphrase via Semantic Frame (시맨틱 프레임을 이용한 한국어 패러프레이즈 자동 평가 방법)

  • Park, Hancheol;Gweon, Gahgene;Choi, Ho-jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.761-764
    • /
    • 2014
  • 본 연구는 지능형 QA시스템과 관련한 연구에서, 자동 패러프레이즈 생성 시스템을 평가하는 새로운 방법을 제시한다. 기존의 패러프레이즈 생성 시스템의 자동 평가 방법은 참조할 수 있는 패러프레이즈 정보의 양이 크게 제한되어 있었으며, 원 문장의 콘텍스트(context)와 이에 의존하는 통사적 구조(syntactic structure) 및 의미적 구조의 유사성을 고려하지 않고, 단순 구/단어 수준의 의미 유사성을 기반으로 생성된 패러프레이즈를 평가하였다. 이러한 문제를 해결하기 위해 본 연구는 시맨틱 프레임(semantic frame)을 이용한 패러프레이즈 문장 평가 방법을 제시한다. 본 연구에서 제시하는 방법론은 문장의 콘텍스트를 표현하는 프레임과 이러한 프레임이 발생시키는 통사적, 의미적 구조의 유사성을 바탕으로 원 문장과 패러프레이즈 문장의 '의미 유사성', '어휘 형태 비 유사성'을 평가하는 방식이다.

XML Document Structure Comparison based on Function Transform and FFT (함수 변환과 FFT에 의한 XML 문서의 구조 비교)

  • Lee Ho-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06c
    • /
    • pp.28-30
    • /
    • 2006
  • XML 문서의 유사성을 비교하는 연구는 XML 문서의 저장 및 검색에 유용하기 때문에 많은 연구가 진행되었다. XML 문서의 유사성 연구는 크게 edit-distance를 이용하는 방법, 문서의 그래프 모델을 이용하는 방법, 문서의 매트릭스 모델을 이용하는 방법 등이 있다. 최근에는 문서를 encoding 하고 푸리에 변환을 이용하는 방법이 보고되었다. 본 논문에서는 XML 문서를 함수로 변환하고 FFT를 적용하여 문서의 구조적 유사성을 비교하는 새로운 방법을 제안한다. 제안하는 방법은 JAXP로 구현하였으며 XML 문서의 구조를 분석하여 함수로 변환하였다. 그리고 함수에 FFT를 적용하여 XML 문서의 구조적 유사성을 비교하였다. FFT 비교 결과는 XML 문서의 함수 변환이 적합한 것임을 보여주었으며 비교 결과는 예상된 결과를 보여주었다.

  • PDF

On vertical profiles of cohesive sediment: concentration, velocity gradient, and Stokes number (가는 유사 부유의 연직구조 특성 : 농도, 속도경사, 스토크스 수)

  • Son, Minwoo;Byun, Jisun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.391-391
    • /
    • 2016
  • 유수동역학적인 요소와 유사의 부유는 서로 상호작용을 주고받으며 다양한 현상을 만들어낸다. 많은 선행연구를 통해 유사 농도 등의 특성이 난류 구조 등의 변화를 야기하며, 변화한 난류 구조 역시 유사의 부유 등에 2차적인 영향을 준다는 점이 확인되었다. 본 연구에서는 가는 유사에 보다 집중하여 유사 부유와 이에 따른 연직구조 특성의 변화를 살펴본다. 본 연구에서는 1차원 연직 모형을 이용하여 수치실험을 수행한다. 본 연구에 이용된 모형은 가는 유사의 특성인 빠른 입자 반응 시간(Particle Response Time)이 가정되는 모형으로 선행연구를 통해 적용성이 검증된 것으로 판단한다. 주요 분석대상은 유사의 농도와 속도경사 간의 관계 등이며, 분석하는 유사 농도 종류는 일반적인 비점착성 유사의 경우에 관심을 가지는 질량 농도에 집중하여 결정된다. 수치실험 수행을 위해서는 정류 흐름, 진동파 흐름 등이 적용되었고 다양한 경우의 가는 유사를 고려하기 위한 실험조건의 변경이 이루어졌다. 수치실험 결과 진동파의 다양한 위상에서 조금씩 달라지는 연직구조가 확인되었다. 이는 보정되는 Schmidt 수의 값과도 연관관계를 가지는 것으로 나타났다. 특히 가는 유사의 경우에도 입자의 크기에 따라 다른 연직구조의 특성이 모의되었으며 이를 통해 수치실험의 경우에도 입자 크기의 고려 하에 매개변수의 보정이 이루어져야 한다는 점을 알 수 있다. 스토크스 수는 입자 반응 시간과 유체 난류 시간규모(Fluid Turbulence Ttime Scale)의 비율을 의미한다. 본 연구를 통해 스토크스 수가 유사의 확산강도 결정과 큰 상관 관계를 가지는 것을 알 수 있다. 이때 유사의 크기와 보정되는 Schmidt 수의 값은 고정되었다. 수치 계산시에 확산계수의 값이 부유 및 이에 따른 연직구조의 특성을 결정하는 중요한 변수라는 점을 고려할 때, 가는 유사의 부유를 모의할 때에는 세심한 주의가 요구된다는 점을 이해할 수 있다. 선행 연구사례를 통해 볼 때 부유하는 입자의 관성력이 Schmidt 수의 결정과 이에 따른 연직 구조의 계산에 큰 영향을 준다는 점을 알 수 있다. 본 연구에서는 스토크스 수를 관성력을 나타낼 수 있는 지표로서 계산하였지만 보다 정량적이고 효율적인 입자 관성력 지표가 제시될 때 효율적인 연구결과의 제시가 이루어질 수 있을 것으로 기대한다.

  • PDF

Design and Implementation of XML Document Generator with Similar Structure (유사 구조를 갖는 XML 문서 생성기의 설계 및 구현)

  • 이범석;이재민;황병연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.163-165
    • /
    • 2004
  • 여러 장점을 가지고 점차 그 사용이 증가하고 있는 XML은 내용뿐만 아니라 그 구조적 정보까지 포함하고 있는 특징을 가지고 있는데, 이러한 XML 문서를 효율적으로 검색하기 위해 구조 유사성을 기반으로 하는 검색 기법이 개발되고 있다. 새롭게 개발되는 유사한 구조의 XML 문서를 검색하는 시스템의 성능 평가를 위해서는 구조적으로 유사한 다량의 XML 데이터가 필요하다. 본 논문에서는 지금까지 개발되었던 유사 구조 문서 생성기를 바탕으로 사용자가 원하는 데이터 구조를 생성하는데 보다 효과적인, 유사 구조를 갖는 XML 문서 생성기인 xTrans를 설계 및 구현한다. xTrans는 원본 XML 문서에 삽입, 삭제, 치환의 세 가지 연산을 이용하여 사용자가 원하는 일정한 비율만큼의 구조적 변화를 일으키는데, 그러한 연산은 불규칙한 위치에서 생성되므로, 같은 비율의 변화가 일어난 여러 개의 유사 구조 문서를 생성할 수 있다. 사용자는 각 연산의 변형 비율을 지정해주어 원하는 만큼 변형시킨 문서를 생성하고, 이 문서들을 이용하여 새롭게 개발되는 유사 구조 문서 검색 시스템의 성능평가에 활용할 수 있다.

  • PDF

Extracting Maximal Similar Paths between Two XML Documents using Sequential Pattern Mining (순차 패턴 마이닝을 사용한 두 XML 문서간 최대 유사 경로 추출)

  • 이정원;박승수
    • Journal of KIISE:Databases
    • /
    • v.31 no.5
    • /
    • pp.553-566
    • /
    • 2004
  • Some of the current main research areas involving techniques related to XML consist of storing XML documents, optimizing the query, and indexing. As such we may focus on the set of documents that are composed of various structures, but that are not shared with common structure such as the same DTD or XML Schema. In the case, it is essential to analyze structural similarities and differences among many documents. For example, when the documents from the Web or EDMS (Electronic Document Management System) are required to be merged or classified, it is very important to find the common structure for the process of handling documents. In this paper, we transformed sequential pattern mining algorithms(1) to extract maximal similar paths between two XML documents. Experiments with XML documents show that our transformed sequential pattern mining algorithms can exactly find common structures and maximal similar paths between them. For analyzing experimental results, similarity metrics based on maximal similar paths can exactly classify the types of XML documents.

현대시 구조의 사영탐색

  • An, Ju-Seon
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2005.05a
    • /
    • pp.271-275
    • /
    • 2005
  • 현대시로부터 $C^d-$분할표를 생성하여 그의 구조적 특징을 사영탐색-플롯(Projection Pursuit-plot)을 이용하여 조사하는 방법을 소개하고, 여러 시집에서 자주 인용된 김소월 시와 서정주 시들에 적용하여 유사성을 비교한다.

  • PDF

Incremental Clustering of XML Documents based on Similar Structures (유사 구조 기반 XML 문서의 점진적 클러스터링)

  • Hwang Jeong Hee;Ryu Keun Ho
    • Journal of KIISE:Databases
    • /
    • v.31 no.6
    • /
    • pp.699-709
    • /
    • 2004
  • XML is increasingly important in data exchange and information management. Starting point for retrieving the structure and integrating the documents efficiently is clustering the documents that have similar structure. The reason is that we can retrieve the documents more flexible and faster than the method treating the whole documents that have different structure. Therefore, in this paper, we propose the similar structure-based incremental clustering method useful for retrieving the structure of XML documents and integrating them. As a novel method, we use a clustering algorithm for transactional data that facilitates the large number of data, which is quite different from the existing methods that measure the similarity between documents, using vector. We first extract the representative structures of XML documents using sequential pattern algorithm, and then we perform the similar structure based document clustering, assuming that the document as a transaction, the representative structure of the document as the items of the transaction. In addition, we define the cluster cohesion and inter-cluster similarity, and analyze the efficiency of the Proposed method through comparing with the existing method by experiments.

Word Sense Disambiguation using Semantically Similar Words (유사어를 이용한 단어 의미 중의성 해결)

  • Seo, Hee-Chul;Lee, Ho;Baek, Dae-Ho;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.304-309
    • /
    • 1999
  • 본 논문에서는 의미계층구조에 나타난 유사어 정보를 이용해서 단어 의미 중의성을 해결하고자 한다. 의미계층구조를 이용한 기존의 방법에서는 의미 벡터를 이용해서 단어 의미 중의성을 해결했다. 의미 벡터는 의미별 학습 자료에서 획득되는 것으로 유사어들의 공통적인 특징만을 이용하고, 유사어 개별 특징은 이용하지 않는다. 본 논문에서는 유사어 개별 특징을 이용하기 위해서 유사어 벡터를 이용해서 단어 의미 중의성을 해결한다. 유사어 벡터는 유사어별 학습 자료에서 획득되는 것으로, 유사어의 개별 정보를 가지고 있는 벡터이다. 세 개의 한국어 명사에 대한 실험 결과, 의미 벡터를 이용하는 것보다 유사어 벡터를 이용하는 경우에 평균 9.5%정도의 성능향상이 있었다.

  • PDF

An Identifying Method of XML Document based on Bitmap Indexing using Path Construction Similarity (경로 구성 유사도를 이용한 비트맵 인덱싱 기반 XML 문서 인식 기법)

  • Lee, Jae-Min;Hwang, Byung-Yeon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1515-1518
    • /
    • 2003
  • XML의 대표적인 특징은 기존의 다른 컨텐츠와는 달리 문서의 구조를 기술할 수 있다는 것이다. 구조적 정보는 활용 방법에 파라 XML문서의 다양한 처리에 있어 성능을 향상시키는 핵심적인 요소가 될 수 있다. 그러나 XML 태그의 자기 서술적인 특성에서 비롯되는 구조적 표현의 차이는 오히려 문서의 식별을 어렵게 하는 원인이 된다. 본 논문에서는 기존의 비트맵 인덱스(Bitmap Index)를 이용한 XML 문서 검색 시스템이 다양한 구조적 유사성을 판별할 수 없는 단점을 보완 가능하도록 경로 중심의 유사 문서 인식 기법을 제안한다. 이 기법은 '경로 구성 유사도'와 '유사 경로 테이블'을 통해 기존의 비트맵 인덱스가 갖는 유사 경로를 인식하지 못하는 단점을 해결하고 검색의 유연성을 부여함으로써 보다 양질의 검색 결과를 도출할 수 있다. 또 이것은 기존 시스템의 Bit-wise 연산에 완전히 이식됨으로써 비트맵 인덱스의 장점인 빠른 성능을 그대로 유지할 수 있게 된다.

  • PDF