• Title/Summary/Keyword: 구조 유사도

Search Result 4,976, Processing Time 0.04 seconds

Design and Implementation of XML Document Generator with Similar Structure (유사 구조를 갖는 XML 문서 생성기의 설계 및 구현)

  • 이범석;이재민;황병연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.163-165
    • /
    • 2004
  • 여러 장점을 가지고 점차 그 사용이 증가하고 있는 XML은 내용뿐만 아니라 그 구조적 정보까지 포함하고 있는 특징을 가지고 있는데, 이러한 XML 문서를 효율적으로 검색하기 위해 구조 유사성을 기반으로 하는 검색 기법이 개발되고 있다. 새롭게 개발되는 유사한 구조의 XML 문서를 검색하는 시스템의 성능 평가를 위해서는 구조적으로 유사한 다량의 XML 데이터가 필요하다. 본 논문에서는 지금까지 개발되었던 유사 구조 문서 생성기를 바탕으로 사용자가 원하는 데이터 구조를 생성하는데 보다 효과적인, 유사 구조를 갖는 XML 문서 생성기인 xTrans를 설계 및 구현한다. xTrans는 원본 XML 문서에 삽입, 삭제, 치환의 세 가지 연산을 이용하여 사용자가 원하는 일정한 비율만큼의 구조적 변화를 일으키는데, 그러한 연산은 불규칙한 위치에서 생성되므로, 같은 비율의 변화가 일어난 여러 개의 유사 구조 문서를 생성할 수 있다. 사용자는 각 연산의 변형 비율을 지정해주어 원하는 만큼 변형시킨 문서를 생성하고, 이 문서들을 이용하여 새롭게 개발되는 유사 구조 문서 검색 시스템의 성능평가에 활용할 수 있다.

  • PDF

On vertical profiles of cohesive sediment: concentration, velocity gradient, and Stokes number (가는 유사 부유의 연직구조 특성 : 농도, 속도경사, 스토크스 수)

  • Son, Minwoo;Byun, Jisun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.391-391
    • /
    • 2016
  • 유수동역학적인 요소와 유사의 부유는 서로 상호작용을 주고받으며 다양한 현상을 만들어낸다. 많은 선행연구를 통해 유사 농도 등의 특성이 난류 구조 등의 변화를 야기하며, 변화한 난류 구조 역시 유사의 부유 등에 2차적인 영향을 준다는 점이 확인되었다. 본 연구에서는 가는 유사에 보다 집중하여 유사 부유와 이에 따른 연직구조 특성의 변화를 살펴본다. 본 연구에서는 1차원 연직 모형을 이용하여 수치실험을 수행한다. 본 연구에 이용된 모형은 가는 유사의 특성인 빠른 입자 반응 시간(Particle Response Time)이 가정되는 모형으로 선행연구를 통해 적용성이 검증된 것으로 판단한다. 주요 분석대상은 유사의 농도와 속도경사 간의 관계 등이며, 분석하는 유사 농도 종류는 일반적인 비점착성 유사의 경우에 관심을 가지는 질량 농도에 집중하여 결정된다. 수치실험 수행을 위해서는 정류 흐름, 진동파 흐름 등이 적용되었고 다양한 경우의 가는 유사를 고려하기 위한 실험조건의 변경이 이루어졌다. 수치실험 결과 진동파의 다양한 위상에서 조금씩 달라지는 연직구조가 확인되었다. 이는 보정되는 Schmidt 수의 값과도 연관관계를 가지는 것으로 나타났다. 특히 가는 유사의 경우에도 입자의 크기에 따라 다른 연직구조의 특성이 모의되었으며 이를 통해 수치실험의 경우에도 입자 크기의 고려 하에 매개변수의 보정이 이루어져야 한다는 점을 알 수 있다. 스토크스 수는 입자 반응 시간과 유체 난류 시간규모(Fluid Turbulence Ttime Scale)의 비율을 의미한다. 본 연구를 통해 스토크스 수가 유사의 확산강도 결정과 큰 상관 관계를 가지는 것을 알 수 있다. 이때 유사의 크기와 보정되는 Schmidt 수의 값은 고정되었다. 수치 계산시에 확산계수의 값이 부유 및 이에 따른 연직구조의 특성을 결정하는 중요한 변수라는 점을 고려할 때, 가는 유사의 부유를 모의할 때에는 세심한 주의가 요구된다는 점을 이해할 수 있다. 선행 연구사례를 통해 볼 때 부유하는 입자의 관성력이 Schmidt 수의 결정과 이에 따른 연직 구조의 계산에 큰 영향을 준다는 점을 알 수 있다. 본 연구에서는 스토크스 수를 관성력을 나타낼 수 있는 지표로서 계산하였지만 보다 정량적이고 효율적인 입자 관성력 지표가 제시될 때 효율적인 연구결과의 제시가 이루어질 수 있을 것으로 기대한다.

  • PDF

A Protein Structure Comparison by 3D Edge Histogram (3D 에지 히스토그램을 이용한 단백질 구조 비교)

  • 박성희;박수준;이성훈;박선희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.805-807
    • /
    • 2003
  • 현재 생물분자의 기능적 관점에서 단백질 구조에 관심이 많이 모아지고 있다. 단백질의 기능은 구조에서 기인하기 때문에 두 단백질의 구조간의 유사성을 측정할 수 있는 방법은 두 단백질의 기능의 유사성을 유추할 수 있다. 본 논문에서는 두 단백질의 구조의 유사성을 측정하기 위한 단백질의 새로운 표현(representation)으로 3차원 에지 히스토그램을 제안한다. 단백질의 3차원 구조를 작은 복셀(voxel)로 이루어진 공간으로 나누고 복셀들로부터 3차원 에지 히스토그램을 추출하여 두 단백질간의 유사도 계산에 이용한다. 이를 통하여 단백질의 검색 및 분류를 시도한다.

  • PDF

Index Structure for Efficient Similarity Search of Multi-Dimensional Data (다차원 데이터의 효과적인 유사도 검색을 위한 색인구조)

  • 복경수;허정필;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.97-99
    • /
    • 2004
  • 본 논문에서는 다차원 데이터의 유사도 검색을 효과적으로 수행하기 위한 색인 구조를 제안한다. 제안하는 색인 구조는 차원의 저주 현상을 극복하기 위한 벡터 근사 기반의 색인 구조이다. 제안하는 색인 구조는 부모 노드를 기준으로 KDB-트리와 유사한 영역 분할 방식으로 분할하고 분할된 각 영역은 데이터의 분포 특성에 따라 동적 비트를 할당하여 벡터 근사화된 영역을 표현한다. 따라서, 하나의 노드 안에 않은 영역 정보를 저장하여 트리의 깊이를 줄일 수 있다. 또한 다차원의 특징 벡터 공간에 상대적인 비트를 할당하기 때문에 군집화되어 있는 데이터에 대해서 효과적이다 제안하는 색인 구조의 우수성을 보이기 위해 다양한 실험을 통하여 성능의 우수성을 입증한다.

  • PDF

A Similarity Evaluation using Structural Information of Documents (문서구조 정보 기반의 유사도 측정)

  • Shin, Mi-Hae;Ko, Bang-Won;Kim, Young-Chul;Jeong, Jin-Yeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2010.07a
    • /
    • pp.499-502
    • /
    • 2010
  • 인터넷의 발달로 인한 수많은 정보의 공유는 지식 정보사회의 발전을 가져왔다. 이러한 정보사회의 발전과 동시에 표절과 같은 새로운 지식 범죄도 급증하고 있다. 표절은 연구의 정직성과 창의성을 떨어뜨리고 학문의 발전을 저해하는 요소이다. 이러한 표절을 근절하기 위해서 그동안 많은 방법들과 시스템들이 제시되었다. 이중 자연어로 구성된 구조가 없는 일반 문서의 표절을 검사하는 방법은 지문법을 이용하였다. 지문법과 같이 통계적인 방법을 이용한 유사도 검사 방법은 문서 대 문서 전체를 비교하기 때문에 부분적 유사성, 즉 문장이나 문단 단위의 비교를 할 수 없는 단점이 있다. 본 논문에서 제시하는 시스템은 자연어로 이루어진 일반문서 중 특별한 문서의 구조 정보를 가질 수 있는 일반 텍스트 문서를 대상으로 유사도를 측정하였다. 즉 텍스트 문서 구조를 AST 형태의 자료구조로 표시하고 이를 이용하여 사용자가 원하는 부분 또는 전체 유사도 측정 방법을 제시한다.

  • PDF

Efficient Generation of Docking Graph in Protein Structure Comparison (단백질 구조 비교에서 유사성 그래프의 효율적인 생성)

  • 최경호;김진홍;이명준;이수현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.893-895
    • /
    • 2003
  • 단백질간 구조 비교는 기능적 또는 구조적으로 연관된 단백질을 분류하거나 모티프(motif)를 찾는데 유용하게 사용되고 있다. 여러 가지 단백질간 구조 비교 방법 중에서 단백질 2차구조를 이용하는 방법은 실행속도의 측면에서 장점이 있다. 본 논문에서는 단백질 2차 구조와 그들 사이의 관계를 기반으로 한 단백질 구조 비교에서 사용될 유사성 그래프를 생성하는 방법을 기술하였다. 유사성 그래프는 단백질의 2차구조 사이의 관계를 노드로 하여 생성되는데, 그 시간복잡도가 O(n$^4$)이다. 이에 본 논문에서는 유사성 그래프의 생성을 효율적으로 할 수 있는 알고리즘을 개발하였다.

  • PDF

Protein Structure Alignment Based on Maximum of Residue Pair Distance and Similarity Graph (정렬된 잔기 사이의 최대거리와 유사도 그래프에 기반한 단백질 구조 정렬)

  • Kim, Woo-Cheol;Park, Sang-Hyun;Won, Jung-Im
    • Journal of KIISE:Databases
    • /
    • v.34 no.5
    • /
    • pp.396-408
    • /
    • 2007
  • After the Human Genome Project finished the sequencing of a human DNA sequence, the concerns on protein functions are increasing. Since the structures of proteins are conserved in divergent evolution, their functions are determined by their structures rather than by their amino acid sequences. Therefore, if similarities between two protein structures are observed, we could expect them to have common biological functions. So far, a lot of researches on protein structure alignment have been performed. However, most of them use RMSD(Root Mean Square Deviation) as a similarity measure with which it is hard to judge the similarity level of two protein structures intuitively. In addition, they retrieve only one result having the highest alignment score with which it is hard to satisfy various users of different purpose. To overcome these limitations, we propose a novel protein structure alignment algorithm based on MRPD(Maximum of Residue Pair Distance) and SG (Similarity Graph). MRPD is more intuitive similarity measure by which fast tittering of unpromising pairs of protein pairs is possible, and SG is a compact representation method for multiple alignment results with which users can choose the most plausible one among various users' needs by providing multiple alignment results without compromising the time to align protein structures.

Korea Information Science Society (순차 패턴을 이용한 XML문서의 유사성 계산 방법 분석)

  • 이원철;이상민
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.232-234
    • /
    • 2004
  • XML 문서의 요소는 의미적인 정보와 트리기반의 구조적인 정보를 포함하고 있기 때문에 요소의 구조적인 유사성이 곧 XML 문서의 유사성으로 연구되어 왔다. 그러나 구조적이고 순차적인 유사성만을 고려한 순차패턴 유사성 검색 방법은 의미적인(sementic) 유사성을 제대로 반영을 할 수가 없다. 이것은 정보 검색에 있어 재현율(recall)을 낮을 수밖에 없는 원인을 제공한다. 따라서 본 논문에서는 기존에 사용되었던 순차패턴을 기반으로 한 유사성의 계산 방법과 각각의 연구 방법이 의미적인 유사성에 대하여 한계가 있음을 찾아보았다.

  • PDF

Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation (문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역)

  • Kim, Hankyong;Na, Hwi-Dong;Li, Jin-Ji;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.44-49
    • /
    • 2009
  • 통계기계번역에서 도메인에 특화된 번역을 시도하여 성능향상을 얻는 방법이 있다. 이를 위하여 문장의 유형이나 장르에 따라 클러스터링을 수행한다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 문장 사이의 문법적 구조 유사성으로 문장을 유형별로 분류하는 새로운 기법을 제시하였고, 단어 유사도 정보로 문서의 장르를 구분하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조의 유사성과 단어 유사도 계산을 위하여 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정은 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

  • PDF

Technique for Path-based Similarity Evaluation of XML Documents (경로 기반의 XML 문서 유사도 계산 기법)

  • Yi Dong-Ae;Jang Duck-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.689-692
    • /
    • 2004
  • XML은 의미적으로는 동일하거나 혹은 유사하지만 서로 다른 구조의 XML 문서들을 허용하므로 XML 문서들을 대상으로 하는 검색, 클러스터링 등의 응용에서는 XML 문서들간의 유사도 계산이 선행되어져야 한다. XML 문서간 유사도를 계산하기 위해서는 문서의 구조 정보인 엘리먼트들과 이들 엘리먼트들의 계층적 구조가 고려되어져야 한다. 본 연구에서는 두 XML 문서가 얼마나 유사한 경로들을 공통으로 가지냐를 두 문서간의 유사도로 보고, 경로 유사도 계산식과, 이를 기반으로 하는 문서 거리 및 문서 유사도 계산식을 정의하여, 유사도 계산 기법을 제안한다. 제안된 기법과 기존 유사도 계산 기법들을 예제 문서들을 통해 계산결과를 비교한다.

  • PDF