• Title/Summary/Keyword: 유사도 판별

Search Result 380, Processing Time 0.025 seconds

(The Classification Method of the Document Plagiarism Similarity based on Similar Syntagma Tree and Non-Index Term) (유사 어절 트리와 비 색인어 기반의 문서 표절 유사도 분류 방법)

  • 천승환;김미영;이귀상
    • Journal of the Korea Computer Industry Society
    • /
    • v.3 no.8
    • /
    • pp.1039-1048
    • /
    • 2002
  • It is difficult and laborious to distinguish between the original and the plagiarism about the electrical documents or on-line received documents, specially student homeworks because in many case, the homeworks are written on the same subject. Existing methods are not appropriate to solve this problem, which find the most appropriate category using the expression frequency of index term in documents to be classified. In this paper, a new classification method was proposed to distinguish between the original and the plagiarism about documents which were written similarly which is based on the syntagma vector - except the similar syntagma tree structure and non-index term.

  • PDF

Clustering Method Of Plagiarism Document To Use Similarity Syntagma Tree (유사 어절 트리를 이용한 표절 문서의 Clustering 방법)

  • Cheon, Seung-Hwan;Kim, Mi-Young;Lee, Guee-Sang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.2269-2272
    • /
    • 2002
  • 인터넷과 컴퓨터를 이용한 학생들의 과제물을 평가하는데 있어 표절의 용이성으로 인해 정확히 판별하는 것은 매우 어렵고 번거로운 일이다. 특히 동일한 주제에 대해서 작성되는 경우가 많으므로 독자적으로 작성된 문서와 표절되어진 문서를 판별하기가 쉽지 않다. 이것은 클러스터링 하고자 하는 문서들에서 주요 단어들 즉, 색인어들의 출현 빈도를 추출한 뒤 이를 이용하여 가장 적합한 Clustering을 찾는 기존의 정보 검색 방법들과는 전혀 다른 문제이다. 본 논문에서는 과제물의 평가에 지침을 제공할 수 있도록 유사 어절 트리를 이용한 표절 유사도에 따른 Cluster들을 생성하는 방법에 대해 제안한다.

  • PDF

Color Similarity for Clothes using Non-Parametric Clustering (비모수적 클러스터링을 이용한 의상 색상 유사도)

  • Ju, Hyungdon;Hong, Min;Cho, We-Duke;Choi, Yoo-Joo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.193-196
    • /
    • 2007
  • 본 논문은 비모수적 클러스터링 기법을 이용하여 다양한 조명에 노출된 의상들의 색상 유사성을 안정적으로 판단하는 방법을 제안한다. 색상 유사성 판별을 위하여 기존에 대표적으로 사용되어왔던 히스토그램 인터섹션이나 누적 히스토그램 방법은 조명 변화에 민감하게 반응하여, 동일한 의상 색상이라 할지라도 서로 다른 조명환경에서는 서로 상이한 색상 판별 결과를 나타낸다. 본 논문에서는 조명에 의한 영향을 줄이고, 색상 자체의 분포 특성을 분석하기 위하여 조명조건의 변화에도 일관된 특성을 유지하는 색도와 채도 컬러 성분에 대한 분포 특성을 비모수적 클러스터링 기법을 적용하여 분석한다. 실험 결과 제안기법은 동일한 의상 쌍과 상이한 의상 쌍에 대하여 구분을 지을 수 있는 양자화의 특성이 뚜렷하게 표현되었다.

  • PDF

An Adaptive Network Fuzzy Inference System for the Fault Types Classification in the Distribution Lines (배전선로의 고장유형 판별을 위한 적응형 퍼지추론 시스템)

  • 정호성;신명철
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.11 no.2
    • /
    • pp.101-108
    • /
    • 2001
  • 본 논문에서는 배전선로에서 발생하는 여러 고장유형을 판별하기 위해서 적응형 퍼지추론 시스템을 적용하는 새로운 기법을 제시하였다. 배전선로의 고장과 고장유사현상 데이터를 추출하기 위해서 EMTP를 이용하여 RL부하, 아크로부하, 컨버터부하가 있는 배전계통을 구성하고 여러 형태의 고장과 고장유사현상에 대해 시뮬레이션을 하였다. 이를 통해 얻은 전류 파형으로부터 기본파성분, 영상분전류, 짝수 고조파성분의 합, 홍수 고조파성분의 합, 그리고 비정규 고조파성분의 합의 5개의 입력변수를 추출하고 학습을 통해서 각 입력변수의 소속함수의 소속도를 자동으로 결정하였다. 이 적응형 퍼지추론 시스템을 이용한 기법을 평가하기 위해서 학습시와 다른 고장상황을 모의하여 얻은 데이터와 실증시험 데이터를 이용하였다. 결과적으로 제안한 기법은 배전선로에서 발생하는 고장유형을 빠르고 정확하게 판별할 수 있었다.

  • PDF

Identification of Internet news reliability using TF-IDF and KoBERT models (TF-IDF와 KoBERT 모델을 이용한 인터넷 뉴스 신뢰도 판별)

  • Na-Hyeon Kim;Ik-won Seo;Jeong-Hyeon Kim;Chae-Young Son;Dong-Young Yoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.353-354
    • /
    • 2023
  • 디지털 환경이 진화함에 따라 가짜뉴스가 늘어나고 있다. 이를 판별하기 위해 법적 규제에 대한 논의가 있으나, 가짜뉴스에 대한 범위와 정의가 명확하지 않아 규제가 쉽지 않다. 본 논문에서는 이에 대한 대안으로 TF-IDF 기법과 KoBERT 모델을 이용한 키워드 추출 및 문장 유사도 분석을 통해 YouTube 플랫폼을 대상으로 한 가짜뉴스 판별을 위한 모델을 제안한다.

Intrusion Types Identification for HMM-based Anomaly Detection System Using Edit Distance (Edit Distance를 이용한 오용탐지 시스템의 침입유형 판별)

  • 구자민;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.874-876
    • /
    • 2003
  • 전산 시스템에 대한 침입에 대응하기 위하여 시스템 호출 감사자료 척도를 사용하여 은닉 마르코프 모델(HMM)에 적용하는 비정상행위 기반 침입탐지 시스템에 대한 연구가 활발하다. 하지만, 이는 일정한 임계간 이하의 비정상행위만을 감지할 뿐, 어떠한 유형의 침입인지를 판별하지 못한다. 이에 Viterbi 알고리즘을 이용하여 상태 시퀀스를 분석하고, 공격 유형별 표준 상태시퀀스와의 유사성을 측정하여 유형을 판별할 수 있는데, 외부 혹은 내부 환경에 따라 상태 시퀀스가 항상 규칙적으로 추출될 수 없기 때문에, 단순 매칭으로 침입 유형을 판별하기가 어렵다. 본 논문에서는 이러한 문제를 해결하기 위하여 시퀀스의 변형을 효과적으로 고려하는 편집거리(Edit distance)를 이용하여 어떠한 유형의 침입이 발생하였는지를 판별하는 방법을 제안한다. 본 논문에서는 루트권한을 취득하기 위한 대표적인 침입유형으로 가장 널리 쓰이는 버퍼오버플로우 공격에 대해 실험하였는데, 그 결과 세부적인 침입 유형을 잘 판별할 수 있음을 확인하였다.

  • PDF

The Sentence Similarity Measure Using Deep-Learning and Char2Vec (딥러닝과 Char2Vec을 이용한 문장 유사도 판별)

  • Lim, Geun-Young;Cho, Young-Bok
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.22 no.10
    • /
    • pp.1300-1306
    • /
    • 2018
  • The purpose of this study is to see possibility of Char2Vec as alternative of Word2Vec that most famous word embedding model in Sentence Similarity Measure Problem by Deep-Learning. In experiment, we used the Siamese Ma-LSTM recurrent neural network architecture for measure similarity two random sentences. Siamese Ma-LSTM model was implemented with tensorflow. We train each model with 200 epoch on gpu environment and it took about 20 hours. Then we compared Word2Vec based model training result with Char2Vec based model training result. as a result, model of based with Char2Vec that initialized random weight record 75.1% validation dataset accuracy and model of based with Word2Vec that pretrained with 3 million words and phrase record 71.6% validation dataset accuracy. so Char2Vec is suitable alternate of Word2Vec to optimize high system memory requirements problem.

Discrimination of Geographical Origin for Herbal Medicine by Mineral Content Analysis with Energy Dispersive X-Ray Fluorescence Spectrometer (에너지분산형 X-선 형광분석기를 이용한 한약재의 무기질 분석 및 이에 의한 원산지 판별)

  • Jeong, Myeong-Sil;Lee, Soo-Bok
    • Korean Journal of Food Science and Technology
    • /
    • v.40 no.2
    • /
    • pp.135-140
    • /
    • 2008
  • In this study, the macromineral content ratios of four herbal medicine samples(Saposhnikoviae Radix, Bupleuri Radix, Cnidii Rhizoma, and Astragali Radix) were analyzed to discriminate their geographical origins using an energydispersive x-ray fluorescence (EDXRF) technique. EDXRF is a rapid, non-destructive, and multi-elemental analysis technique. Initially, samples of both domestic and imported herbal medicines were pulverized, and then their macromineral contents, including P, S, K, and Ca, were analyzed using EDXRF. For the discrimination of their geographical origins, canonical discriminant analysis was carried out based on the estimated macromineral relative content ratios of the samples. According to the results, the discrimination accuracies were as follows: 93.3% for Saposhnikoviae Radix, 95.7% for Bupleuri Radix, 98.8% for Cnidii Rhizoma, and 87.5% for Astragali Radix. Overall, the results imply that this technique could be used as a standard method, to discriminate their geographical origins between domestic and imported herbal medicines.

Ensemble Composition Methods for Binary Classification of Imbalanced Data (불균형 데이터의 이진 분류를 위한 앙상블 구성 방법)

  • Yeong-Hun Kim;Ju-Hing Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.689-691
    • /
    • 2023
  • 불균형 데이터의 분류의 성능을 향상시키기 위한 앙상블 구성 방법에 관하여 연구한다. 앙상블의 성능은 앙상블을 구성한 기계학습 모델 간의 상호 다양성에 큰 영향을 받는다. 기존 방법에서는 앙상블에 속할 모델 간의 상호 다양성을 높이기 위해 Feature Engineering 을 사용하여 다양한 모델을 만들어 사용하였다. 그럼에도 생성된 모델 가운데 유사한 모델들이 존재하며 이는 상호 다양성을 낮추고 앙상블 성능을 저하시키는 문제를 가지고 있다. 불균형 데이터의 경우에는 유사 모델 판별을 위한 기존 다양성 지표가 다수 클래스에 편향된 수치를 산출하기 때문에 적합하지 않다. 본 논문에서는 기존 다양성 지표를 개선하고 가지치기 방안을 결합하여 유사 모델을 판별하고 상호 다양성이 높은 후보 모델들을 앙상블에 포함시키는 방법을 제안한다. 실험 결과로써 제안한 방법으로 구성된 앙상블이 불균형이 심한 데이터의 분류 성능을 향상시킴을 확인하였다.

Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch (어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축)

  • Jeong, Jaehwan;Kim, Dongjun;Lee, Woochul;Lee, Yeonsoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.265-271
    • /
    • 2019
  • 본 논문은 어휘가 비슷한 문장들을 효과적으로 분류하는 BERT 기반 유사 문장 분류기의 학습 자료 구성 방법을 제안한다. 기존의 유사 문장 분류기는 문장의 의미와 상관 없이 각 문장에서 출현한 어휘의 유사도를 기준으로 분류하였다. 이는 학습 자료 내의 유사 문장 쌍들이 유사하지 않은 문장 쌍들보다 어휘 유사도가 높기 때문이다. 따라서, 본 논문은 어휘 유사도가 높은 유사 의미 문장 쌍들과 어휘 유사도가 높지 않은 의미 문장 쌍들을 학습 자료에 추가하여 BERT 유사 문장 분류기를 학습하여 전체 분류 성능을 크게 향상시켰다. 이는 문장의 의미를 결정짓는 단어들과 그렇지 않은 단어들을 유사 문장 분류기가 학습하였기 때문이다. 제안하는 학습 데이터 구축 방법을 기반으로 학습된 BERT 유사 문장 분류기들의 학습된 self-attention weight들을 비교 분석하여 BERT 내부에서 어떤 변화가 발생하였는지 확인하였다.

  • PDF