• Title/Summary/Keyword: 코사인 상관계수

Search Result 21, Processing Time 0.026 seconds

Assessment of English Essay Topic Suitability using Keyword of Instruction (문제 핵심 어휘를 이용한 영어 논술 주제 적합성 평가)

  • Goh, Dae-Ohk;Kim, Minjeong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.148-153
    • /
    • 2012
  • 본 논문에서는 그동안 영어 자동 평가에서 다루지 않은 문제와 답안의 적합성에 대한 평가를 시도한다. 답안이 주어진 문제에 적합한지를 평가하기 위해 문제에서 내용어를 중심으로 핵심어를 추출하며, 이렇게 추출한 핵심어와 각 답안의 적합성을 코사인 상관계수를 이용하여 구해본다. 한 문제에서 추출 가능한 핵심어가 매우 한정되어 있으므로 추가적으로 워드넷의 관련어나 예시 답안을 활용하여 확장한 핵심어 목록으로 실험을 하였으며, 실험 결과를 통해 핵심어를 이용한 답안과 문제의 적합성 평가가 가능함을 보였다.

  • PDF

Parametric and Non Parametric Measures for Text Similarity (텍스트 유사성을 위한 파라미터 및 비 파라미터 측정)

  • Mlyahilu, John;Kim, Jong-Nam
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.20 no.4
    • /
    • pp.193-198
    • /
    • 2019
  • The wide spread of genuine and fake information on internet has lead to various studies on text analysis. Copying and pasting others' work without acknowledgement, research results manipulation without proof has been trending for a while in the era of data science. Various tools have been developed to reduce, combat and possibly eradicate plagiarism in various research fields. Text similarity measurements can be manually done by using both parametric and non parametric methods of which this study implements cosine similarity and Pearson correlation as parametric while Spearman correlation as non parametric. Cosine similarity and Pearson correlation metrics have achieved highest coefficients of similarity while Spearman shown low similarity coefficients. We recommend the use of non parametric methods in measuring text similarity due to their non normality assumption as opposed to the parametric methods which relies on normality assumptions and biasness.

An Empirical Study on Hybrid Recommendation System Using Movie Lens Data (무비렌즈 데이터를 이용한 하이브리드 추천 시스템에 대한 실증 연구)

  • Kim, Dong-Wook;Kim, Sung-Geun;Kang, Juyoung
    • The Journal of Bigdata
    • /
    • v.2 no.1
    • /
    • pp.41-48
    • /
    • 2017
  • Recently, the popularity of the recommendation system and the evaluation of the performance of the algorithm of the recommendation system have become important. In this study, we used modeling and RMSE to verify the effectiveness of various algorithms in movie data. The data of this study is based on user-based collaborative filtering using Pearson correlation coefficient, item-based collaborative filtering using cosine correlation coefficient, and item-based collaborative filtering model using singular value decomposition. As a result of evaluating the scores with three recommendation models, we found that item-based collaborative filtering accuracy is much higher than user-based collaborative filtering, and it is found that matrix recommendation is better when using matrix decomposition.

  • PDF

Classification of Cancer-related Gene Expression Data Using Neural Network Classifiers (신경망 분류기를 이용한 암 관련 유전자 발현정보를 분류)

  • 권영준;류중원;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.295-297
    • /
    • 2001
  • 최근 생물 유전자 정보를 효과적으로 분석하기 위한 적절한 도구의 필요성이 대두되고 있다. 본 논문에서는 백혈병 환자의 골수로부터 얻어낸 DNA Microarray 유전 정보를 분류하여 환자가 가지고 있는 암의 종류를 예측하기 위한 최적의 특징추출방법과 분류 방법을 찾고자 한다. 이를 위해 피어슨 상관관계, 유클리디안 거리, 코사인 계수, 스피어맨 상관관계, 정보 이득, 상호 정보, 신호 대잡음비의 7가지 특징 추출 방법을 사용하였으며, 역전과 신경망, 의사결정 트리, 구조 적응형 자기구성 지도, $textsc{k}$-최근접 이웃 등 가지의 기계학습 분류기를 이용하여 분류 실험을 하였다. 실험결과, 피어슨 상관관계와 역전파 신경망을 이용한 분류 방법이 97.1%의 인식률을 보임을 알 수 있었다.

  • PDF

Relation Analysis of Disease and Biomarker based on Google Scholar (구글 학술 검색 기반의 질병과 바이오마커 관계 분석)

  • Oh, Byoung-Doo;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.238-241
    • /
    • 2017
  • 본 논문에서는 구글 학술 검색 기반의 데이터를 이용하여 질병과 폐질환과 관련된 바이오마커 단어의 유사도를 계산하는 방법을 제안한다. 질병과 바이오마커의 유사도를 계산할 때, 각 단어의 구글 학술 검색의 검색 결과를 이용하였다. 이를 통해 폐질환 관련 바이오마커와 다른 질병간의 관계를 파악하고자 하며, 의료 전문가에게 폐질환 관련 바이오마커와 다른 질병간의 새로운 관계를 제시하고자 한다. 이러한 데이터를 이용하여 계산한 결과, Wor2Vec의 결과를 이용한 코사인 유사도의 결과와 상관 계수가 약 0.64로 상당히 높은 상관 관계를 확인할 수 있었다. 따라서 이 방법을 통해 질병과 바이오마커의 관계를 파악하고자 하였다. 또한 Word2Vec을 이용한 질병과 바이오마커 단어의 벡터 값과 단어 유사도 계산 방법의 결과를 이용한 Deep Neural Networks (DNNs) 모델을 구축하고자 하며, 이를 통해 자동적으로 유사도를 분석하고자 하였다.

  • PDF

Relation Analysis of Disease and Biomarker based on Google Scholar (구글 학술 검색 기반의 질병과 바이오마커 관계 분석)

  • Oh, Byoung-Doo;Kim, Yu-Seop
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.238-241
    • /
    • 2017
  • 본 논문에서는 구글 학술 검색 기반의 데이터를 이용하여 질병과 폐질환과 관련된 바이오마커 단어의 유사도를 계산하는 방법을 제안한다. 질병과 바이오마커의 유사도를 계산할 때, 각 단어의 구글 학술 검색의 검색 결과를 이용하였다. 이를 통해 폐질환 관련 바이오마커와 다른 질병간의 관계를 파악하고자 히며, 의료 전문가에게 폐질환 관련 바이오마커와 다른 질병간의 새로운 관계를 제시하고자 한다. 이러한 데이터를 이용하여 계산한 결과, Wor2Vec의 결과를 이용한 코사인 유사도의 결과와 상관 계수가 약 0.64로 상당히 높은 상관 관계를 확인할 수 있었다. 따라서 이 방법을 통해 질병과 바이오마커의 관계를 파악하고자 하였다. 또한 Word2Vec을 이용한 질병과 바이오마커 단어의 벡터 값과 단어 유사도 계산 방법의 결과를 이용한 Deep Neural Networks (DNNs) 모델을 구축하고자 하며, 이를 통해 자동적으로 유사도를 분석하고자 하였다.

  • PDF

Development of Adaptive Digital Image Watermarking Techniques (적응형 영상 워터마킹 알고리즘 개발)

  • Min, Jun-Yeong
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.4
    • /
    • pp.1112-1119
    • /
    • 1999
  • Digital watermarking is to embed imperceptible mark into image, video, audio and text data to prevent the illegal copy of multimedia data, arbitrary modification, and also illegal sales of the copes without agreement of copyright ownership. The DCT(discrete Cosine Transforms) transforms of original image is conducted in this research and these DCT coefficients are expanded by Fourier series expansion algorithm. In order to embed the imperceptible and robust watermark, the Fourier coefficients(lower frequency coefficients) can be calculated using sine and cosine function which have a complete orthogonal basis function, and the watermark is embedded into these coefficients, In the experiment, we can show robustness with respect to image distortion such as JPEG compression, bluring and adding uniform noise. The correlation coefficient are in the range from 0.5467 to 0.9507.

  • PDF

Improving the Performance of Document Clustering with Distributional Similarities (분포유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구)

  • Lee, Jae-Yun
    • Journal of the Korean Society for information Management
    • /
    • v.24 no.4
    • /
    • pp.267-283
    • /
    • 2007
  • In this study, measures of distributional similarity such as KL-divergence are applied to cluster documents instead of traditional cosine measure, which is the most prevalent vector similarity measure for document clustering. Three variations of KL-divergence are investigated; Jansen-Shannon divergence, symmetric skew divergence, and minimum skew divergence. In order to verify the contribution of distributional similarities to document clustering, two experiments are designed and carried out on three test collections. In the first experiment the clustering performances of the three divergence measures are compared to that of cosine measure. The result showed that minimum skew divergence outperformed the other divergence measures as well as cosine measure. In the second experiment second-order distributional similarities are calculated with Pearson correlation coefficient from the first-order similarity matrixes. From the result of the second experiment, secondorder distributional similarities were found to improve the overall performance of document clustering. These results suggest that minimum skew divergence must be selected as document vector similarity measure when considering both time and accuracy, and second-order similarity is a good choice for considering clustering accuracy only.

A Empirical Study on Recommendation Schemes Based on User-based and Item-based Collaborative Filtering (사용자 기반과 아이템 기반 협업여과 추천기법에 관한 실증적 연구)

  • Ye-Na Kim;In-Bok Choi;Taekeun Park;Jae-Dong Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.714-717
    • /
    • 2008
  • 협업여과 추천기법에는 사용자 기반 협업여과와 아이템 기반 협업여과가 있으며, 절차는 유사도 측정, 이웃 선정, 예측값 생성 단계로 이루어진다. 유사도 측정 단계에는 유클리드 거리(Euclidean Distance), 코사인 유사도(Cosine Similarity), 피어슨 상관계수(Pearson Correlation Coefficient) 방법 등이 있고, 이웃 선정 단계에는 상관 한계치(Correlation-Threshold), 근접 N 이웃(Best-N-Neighbors) 방법 등이 있다. 마지막으로 예측값 생성 단계에는 단순평균(Simple Average), 가중합(Weighted Sum), 조정 가중합(Adjusted Weighted Sum) 등이 있다. 이처럼 협업여과 추천기법에는 다양한 기법들이 사용되고 있다. 따라서 본 논문에서는 사용자 기반 협업여과와 아이템 기반 협업여과 추천기법에 사용되는 유사도 측정 기법과 예측값 생성 기법의 최적화된 조합을 알아보기 위해 성능 실험 및 비교 분석을 하였다. 실험은 GroupLens의 MovieLens 데이터 셋을 활용하였고 MAE(Mean Absolute Error)값을 이용하여 추천기법을 비교 하였다. 실험을 통해 유사도 측정 기법과 예측값 생성 기법의 최적화된 조합을 찾을 수 있었고, 사용자 기반 협업여과와 아이템 기반 협업여과의 성능비교를 통해 아이템 기반 협업여과의 성능이 보다 우수했음을 확인 하였다.

An Analysis Scheme Design of Customer Spending Pattern using Text Mining (텍스트 마이닝을 이용한 소비자 소비패턴 분석 기법 설계)

  • Jeong, Eun-Hee;Lee, Byung-Kwan
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.11 no.2
    • /
    • pp.181-188
    • /
    • 2018
  • In this paper, we propose an analysis scheme of customer spending pattern using text mining. In proposed consumption pattern analysis scheme, first we analyze user's rating similarity using Pearson correlation, second we analyze user's review similarity using TF-IDF cosine similarity, third we analyze the consistency of the rating and review using Sendiwordnet. And we select the nearest neighbors using rating similarity and review similarity, and provide the recommended list that is proper with consumption pattern. The precision of recommended list are 0.79 for the Pearson correlation, 0.73 for the TF-IDF, and 0.82 for the proposed consumption pattern. That is, the proposed consumption pattern analysis scheme can more accurately analyze consumption pattern because it uses both quantitative rating and qualitative reviews of consumers.