• 제목/요약/키워드: Cosine Similarity

검색결과 188건 처리시간 0.034초

준 실시간 뉴스 이슈 분석을 위한 계층적·점증적 군집화 (Hierarchical and Incremental Clustering for Semi Real-time Issue Analysis on News Articles)

  • 김호용;이승우;장홍준;서동민
    • 한국콘텐츠학회논문지
    • /
    • 제20권6호
    • /
    • pp.556-578
    • /
    • 2020
  • 실시간으로 발생하는 뉴스 기사로부터 이슈를 분석하기 위한 다양한 연구가 진행되어 왔다. 하지만 범주에 따라 계층적으로 이슈를 분석하는 연구는 많이 진행되지 않았고, 계층적 이슈 분석을 위한 기존의 연구에서 제안하는 방식 또한 뉴스 기사 증가에 따라 군집화 속도가 느려지는 문제점이 있다. 따라서 본 논문에서는 준 실시간으로 뉴스 기사의 이슈를 분석하는 계층적·점증적 군집화 방식을 제안한다. 제안하는 군집화 방식은 샴 신경망을 이용한 가중 코사인 유사도 측정 모델 기반의 k-평균 알고리즘을 이용한 단어 군집 기반 문서 표현 방식을 통해 뉴스 기사를 문서 벡터로 표현한다. 그리고 문서 벡터로부터 초기 이슈 군집 트리를 생성하고, 새로 발생한 뉴스 기사를 해당 이슈 군집 트리에 추가하는 점증적 군집화 방식을 제안함으로써 뉴스 기사의 계층적 이슈를 준 실시간으로 분석한다. 마지막으로, 본 논문에서 제안하는 방식과 기존 방식들과의 성능평가를 통해 제안하는 군집화 방식이 정확도 측면에서 기존 방식 대비 NMI 지표 기준 0.26 정도 성능이 향상되었고, 속도 측면에서 약 10배 이상의 성능이 향상됨을 입증하였다.

한글 워드임베딩과 아프리오리를 이용한 검색 시스템의 질의어 확장 (Query Extension of Retrieve System Using Hangul Word Embedding and Apriori)

  • 신동하;김창복
    • 한국항행학회논문지
    • /
    • 제20권6호
    • /
    • pp.617-624
    • /
    • 2016
  • 한글 워드임베딩은 명사 추출과정을 거치지 않으면, 학습에 필요하지 않은 단어까지 학습하게 되어 효율적인 임베딩 결과를 도출할 수 없다. 본 연구는 한글 워드임베딩, 아프리오리, 텍스트 마이닝을 이용하여, 특정 도메인에서 질의어 확장에 의해 보다 효율적으로 답변을 검색할 수 있는 모델을 제안하였다. 워드임베딩과 아프리오리는 질의어에 대해서 의미와 맥락에 따라 연관 단어를 추출하여, 질의어를 확장하는 단계이다. 한글 텍스트 마이닝은 명사 추출, TF-IDF, 코사인 유사도를 이용하여, 유사답변 추출과 사용자에게 답변하는 단계이다. 제안모델은 특정 도메인의 답변을 학습하고, 연관성 높은 질의어를 확장함으로서 답변의 정확성을 높일 수 있다. 향후 연구과제로서, 데이터베이스에 저장된 사용자 질의를 분석하고, 보다 연관성 높은 질의어를 추출하는 연구가 필요하다.

칼라와 에지 히스토그램 기술자를 이용한 영상 마이닝 향상 기법 (The Usage of Color & Edge Histogram Descriptors for Image Mining)

  • 안성옥;박동원
    • 컴퓨터교육학회논문지
    • /
    • 제7권5호
    • /
    • pp.111-120
    • /
    • 2004
  • 영상의 칼라, 텍스쳐, 오브젝트의 형체 등과 같은 하위 수준의 특징을 표현할 수 있는 기술자를 MPEG-7 표준에서 규정하고 있다. 하지만, 각각의 기술자를 따로 분석함으로써는 성능 향상에 불충분한 점이 있었다. 본 논문에서는 칼라 기술자와 텍스쳐 기술자를 결합하여 영상검색의 성능을 향상시키는 방법을 제안한다. MPEG-7 표준에서 정의한 $l_{1}$-norm방법보다, 본 논문에서는 칼라 히스토그램의 경우 코사인 근사도 계수를, 에지 히스토그램의 경우 유클리디언 디스턴스를 적용 실험하여 진일보한 결과를 도출할 수 있었다.

  • PDF

빅데이터 군집 분석을 이용한 학습성취도 예측 - 종단 연구를 중심으로 (Predicting Learning Achievement Using Big Data Cluster Analysis - Focusing on Longitudinal Study)

  • 고수정
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권9호
    • /
    • pp.1769-1778
    • /
    • 2018
  • 빅데이터를 활용한 가치가 증대됨에 따라서 기업 뿐 아니라 교육 분야에서도 빅데이터 분석 기술을 활용한 여러 연구가 진행되고 있다. 본 논문에서는 빅데이터 군집 분석을 이용하여 학습성취도를 종단적으로 예측하는 방법을 제안한다. 제안한 방법에서는 한국아동 청소년패널조사(KCYPS) 자료의 중학교 1학년 학생의 학습 습관 유형을 기반으로 학생들을 Kmeans 알고리즘을 이용하여 학습 습관이 비슷한 그룹으로 분류하고, 그룹의 특징을 추출한다. 다음으로, 이와 같이 추출한 그룹의 특징을 이용하여 테스트 집합의 중학교 1학년 학생을 코사인 유사도를 사용하여 비슷한 학습 습관을 갖는 그룹으로 분류한 후, 이웃을 선정하고 학습성취도를 예측하였다. 본 논문에서 제안한 방법은 중학교의 학습 습관이 대학 및 전공 만족도까지 밀접한 영향을 미쳐서 고등학교의 학습성취도 뿐만 아니라 대학 및 전공에 대한 만족도까지도 예측이 가능하다는 것을 증명하였다.

A study on the Extraction of Similar Information using Knowledge Base Embedding for Battlefield Awareness

  • Kim, Sang-Min;Jin, So-Yeon;Lee, Woo-Sin
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.33-40
    • /
    • 2021
  • 고도화된 무기체계와 복잡한 전략으로 인하여 지휘관이 분석하고 판단해야 할 정보의 복잡도가 증가하고 있다. 지휘관의 적시적 판단을 위해서 전장의 정보를 지식화하고 분석할 수 있는 지능형 서비스가 필요하다. 지능형 서비스는 전장상황 정보로부터 지식을 추출하는 단계와 지식베이스를 구축하는 단계, 지식베이스로부터 전장상황을 분석하는 단계로 구성된다. 본 논문은 두 번째 단계에서 구축 완료된 지식베이스를 임베딩함으로써 입력 쿼리와 유사한 정보를 추출하는 방안을 연구한다. 지식베이스 임베딩을 위해 문장화 과정이 필요하며 random-walk 알고리즘을 적용한다. 문장화된 정보는 Word2Vec을 활용하여 벡터화되고 코사인 유사도를 통해 입력 쿼리와 유사한 정보를 찾는다. 본 논문에서는 오픈 지식베이스로부터 98개 개체를 기준으로 980개의 문장을 생성하고 100차원의 벡터로 임베딩함으로써 코사인 유사도 기반 유사 개체가 추출됨을 확인했다.

평면 방정식을 이용한 S&P 잡음제거 필터 알고리즘 (S&P Noise Removal Filter Algorithm using Plane Equations)

  • 정영수;김남호
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.47-53
    • /
    • 2023
  • X-Ray, CT, MRI, 스캐너 등과 같은 장치는 영상 획득 과정 중 여러 원인으로 인해 S&P 잡음을 생성할 수 있다. 영상에 나타난 S&P 잡음은 영상의 품질을 저하시키기 때문에, 영상처리 과정에 잡음제거 기술을 필수적으로 사용해야 한다. S&P 잡음 제거에 관한 연구는 이미 다양한 방법이 제안되었으나, 이들 모두 잡음 밀도가 큰 환경에서는 잔여 잡음을 생성하는 문제점이 있었다. 따라서 본 논문은 영상의 grayscale 값을 새로운 축으로 설정하여 3차원의 평면 방정식을 기반으로 필터링하는 알고리즘을 제안하였다. 제안한 알고리즘은 로컬마스크를 세분화하여 가장 근접한 3개의 비잡음 화소를 유효 화소로 설계하여, 복수의 화소를 가진 영역에 대해 코사인 유사도를 적용하였다. 또한, 입력한 화소가 평면을 이룰 수 없는 경우에도 예외 화소로 분류하여 잔여 잡음 없이 우수한 복원을 이루었다.

금융 모바일 앱 리뷰 데이터의 UX 분석을 위한 시스템 개발 및 검증 (Development of a System for UX Analysis of Financial Mobile App Review Data and Its Verification)

  • 현지예;손영민;박재완
    • 문화기술의 융합
    • /
    • 제9권1호
    • /
    • pp.755-761
    • /
    • 2023
  • 디지털 전환이 가속화되면서 금융 서비스 또한 비대면 서비스의 비중이 높아지고 있다. 최근 모바일 서비스에서 경쟁력을 확보하기 위해 사용자 경험이 대두되고, 사용자 경험을 향상하기 위한 분석 기법이 출현하고 있다. 정량적 평가에 사용되는 데이터 중 하나인 사용자 리뷰 데이터는 불필요한 정보가 다량 포함되어 있어 개선 방향을 도출해내는 데 많은 시간과 에너지가 소요된다. 따라서 본 연구에서는 코사인 유사도 알고리듬을 활용해 사용자 경험 계층을 기준으로 UX 분석 시스템을 개발하고 검증을 위해 국민은행, 우리은행, 카카오뱅크, 토스의 사용자 리뷰 데이터를 분석하는 것을 목표로 한다. 본 연구는 개발된 UX 분석 시스템이 사용자 리뷰 데이터의 분석을 통해 효과적으로 UX 분석이 가능한 시스템이라는 것을 증명하였다. 본 연구의 시스템은 빠르게 고객의 피드백을 반영해야 하는 애자일 조직에서 사용자 경험 계층별 개선 방안을 파악하는 데 용이하게 사용될 수 있을 것으로 기대된다.

A Model-Based Image Steganography Method Using Watson's Visual Model

  • Fakhredanesh, Mohammad;Safabakhsh, Reza;Rahmati, Mohammad
    • ETRI Journal
    • /
    • 제36권3호
    • /
    • pp.479-489
    • /
    • 2014
  • This paper presents a model-based image steganography method based on Watson's visual model. Model-based steganography assumes a model for cover image statistics. This approach, however, has some weaknesses, including perceptual detectability. We propose to use Watson's visual model to improve perceptual undetectability of model-based steganography. The proposed method prevents visually perceptible changes during embedding. First, the maximum acceptable change in each discrete cosine transform coefficient is extracted based on Watson's visual model. Then, a model is fitted to a low-precision histogram of such coefficients and the message bits are encoded to this model. Finally, the encoded message bits are embedded in those coefficients whose maximum possible changes are visually imperceptible. Experimental results show that changes resulting from the proposed method are perceptually undetectable, whereas model-based steganography retains perceptually detectable changes. This perceptual undetectability is achieved while the perceptual quality - based on the structural similarity measure - and the security - based on two steganalysis methods - do not show any significant changes.

Eigenvoice 기반 화자가중치 거리측정 방식을 이용한 화자 분할 시스템 (Speaker Segmentation System Using Eigenvoice-based Speaker Weight Distance Method)

  • 최무열;김형순
    • 한국음향학회지
    • /
    • 제31권4호
    • /
    • pp.266-272
    • /
    • 2012
  • 화자 분할 기술은 오디오 데이터로부터 자동적으로 화자 경계 구간을 검출하는 것이다. 화자 분할 방식은 화자에 대한 선행 지식 사용 여부에 따라 거리기반 방식과 모델기반 방식으로 나누어진다. 본 논문에서는 eigenvoice 기반의 화자가중치 거리를 이용한 화자 분할 방식을 도입하고, 이 방식을 대표적인 거리 기반 방식들과 비교한다. 또한, 화자가중치의 거리 측정 함수로 유클리드 거리와 cosine 유사도를 사용하여 화자 분할 성능을 비교하고, eigenvoice 방식에 의해 화자 적응된 모델들 사이의 직접적인 거리를 이용한 화자 분할 방식과의 비교를 통해 화자가중치 거리를 이용한 방식이 계산량면에서 효율적인 점을 검증한다.

Detecting Copy-move Forgeries in Images Based on DCT and Main Transfer Vectors

  • Zhang, Zhi;Wang, Dongyan;Wang, Chengyou;Zhou, Xiao
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권9호
    • /
    • pp.4567-4587
    • /
    • 2017
  • With the growth of the Internet and the extensive applications of image editing software, it has become easier to manipulate digital images without leaving obvious traces. Copy-move is one of the most common techniques for image forgery. Image blind forensics is an effective technique for detecting tampered images. This paper proposes an improved copy-move forgery detection method based on the discrete cosine transform (DCT). The quantized DCT coefficients, which are feature representations of image blocks, are truncated using a truncation factor to reduce the feature dimensions. A method for judging whether two image blocks are similar is proposed to improve the accuracy of similarity judgments. The main transfer vectors whose frequencies exceed a threshold are found to locate the copied and pasted regions in forged images. Several experiments are conducted to test the practicability of the proposed algorithm using images from copy-move databases and to evaluate its robustness against post-processing methods such as additive white Gaussian noise (AWGN), Gaussian blurring, and JPEG compression. The results of experiments show that the proposed scheme effectively detects both copied region and pasted region of forged images and that it is robust to the post-processing methods mentioned above.