• Title/Summary/Keyword: 유사도 평가

Search Result 5,950, Processing Time 0.035 seconds

The application for predictive similarity measures of binary data in association rule mining (이분형 예측 유사성 측도의 연관성 평가 기준 적용 방안)

  • Park, Hee-Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.3
    • /
    • pp.495-503
    • /
    • 2011
  • The most widely used data mining technique is to find association rules. Association rule mining is the method to quantify the relationship between each set of items in very huge database based on the association thresholds. There are some basic association thresholds to explore meaningful association rules ; support, confidence, lift, etc. Among them, confidence is the most frequently used, but it has the drawback that it can not determine the direction of the association. The net confidence and the attributably pure confidence were developed to compensate for this drawback, but they have other drawbacks.In this paper we consider some predictive similarity measures for binary data in cluster analysis and multi-dimensional analysis as association threshold to compensate for these drawbacks. The comparative studies with net confidence, attributably pure confidence, and some predictive similarity measures are shown by numerical example.

Web-Document Retrieval Using Genetic Search (유전자 탐색에 의한 웹문서 검색)

  • 서영우;장영탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.69-71
    • /
    • 1998
  • 본 논문에서는 웹을 기반으로 한 인터넷에서 유전자 알고리즘을 이용한 정보검색 방법을 제시한다. 특정 문제에 대한 가설 공간을 탐색하여 최적의 해를 찾을 때 지역성과 전역성을 함께 고려하는 유전자 알고리즘의 특성을 웹에서의 정보검색에 이용한다. 여기에서 고려할 점은 탐색속도와 탐색방향인데 본 논문에서는 탐색속도를 고려하지 않았다. 탐색방향은 사용자의 정보 요구와 검색된 문서와 유사도 평가함수로 조절하였다. 본 논문에서 제안한 유사도 평가함수로 실험을 한 결과, 사용자의 초기 정보요구에 대한 검색결과의 적합성 여부에 대한 사용자의평가가 기존의 검색엔진을 사용했을 때보다 개선된 결과를 얻을 수 있었다. 그리고 HTML 문서의 특성을 고려해서 검색하는 경우에는 검색어에 대해 보다 특정적인 결과를 제시했으며, 문서 내에서 검색어의 지역 중요도만을 고려하는 경우는 보다 일반적인 결과를 제시하는 것을 확인할 수 있었다.

  • PDF

Influence of Product Similarity between Parent Brand and Extended Brand on Extended Product Evaluation - Focus on Franchise Brand - (모브랜드 제품-확장브랜드 제품간 유사성이 확장제품평가에 미치는 영향 - 프랜차이즈 브랜드를 중심으로 -)

  • Kim, Ki-Suk;Shin, Bong-Sup
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.11
    • /
    • pp.378-389
    • /
    • 2011
  • This study scrutinizes the similarity difference between parent brand product and extended brand product of franchise business and its effect on the attitude toward extended brand product. Results showed that the similarity difference is appeared according to product extended. The cognitive attitude and the behavioral attitude toward similarity difference are also appeared to be different as high in product similarity leads to high in both cognitive and behavioral attitude. The result also showed that the food similarity compare to the technological similarity has higher impact on attitude. These study results provided a significant insights in brand extension strategy of franchise business.

Analysis Method for Revision and Addition of the Specification to Appraisal (감정 대상 규격서의 수정 및 추가에 대한 분석 방법)

  • Chun, Byung-Tae
    • Journal of Software Assessment and Valuation
    • /
    • v.16 no.2
    • /
    • pp.37-44
    • /
    • 2020
  • As the information society develops, various cases of copyright infringement have occurred. In many disputes between companies, software similarity appraisal is dominated. This thesis is a study on the method of calculating the similarity of the standards subject to appraisal. In other words, it is a study to calculate the amount of revision and addition of the specification to be assessed. The analysis method compares the table of contents of both specifications and finds the same or similar part. The similarity weight is determined according to the degree of similarity. Weights identify and assign the degree of similarity between the expert's expertise and the specification. If it is completely newly added, the similarity weight is 1, if it is partially modified, the similarity weight is 0.4, and if it is almost the same as before, it is calculated by giving a weight of 0.05. Through this paper, it was found that the result of calculating the similarity to the specification is 21.2 pages.

Similarity Analysis of Sibling Nodes in SNOMED CT Terminology System (SNOMED CT 용어체계에서 형제 노드의 유사도 분석 기법)

  • Woo-Seok Ryu
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.19 no.1
    • /
    • pp.295-300
    • /
    • 2024
  • This paper discusses the incompleteness of the SNOMED CT and proposes a noble metric which evaluates similarity among sibling nodes as a method to address this incompleteness. SNOMED CT encompasses an extensive range of medical terms, but it faces issues of ontology incompleteness, such as missing concepts in the hierarchy. We propose a noble metric for evaluating similarity among nodes within a node group, composed of multiple sibling nodes, to identify missing concepts, and identify groups with low similarity. Analyzing the similarity of sibling node groups in the March 2023 international release of SNOMED CT, the average similarity of 29,199 sibling node groups, which are sub-concepts of the clinical finding concept and are consist of two or more sibling nodes, was found to be 0.81. The group with the lowest similarity was associated with child concepts of poisoning, with a similarity of 0.0036.

An Eye-tracking Study: Consumer Perceptual Processing of SPA Brand Extensions (Eye-tracking 연구: SPA 브랜드 확장에 대한 소비자 지각 과정)

  • Kang, Jungsuk
    • Science of Emotion and Sensibility
    • /
    • v.18 no.4
    • /
    • pp.87-98
    • /
    • 2015
  • As SPA brands are growing in Korean apparel markets, they are extending their well-established brands into new markets (i.e., SPA brand extensions). To investigate psychological mechanism underlying SPA brand extensions, this study conceptually proposed such consumer information processing of SPA brand extensions as (1) perception of similarity between SPA brand extensions and their original brands and (2) evaluations on the SPA brand extensions (i.e., attitude and purchase intent). For hypothetical SPA brand extensions (high, moderate and low similarity conditions), perceived similarity was measured by using a eye-tracker and evaluations were assessed by using a self-reported questionnaire. The results reveal that the amount of external information searching for SPA brand extensions was larger in the following order: moderate, low and high similarity conditions. The depth of SPA brand information processing was also deeper in the same order. Evaluations on SPA brand extensions were higher in high and moderate similarity conditions than in low similarity condition. The findings suggest that the evaluations are affected by perceived similarity and the amount of cognitive efforts in processing SPA brand extensions.

A Method for Analyzing Features that Affect the Performance of SSD (SSD 성능에 영향을 주는 특징 분석 방법)

  • Kang, Yoonsuk;Jo, Yong-Yeon;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.315-316
    • /
    • 2018
  • 본 논문에서는 SSD 성능에 영향을 주는 특징(또는 특징 집합)을 평가하는 방법을 제안한다. 제안하는 평가 방법은 기존 연구의 "두 응용프로그램에서 추출한 IO 트레이스들이 서로 유사한 IO 패턴을 갖을 때, 동일한 SSD 에서의 수행 시간은 유사하다"는 관찰에 기반한다. 이를 통하여 우리는 주어진 SSD 에서 후보 특징들을 평가하고, 가장 높은 평가를 받는 특징 집합을 확인한다.

Implementation of Korean Sentence Similarity using Sent2Vec Sentence Embedding (Sent2Vec 문장 임베딩을 통한 한국어 유사 문장 판별 구현)

  • Park, Sang-Kil;Shin, MyeongCheol
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.541-545
    • /
    • 2018
  • 본 논문에서는 Sent2Vec을 이용한 문장 임베딩으로 구현한 유사 문장 판별 시스템을 제안한다. 또한 한국어 특성에 맞게 모델을 개선하여 성능을 향상시키는 방법을 소개한다. 고성능 라이브러리 구현과 제품화 가능한 수준의 완성도 높은 구현을 보였으며, 자체 구축한 평가셋으로 한국어 특성을 반영한 모델에 대한 P@1 평가 결과 Word2Vec CBOW에 비해 9.25%, Sent2Vec에 비해 1.93% 더 높은 성능을 보였다.

  • PDF

Min-Max Hash for Similarity Measurement based on Multiset (Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정)

  • Yoon, Jin-Uk;Kim, Byoungwook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.36-39
    • /
    • 2019
  • 데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

Characteristic Analysis and Rating Development of Suspended Sediment Discharge in 2014 (2014년도 부유사량 특성분석 및 레이팅 개발)

  • Park, Yonghee;Lee, Jung Hoon;Kwon, Dongseok;Lee, YeonKil;Jung, SungWon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.311-316
    • /
    • 2015
  • 하천 유사량 자료는 하천의 이 치수 목적으로 활용할 수 있는 기본 자료중 하나로서 하상변동 예측, 저수지 퇴사량 추정, 하도 계획과 설계, 유사조절 계획 수립 및 기타 구조물 등의 영향 평가 등 다양하게 활용할 수 있다. 정도 높은 유사량 자료를 측정하기 위해서는 현장측정부터 분석까지 정확한 과정과 세밀한 준비가 필요하다. 본 연구에서는 정도 높은 유사량 자료를 생산하기 위하여 국가 유사량 관측망 중 19개 지점(율극, 점촌, 일선교, 구미, 왜관, 선산, 죽고, 진동, 개진2, 정암, 회덕, 마륵, 나주, 학교, 남평, 영수, 선암, 구례2, 죽곡, 용서, 곡성)에 대하여 부유사량 특성분석을 수행하고 이를 반영하여 유량-부유사량관계곡선식을 개발하였다. 유사량 측정과정은 사전조사, 현장측정, 실험실분석, 모형적용 단계를 거친다. 사전조사 단계에서는 현장에 대한 현장안전, 지점특성 등의 현장관련 정보를 수집하여 현장측정 계획을 수립한다. 현장측정 단계에서는 사전에 유량측정 자료를 이용하여 측선을 나누는 등유량법과 등간격법을 사용하였으며, ISO 기준 이상의 5~8개 측선을 나누어 측정하였다. 측정장비는 D-74 부유사 채취기를 이용하여 왕복수심적분법으로 부유사량 샘플을 채취 하였다. 실험실분석은 유량조사사업단 유사분석센터에서 채취 시료에 대한 농도, 레이저 회절법을 이용한 부유사입도분석, 하상토분석(체분석)을 실시하였다. 또한, 유량-부유사량 농도 변화양상과 부유사량 특성분석을 이용한 부유사량 측정결과를 평가하였고 각 지점의 부유사량특성을 잘 나타낼 수 있는 지수식($Q_{ss}=aQ^b$)을 이용하여 유량-부유사량관 계곡선식을 개발하였다.

  • PDF