• Title/Summary/Keyword: 유사도 비

Search Result 8,138, Processing Time 0.039 seconds

Thresholds for Collaborative Filtering using Singular Value Decomposition (Singular Value Decomposition을 이용한 협력적 여과를 위한 임계값)

  • Jeong, Jun;Kim, Yong-Han;Lee, Phill-Kyu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.125-127
    • /
    • 2000
  • 협력적 여과는 사용자의 아이템에 대한 단계적 평가에 기초하여 그 평가 패턴이 유사한 사용자를 찾아 그 사용자들이 선호한 아이템을 상대방에게 교차 추천을 해주는 방법이다. 따라서, 유사한 사용자를 찾는 방법이 중요한 문제가 되며, 현재까지 여러 가지 방법들이 제안되어 왔다. 순수한 협력적 여과 방법은 n차원 공간에서 사용자를 모델링하여 가장 유사한 이웃을 찾는다. 이러한 모델링의 문제점은 사용자가 평가한 아이템의 집합은 전체 아이템의 집합에 비해서 극히 작으므로 유사한 사용자를 찾기 위해서는 충분한 수의 아이템에 대해서 평가해야 한다는 것이다. 따라서, 본 논문에서는 유사란 사용자를 찾기 위해서 충분한 수의 평가를 요구하는 명백하게 사용자의 평가를 비교하는 것 대신에 특징 가중치에 초하여 사용자를 비교하는 방법을 사용하고 사용하는 방법의 정확성을 높일 수 있는 임계값을 제안하고자 한다.

  • PDF

Experiment and Performance Evaluation of RIFLE Algorithm (RIFLE 알고리즘에 대한 실험 및 성능평가)

  • Kim Dong-Hoi;Won Young-Sang;Ko Young-woong;Kim Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.697-700
    • /
    • 2004
  • 서열의 유사성 검색에 잘 알려진 도구로는 BLAST 와 FASTA 가 있으며 이들 알고리즘은 알려지지 않은 유기체를 sequencing 작업을 통하여 얻어진 염기서열과 유전자 데이터베이스를 대상으로 유사성을 검색한다. 이때 서열의 유사성을 검색하기에 앞서 선행 되어야만 하는 sequencing작업은 시간적인 면에서 상당한 비용을 요구한다. 반면 sequencing 작업을 하기 않고도 간단한 실험에 의해 얻을 수 있는 부분적인 서열정보만을 대상으로 데이터베이스에서 검색 할 수 있는 알고리즘으로 RIFLE가 있다. 본 논문에서는 RIFLE 알고리즘을 구현하고 실험데이터를 생성하여 성능에 대한 분석 평가를 하고자 한다. 성능평가 결과 RIFLE 알고리즘은 시간복잡도 $O(n^2)$으로 빠른 반면 일부 서열에 있어서 실제 유사도에 비해 정확도가 낮게 평가되는 결과가 산출되었다.

  • PDF

Similar Sequence Searching under Time Warping with Window constraint (윈도우 제약 조건을 가지는 시간 왜곡 변환 기반 유사 시퀸스 검색)

  • 김인태;송병호;이석호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.214-216
    • /
    • 2001
  • 유사 시퀸스 검색에서 시간 왜곡 변환을 지원하기 위한 연구가 최근 활발히 이루어지고 있다. 음성 인식과 같은 몇몇 응용에서는 시간 왜곡 변환을 적용할 때 과도한 타이밍의 차이는 허용하지 않을 필요가 있다. 그래서 대부분의 경우 윈도우라는 제약 조건을 추가하게 된다. 이 논문에서는 윈도우 제약 조건이 있을 때 시간 왜곡 변환을 지원하는 유사 검색 방법으로 세그먼트 분할 기법(Segment Partition Approach:SFA)을 제안한다. SFA는 각 시퀸스를 세그먼트로 분할한 뒤 특징을 추출하여 다차원 인덱스를 구성한다. 유사 검색 질의를 수행할 때 이 인덱스를 검색하여 질의 시퀸스와 유사할 가능성이 큰 후보들을 빠르게 찾아낼 수 있고 찾아낸 후보들에 대해서만 정확한 시간 왜곡 변환 거리를 계산하기 때문에 전체 질의 처리 시간을 단축할 수 있다. SPA는 순차 검색에 비하여 좋은 성능을 보이며, 특히 거리 허용치가 작을 때 더욱 우수한 성능을 보인다.

  • PDF

An Automatic Evaluation Metric for Korean Paraphrase via Semantic Frame (시맨틱 프레임을 이용한 한국어 패러프레이즈 자동 평가 방법)

  • Park, Hancheol;Gweon, Gahgene;Choi, Ho-jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.761-764
    • /
    • 2014
  • 본 연구는 지능형 QA시스템과 관련한 연구에서, 자동 패러프레이즈 생성 시스템을 평가하는 새로운 방법을 제시한다. 기존의 패러프레이즈 생성 시스템의 자동 평가 방법은 참조할 수 있는 패러프레이즈 정보의 양이 크게 제한되어 있었으며, 원 문장의 콘텍스트(context)와 이에 의존하는 통사적 구조(syntactic structure) 및 의미적 구조의 유사성을 고려하지 않고, 단순 구/단어 수준의 의미 유사성을 기반으로 생성된 패러프레이즈를 평가하였다. 이러한 문제를 해결하기 위해 본 연구는 시맨틱 프레임(semantic frame)을 이용한 패러프레이즈 문장 평가 방법을 제시한다. 본 연구에서 제시하는 방법론은 문장의 콘텍스트를 표현하는 프레임과 이러한 프레임이 발생시키는 통사적, 의미적 구조의 유사성을 바탕으로 원 문장과 패러프레이즈 문장의 '의미 유사성', '어휘 형태 비 유사성'을 평가하는 방식이다.

Designing a Recommendation System between Korean Start-ups and Foreign Buyers based on Convolutional Neural Network (CNN 기반의 국내 스타트업 해외-바이어간 추천시스템 설계)

  • Choi, Jungsuk;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.795-796
    • /
    • 2021
  • 본 논문은 국내 스타트업의 상품-서비스에 적합한 해외 바이어를 찾아 맟춤형으로 추천해주는 시스템을 설계하고자 한다. 추천 알고리즘은 CNN 기반의 Word2Vec과 Doc2Vec 알고리즘을 활용하며, 정확도를 높이기 위해 시각정보를 활용한다. 추천 시스템에 사용되는 데이터는 비정형 데이타인 회사 소개 및 상품/서비스 소개 문장 데이터이며, 제품 사진을 시각정보로 이용한다. 유사도가 높은 순으로 추천하기 위해 문장데이타를 키워드 리스트로 변환하고, Word2vec 모델에 이식시켜 키워드 좌표를 만들어 벡터화한다. 그리고, 문장의 중심점간 거리를 계산해 기업간 유사성 및 연관성을 도출한다. 이를 바탕으로 국내 스타트업의 문장데이타 및 시각정보와 유사도가 높은 순으로 해외바이어를 추천한다.

Effect of Demand Spectrums on the Accuracy of Capacity Spectrum Method (요구곡선 산정방법에 따른 능력스펙트럼법의 유효성 평가 및 비교)

  • Kim, Hong-Jin;Min, Kyung-Won;Park, Min-Kyu
    • Journal of the Earthquake Engineering Society of Korea
    • /
    • v.8 no.3
    • /
    • pp.33-42
    • /
    • 2004
  • While transforming the inelastic system into the equivalent elastic one gives an advantage of simpler analysis, the actual inelastic behavior of the system is hardly modeled in the capacity spectrum method (CSM). Therefore, the accuracy of CSM depends on the precise estimation of equivalent period and damping ratio as well as the modification of the elastic response spectrum and the corresponding demand spectrum. In this paper, the effect of demand spectrums on the accuracy of CSM is evaluated. First, the response reduction factors provided in ATC-40 and Euro Code are evaluated. Numerical analysis results indicated that the acceleration responses obtained using the factor of Euro Code are closer to the actual response than those obtained using the factors of ATC-40. Next, the accuracy of CSM is evaluated constructing the demand spectrum using the absolute acceleration responses and pseudo acceleration responses. The results obtained using the absolute acceleration responses were found to be generally larger than those obtained using the pseudo ones. Since CSM often underestimates the response, the use of absolute acceleration response gives the response relatively closer to the exact ones. However, the difference becomes negligible as the hardening ratio and the yield strength ratio become larger.

Estimating Soil Loss in Alpine Farmland with RUSLE and SEDD (RUSLE와 SEDD를 이용한 고랭지 경작지로부터의 토양유실 평가)

  • Cho Hong-Lae;Jeoung Jong-Chul
    • Spatial Information Research
    • /
    • v.13 no.1 s.32
    • /
    • pp.79-90
    • /
    • 2005
  • The purpose of this study is to estimate quantitatively soil loss and sediment yield in alpine farmland. For this purpose, Naerinchon watershed in Gangwon province was selected as our study area and total annual soil loss and sediment yield was estimated respectively by the Revised Universal Soil Loss Equation (RUSLE) model and the Sediment Delivery Distributed (SEDD) model. The results of this study clearly show that dry field areas have significant impact on the total soil erosion and sediment yield compared with other land use. Dry field areas represent only $2.6\%$ of the total area of the watershed but soil loss and sediment yield account for $10.9\%$ and $33.12\%$ of the total amount respectively Especially as with alpine farmland, this result is more clearly shown. These areas account for $1.8\%$ of the entire watershed but contribute to $7.7\%$ and $15\%$ of the total soil loss and sediment yield respectively. From the above results, we can know that alpine farmland is important source of soil loss and sediment yield and it is need to prevent and control. soil erosion from alpine filmland urgently.

  • PDF

Tweet Entity Linking Method based on User Similarity for Entity Disambiguation (개체 중의성 해소를 위한 사용자 유사도 기반의 트윗 개체 링킹 기법)

  • Kim, SeoHyun;Seo, YoungDuk;Baik, Doo-Kwon
    • Journal of KIISE
    • /
    • v.43 no.9
    • /
    • pp.1043-1051
    • /
    • 2016
  • Web based entity linking cannot be applied in tweet entity linking because twitter documents are shorter in comparison to web documents. Therefore, tweet entity linking uses the information of users or groups. However, data sparseness problem is occurred due to the users with the inadequate number of twitter experience data; in addition, a negative impact on the accuracy of the linking result for users is possible when using the information of unrelated groups. To solve the data sparseness problem, we consider three features including the meanings from single tweets, the users' own tweet set and the sets of other users' tweets. Furthermore, we improve the performance and the accuracy of the tweet entity linking by assigning a weight to the information of users with a high similarity. Through a comparative experiment using actual twitter data, we verify that the proposed tweet entity linking has higher performance and accuracy than existing methods, and has a correlation with solving the data sparseness problem and improved linking accuracy for use of information of high similarity users.

Analysis of Sediment Characteristic to Rivers in 2007 (2007년 하천유사량 특성 분석)

  • Lee, Yeon-Kil;Kwon, Kyu-Sang;Lee, Jung-Hoon;Kim, Kyung-Hee;Go, Ju-Yoen;Kang, Kyu-Sang;Lee, Jin-Won;Jung, Sung-Won
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2008.05a
    • /
    • pp.923-927
    • /
    • 2008
  • 본 연구에서는 여주 등 6개 지점에서 유사의 이동이 활발한 시기인 $6{\sim}9$월에 부유사를 측정하여 하천의 유사량 특성을 파악하였다. 측선 배치는 유사채취의 난이도와 채취시간, 하도의 규모 등을 고려하여 등간격의 5개측선수를 적용하였다. 시료분석은 여과법, BW관법, 체분석법으로 수행하여 유사량 산정을 위한 기초자료로 이용하였고, 또한 부유사와 하상토 입경분포 분석 결과로 $Od{\acute{e}}n$ 곡선와 입경가적곡선을 작성하여 대상 지점의 유사특성을 파악하였다. 유량에 따른 총유사량의 관계를 도출하기 위해서 실측된 부유사와 수리량 자료를 이용하였으며, 유사의 거동을 이론적으로 모형화한 간접법으로 총유사량을 추정하였다. 국내 하천의 특성에 적합한 총유사량 추정방법이 아직까지 개발되지 않고 이에 따른 연구 또한 미진한 관계로 기존의 총유사량 산정공식들 중 국내에서 비교적 널리 적용되고 있는 Modified Einstein 공식을 선정하여 대상 지점에 적용하였다. 본 연구에서 선정한 Modified Einstein 공식으로 추정된 총유사량의 적정성을 검토하기 위한 부가적인 수단으로 Engelund&Hansen(1967년), Yang(1973년, 1979년), Ackers&White(1973년) 공식들을 선정하여 Modified Einstein 공식의 추정치와 그 특성을 비교 분석하였다. 그 결과, 일반적으로 모든 지점에서 Modified Einstein 방법으로 추정된 총유사량이 유량에 따라 변동이 크고 상관성이 낮게 분석되었으며, 그 외 3가지 방법으로 추정된 결과는 다소의 변동폭을 가졌으나 대체로 유량의 증가에 따라 유사량도 증가하는 일정한 경향을 나타내었다. 본 연구에서는 각 지점별 유사 유출량과 비유사량을 산정하기 위해서 유량-부유사량관계곡선식과 유량 수문곡선을 이용하였다. 그 결과, 임진강 수계에 위치한 적성 지점에서 가장 크게 산정되었으며, 구례2 지점에서 가장 적은 값을 가졌다. 6개 지점 중 서로 상 하류 관계를 가지는 낙동과 왜관 지점에서 유사량의 특성 변화를 검토한 결과, 상 하류 간의 반전은 저수위 구간을 제외하고는 발생하지 않았으며, 왜관이 낙동 지점보다 큰 값의 유사 유출량을 나타내었다.

  • PDF

An Index-Based Search Method for Performance Improvement of Set-Based Similar Sequence Matching (집합 유사 시퀀스 매칭의 성능 향상을 위한 인덱스 기반 검색 방법)

  • Lee, Juwon;Lim, Hyo-Sang
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.6 no.11
    • /
    • pp.507-520
    • /
    • 2017
  • The set-based similar sequence matching method measures similarity not for an individual data item but for a set grouping multiple data items. In the method, the similarity of two sets is represented as the size of intersection between them. However, there is a critical performances issue for the method in twofold: 1) calculating intersection size is a time consuming process, and 2) the number of set pairs that should be calculated the intersection size is quite large. In this paper, we propose an index-based search method for improving performance of set-based similar sequence matching in order to solve these performance issues. Our method consists of two parts. In the first part, we convert the set similarity problem into the intersection size comparison problem, and then, provide an index structure that accelerates the intersection size calculation. Second, we propose an efficient set-based similar sequence matching method which exploits the proposed index structure. Through experiments, we show that the proposed method reduces the execution time by 30 to 50 times then the existing methods. We also show that the proposed method has scalability since the performance gap becomes larger as the number of data sequences increases.