• 제목/요약/키워드: 유사도 계산 방법

검색결과 1,270건 처리시간 0.032초

집합 유사 시퀀스 매칭의 성능 향상을 위한 인덱스 기반 검색 방법 (An Index-Based Search Method for Performance Improvement of Set-Based Similar Sequence Matching)

  • 이주원;임효상
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.507-520
    • /
    • 2017
  • 집합 유사 시퀀스 매칭 방법은 유사한 정도를 나타내는 척도로 교집합을 기반으로 한 유사도를 사용한다. 그러나 교집합 크기를 계산하는 과정에 시간이 오래 걸릴 뿐만 아니라, 유사한 시퀀스를 찾기 위해서 수많은 집합 간 교집합 크기를 구해야 하므로 수행 시간이 오래 걸리는 성능상의 문제가 있다. 본 논문에서는 이러한 성능상의 문제를 해결하기 위해 인덱스 기반의 검색 방법을 사용하여 집합 기반 유사 시퀀스 매칭을 빠르게 수행하는 방법을 제안한다. 제안하는 방법은 크게 두가지로 구분된다. 첫 번째로 집합 시퀀스 유사도 문제를 교집합의 크기 비교 문제로 정형적으로 변환하고, 교집합의 크기를 빠르게 찾을 수 있는 인덱스 구조를 제안한다. 두 번째로 제안한 인덱스 구조를 사용하여 집합 기반 유사 시퀀스 매칭을 효율적으로 수행할 수 있는 방법을 제안한다. 성능 평가 결과, 제안하는 방법이 기존 방법에 비해 최대 30배에서 50배의 수행 시간 단축이 있음을 보인다. 또한 데이터 시퀀스의 개수가 증가할수록 수행시간의 차이가 점점 커지므로, 대용량 데이터 처리에 적절함을 보인다.

합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 반자동 확장 방법 (Semi-automatic Expansion for a Chatting Corpus Based on Similarity Measure Using Utterance Embedding by CNN)

  • 안재현;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2018
  • 채팅 시스템을 잘 만들기 위해서는 양질, 대량의 채팅 말뭉치가 굉장히 중요하지만 구축 시 많은 비용이 발생한다는 어려움이 있었다. 따라서 본 논문에서는 영화 자막, 극대본과 같이 대량의 발화 데이터를 이용하여 채팅 말뭉치를 반자동으로 확장하는 방법을 제안한다. 채팅 말뭉치 확장을 위해 미리 구축된 채팅 말뭉치와 유사도 기법을 이용하여 채팅 유사도를 구하고, 채팅 유사도가 실험을 통해 얻은 임계값보다 크다면 올바른 채팅쌍이라고 판단하였다. 그리고 길이가 매우 짧은 채팅성 발화의 채팅 유사도를 효과적으로 계산하기 위해 본 논문에서 제안하는 것은 형태소 단위 임베딩 벡터와 합성곱 신경망 모델을 이용하여 발화 단위 표상을 생성하는 것이다. 실험 결과 기본 발화 단위 표상 생성 방법인 TF를 이용하는 것보다 정확률, 재현율, F1에서 각각 5.16%p, 6.09%p, 5.73%p 상승하여 61.28%, 53.19%, 56.94%의 성능을 가지는 채팅 말뭉치 반자동 구축 모델을 생성할 수 있었다.

  • PDF

인구 통계 정보를 이용한 협업 여과 추천의 유사도 개선 기법 (Improvement on Similarity Calculation in Collaborative Filtering Recommendation using Demographic Information)

  • 이용준;이세훈;왕창종
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권5호
    • /
    • pp.521-529
    • /
    • 2003
  • 본 논문에서는 추천시스템에서 많이 활용되는 협업 여과 방법의 문제점으로 지적되고 있는 희소성(sparsity)으로 인한 유사도의 부정확한 문제를 개선하기 위하여, 인구 통계 정보를 이용한 기법을 제안하였다. 두 사용자간의 유사도는 같은 항목에 동시에 평가된 점수를 기반으로 결정되며, 두 사용자가 동시에 평가하지 않은 항목은 유사도 계산에서 제외된다. 제안된 기법은 이러한 평가 점수 부족으로 인하여 유사도 계산이 정확치 못한 단점을 보완하기 위하여, 인구 통계 정보를 이용한 가상 평가 점수를 부가하여 유사도 계산을 개선, 예측의 정확도를 향상시킨 방식으로 기존의 피어슨 상관관계를 이용한 협업여과 방식의 확장이다. 실험은 Grouplens의 영화 평가 자료를 활용하였고, 평균절대오차(MAE)와 반응자 작용특성(ROC)값을 이용하여 제안 기법과 피어슨 상관관계를 이용한 협업 여과 방식을 비교하였다. 제안한 기법이 피어슨 상관관계를 이용한 협업 여과 추천 방식에 비하여 평균절대오차는 9%, 반응자 작용 특성의 민감도는 13% 향상되었음을 확인하였다.

Helical Flow의 영향을 고려한 2차원 하상변동모의 (2-Dimensional Numerical Model for Sediment Transport considering the Impact of Helical Flow)

  • 김무종;이선민;최성욱
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.64-64
    • /
    • 2016
  • 하천은 인간에게 용수의 이용 및 하천호안의 휴식처로써의 이용을 통해 직접적인 영향을 주고, 하천구조물의 심미적 영향, 랜드마크로써의 역할을 통해 간접적인 영향을 준다. 또한, 하천은 하천생태계에 서식하는 동 식물에게 영향을 준다. 그러나 하천유사로 인해 통수능이 감소하고, 하천구조물 주변에 침식을 야기할 뿐만 아니라, 댐과 저수지에 유사의 퇴적으로 저수용량의 감소시킨다. 그러므로 이를 예측하는 것은 경제적, 환경적으로 중요하다. 하상변동의 모의를 위해 기존의 2차원 모형은 만곡흐름에서 유동의 helical flow를 고려하지 않아 예측이 부정확하였다. 본 연구에서는 천수방정식을 이용한 하상변동 수치모의에 helical flow의 영향을 고려하였다. 하천과 같은 천수영역에서의 흐름 및 하상변동을 해석하기 위하여 수심평균 된 Navier-Stokes equations인 천수방정식을 이용하였다. 지배방정식은 곡선 좌표계에서 유한체적법으로 차분하였고, 비엇갈림격자를 사용하였다. 지배방정식의 닫힘 문제를 해결하기위해 0-방정식 난류모형을 사용하였고, "time marching" 기법의 적용을 위해 계산단계분할 방법을 이용하였다. 비엇갈림격자의 사용으로 인해 검사체적의 면에서의 유속이 필요하여 pressure-velocity coupling을 사용하여 유속의 진동을 줄였다. 또한, 만곡부의 helical flow를 모의하기위해 helical flow intensity model을 도입하였다. 앞에서 계산한 흐름을 바탕으로 유사량 산정공식과 Exner 방정식을 이용하여 하상변동을 모의하였다. 흐름의 검증, helical flow의 영향에 대한 확인, 하상변동의 적용을 위해 선행연구의 실험이 사용되었다.

  • PDF

한글 저자명 중의성 해소를 위한 기계학습기법의 적용 (Application of Machine Learning Techniques for Resolving Korean Author Names)

  • 강인수
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.27-39
    • /
    • 2008
  • 동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자진들을 결합하는 최저의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

문장대문장 학습을 이용한 음차변환 모델과 한글 음차변환어의 발음 유사도 기반 부분매칭 방법론 (A Transliteration Model based on the Seq2seq Learning and Methods for Phonetically-Aware Partial Match for Transliterated Terms in Korean)

  • 박주희;박원준;서희철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.443-448
    • /
    • 2018
  • 웹검색 결과의 품질 향상을 위해서는 질의의 정확한 매칭 뿐만이 아니라, 서로 같은 대상을 지칭하는 한글 문자열과 영문 문자열(예: 네이버-naver)의 매칭과 같은 유연한 매칭 또한 중요하다. 본 논문에서는 문장대문장 학습을 통해 영문 문자열을 한글 문자열로 음차변환하는 방법론을 제시한다. 또한 음차변환 결과로 얻어진 한글 문자열을 동일 영문 문자열의 다양한 음차변환 결과와 매칭시킬 수 있는 발음 유사성 기반 부분 매칭 방법론을 제시하고, 위키피디아의 리다이렉트 키워드를 활용하여 이들의 성능을 정량적으로 평가하였다. 이를 통해 본 논문은 문장대문장 학습 기반의 음차 변환 결과가 복잡한 문맥을 고려할 수 있으며, Damerau-Levenshtein 거리의 계산에 자모 유사도를 활용하여 기존에 비해 효과적으로 한글 키워드들 간의 부분매칭이 가능함을 보였다.

  • PDF

컬러 특성에 의한 영상 검색 알고리즘 (A New Image Search and Retrieval System using Color Features)

  • 이효종;이도균;송명성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.695-698
    • /
    • 2000
  • 본 논문에서는 이미지 데이터 컬러 속성을 기반으로 한 영상 검색 방법을 제안한다. 두 이미지 사이의 유사성을 측정하기 위하여 컬러 히스토그램의 분포 특성을 이미지 데이터베이스 영상과질의 영상에서 계산하여 유사도를 결정하도록 설계하였다. 두 영상의 유사도를 측정하기 위해 두영상의 R, G, B 히스토그램에 대해서 같은 값에 대한 빈도 수의 차를 거리로 측정한 후, 구해진 거리의 차를 비교한 방법과 히스토그램의 분포 곡선을 이루는 방정식을 구한 수 있도록 곡선 정합을 한 후에 두 영상의 컬러 특징 속성에 관한 특징 값의 추출을 위해서 다항식 보간법에 의한 방정식을 이용한 방법을 소개한다. 공간 데이터베이스 시스템에서 질의에 대한 효율적인 처리를 위해 R-Tree와 최대 점을 이용하여 영상을 검색한다.

  • PDF

유사 공진형 물체에 대한 TM 전자파의 산란계산을 위한 MLFMA방법 (MLFMA for Computation of TM Scattering from Near Resonant Object)

  • 안창회
    • 한국전자파학회논문지
    • /
    • 제9권6호
    • /
    • pp.735-745
    • /
    • 1998
  • 모멘트법은 전자파산란문제에 널리 사용되고 있는데, 최근에 대용량의 문제를 빠르고 효율적으로 풀 수 있는 기법들에 대한 연구가 많이 진행되고 있다. 대부분의 이런 기법에는 계산속도나 기억용량을 효율적으로 이용할 수 있는 반복법을 사용해서 행렬방정식을 풀게 되는데, 유사공진특성을 갖는 물체에 대한 산란은 물체 내부에서 전자파가 공진하는 특성을 가지므로 반복해법올 이용하여 적분방정식을 풀 경우 수렴이 잘 되지 않거나, 수렴되기까지 많은 반복회수를 필요로 한다. 본 논문에서 사용된 MLFMA(Muli-level Fast Multipole Algorithm)는 FMM(Fast Multipole Method)을 다층으로 확장한 알고리듬으로 반복회수당 계산시간을 O(NlogN)으로 줄일 수 있다. 이 MLFMA를 유사공진형구조에 적용하고, 또한 행렬식을 블록밴드행렬 전처리를 하여 반복회수를 감소시켰다. 여기서 사용된 전처리행렬은 행렬분할법을 이용하여 O(N)의 계산시간으로 구할 수 있으므로, 미지수가 많을 때는 전처리행렬을 구하는데 드는 추가계산시간을 무시할 수 있다. 여기서 제안된 방법을 비행기의 공기유입구에 대한 TM전자파산란 계산에 적용하여 효율성을 보였다

  • PDF

영역분할에 의한 Zernike Moments 모양정보 기술자 (Zernike Moments Shape Descriptor with Region Partitioning)

  • 김종득;김해광
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 학술대회
    • /
    • pp.53-57
    • /
    • 1999
  • 모양정보는 사람이 물체를 구분하는 특징 중 하나이며 Zernike moments등의 방법으로 그 특징을 표현한다. 본 논문에서는 기존의 Zernike moment 방법을 수정하여 입력 모양정보를 내부 모양정보와 외부 모양정보로 분리하여 각각의 영역에 대해서 특징을 추출한다. 그리고 두 모양정보의 유사도를 계산하는 과정에서 내부 모양정보와 외부 모양정보의 특징에 각각 다른 가중치를 적용함으로써 사용자의 의도에 가장 적합한 질의 결과를 얻을 수 있는 새로운 기능성을 부여하여 검색의 효율성을 높였다. 실험 결과 기존의 Zernike moments 방법에 비해서 최대 12 %의 성능 향상이 있음을 보였다.

  • PDF

KAISER: 워드 임베딩 기반 개체명 어휘 자가 학습 방법을 적용한 개체명 인식기 (KAISER: Named Entity Recognizer using Word Embedding-based Self-learning of Gazettes)

  • 함영균;최동호;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.337-339
    • /
    • 2016
  • 본 논문에서는 한국어 개체명 인식의 성능 향상을 위하여 워드 임베딩을 활용할 수 있는 방법에 대하여 기술한다. 워드 임베딩이란 문장의 단어의 공기정보를 바탕으로 그 단어의 의미를 벡터로 표현하는 분산표현이다. 이러한 분산 표현은 단어 간의 유의미한 정도를 계산하는데 유용하다. 본 논문에서는 이러한 워드 임베딩을 통하여 단어 벡터들의 코사인 유사도를 통한 개체명 사전 자가 학습 및 매칭 방법을 적용하고, 그 실험 결과를 보고한다.

  • PDF