• 제목/요약/키워드: 유사도비

검색결과 19건 처리시간 0.03초

벡터와 신경망 모델에서 데이터 퓨전 기법을 이용한 정보검색의 효율성 향상 (Improving the Effectiveness of Information Retrieval Using Data Fusion Method in the Vector and Neural Network Model)

  • 최성환
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.137-142
    • /
    • 2001
  • 본 논문에서는 벡터모델과 신경망 모델을 이용하여 데이터 퓨전의 관점에서 다중증거로서 가중치, 문헌분리가, 엔트로피, 공기유사도를 적절히 결합하여 질의를 확장하는 방법을 제안한다. 실험결과 코사인 정규화 가중치 알고리즘, 문서길이 정규화 가중치 알고리즘과 결합하여 질의를 확장하는 것이 정규화시키지 않고 단순히 문헌빈도와 역문헌빈도의 조합을 이용한 가중치 알고리즘과 결합했을 때 보다 평균 정확률 향상이 더 높게 나타났다. 또한 다양한 공기기반 유사도를 이용하여 질의확장을 한 결과 벡터모델과 신경망 모델에서 코사인 공기유사도에 기반하여 질의확장한 경우가 다른 공기유사도에 비해 더 좋은 성능을 보였다.

  • PDF

뉴스 클러스터링 개선을 위한 문서 임베딩 및 이미지 분석 자질의 활용 (Document Embedding and Image Content Analysis for Improving News Clustering System)

  • 김시연;김상범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.104-108
    • /
    • 2015
  • 많은 양의 뉴스가 생성됨에 따라 이를 효과적으로 정리하는 기법이 최근 활발히 연구되어왔다. 그 중 뉴스클러스터링은 두 뉴스가 동일사건을 다루는지를 판정하는 분류기의 성능에 의존적인데, 대부분의 경우 BoW(Bag-of-Words)기반 벡터유사도를 사용하고 있다. 본 논문에서는 BoW기반의 벡터유사도 뿐 아니라 두 문서에 포함된 사진들의 유사성 및 주제의 관련성을 측정, 이를 분류기의 자질로 추가하여 두 뉴스가 동일사건을 다루는지 판정하는 분류기의 성능을 개선하는 방법을 제안한다. 사진들의 유사성 및 주제의 관련성은 최근 각광을 받는 딥러닝기반 CNN과 신경망기반 문서임베딩을 통해 측정하였다. 실험결과 기존의 BoW기반 벡터유사도에 의한 분류기의 성능에 비해 제안하는 두 자질을 사용하였을 경우 3.4%의 성능 향상을 보여주었다.

  • PDF

좌-우향 은닉 마코프 모델에서 상태결정을 이용한 음질향상 (Efficient Speech Enhancement based on left-right HMM with State Sequence Decision Using LRT)

  • 이기용
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.47-53
    • /
    • 2004
  • 본 논문에서는 좌-우향은닉 마코프 모델 (Left-Right Hidden Markov Model)에서 상태결정을 갖는 음성향상방법을 제안하였다. 은닉 마코프 모델에 기초를 둔 음질향상 방법은 성능은 우수하나, 모든 상태에 대해서 음질향상 알고리즘을 계산하므로, 계산량이 많고, 메모리가 많이 필요하여 실시간 처리에 부적절하다. 좌-우향 은닉 마코프 모델은 마코프 모델을 좌측에서 우측으로의 전이만 허용하는 모델로 단순화시켜 현재 상태에서 현재 상태나 다음 상태로 전이될 수 있는 특성을 가지고 있다. 본 논문에서는, 좌-우향 은닉 마코프 모델에서 유사도비 테스트 (Log-Likelihood Ratio Test)를 이용하여 현재 음성의 상태를 결정하는 알고리즘을 제안하였다. 현재 음성의 상태를 알고 있다면, 현재 상태에 대해서만 음질향상 알고리즘을 계산하므로, 계산량이 줄어든다. 제안된 방법의 성능 평가를 위하여 음질 향상 시간과 신호 대 잡음비를 비교하였다. 제안된 방법은 기존의 방법에 비해 음질향상의 결과는 약 0.2∼0.4 dB 정도 떨어졌지만, 계산량을 많이 줄일 수 있었다.

한글 저자명 중의성 해소를 위한 기계학습기법의 적용 (Application of Machine Learning Techniques for Resolving Korean Author Names)

  • 강인수
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.27-39
    • /
    • 2008
  • 동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자진들을 결합하는 최저의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

SIND Model을 적용한 도시침수 예측 : 낙동강 유역 적용 (Prediction of Urban Inundation using SIND Model : Application of Nakdong River Basin)

  • 김동현;이승오
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.293-293
    • /
    • 2019
  • 최근 도심지 침수예방을 위해 구조적 비구조적인 대책 등이 수행되어 왔으나, 도심지의 국지성 호우의 발생빈도가 증가함에 따라 단시간의 도심지 침수예측의 중요성이 다시 대두되고 있다. 이에 도심지 침수 예측을 위해서는 수치모의 프로그램을 사용한 연구가 진행되어 왔으나, 국지성 호우에 의한 침수를 막을 만킁의 실시간 위험예측은 아직까지 힘든 실정이다. 한편 해양재난의 침수를 예방하기 위해서 국립재난안전연구원(2017)에서는 과학적 보간법을 적용한 침수예측 모형인 SIND(Scientific Interpolation for Natural Disaster) Model을 개발한 바 있다. 따라서 본 연구에서는 SIND Model을 도심지 침수예측에 적용하여 집중호우와 같은 단기간의 침수를 예방하고자 한다. SIND Model은 기 구축된 침수예상도를 활용하여 모든 시나리오에 대한 침수 위험도 등급을 실시간으로 평가하는 모형이다. 국토부에서 제공하는 국가홍수위험지도와 내수침수지도를 활용하였고, SIND Model은 Comsol Multyphisic를 활용하여 침수예측지도를 생성하였다. 기존에 해양재난 예측을 위해 사용하였던 Risk Grade 방정식에 시간 항(time term)과 도심지의 최초 침수 발생위치에 생성 항(source term)을 추가하여 도심지 침수특성을 반영하였다. 결과를 평가하기 위하여 CRITIC(CRiteria Importance Through Intercriteria Correlation) 방법을 활용한 형상유사도를 산출하였다. 그 결과, 기 구축된 홍수위험지도와 형상유사도는 전체 구역 중 80%의 구역이 0.8 이상의 값을 나타내었다. 20%의 구역에서는 복잡한 도심지의 건물, 구조물 등의 침수특성을 반영하지 못하여 형상유사도가 낮게 평가된 것으로 판단되며, 향후 위험도 예측을 위해 배수시스템 등의 영향인자를 고려한다면 위험도 등급 예측의 정확도를 높일 수 있을 것이라 기대된다.

  • PDF

유사계수에 따른 전역적 질의확장 검색 성능 비교 (Comparing the Performance of Global Query Expansion according to Similarity Measures)

  • 이재윤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.526-528
    • /
    • 2003
  • 공기빈도를 이용한 전역적 질의확장 검색에서 공기유사도를 판정하는데 이용되는 유사계수의 특성에 따른 질의확장 성능을 비교해보았다. 먼저 각 유사계수의 통계적인 특성을 말뭉치와 검색실험 문서집단을 대상으로 살펴본 결과 코사인 계수, 자카드 계수는 고빈도어 선호경향을 보이고 상호정보량과 율의 Y는 저빈도어 선호경향을 보이는 것으로 나타났다. 질의확장 검색실험에서는 고빈도어 선호경향을 가진 유사계수에 비해서 저빈도어 선호경향을 가진 유사계수률 이용할 때 더 종은 성능이 나타났다. 특히 율의 Y는 질의어의 DF가 1에 가깝게 매우 낮을 때 다른 유사계수와 달리 고빈도어를 선호함으로써 항상 저빈도어를 선호하는 상호정보량에 비해서 질의확장 검색에 유리함을 알 수가 있었다.

  • PDF

인접 매크로블록간 움직임유사도 기반 개선된 블록매칭 알고리즘 (An Improved Block-matching Algorithm Based on Motion Similarity of Adjacent Macro-blocks)

  • 유태경;정용재;문광석;김종남
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.663-667
    • /
    • 2009
  • 본 논문에서는 인접블록간의 움직임 유사도를 이용하여 불필요한 후보블록을 보다 빠르게 제거하는 PDE기반의 고속 블록매칭 알고리즘을 제안한다. 제안한 방법은 기존의 방법보다 불필요한 계수를 효율적으로 제거하기 위하여 인접 블록간의 영상의 유사성에 기초하여 인접한 네개의 매크로블록 가운데 최대 복잡도를 가지는 서브블록의 누적된 비율(cumulative distribution function-CDF)을 사용하고 서브블록별 복잡도가 집중되지 않도록 하기위하여 normalized 기반 매칭스캔 방법을 사용하여 효율적으로 계산량을 줄였다. 제안한 알고리즘은 화질의 저하 없이 기존의 PDE 알고리즘에 비해 60% 이상의 계산량을 줄였으며, MPEG-2 및 MPEG-4 AVC를 이용하는 비디오 압축 응용분야에 유용하게 사용될 수 있을 것이다.

  • PDF

매크로블록 간 움직임유사도를 이용한 고속 PDE 알고리즘 (A Fast Partial Distortion Elimination Algorithm Using Motion Similarity of Macro-blocks)

  • 유태경;정용재;문광석;김종남
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.225-228
    • /
    • 2009
  • 본 논문에서는 인접블록간의 움직임 유사도를 이용하여 불필요한 후보블록을 보다 빠르게 제거하는 PDE기반의 고속 블록매칭 알고리즘을 제안한다. 제안한 방법은 기존의 방법보다 불필요한 계수를 효율적으로 제거하기 위하여 인접 블록간의 영상의 유사성에 기초하여 네 개의 인접 매크로블록 가운데 최대 복잡도를 가지는 서브블록의 누적 분포 함수(cumulative distribution function-CDF)와 서브블록별 복잡도가 집중되지 않도록 하기위하여 normalized스캔 방법에 사용하여 효율적으로 계산량을 감소하였다. 제안한 알고리즘은 화질의 저하 없이 기존의 PDE 알고리즘에 비해 55% 이상의 계산량을 줄였으며, MPEG-2 및 MPEG-4 AVC를 이용하는 비디오 압축 응용분야에 유용하게 사용될 수 있을 것이다.

  • PDF

홀로그래픽 저장장치를 위한 수정된 로그-유사도비를 이용한 LDPC-LDPC 곱부호 (LDPC-LDPC Product Code Using Modified Log-likelihood Ratio for Holographic Storage System)

  • 정성권;이재진
    • 전자공학회논문지
    • /
    • 제54권6호
    • /
    • pp.17-21
    • /
    • 2017
  • 홀로그래픽 데이터 저장장치는 높은 데이터 전송률과 저장용량이 매우 크기 때문에 차세대 저장장치 후보 중 하나이다. 하지만 홀로그래픽 데이터 저장장치의 오류요인으로는 인접 페이지간 간섭 및 2차원 인접 심볼간 간섭이 있다. 또한 물리적 영향에 의해 발생되는 연집오류가 있다. 본 논문에서는 이러한 연집오류를 정정하고 성능을 향상시키기 위해 수정된 로그-우도비값과 부가적 정보를 반복적으로 사용하는 방식을 제안한다. 제안하는 LDPC 곱부호는 일반적인 LDPC 부호와 비교하여 BER이 $10^{-5}$일 때, 약 0.5dB 성능 향상을 보였다.

급성 호흡기 감염으로 입원한 소아에서 분리된 보카바이러스의 계통분석 (Phylogenetic Analysis of Human Bocavirus in Hospitalized Children with Acute Respiratory Tract Infection in Korea)

  • 안종균;최성열;김동수;김기환
    • Pediatric Infection and Vaccine
    • /
    • 제19권2호
    • /
    • pp.71-78
    • /
    • 2012
  • 목적: 보카바이러스는 2005년 소아의 비인두 흡입물에서 처음으로 발견된 호흡기 바이러스로서 현재 전세계적으로 발견되고 있고 국내에서도 보카바이러스 호흡기 감염증이 보고되고 있다. 이번 연구는 중합효소 연쇄 반응(PCR)을 이용한 보카바이러스의 분리 및 유전자 분석을 통하여 2010년 국내에서 유행하였던 보카바이러스의 계통 및 유전적 변이를 알아보고자 하였다. 방법: 2010년 1월부터 2010년 12월까지 세브란스 어린이병원에 하기도 감염증으로 입원한 소아에서 비인두 흡입 검체를 채취하였다. 다중 중합효소 연쇄 반응을 이용하여 12종의 바이러스에 대한 분자진단이 이루어졌고 이 중 보카바이러스 양성인 검체에 대하여 보카바이러스 1-4형에 특이적인 VP1/2 유전자 염기서열을 기반으로 하는 시발체를 이용한 중합효소 연쇄 반응을 시행하여 얻은 증폭산물의 염기서열분석을 확인하여 계통 분석을 시행하였다. 결과: 전체 953명의 소아 중 141명(14.8%)에서 보카바이러스가 검출되었고, 61.7%에서 다른 바이러스와의 중복감염을 보였다. 염기서열분석 결과 모두 보카바이러스 1형으로 확인되었고 보카바이러스 2, 3, 4형은 검출되지 않았다. 검출된 모든 보카바이러스의 염기서열들은 98% 이상의 염기유사도를 보였다. 결론: 2010년 국내에서 유행한 보카바이러스 호흡기 감염은 유전학적으로 모두 보카바이러스 1형에 의한 것이었고, 동정된 균주들은 높은 염기유사도를 보였다. 아직까지 국내에서 보카바이러스의 변이는 미미한 상태이지만 향후 보카바이러스 호흡기 감염의 유행시 지속적인 유전자형의 추적관찰이 필요하다.

  • PDF