• 제목/요약/키워드: Similar information retrieval

검색결과 297건 처리시간 0.027초

링크드 오픈 데이터에서 TF-IDF를 이용한 새로운 시맨틱 거리 측정 기법 (A New Semantic Distance Measurement Method using TF-IDF in Linked Open Data)

  • 조정길
    • 한국융합학회논문지
    • /
    • 제11권10호
    • /
    • pp.89-96
    • /
    • 2020
  • 링크드 데이터는 다양한 영역의 데이터세트를 서로 연결할 수 있는 표준 방식의 구조화된 데이터를 가능하게 한다. 그리고 링크드 오픈 데이터(LOD)의 급속한 발전에 따라 연구자들은 시맨틱 유사도 평가와 같은 특정 문제를 해결하기 위해 LOD를 이용하고 있다. 이 논문에서는 LOD-기반 추천 시스템에서 사용될 수 있는 자원 간의 링크드 데이터 시맨틱 거리를 계산하기위한 방법을 제안한다. 이 논문에서 제안된 시맨틱 거리 측정 모델은 LOD-기반 시맨틱 거리와 정보 검색 분야에서 잘 알려진 TF-IDF를 이용한 새로운 링크 가중치를 결합한 유사도 측정을 기반으로 한다. 이 논문의 접근방식의 효과성을 검증하기 위하여 DBpedia와 MovieLens의 혼합 데이터를 사용하여 LOD-기반 추천 시스템의 맥락에서 성능을 평가하였다. 실험 결과는 제안된 방법이 다른 유사한 방법과 비교하여 더 높은 정확도를 나타내었다. 또한 시맨틱 거리 계산의 범위를 넓혀서 추천 시스템의 정확도 향상에 기여하였다.

판소리 자동채보를 위한 구조분석 알고리즘 (Structural Analysis Algorithm for Automatic Transcription 'Pansori')

  • 주영호;김준철;서경숙;이준환
    • 한국콘텐츠학회논문지
    • /
    • 제14권2호
    • /
    • pp.28-38
    • /
    • 2014
  • 서양 음악의 경우 자동채보와 내용기반 음악검색을 위한 음악 정보 분석연구가 활발하게 진행되고 있다. 그러나 한국 전통음악에서는 유사한 연구사례를 찾아보기 어렵다. 본 논문에서는 한국의 전통음악인 판소리 구조를 자동으로 분석하기 위한 알고리즘들을 제안한다. 제안된 알고리즘은 음성과 비음성의 시간 간격비율을 이용하여 '소리' 부분과 '아니리' 부분을 자동으로 구분한다. 뿐만 아니라 알고리즘은 '장단'이라 칭하는 리듬을 템플릿 이용한 다수결 결정 방법으로 강건하게 구분한다. 또한 알고리즘은 칼만 필터를 이용하여 '소리' 부분의 마디 지점을 검지해낸다. 본 논문에서 제안된 알고리즘들은 판소리 샘플들에서 양호하게 동작하였으며 자동채보의 전단계의 구조분석에 유용할 수 있다.

공간 네트워크상의 이동객체를 위한 궤적기반 색인구조의 설계 및 구현 (Design and Implementation of a Trajectory-based Index Structure for Moving Objects on a Spatial Network)

  • 엄정호;장재우
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권2호
    • /
    • pp.169-181
    • /
    • 2008
  • 대부분의 이동객체들은 공간 네트워크상을 움직이기 때문에, 그들의 궤적을 효과적으로 색인 검색할 수 있는 궤적 기반 색인 구조가 필요하다. 하지만 도로와 같은 공간 네트워크상의 궤적 기반 색인 구조에 대한 연구는 FNR-트리나 MON-트리와 같은 연구가 진행되었을 뿐 연구가 많이 진행되어 있지 않다. 하지만, FNR-트리나 MON-트리 또한 이동객체의 세그먼트만을 저장할 뿐 전체 궤적을 유지하지 못하여, 궤적 질의에 대해 비효율적이다. 따라서 본 논문에서는 공간 네트워크상의 이동객체를 위한 궤적기반 색인 구조인 TMN -Tree(Trajectory of Moving objects on Network-Tree)를 제안한다. 이를 위해, 이동객체를 공간과 시간 특성으로 분류하고, 궤적을 유지함으로써 영역질의와 궤적질의를 동시에 처리할 수 있는 색인 구조를 설계한다. 아울러, 사용자 질의를 시공간영역 내 궤적 질의, 시간영역 내 유사궤적 질의, k-최근접 질의로 분류하고, 이들을 처리하기 위한 질의 처리 알고리즘을 제안한다. 마지막으로 본 논문에서 제안한 궤적 기반 색인 구조가 기존의 색인구조인 FNR-Tree, MON-Tree보다 성능이 향상되었음을 보여준다.

VDCluster : 대용량 비디오 시퀀스를 위한 비디오 세그멘테이션 및 클러스터링 알고리즘 (VDCluster : A Video Segmentation and Clustering Algorithm for Large Video Sequences)

  • 이석룡;이주홍;김덕환;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.168-179
    • /
    • 2002
  • 본 논문에서는 비디오 저장이나 검색과 같은 비디오 정보 처리를 위한 중요한 기초 연구로써 비디오의 표현을 위한 효과적인 기법을 제안한다. 비디오 데이타 세트는 수초에서 수분 사이의 상연 시간을 갖는 비디오 클립들의 집합이며, 각 비디오 클립은 연속된 비디오 프레임들로 구성되어 있다. 이 비디오 클립은 다차원 데이타 시퀀스(multidimensional data sequence: MDS)로 표현될 수 있으며, 프레임 사이의 시간적인 정보를 고려하여 비디오 세그먼트로 나누어 지고, 한 클립 내에서 서로 유사한 세그먼트들은 다시 비디오 클러스터로 군집화된다. 따라서, 각 비디오 클립은 소수 개의 비디오 클러스터로 표현되어 진다. 본 논문에서 제안한 비디오 세그멘테이션 및 클러스터링 알고리즘 VDCLuster는 사전에 정의된 일정 수준의 클러스터링 품질을 보장하고 있으며, 다양한 비디오 시퀀스에 대한 실험을 통하여 알고리즘의 효과를 입증한다.

외국어 음차 표기의 음성적 유사도 비교 알고리즘 (Phonetic Similarity Meausre for the Korean Transliterations of Foreign Words)

  • 강병주;이재성;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1237-1246
    • /
    • 1999
  • 최근 모든 분야에서 외국과의 교류가 증대됨에 따라서 한국어 문서에는 점점 더 많은 외국어 음차 표기가 사용되는 경향이 있다. 하지만 같은 외국어에 대한 음차 표기에 개인차가 심하여 이들 음차 표기를 포함한 문서들에 대한 검색을 어렵게 만드는 원인이 되고 있다. 한 가지 해결 방법은 색인 시에 같은 외국어에서 온 음차 표기들을 등가부류로 묶어서 색인해 놓았다가 질의 시에 확장하는 방법이다. 본 논문에서는 외국어 음차 표기들의 등가부류를 만드는데 필요한 음차 표기의 음성적 유사도 비교 알고리즘인 Kodex를 제안한다. Kodex 방법은 기존의 스트링 비교 방법인 비음성적 방법에 비해 음차 표기들을 등가부류로 클러스터링하는데 있어 더 나은 성능을 보이면서도, 계산이 간단하여 훨씬 효율적으로 구현될 수 있는 장점이 있다.Abstract With the advent of digital communication technologies, as Koreans communicate with foreigners more frequently, more foreign word transliterations are being used in Korean documents more than ever before. The transliterations of foreign words are very various among individuals. This makes text retrieval tasks about these documents very difficult. In this paper we propose a new method, called Kodex, of measuring the phonetic similarity among foreign word transliterations. Kodex can be used to generate the equivalence classes of the transliterations while indexing and conflate the equivalent transliterations at the querying stage. We show that Kodex gives higher precision at the similar recall level and is more efficient in computation than non-phonetic methods based on string similarity measure.

조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식 (Named Entity Recognition for Patent Documents Based on Conditional Random Fields)

  • 이태석;신수미;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권9호
    • /
    • pp.419-424
    • /
    • 2016
  • 특허 정보검색에서는 검색 정확도를 높이거나 유사 특허들을 검색하기 위한 목적으로 청구항 등 특허 기술 문서의 내용을 대표하는 개체명 인식이 필요하다. 본 연구에서는 특허 개체명을 자동으로 인식하기 위하여 기계 학습 기법에서 태깅 문제 해결에 매우 우수한 성능을 보이는 조건부 랜덤 필드 기법을 이용하는 특허 개체명 인식 방법을 제안하였다. 개체명 태깅이 되어 있는 특허 문서 말뭉치에서 66만 어절을 학습용 데이터로 사용하여 특허 개체명 시스템을 구축하고, 7만 어절을 평가용 데이터로 사용하여 성능 평가를 하였다. 실험 결과에 의하면 개체명 인식 정확도는 93.6%이고, 개체명 인식 성능을 수작업 태깅 결과와 비교하여 일치도를 평가했을 때 카파 계수는 0.67로 나타났다. 이 카파 계수값은 두 사람의 수작업 태깅 결과에 대한 카파 계수 0.6 보다 높은 것으로 특허 개체명 인식 시스템이 수작업 태깅을 대신하여 실용적으로 활용될 수 있음을 확인하였다.

상용 디지털 카메라를 이용한 3가지 유효 RGB 파장에서의 미세먼지 소산계수 산출법 (Aerosol-extinction Retrieval Method at Three Effective RGB Wavelengths Using a Commercial Digital Camera)

  • 박선호;김덕현
    • 한국광학회지
    • /
    • 제31권2호
    • /
    • pp.71-80
    • /
    • 2020
  • 본 논문에서는 상용 카메라를 이용하여 미세먼지의 소산계수를 측정하기 위한 새로운 방법을 제안하였다. 하나의 주어진 영상에서 같은 방향에 놓인 동일한 종류의 물체에 대한 3개 이상의 화소점의 밝기를 이용하여 소산계수를 측정하였다. 계산에 사용하기 위해 선택된 화소에 해당하는 물체는 카메라와의 거리를 알고 있는 것으로 선택하였다. 카메라를 이용하여 측정한 미세먼지의 소산계수와의 비교를 위하여 라이다를 이용하여 소산계수를 측정하였다. 최종적으로 카메라를 이용하여 측정한 미세먼지의 소산계수와 라이다를 이용한 그것에는 신뢰할 수 있는 상관관계를 얻었으며, 약 0.86 정도의 값을 보였다. 같은 방법으로 카메라의 R, G, B 3센서의 유효파장에서 소산계수를 얻을 수 있다는 것을 보였으며, 이러한 3파장에서의 소산계수를 통하여 하루 동안의 옹스트롱 지수(Angstrom exponent) 변화를 얻었는데, 이 값은 0.7~1.6 범위에 존재한다는 것을 알 수 있었다. 이러한 지수는 입자의 크기와 관련된 중요한 정보로 사용할 수 있다.

LDA 모델을 이용한 잠재 키워드 추출 (Latent Keyphrase Extraction Using LDA Model)

  • 조태민;이지형
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.180-185
    • /
    • 2015
  • 인터넷 미디어의 발달과 함께 온라인 문서의 양이 급격하게 증가함에 따라, 문서 요약과 정보 검색 등 다양한 분야에 활용가능한 키워드를 자동으로 찾고자하는 연구가 활발히 진행되고 있다. 하지만 기존의 키워드 추출 연구들은 문서에서 나타나는 키워드만을 대상으로 하고 있어, 문서에서 등장하지 않는 잠재 키워드를 추출하지 못하는 한계를 갖고 있다. 잠재 키워드는 실데이터 키워드의 1/4 이상을 차지하고 있으며, 문서에서 나타나지는 않지만 문서의 중요한 개념이나 내용을 함축하고 있어 문서 요약 및 정보 검색에 중요한 역할을 차지할 수 있다. 특히 SNS와 같이 내용이 적어 키워드가 명시적으로 나타나기 어려운 문서에서 유용하게 활용될 수 있다. 본 논문에서는 잠재 키워드를 추출하기 위해 주어진 문서와 유사한 문서의 키워드를 후보 키워드로 선택하고 후보 키워드를 구성하는 개별 단어들을 이용해 후보 키워드의 중요도를 평가하는 방법을 제안한다. 실험을 통해, 제안 기법이 잠재 키워드를 합리적인 수준으로 추출할 수 있음을 보였다.

시퀀스 데이터베이스를 위한 서브시퀀스 탐색 : 세그먼트 기반 접근 방안 (Efficient Subsequence Searching in Sequence Databases : A Segment-based Approach)

  • 박상현;김상욱;노웅기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.344-356
    • /
    • 2001
  • 본 논문에서는 시퀀스 데이터베이스에서 시간왜곡 변환(time warping)을 지원하는 서브시퀀스 탐색 문제를 다룬다. 서브시퀀스 탐색은 데이터 시퀀스의 평균 길이의 이차 함수로 성능이 저하된다. 이러한 문제를 해결하기 위하여 본 논문에서는 세그먼트 기반 서브시퀀스 탐색 기법(Segment-Based Approach for Subsequence Searches : SBASS)을 제안한다. SBASS는 데이터와 질의 시퀀스를 연속된 세그먼트들로 분할하여 다음의 두가지 조건을 만족하는 모든 데이터 시퀀스를 검색한다. (1) 세그먼트의 개수가 질의 시퀀스의 세그먼트 개수와 같다. (2) 모든 세그먼트 쌍 간의 거리가 주어진 오차 한도 이내이다. 제안된 세그먼트 분할 기법에서는 세그먼트가 서로 다른 길이를 갖도록 허용하며, 세그먼트 쌀간의 유사성의 척도로서 시간왜곡 변환 거리를 이용한다. 효율적인 유사 서브시퀀스 탐색을 위하여, 각 데이터 세그먼트로부터 요서 값들이 단조적으로 변화하는 특성을 이용하여 특성 벡터를 추출하고, 추출된 특성 벡터를 이용하여 공간 인덱스를 생성한다. 질의는 이 인덱스를 이용하여 (1) R-트리 여과, (2) 특성 여과, (3) 순서 여과, (4) 후처리의 네 단계로 처리된다. 다양한 실험을 통하여 제안된 기법의 효율성을 입증한다.

  • PDF

기저 함수의 대칭성을 이용한 저니키 모멘트의 효율적인 계산 방법 (An Efficient Computation Method of Zernike Moments Using Symmetric Properties of the Basis Function)

  • 황선규;김회율
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.563-569
    • /
    • 2004
  • 저니키 모멘트(Zernike moment)는 영상의 표현 능력이 뛰어나기 때문에 객체 인식 또는 내용기반 영상 검색 시스템에서 많이 사용되었으나, 정의식이 복잡하기 때문에 많은 연산량을 필요로 하는 단점이 있다. 저니키 모멘트를 빠르게 계산하는 기존의 방법들은 주로 1차원 실수 방사 다항식을 빠르게 계산하는 방법에 중점을 두었다. 본 논문에서는 저니키 복소 기저 함수의 대칭성을 유도하여 저니키 기저함수를 빠르게 계산하고 입력 영상으로부터 저니키 모멘트를 효율적으로 추출하는 방법을 제안한다. 제안하는 방법은 저니키 기저 함수 계산에 필요한 연산량을 기존 방법의 약 20%로 줄이고, 저니키 모멘트 추출에 필요한 곱셈 연산을 25%로 감소시킨다. 또한, 저니키 모멘트를 특징 벡터로 이용하는 시스템 구현 시 필요한 메모리 요구량도 기존 방법의 25%만을 필요로 한다. 제안하는 방법은 회전 모멘트, 의사 저니키 모멘트, ART(Angular Radial Transform) 등의 계산에도 같은 방식으로 적용될 수 있다.