• 제목/요약/키워드: 유사도 가중치

검색결과 578건 처리시간 0.028초

영상분류를 이용한 내용기반 영상검색 시스템 (Content-Based Image Retrieval System Using Image Classification)

  • 이현운;전준철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.887-890
    • /
    • 2000
  • 본 연구에서는 내용기반 영상 데이터 검색을 위하여 변환 영역에서 위치 정보와 주파수 정보를 가지는 웨이블릿 성질을 이용하여 영상을 압축한 후에 저주파 성분에 의한 객체들의 특징을 추출하는 방안으로 Vector Quantization 을 이용한 class 별 영상 검색을 제시한다 내용기반 영상 검색의 주요특징들은 색상, 질감, 그리고 영상의 공간적인 특징을 고려한 특징 값 둥이 사용된다. 먼저 검색의 효율성을 높이기 위해 영상을 구성하는 특징 치 중에서 가장 빈도가 많은 class 부터 영상의 유사도를 검색한 후에 다음으로 영상을 구성하는 빈도가 큰 순서대로 DB 내에 저장되어 있는 영상과 비교를 하게 된다. DB내 영상 검색은 빈도수가 우선인 5개의 class를 기준으로 유사도를 측정해서 검색을 이룬다. 이러한 영상의 특징들을 어떻게 결합하고 특징 추출을 하느냐에 따라 검색의 효율성에 영향을 준다. 따라서 본 연구에서는 영상의 위치 정보와 주파수 정보를 가지는 웨이블릿 변환 후 얻어지는 저대역 부밴드에서의 공간적인 특성을 고려한 특징 값을 이용하여 Vector Quantization 알고리즘에 의해 정지영상의 객체 대표 특징들을 마르게 검색하고자 한다. 본 연구에서는 Haar Wavelet과 Vector Quantization 에서 색상과 질감의 가중치를 적용한 후 DB 에 저장된 영상과 유사도를 검색하는 방법을 취하고자 한다.

  • PDF

블록 매칭의 유사도 판별을 이용한 AWGN 제거 알고리즘 (AWGN Removal Algorithm using Similarity Determination of Block Matching)

  • 천봉원;김남호
    • 한국정보통신학회논문지
    • /
    • 제24권11호
    • /
    • pp.1424-1430
    • /
    • 2020
  • 본 논문에서는 영상에 존재하는 잡음의 특성을 고려하여 AWGN을 제거하기 위한 알고리즘을 제안한다. 제안한 알고리즘은 출력 계산을 위해 블록 매칭을 사용하였으며, 센터 마스크와 매칭 마스크의 유사도 판별하여 추정치를 계산한다. 필터의 출력은 추정치와 입력 화소값을 가감하여 계산하며, 센터 마스크의 표준 편차와 잡음 상수에 따라 가중치를 부여하여 최종 출력을 구한다. 제안하는 알고리즘을 평가하기 위해 기존 방법들과 비교하여 시뮬레이션하였으며, 확대영상 및 PSNR비교를 통해 분석하였다. 제안한 알고리즘은 잡음의 영향을 최소화하였으며, 영상의 중요 특성을 보존하며 효율적으로 잡음을 제거하는 성능을 보였다.

토픽별 인간 속성의 영향력 기반 소셜 관계 지수 산정 (Social Relationship Value Computation based on the Influence of Human Attributes classified by Topics)

  • 권오상;박건우;이상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.884-887
    • /
    • 2010
  • 최근 검색엔진의 효율성을 향상시키고 검색결과에 있어서 사용자들의 요구사항을 충족시키기 위한 연구들이 활발히 수행되고 있으며, 많은 방법론들이 제시되고 있다. 이는 방대한 정보 속에서 사용자의 검색 의도에 맞는 정보를 효과적으로 제공하는 것을 그 목표로 한다. 특히 본 논문에서는 검색하고자 하는 토픽별 사용자의 인적 속성들이 미치는 영향력을 기반으로 사용자간 소셜 관계 지수(SRV : Social Relationship Value)를 산정하는 방법을 제안한다. 소셜 관계 지수란 인간의 내재적인 특성을 수치로 산정한 것으로, 웹 사용자들에게 있어서는 검색 성향의 유사정도와 직결된다. 따라서 검색하고자 하는 토픽별 개인 성향의 유사정도를 수치로 부여하고 유사성이 높은 사람들의 검색 정보를 이용하면 사용자에 보다 만족된 검색결과를 제공할 수 있다. 본 연구에서는 구글 디렉터리(Google directory)의 정제된 각 토픽별 하위 범주(category)에 대해 선택 결과가 같은 사람들을 대상으로 인적 속성을 분석하고, 그 영향력을 가중치로 적용해 산정된 소셜 관계 지수와 사용자들의 검색 패턴을 비교 하였다. 그 결과 특정인을 기준으로 소셜 관계 지수가 높은 사람들의 검색 패턴이 매우 유사함을 확인 하였다. 이를 통해 토픽별 개인 간 연결 강도가 강할수록, 즉 유사성이 높은 사용자간에는 검색 패턴 또한 유사함을 검증 할 수 있었다.

단어/단어쌍 특징과 신경망을 이용한 두 문서간 유사도 측정 (Measurement of Document Similarity using Term/Term-pair Features and Neural Network)

  • 김혜숙;박상철;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권12호
    • /
    • pp.1660-1671
    • /
    • 2004
  • 본 논문은 두 문서간 유사도 측정 방법을 제안한다. 제안한 유사도 측정 모델의 주안점은 문서간 관련성의 정도를 두 문서간 일치하는 단어(term)및 단어쌍(tenn-phrase)에 기반하여 이들이 해당 문서에서 차지하는 가중치를 통해 측정하는 것이다. 유사도 측정 과정에 영향을 미치는 특징을 설계함에 있어 기존의 연구들이 하나의 특징만을 고려하였던 것에 비하여 본 논문은 여러 가지 특징들을 고려한다 즉, 단어뿐만 아니라 단어쌍과 관련된 특징을 결합하여 신경망을 통해 유사도를 측정한다. 제안된 방법의 우수성을 입증하기 위해 두 가지 측면에서 실험하였다. 첫 번째는 두 문서의 동일성 여부를 검증하는 문제이며, 두 번째는 다수의 문서를 대상으로 유사한 문서를 찾는 검색 문제이다. 이 두 가지 실험 모두에서 제안 방법이 기존의 Cosine 유사도 계산 방법 및 구색인 방법에 비해 우수한 성능을 보였다.

한-영 교차언어 정보검색에서 상호정보를 이용한 질의 변환 모호성 해소 및 가중치 부여 방법 (A Disambiguation and Weighting Method using Mutual Information for Query Translation in Korean-to-English Cross-Language IR)

  • 장명길;맹성현;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-62
    • /
    • 1999
  • 교차언어 문서검색에서는 단일언어 문서 상황을 만들기 위하여 질의나 문서를 다른 언어로 변환하게 되는데, 일반적으로 간단하면서도 실용적인 질의 변환의 방법을 주로 사용하고 있다. 하지만 단순한 대역 사전을 사용한 질의 변환의 경우에 변환 모호성 때문에 40% 이상의 검색 효과의 감소를 가져온다. 본 논문에서는 이러한 변환 모호성을 해결하기 위하여 대역 코퍼스로부터 추출한 상호 정보를 이용하는 단순하지만 효과적인 사전 기반 질의 변환 방법을 제안한다. 본 연구에서는 변환 모호성으로 발생한 다수의 후보들에서 가장 좋은 후보를 선택하는 모호성 해소 뿐 아니라 후보 단어들에 적절히 가중치를 부여하는 방법을 사용한다. 본 질의 변환 방법은 단순히 가장 큰 상호 정보의 단어를 선택하여 모호성 해소만을 적용하는 방법과 Krushall의 최소 스패닝 트리 구성과 유사한 방법으로 상호 정보가 큰 순서대로 간선들을 연결하여 모호성 해소와 가중치 부여를 적용하는 방법들과 질의 변환의 검색 효과를 비교한다. 본 질의 변환 방법은 TREC-6 교차언어 문서검색 환경의 실험에서 단일 언어 문서검색의 경우의 85%, 수작업 모호성 해소의 경우의 96%에 도달하는 성능을 얻었다.

  • PDF

한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현 (Implementation of the Text Abstraction System using the Statistical Information of Korean Documents)

  • 강상배;조혁규;권혁철;박재득;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-33
    • /
    • 1997
  • 이 논문에서는 문장 유사도 측정 기법과 말뭉치 정보를 이용한 문서요약 시스템을 구현하였다. 문서 요약은 문서에서 문장 단위로 단어를 추출하여 문장을 단어의 벡터로 표현하고, 문서 내 단어의 출현빈도와 말뭉치 내 단어의 사용빈도를 이용하여 각 문장의 중요도를 계산한다. 그리고 중요도가 높은 상위 몇 위의 문장을 요약문장으로 추출한다. 실험 결과, 문서내 단어빈도의 중요도를 낮추고, 말뭉치내 일반 사용빈도를 단어의 가중치에 추가했을 때 가장 좋은 효율을 보였다. 또 요약하고자 하는 문서와 유사한 말뭉치를 사용 했을 때 높은 효율을 보였다.

  • PDF

클러스터링 기법을 이용한 키워드 유사도 순위화 알고리즘에 따른 사용자 질의 확장 (User Query Expansion Through Keyword Similarity Ranking Algorithm Us ins Cluster ing Methods)

  • 이상훈;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.479-481
    • /
    • 2003
  • 본 논문에서는 여러 가지 클러스터링 기법들을 사용하여 키워드 유사도롤 순위화하여 사용자의 질의를 확장하는 기법을 제안한다. 클러스터링 기법에는 연관(Association) 클러스터링, 메트릭(Metric) 클러스터링, 스칼라(Scalar) 클러스터링 기법을 사용하고, 이들간의 가중치를 적절히 조절하여 검색 시스템을 만든다. 사용자의 질의가 주어졌을 때, 질의 키워드와 연관된 키워드들을 순위화 하여 사용자에게 보여주고, 사용자의 추가입력을 받아서 질의를 확장한다. 사용자가 적당한 질의어로 판단하여 확장된 질의로 검색을 수행할 때까지 이 과정을 반복한다. 실험에서 사용한 문헌집합은 Korea Herald의 2003년 1월과 2월의 경제 관련 기사들을 수집하여 사용하였고, 실험을 거쳐서 질의를 확장한 결과 만족할 만한 결과가 도출되었다.

  • PDF

유사어 사전을 이용한 자동범주화 모델 개발 (Automatic Text Categorization Model by Synonym Dictionary)

  • 김규환;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2004년도 제11회 학술대회 논문집
    • /
    • pp.167-172
    • /
    • 2004
  • 기존의 문서분류는 학습문서에 출현하는 자질에 대해 가중치를 계산하여 그 순위에 따라 상위 자질로 구성된 지식베이스를 사용하였다. 그리고 새로운 문서가 들어왔을 때 자질 지식베이스를 근거로 새 문서를 색인하였다. 결국 자질 지식베이스와 정확히 일치하지 않는 키워드는 색인대상에서 제외되는 문제가 있었다. 본 고에서는 이 문제를 해결하기 위하여 분류될 문서의 특징을 나타내는 범주별 자질과 유사한의미를 가지나 형태가 변형되어 기술된 단어에 대하여 유사어 사전을 구축하였으며 이를 통해 새로운 문서가 범주에 할당될 가능성을 높여 자동 문서 범주화 시스템의 성능을 향상시키고자 한다.

  • PDF

문서 유사도 분석 도구에 관한 연구 (A Study on Tools for Text Similarity Evaluation)

  • 김희진;강홍비;김한성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.411-414
    • /
    • 2017
  • 본 시스템은 LSA 또는 벡터공간 모델 방식을 이용하여, 문장 대 문장, 문서 대 문장, 다중 문서 간유사도 분석을 수행한다. 이는 문서의 특수문자를 제거한 뒤, 형태소 분석을 기반으로 단어를 추출하여 TF-IDF 가중치를 추출한뒤 행렬 계산을 통하여 Cosine 계산식을 사용하여 유사성을 검출하는 단계로 구성된다. 제시된 기법은 2개의 오픈소스를 이용하며, x86 기반 64bit Windows에서 개발되었으며, 60% 이상의 정확도를 나타낸다.

MMR을 이용한 질의기반 자동 문서요약 (Query-Based Automatic Text Summarization Using MMR)

  • 김금영;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.615-618
    • /
    • 2002
  • 정보검색 엔진들은 주어진 질의에 대해 방대한 양의 문서들을 검색해주며, 이 문서들은 질의와의 관련성에 따라 랭킹(Ranting)된다. 질색된 문서들중에 어떤것들은 그 내용이 서로 유사하여 사용자에게 필요 이상의 정보를 제공한다. 이는 질의와의 관련성(Relevance)만을 적용하고, 검색된 정보들간의 차별성을 고려하지 않은데서 비롯된다. MMR(Maximal Marginal Relevance)은 유사한 문서를 검색결과에서 배제할 수 있게 해주는 기법이다. MMR을 자동에 적용하면, 유사한 문장을 배제하여 상이한 정보들을 전달하는 질 높은 요약문을 생성할 수 있다. 본 논문에서는 MMR을 이용한 질의기반 자동 문서요약 시스템을 구현한다. 또한, MMR과 가중치 수식에 다양한 수치를 적용하고, 최적의 결과를 산출하는 수식을 제안한다.

  • PDF