• 제목/요약/키워드: 검색가중치

검색결과 400건 처리시간 0.033초

문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동분류 : 베이지안 분류자 (An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier)

  • 허준희;고수정;김태용;최준혁;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.154-156
    • /
    • 1999
  • 문서 분류는 미리 정의된 두 개 또는 그 이상의 클래스에 새로 생성되는 객체들을 할당하는 방법이다. 문서의 자동 분류에 대한 연구는 오래 전부터 연구되어 왔지만 한국어에 대한 적용 및 연구는 다른 분야에 비해 아직까지 활발히 이루어지지 않고 있다. 본 논문에서는 문서를 자동으로 분류하기 위해 문서의 주제어에 가중치를 부여하고, 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 주제어들과의 상호정보에 의해 추출된 단어를 사용하여 문서를 표현한 후, 가중치를 부여한 문서의 주제어에 베이지안 분류자를 사용하여 문서분류를 수행한다. 실험은 한국어 정보검색 실험용 데이터 집합인 KTset95 문서 4,414개 중 1,300개의 문서를 학습 집합으로, 1,000개의 문서를 분류에 대한 검증 집합으로 사용하였다. 실험 결과, 순수 베이지안 확률을 사용한 기존의 방법보다 실험 집합과 검증 집합에서 각각 1.92%, 4.3% 향상된 분류 정확도를 얻었다.

  • PDF

가중치를 이용한 병렬 세선화 알고리즘 (Parallel Thinniing Algorithm using Weighted-Value)

  • 한낙희;이필규
    • 인지과학
    • /
    • 제7권1호
    • /
    • pp.5-35
    • /
    • 1996
  • 본 논문은 문자인식,문자검색,도형인식 등에 있어서 필수 과정인 세선화 알고리즘에 대하여 논하였다.접근방법으로는 외곽선으로부터 특정 조건을 만족시키는 화소들을 동시에 제거해 가는 병렬 세선화 방법을 취했다.제안된 알고리즘은 가중치 개념을 도입하여 기존의 알고리즘보다 정확성 및 수행속도의 향상을 성취하였다.실험은 스캐너로 입력된 숫자, 영문자,도형 등을 기준으로 했으며 특히 다른 알고리즘에서 정확하게 세선화 하지 못하는 데이타들을 사용하였다. 실험결과 모양이나 토폴로지를 잃지 않고 정확히 세선화가 가능했으며 잡음으로부터라도 영향을 받지 않았다.

  • PDF

가중치가 부여된 연관 규칙을 이용한 문서 분류 (Document Classification using Weighted Associative Classifier)

  • 김흥남;이기성;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.154-156
    • /
    • 2003
  • 인터넷의 급속한 성장과 더불어 많은 정보와 데이터들을 인터넷을 통하여 얻을 수 있게 되었으며 많은 단체들이 문서들을 웹을 통하여 이용 가능하게 만들고 있다. 이에 따라 다양한 정보와 데이터를 효과적으로 분류하고 검색하는 문서 분류 (Document Classification)에 대한 알고리즘이 다양한 분야에서 널리 연구되어 왔으며 본 논문에서 초점을 두고 있는 전자 도서관 (Digital Library) 분야에서도 활발히 연구되어지고 있다. 하지만 기존의 전자 도서관의 문서 분류 알고리즘들은 문서들의 각 단락의 비중을 고려하지 않은 채 단어들의 발생 빈도에 초점을 두어 많은 잡음 단어 (Noise Term)를 포함하고 그로 인하여 분류 성능이 떨어졌다. 본 논문에서는 문서 단락의 중요도에 따라 다른 .가중치를 부여하여 단어 지지도 (Term Support)가 높은 단어들을 추출하고 그 단어들로 연관 규칙 (Association Rules)을 이용하여 분류 규칙을 생성하는 방법을 제안한다. 제안된 방법의 성능평가를 위해 문서 분류에 널리 쓰이는 나이브 베이지안 분류자 (Na$\square$ve Bayesian Classifier) 및 기존의 단순 연관 규칙 분류자 (Associative Classifier)와 비교 평가하였다. 그 결과, 각 가중치가 부여된 연관 규칙 분류 방법이 나이브 베이지안 분류 방법과 단순 연관 규칙 분류 방법보다 높은 성능을 보였다.

  • PDF

LSI 를 이용한 가중치 변화에 따른 클러스터링 결과 분석 (The Analysis of Clustering Result with Weight Change using LSI)

  • 고지현;오형진;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1009-1012
    • /
    • 2002
  • 정보검색시스템에서 가장 중요한 것은 사용자의 요구에 부합하는 결과를 도출하는 것이다. 이를 위하여 사용자의 질의와 연관된 모든 문서들을 추출하게 되는데, 이 많은 결과 문서들 중에서 사용자가 원하는 문서는 소수이고, 원하는 문서를 찾는 것도 쉽지 않다. 따라서 적절한 결과 문서 도출을 위하여 연관된 문서들끼리 그룹화 시키는 클러스터링 방법이 많이 이용된다. 본 논문에서는 클러스터링에 영향을 끼치는 요소 중 문서별 색인어의 가중치가 클러스터링에 끼치는 영향을 알아보았다. 이를 위해 가중치의 변화에 따른 클러스터링 된 결과를 LSI 를 이용하여 도식화하고 그 결과를 분석하였다.

  • PDF

잎맥 특징을 이용한 모양기반의 식물 잎 이미지 검색 (Shape-based Leaf Image Retrieval using Venation Feature)

  • 남윤영;박진규;황인준;김동윤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (D)
    • /
    • pp.346-348
    • /
    • 2006
  • 본 논문은 잎맥 특징을 이용한 식물의 잎 이미지 검색 방법을 제안한다. 식물의 검색을 위해 모양 기반의 검색방법을 사용하였으며, 잎의 외곽선 분만 아니라 내부의 잎맥 정보를 이용하여 정확율을 향상시켰다. 외곽선은 MPP(Minimum Perimeter Polygons) 알고리즘을 개선하여 표현하고, 내부의 잎맥의 특징은 CSS(Curvature Scale Space)를 개선하여 주맥과 교차점, 끝점을 추출하여 표현하였다. 특징 점들간의 관계와 거리값을 통해 가중치가 있는 그래프로 표현하고 이 값을 통해 유사도를 계산하였다. 실험에서는 식물도감에서 1000여개의 식물 잎 이미지를 추출하여 기존의 알고리즘인 Fourier Descriptor, CSSD, CCD, Moment Invariants, MPP와 비교하였다.

  • PDF

교차 언어 문서 검색에서 질의어의 중의성 해소 방법 (Word Sense Disambiguation in Query Translation of CLTR)

  • 강인수;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.52-58
    • /
    • 1997
  • 정보 검색에서는 질의문과 문서를 동일한 표현으로 변환시켜 관련성을 비교하게 된다. 특히 질의문과 문서의 언어가 서로 다른 교차 언어 문서 검색 (CLTR : Cross-Language Text Retrieval) 에서 이러한 변환 과정은 언어 변환을 수반하게 된다. 교차 언어 문서 검색의 기존 연구에는 사전, 말뭉치, 기계 번역 등을 이용한 방법들이 있다. 일반적으로 언어간 변환에는 필연적으로 의미의 중의성이 발생되며 사전에 기반한 기존 연구에서는 다의어의 중의성 의미해소를 고려치 않고 있다. 본 연구에서는 질의어의 언어 변환시 한-일 대역어 사전 및 카도가와 시소러스 (각천(角川) 시소러스) 에 기반한 질의어 중의성 해소 방법과 공기하는 대역어를 갖는 문서에 가중치를 부여하는 방법을 제안한다. 제안된 방법들은 일본어 특허 문서를 대상으로 실험하였으며 5 %의 정확도 향상을 얻을 수 있었다.

  • PDF

사용자 프로파일을 이용한 적응력 있는 비디오 브라우징 서비스 (Adaptive Video Browsing Service Using User Profile)

  • 고경철;신성윤;임정훈;이양원
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.308-313
    • /
    • 2001
  • 최근 인터넷의 급속한 성장과 빠른 보급, 정보통신 분야의 기술퓨전 현상들은 인터넷을 이용한 다양한 컨텐츠의 개발을 가속화시키고 있다. 특히 멀티미디어 스트리밍 기술은 일반 사용자들에게 동영상은 물론 풍부한 멀티미디어 데이터 전송을 통하여 능동적인 대화형 서비스를 제공할 수 있는 장점들을 가지고 있다. 본 논문에서는 사용자의 접속 횟수 및 접속시간 등의 빈도수에 따른 사용자 개인 가중치를 이용하여 사용자에게 보다 친숙하고 흥미를 유발할 수 있는 비디오 데이터 서비스를 제공하고자 하였으며, 카테고리 기반 및 키워드 기반에 따른 사용자 접근 정보를 이용하여 비디오 데이터를 분류하고 선별한 검색 서비스를 제공하고자 하였다. 또한 비디오 브라우징 시스템을 이용하여 사용자가 원하는 항목에 대한 비디오 검색을 장면 검색에서 샷 검색까지 프레임단위로 동영상을 이용하여 브라우징 할 수 있도록 하였으며, 해당 영역의 텍스트 및 관련 정보를 보다 세밀하고 정확하게 브라우징 할 수 있도록 정보를 제공하고자 하였다.

  • PDF

바이그램 색인에 기반한 한-일 교차언어검색 (Korean-Japanese Cross Lingual Information Retrieval Based on Bi-gram Indexing)

  • 이규찬;강인수;나승훈;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.448-450
    • /
    • 2005
  • 교차언어검색 시스템은 다양한 언어자원을 필요로 한다. 여기서는 한-일 대역어 사전과 일본어 문서의 바이그램 색인만을 이용해서 교차언어검색을 수행하는 방법을 제시한다. 한국어로 된 자연어 질의에서 형태소분석기 등의 도움 없이 간단하게 일본어 대역어 리스트를 생성할 수 있는 방법과, 검색의 성능을 올릴 수 있도록 대역어에 가중치를 부여하는 방법을 제안한다. 그리고 실험을 통해 제시한 방법을 평가하고 분석한다.

  • PDF

협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘 (Effective User Clustering Algorithm for Collaborative Filtering System)

  • 고수정;임기욱;이정현
    • 정보처리학회논문지B
    • /
    • 제8B권2호
    • /
    • pp.144-154
    • /
    • 2001
  • 협력적 여과 시스템은 사용자가 검색하고 읽었던 웹문서를 기반으로 사용자 군집을 생성하여 웹문서의 정확한 추천을 가능하게 한다. 이러한 목적으로 설계된 다양한 알고리즘이 있으나 속도가 느리거나 정확도가 낮다는 등의 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘인 CUG알고리즘은 사용자 군집을 생성하기 위해 Apriori 알고리즘, Native Bayes 알고리즘을 이용한다. Apriori 알고리즘은 연관 단어 지식 베이스를 구축하고, Native Bayes 알고리즘은 구축된 연관 단어 지식 베이스에 가중치를 추가하며, 사용자가 검색하여 읽은 웹문서를 클래스별로 분류한다. CUG 알고리즘은 분류된 웹문서를 기반으로 하여 사용자 군집을 만든다. 이러한 방법으로 설계된 CUG 알고리즘은 사용자들이 사용할 문서를 미리 검색하여 저장함에 의해 정보검색의 효율성을 향상시키는데 사용될 수 있다. 본 논문에서 설계한 CUG 알고리즘의 선능을 평가하기 위하여 기존의 K-means 방법과 Gibbs샘플링 방법에 의한 군집과 비교한다.

  • PDF

MMR을 이용한 질의기반 자동 문서요약 (Query-Based Automatic Text Summarization Using MMR)

  • 김금영;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.615-618
    • /
    • 2002
  • 정보검색 엔진들은 주어진 질의에 대해 방대한 양의 문서들을 검색해주며, 이 문서들은 질의와의 관련성에 따라 랭킹(Ranting)된다. 질색된 문서들중에 어떤것들은 그 내용이 서로 유사하여 사용자에게 필요 이상의 정보를 제공한다. 이는 질의와의 관련성(Relevance)만을 적용하고, 검색된 정보들간의 차별성을 고려하지 않은데서 비롯된다. MMR(Maximal Marginal Relevance)은 유사한 문서를 검색결과에서 배제할 수 있게 해주는 기법이다. MMR을 자동에 적용하면, 유사한 문장을 배제하여 상이한 정보들을 전달하는 질 높은 요약문을 생성할 수 있다. 본 논문에서는 MMR을 이용한 질의기반 자동 문서요약 시스템을 구현한다. 또한, MMR과 가중치 수식에 다양한 수치를 적용하고, 최적의 결과를 산출하는 수식을 제안한다.

  • PDF