• 제목/요약/키워드: 재현율

검색결과 1,203건 처리시간 0.031초

불논리검색, 퍼지검색, 확률검색의 효율 비교연구 (A Comparative Study on Effectiveness of Boole logic retrieval, Fuzzy retrieval and Probabilistic retrieval)

  • 이젬마;사공철
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1994년도 제1회 학술대회 논문집
    • /
    • pp.15-18
    • /
    • 1994
  • 본 연구에서는 불논리검색의 단점을 보완하기 위한 가장 강력한 검색 모형인 퍼지검색과 확률검색의 효율을 불논리검색과 상호비교하였다. 실험데이터로 정보학 분야의 한국어 test collection인 KT Test Set을 이용하였고 색인어와 색인어의 문헌내 출현빈도를 바탕으로 퍼지시소러스를 생성하여 시소러스의 NT, BT로 탐색식을 확장한 다음 각각에 대해 3가지 검색을 행하고 검색효율을 평균재현율과 평균정확률로 측정하였다. 실험결과 검색효율은 재현율에서는 확률검색, 불논리검색, 퍼지검색 순으로. 정확률에서는 퍼지검색, 확률검색, 불논리검색 순으로 나타났다.

  • PDF

스피어만 상관계수를 이용한 디지털 융합 강의 전략 시스템 (Digital Convergence Teaching Strategy System using Spearman Correlation Coefficients)

  • 이병욱
    • 인터넷정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.111-122
    • /
    • 2010
  • 디지털 융합을 위한 교육은 다양한 학문과 기술들이 컴퓨터를 중심으로 융합하는 것이므로 교육 범위와 방법이 매우 상이하다. 따라서 교육 계획과 강의전략을 정형화하기 어렵기 때문에 개념적인 정보를 제한적으로 추천하는 문제점이 있다. 본 논문에서는 스피어만 상관 계수를 이용하여 교육 계획과 강의 전략을 제시하기 위한 시스템을 제안한다. 이 시스템은 학계와 산업계의 요구를 기반으로 한 정보로부터 강의 전략 연관성을 찾아 서열화하고, 사용자의 상황과 특성에 적합한 강의 전략 정보를 목록으로 제공하여, 제한적인 개념적 정보 추천의 단점을 해결한다. 성능 실험은 기존의 서비스 시스템들과 비교하여 효과성을 측정하여 정확도와 재현율로 표현하였으며, 성능 실험 결과 정확도는 90.4%, 재현율은 77.6%로 나타났다.

한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘 (Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences)

  • 강승식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.441-447
    • /
    • 2000
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식 시스템에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 자동으로 찾아주는 자동 띄어쓰기 알고리즘으로 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 형태소 분석기를 이용한 양방향 최장일치법에 의해 어절 블록에 나타난 각 어절들을 인식한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF

메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식 (Korean Sentence Boundary Detection Using Memory-based Machine Learning)

  • 한군희;임희석
    • 한국콘텐츠학회논문지
    • /
    • 제4권4호
    • /
    • pp.133-139
    • /
    • 2004
  • 본 논문은 기계 학습 기법 중에서 메모리 기반 학습을 사용하여 범용의 학습 가능한 한국어 문장 경계 인식기를 제안한다. 제안한 방법은 메모리 기반 학습 알고리즘 중 최근린 이웃(kNN) 알고리즘을 사용하였으며, 이웃들을 이용한 문장 경계 결정을 위한 스코어 값 계산을 위한 다양한 가중치 방법을 적용하여 이들을 비교 분석하였다 문장 경계 구분을 위한 자질로는 특정 언어나 장르에 제한적이지 않고 범용으로 적용될 수 있는 자질만을 사용하였다. 성능 실험을 위하여 ETRI 코퍼스와 KAIST 코퍼스를 사용하였으며, 성능 척도로는 정확도와 재현율이 사용되었다. 실험 결과 제안한 방법은 적은 학습 코퍼스만으로도 $98.82\%$의 문장 정확률과 $99.09\%$의 문장 재현율을 보였다.

  • PDF

협업필터링에서 포괄적 성능평가 모델 (A Comprehensive Performance Evaluation in Collaborative Filtering)

  • 유석종
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권4호
    • /
    • pp.83-90
    • /
    • 2012
  • 대규모의 상품을 다루는 전자상거래 시스템에서 개인화된 추천은 필수적인 기능이 되고 있다. 대표적 추천 알고리즘인 협업필터링은 내용기반 추천에 비하여 뛰어난 추천성능을 제공해 주고 있으나, 희박성, 신규 아이템 문제(Cold-start), 확장성 등의 근본적인 한계를 갖고 있다. 본 연구에서는 추가적으로 협업필터링이 목표 대상자에 따라 비일관된 예측 능력의 차이를 보이는 추천 성능의 편차 문제를 제기하고자 한다. 추천성능의 편차는 기존의 Mean Absolute Error(MAE)에 의해서는 측정되기 어려우며 또한 정확도, 재현율 지표와도 독립적으로 평가되고 있다. 협업알고리즘의 정확한 성능평가를 위해서 본 연구에서는 MAE, MAE 편차, 정확도, 재현율을 포괄적으로 평가할 수 있는 확장 성능평가모델을 제안하고 이를 클러스터링 기반 협업필터링에 적용하여 성능을 비교 분석한다.

새마을운동 기록물의 개체기반 온톨로지 검색시스템 설계 및 평가 (Design and Evaluation of an Individual Instance-based Ontology Retrieval System for Archival Records of the "Saemaul Movement")

  • 이병길;김희섭
    • 한국기록관리학회지
    • /
    • 제13권3호
    • /
    • pp.67-97
    • /
    • 2013
  • 본 연구의 목적은 새마을운동 기록물을 위한 개체기반 온톨로지 검색시스템의 설계와 그 성능평가이다. 개체기반 온톨로지 설계를 위하여 Protege editor4.1을 사용하였고, 새롭게 구현된 검색시스템의 성능은 단문5개, 장문10개의 질의유형으로 기존 나라기록의 키워드 기반 검색시스템과 정확률과 재현율을 비교하여 분석하였다. 분석결과 개체기반 온톨로지 검색시스템이 정확률과 재현율 모두 키워드 기반 시스템보다 우수한 성능을 보였다.

인터넷 정보검색 서비스를 위한 다중 에이전트 환경의 설계와 구현 (Design and Implementation of Multi-agent Environment for Internet Information Retrieval Service)

  • 박민식;최진석;김영관;김진혁;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-78
    • /
    • 1999
  • 최근 인터넷에서 접근할 수 있는 정보의 양이 급속히 증대함에 따라 사용자의 선호도와 목적에 따라 개인화 또는 전문화된 검색기능을 제공하여 기존 인터넷 검색엔진의 약점을 극복할 수 있는 방법으로 인터넷 검색에이전트가 연구되고 있다. 현재 개발하고 있는 인터넷 검색 에이전트는 다양한 목적에서 개발한 인터넷 검색엔진의 검색 결과에 부가가치를 더하는(value-added) 접근 방법을 따른다. 하지만 이 방법은 검색엔진의 재현율이 떨어지면 문제영역 지식이나 사용자의 선호도를 이용해도 정확도가 증가하지 않는다. 따라서 검색엔진의 재현율과 정확도를 동시에 높이면서 효과적인 결과를 얻기 위해서는 기존 검색엔진을 모듈화하여 효율적인 분산 및 다중처리가 가능하도록 함으로써, 문제영역 지식이나 사용자 선호도가 검색결과에 반영되도록 해야한다. 이 논문에서는 부산대학교의 인터넷 검색엔진인 미리내 시스템을 에이전트 기반 시스템으로 변환하고, 분산, 다중 처리 및 실시간 검색이 가능한 검색에이전트 환경을 구축하였다.

  • PDF

GMM 지원을 위해 k-means 알고리즘을 이용한 어휘 인식 성능 개선 (Vocabulary Recognition Performance Improvement using k-means Algorithm for GMM Support)

  • 이종섭
    • 디지털융복합연구
    • /
    • 제13권2호
    • /
    • pp.135-140
    • /
    • 2015
  • 일반적인 CHMM 어휘 인식 시스템은 어휘 인식에 대한 모델들의 관측 확률 인식률이 낮고, 일부 단위 음소 모델에만 적용되어 제한적으로 사용되는 문제점이 있다. 또한, 어휘 탐색에서 어휘의 의미가 다양하여 탐색된 어휘가 사용자의 요구에 부합되지 않는 문제점을 가진다. 이러한 문제를 개선하기 위해 GMM(Gaussian Mixture Model)을 이용한 음소인식을 수행하고, 개선된 k-means 알고리즘을 이용하여 어휘 특성에 따른 제한적인 탐색 문제점을 해결하였다. 성능 실험은 기존의 시스템과 비교하여 정확도와 재현율로 대변되는 효과성을 측정하였으며, 성능 실험 결과 정확도는 83%, 재현율은 67%로 나타났다.

효율적인 질의응답시스템 개발을 위한 BM25기반의 단락 검색 시스템 (A BM25 based Passage Retrieval System for Developing an Efficient Question and Answering System)

  • 임희석;이영신;임해창
    • 컴퓨터교육학회논문지
    • /
    • 제6권4호
    • /
    • pp.23-30
    • /
    • 2003
  • 본 논문은 문서 단위 보다 작은 단락 단위의 검색 시스템을 사용하는 효율적인 질의 응답 시스템 개발을 위하여 문서 검색에서 성능이 검증된 Okapi 시스템의 BM25 알고리즘을 응용한 단락 검색 시스템을 제안하고, 단락 검색 시스템의 성능을 분석하고자 한다. 100만 건의 문서로 구성된 TREC Q&A track 테스트 컬렉션을 색인에 사용하고 TREC Q&A track 질의 집합 중 1~100번까지의 질의를 사용하여 실험한 결과 재현율이 100%가 되기 위해서는 문서 검색은 약 12만 문장을 검색해야 하는 반면, 단락 검색에서는 문서 검색의 약 1/70인 1700문장만으로도 100%의 재현율을 얻을 수 있음을 확인하였다.

  • PDF

음식메뉴 개체명 인식을 위한 음식메뉴 사전 자동 구축 (Automatic Construction of Restaurant Menu Dictionary)

  • 구영현;유성준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.102-106
    • /
    • 2013
  • 레스토랑 리뷰 분석을 위해서는 음식메뉴 개체명 인식이 매우 중요하다. 그러나 현재의 개체명 사전을 이용하여 리뷰 분석을 할 경우 구체적이고 복잡한 음식메뉴명을 표현하는데 충분하지 않으며 지속적인 업데이트가 힘들어 새로운 트렌드의 음식 메뉴명 등이 반영되지 않는 문제가 있다. 본 논문에서는 레스토랑 전문 사이트와 레시피 제공 사이트에서 각 레스토랑의 메뉴 정보와 음식명 등을 래퍼기반 웹 크롤러로 수집하였다. 그런 다음 빈도수가 낮은 음식메뉴와 레스토랑 온라인 리뷰에서 쓰이지 않는 음식메뉴를 제거하여 레스토랑 음식 메뉴 사전을 자동으로 구축하였다. 그리고 레스토랑 온라인 리뷰 문서를 이용해 음식 메뉴 사전의 엔티티들이 어느 유형의 레스토랑 리뷰에서 발견되는지를 찾아 빈도수를 구하고 분류 정보에 따른 비율을 사전에 추가하였다. 이 정보를 이용해 여러 분류 유형에 해당되는 음식메뉴를 구분할 수 있다. 실험 결과 한국관광공사 외국어 용례사전의 음식 메뉴명은 1,104개의 메뉴가 실제 레스토랑 리뷰에서 쓰인데 비해 본 논문에서 구축한 사전은 1,602개의 메뉴가 실제 레스토랑 리뷰에서 쓰여 498개의 어휘가 더 구성되어 있는 것을 확인 할 수 있었다. 이와 아울러, 자동으로 수집한 메뉴의 정확도와 재현율을 분석한다. 실험 결과 정확률은 96.2였고 재현율은 78.4, F-Score는 86.4였다.

  • PDF