• Title/Summary/Keyword: 유사도 가중치

Search Result 576, Processing Time 0.038 seconds

A Study on the Rejection Capability based on Utterance Verification for Speech Recognition (발화 검증에 의한 음성인식 거절기능 연구)

  • 김우성
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.67-70
    • /
    • 1998
  • 본 논문에서는 단어독립 음성인식 시스템을 위한 음성인식 거절(rejection)기능에 대해 기술한다. 음성인식 거절 기능은 음성인식기를 제작할 때 정해놓은 인식대상 단어 이외의 단어가 입력되었을 때 그 단어가 인식할 수 없는 단어임을 알려주는 기능이다. 본 연구에서는 단어독립 음성인식 시스템에 적용될 수 있는 발화 검증 방식에 의해 음성인식 거절 기능을 구현하였다. 특히 유사도를 결정함에 있어서 산술평균, 기하평균, 조화평균을 사용하고 각각을 비교하여, 기하 평균을 사용하는 방식이 우수한 성능을 보임을 알 수 있었다. 음성의 신뢰도(confidence score)를 정규화하기 위해서 Sigmoid 함수를 사용하는데 이 함수의 가중치(weight) 상수의 변화에 대해 인식률을 비교함으로써 가장 적절한 가중치 상수값을 결정하였다. 음성인식 테스트 결과에서는 신뢰도 임계치 값을 구하고 이 값을 사용하여 인식률을 계산하였으며, 거절의 오류까지 포함된 음성인식률은 약 76%였다. 이 연구결과는 현재 한국통신에서 시험 서비스 중인 음성인식 증권정보 안내 시스템에 적용될 예정이다.

  • PDF

A Study on Weighted Hierarchical Color Clustering Using Color Distribution (컬러 분포를 가중치로 이용한 컬러 클러스터링에 관한 연구)

  • 윤위영;범수균;탁우현;이종환;김경석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.250-252
    • /
    • 1998
  • 내용기반 이미지 검색(Content-based image retrieval)에서 컬러 특징을 표현하기 위해 컬러 히스토그램이 많이 이용되고 있다. 하지만 히스토그램의 고차원적인 성질 때문에 색인구조를 사용한 효율적인 검색이 어렵고, 유사도 계산 단계에서 비용이 많이 든다. 이점을 개선하기 위해서 이미지의 컬러 정보 손실을 최소화하면서 히스토그램의 차원을 낮추는 컬러 클러스터링 방법이 제안되었다. 이 논문은 이미지 검색의 응용 분야에 따른 이미지 데이터의 컬러 분포 특성을 이용한 컬러 클러스터링 방법을 제안한다. 컬러 분포를 가중치로 이용한 계층적 컬러 클러스터링 방법에 대해 알아보고, 두 단계 컬러 히스토그램을 이용한 이미지 검색에 적용하여 컬러 정보 유지 능력을 실험해 본다.

Similarity Measure for Semantic-based Retrieval using Domain Knowledge (도메인 지식을 이용한 의미 기반 검색을 위한 유사성 측정)

  • Cho, Mi-Young;Choi, Chang;Kim, Pan-Koo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.347-350
    • /
    • 2007
  • 멀티미디어 데이터 처리 요구가 증가함에 따라 이의 의미적 표현 및 검색에 관한 연구가 활발히 이루어지고 있다. 최근에는 특히 지식 기반의 온톨로지를 이용한 의미적 검색에 초점을 두고 있으며, 구축된 온톨로지를 기반으로 동의어 관계, 반의어 관계 등을 이용하여 질의 확장으로 활용되고 있다. 하지만 이들은 대부분 속성 관계 등을 고려하지 않을 뿐만 아니라 각 관계별 가중치를 고려하지 않고 있다. 이에 본 논문에서는 비디오의 의미적 특징들을 추출하여 온톨로지를 구축한 후 의미 기반 검색을 위하여 관계별 가중치를 고려한 유사성 측정을 제안하고자 한다.

  • PDF

Keyword Extraction Using Syntactic Information of Question (질의문의 구문정보를 이용한 키워드 추출)

  • 양수정;서영훈
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2003.11a
    • /
    • pp.190-194
    • /
    • 2003
  • 자연언어 질의문에서 추출된 키워드들은 정답추출에 미치는 비중이 다른 경우가 많지만 키워드들에 대해 상대적인 가중치를 부여하기가 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위하여 질의 문장의 구문 정보를 이용하여 중심키워드와 일반키워드들로 구분하였으며 이를 기반으로 키워드들 간의 가중치 부여 방법을 제안한다. 질의문 코퍼스로부터 질문 유형을 분석하여 구문을 추출하고 추출된 구문정보를 이용하여 질의문에서 키워드들을 추출한다. 이렇게 얻어진 키워드들을 이용하여 다량의 문서들 속에서 중심키워드와 일반키워드들 간의 불린 검색을 통해 질의문의 정답이 포함되었을 가능성이 큰 단락을 추출하고, 질의문과 추출된 단락간의 유사도 측정을 통해 단락을 순위화 한다. 본 논문에서 제안하는 시스템은 질의문의 정답이 포함된 단락추출에 대한 정확도를 향상시킬 것으로 기대된다.

  • PDF

A Web Page Categorization Model Based on Document Structural Information (문서 구조 정보에 기반한 웹 페이지 범주화 모델)

  • Jung, Sung-Hwa;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.91-96
    • /
    • 1998
  • 본 논문에서는 주제범주 체계를 이용한 웹 검색이 가지는 장점을 이용 할 수 있도록 인터넷 웹 페이지들을 주제범주 체계에 따라 자동으로 분류하는 모델을 제시한다. 특히 웹 페이지 작성자들의 의도를 범주화에 반영할 수 있는 방법으로 HTML 태그를 이용한다. 즉 웹 페이지의 표현에 있어서 벡터 스페이스 모델에서의 색인어 빈도 가중치에 태그 가중치를 추가 하여 보다 좋은 성능을 얻도록 하였다. 그리고 주제범주를 표현하는데 사용되는 자질의 선정에는 기대상호정보, 상호정보 척도를, 문서간 유사도 비교에는 최근린법을 사용하였다. 전북대에서 정보탐정용으로 분류한 웹 페이지를 대상으로 실험하였으며, 기본 모델 대비 약 7%의 정확도 향상을 얻을 수 있었다.

  • PDF

Research of Term-Weighting Method in an Usenet Information Retrieval System (유즈넷 정보검색시스템에서 단어 가중치 적용방법에 관한연구)

  • 최재덕;최진석;박민식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.339-341
    • /
    • 1998
  • 다양한 정보교환 수단의 하나인 유즈넷은 방대한 정보량을 가진다. 사용자는 유즈넷에서 필요한 정보를 쉽게 찾지 못하므로 뉴스그룹 전체와 본문에서 정보 검색의 필요성을 인식하고 있다. 이 논문에서는 정보검색시스템을 유즈넷으로 확장시 단어 가중치 적용방법의 개선을 통해 검색효율을 향상시키고자 한다. 정보검색에서 단어의 중요도에 영향을 미치는 tf, idf 이외의 다른 요소인 카테고리빈도(category frequency, cf)를 활용하여 tf*idf방법에 역카테고리빈도(inverted categoary frequency, icf)를 고려한 유사도 계산 방법을 제시하고 이를 검증하였다. 실험 결과에서 상위 30위 내의 평균 적합문서의 수가 tf*{{{{ SQRT {idf$^2$+icf$^2$} }}}}방법이 tf*idf 방법보다 4.6% 향상됨을 알 수 있다.

Simulation for Signaling Pathway of MAPK Hypotonic Shock (MAPK Hypotonic Shock의 Signaling Pathway에 대한 시뮬레이션)

  • Jo, Mi-Kyung;Seo, Jeong-Man;Park, Hyun-Seok
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.5
    • /
    • pp.175-182
    • /
    • 2009
  • We extracted protein signal delivery path from protein interaction data, using location information and weight of protein. We obtained the protein interaction data by experimenting in two-hybrid system using Yeast. We simulated function's data of Hypotonic Shock comparing to signal delivery path provided in KEGG from the results. We measured process running period as well. In future, this research can be key to discover the origin of various genetic diseases and develop treatment.

Improving Performance of Search Engine By Using WordNet-based Collaborative Evaluation and Hyperlink (워드넷 기반 협동적 평가와 하이퍼링크를 이용한 검색엔진의 성능 향상)

  • Kim, Hyun-Gil;Kim, Jun-Tae
    • The KIPS Transactions:PartB
    • /
    • v.11B no.3
    • /
    • pp.369-380
    • /
    • 2004
  • In this paper, we propose a web page weighting scheme based on WordNet-based collaborative evaluation and hyperlink to improve the precision of web search engine. Generally search engines use keyword matching to decide web page ranking. In the information retrieval from huge data such as the Web, simple word comparison cannot distinguish important documents because there exist too many documents with similar relevancy. In this paper, we implement a WordNet-based user interface that helps to distinguish different senses of query word, and constructed a search engine in which the implicit evaluations by multiple users are reflected in ranking by accumulating the number of clicks. In accumulating click counts, they are stored separately according to lenses, so that more accurate search is possible. Weighting of each web page by using collaborative evaluation and hyperlink is reflected in ranking. The experimental results with several keywords show that the precision of proposed system is improved compared to conventional search engines.

Co-registration of PET-CT Brain Images using a Gaussian Weighted Distance Map (가우시안 가중치 거리지도를 이용한 PET-CT 뇌 영상정합)

  • Lee, Ho;Hong, Helen;Shin, Yeong-Gil
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.7
    • /
    • pp.612-624
    • /
    • 2005
  • In this paper, we propose a surface-based registration using a gaussian weighted distance map for PET-CT brain image fusion. Our method is composed of three main steps: the extraction of feature points, the generation of gaussian weighted distance map, and the measure of similarities based on weight. First, we segment head using the inverse region growing and remove noise segmented with head using region growing-based labeling in PET and CT images, respectively. And then, we extract the feature points of the head using sharpening filter. Second, a gaussian weighted distance map is generated from the feature points in CT images. Thus it leads feature points to robustly converge on the optimal location in a large geometrical displacement. Third, weight-based cross-correlation searches for the optimal location using a gaussian weighted distance map of CT images corresponding to the feature points extracted from PET images. In our experiment, we generate software phantom dataset for evaluating accuracy and robustness of our method, and use clinical dataset for computation time and visual inspection. The accuracy test is performed by evaluating root-mean-square-error using arbitrary transformed software phantom dataset. The robustness test is evaluated whether weight-based cross-correlation achieves maximum at optimal location in software phantom dataset with a large geometrical displacement and noise. Experimental results showed that our method gives more accuracy and robust convergence than the conventional surface-based registration.

빈발 패턴 네트워크에서 연관 규칙 발견을 위한 아이템 클러스터링

  • O, Gyeong-Jin;Jeong, Jin-Guk;Jo, Geun-Sik
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.05a
    • /
    • pp.321-328
    • /
    • 2007
  • 데이터마이닝은 대용량의 데이터에 숨겨진 의미있고 유용한 패턴과 상관관계를 추출하여 의사결정에 활용하는 작업이다. 그 중에서도 고객 트랜잭션의 데이터베이스에서 아이템 사이에 존재하는 연관규칙을 찾는 것은 중요한 일이 되었다. Apriori 알고리즘 이후 연관규칙을 찾기 위해 대용량 데이터베이스로부터 압축된 의미있는 정보를 저장하기 위한 데이터 구조와 알고리즘들이 제안되어 왔다. 본 논문에서는 정점으로 아이템을 표현하고, 간선으로 두 아이템집합을 표현하는 빈발 패턴 네트워크(FPN)이라 불리는 새 자료 구조를 제안한다. 빈발 패턴 네트워크에서 아이템 사이의 연관 관계를 발견하기 위해 이 구조를 어떻게 효율적으로 사용 하느냐에 초점을 두고 있다. 구조의 효율적인 사용을 위하여 한 아이템이 클러스터 내의 아이템과는 유사도가 높고, 다른 클러스터의 아이템과는 유사도가 낮도록 네트워크의 정점을 클러스터링하는 방법을 사용한다. 실험은 신뢰도, 상관관계 그리고 간선 가중치 유사도를 이용하여 네트워크에서 아이템 클러스터링의 정확도를 보여준다. 본 논문의 실험 결과를 통해 신뢰도 유사도가 네트워크의 정점을 클러스터링할 때 클러스터의 정확성에 가장 많은 영향을 미친다는 것을 알 수 있었다.

  • PDF