• Title/Summary/Keyword: 축소용어

Search Result 39, Processing Time 0.025 seconds

Performance Improvement of Information Retrieval System by means of Fuzzy Relational Product (퍼지관계곱을 이용한 정보검색시스템의 성능 개선)

  • 김창민;김용기
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.10 no.3
    • /
    • pp.242-251
    • /
    • 2000
  • 퍼지관계 개념을 응용한 BK-퍼지정보검색기법은 형태론에 입각하는 기존의 정보검색기법과는 달리 문서와 용어의 상대적 의미에 근거한 정보검색 기법이다. 그러나 BK-퍼지정보검색기법은 높은 시간복잡도(time complexity)의 검색 연산을 내재하고 있어 실제 대용량의 정보 검색은 사실상 불가능하다. 본 논문에서는 BK-퍼지검색정보모델의 시간복잡도를 낮추기 위해, 축소용어집합(reduced term set)을 이용한 개선된 BK-퍼지정보검색모델(A-FIRM)을 제안한다. 개선된 BK-FIRM은 시스템 처리시간과 신뢰도 간 상층점(trade-off)을 제공한다. 축소용어집합은 용어집합의 부분집합으로서 검색결과의 신뢰도와 밀접한 관계를 가진다. 동일한 크기의 축소용어집합이 주어질 때, 보다 적절한 용어들로 구성된 축소용어집합이 보다 나은 검색 신뢰도를 이끈다. 따라서 보다 적절한 축소용어집합 구성을 위한 축소용어집합 추출방법이 요구된다. 본 논문에서는 축소용어집합 추출방법을 크게 무작위 추출, 규칙에 의한 추출, 인간에 의한 직관적 추출 방법으로 구분하고 검색결과의 신뢰도 변화 형태를 분석한다.

  • PDF

Improving Time Efficiency of kNN Classifier Using Keywords (대표용어를 이용한 kNN 분류기의 처리속도 개선)

  • 이재윤;유수현
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2003.08a
    • /
    • pp.65-72
    • /
    • 2003
  • kNN 기법은 높은 자동분류 성능을 보여주지만 처리 속도가 느리다는 단점이 있다. 이를 극복하기 위해 입력문서의 대표용어 w개를 선정하고 이를 포함한 학습문서만으로 학습집단을 축소함으로써 자동분류 속도를 향상시키는 kw_kNN을 제안하였다. 실험 결과 대표 용어를 5개 사용할 경우에는 kNN 대비 문서간 비교횟수를 평균 18.4%로 축소할 수 있었다. 그러면서도 성능저하를 최소화하여 매크로 평균 F1 척도면에서는 차이가 없고 마이크로 평균정확률 면에서는 약 l∼2% 포인트 이내로 kNN 기법의 성능에 근접한 결과를 얻었다.

  • PDF

A Re-Ranking Retrieval Model based on Two-Level Similarity Relation Matrices (2단계 유사관계 행렬을 기반으로 한 순위 재조정 검색 모델)

  • 이기영;은희주;김용성
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.11
    • /
    • pp.1519-1533
    • /
    • 2004
  • When Web-based special retrieval systems for scientific field extremely restrict the expression of user's information request, the process of the information content analysis and that of the information acquisition become inconsistent. In this paper, we apply the fuzzy retrieval model to solve the high time complexity of the retrieval system by constructing a reduced term set for the term's relatively importance degree. Furthermore, we perform a cluster retrieval to reflect the user's Query exactly through the similarity relation matrix satisfying the characteristics of the fuzzy compatibility relation. We have proven the performance of a proposed re-ranking model based on the similarity union of the fuzzy retrieval model and the document cluster retrieval model.

Development of a Clustering Model for Automatic Knowledge Classification (지식 분류의 자동화를 위한 클러스터링 모형 연구)

  • 정영미;이재윤
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.2
    • /
    • pp.203-230
    • /
    • 2001
  • The purpose of this study is to develop a document clustering model for automatic classification of knowledge. Two test collections of newspaper article texts and journal article abstracts are built for the clustering experiment. Various feature reduction criteria as well as term weighting methods are applied to the term sets of the test collections, and cosine and Jaccard coefficients are used as similarity measures. The performances of complete linkage and K-means clustering algorithms are compared using different feature selection methods and various term weights. It was found that complete linkage clustering outperforms K-means algorithm and feature reduction up to almost 10% of the total feature sets does not lower the performance of document clustering to any significant extent.

  • PDF

Performance Improvement of Extracting Bilingual Term from Phrase Table using Sentence Length Reduction (문장 길이 축소를 이용한 구 번역 테이블에서의 병렬어휘 추출 성능 향상)

  • Jeong, Seon-Yi;Lee, Kong-Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.120-125
    • /
    • 2013
  • 본 연구는 대량의 특정 도메인 한영 병렬 말뭉치에서 통계 기반 기계 번역 시스템을 이용하여 병렬어휘를 효과적으로 추출해 낼 수 있는 방법에 관한 것이다. 통계 번역 시스템에서 어족이 다른 한국어와 영어간의 문장은 길이 및 어순의 차이로 인해 용어 번역 시 구절 번역 정확도가 떨어지는 문제점이 발생할 수 있다. 또한 문장 길이가 길어짐에 따라 이러한 문제는 더욱 커질 수 있다. 본 연구는 이러한 조건에서 문장의 길이가 축소된 코퍼스를 통해 한정된 코퍼스 자원 내 구 번역 테이블의 병렬어휘 추출 성능이 향상될 수 있도록 하였다.

  • PDF

Performance Evaluation of A-FIRM and BK-FIRM (개선된 BK-퍼지정보검색모델(A-FIRM)과 BK-퍼지정보검색모델(BK-FIRM)의 성능 평가)

  • 김창민;김용기
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 1998.10a
    • /
    • pp.498-503
    • /
    • 1998
  • 퍼지관계 개념을 응용한 BK-퍼지정보검색기법은 형태론에 입각하는 기존의 정보 검색기법과는 달리 문서와 용어의 상대적 의미에 근거하는 정보검색 기법이다. 그러나 BK-퍼지정보검색기법은 높은 시간복잡도(time-complexity)의 검색 연산을 내재하고 있어 실제 대용량의 정보 검색은 사실상 불가능하다. 본 논문에서는 BK-퍼지정보검색모델(BK-FIRM)의 높은 시간복잡도를 낮추기 위해, 용어집합의 부분집합으로서 그 원소 개수는 상수처럼 작용하는 축소용어집합(reduced term set)을 이용한 개선된 퍼지정보검색모델(A-FIRM)을 제안하고 실제 이를 처리시간과 신뢰도 측면에서 분석 및 비교한다.

  • PDF

A Study on the Design of a Thesaurus Browser (시소러스 브라우저의 설계)

  • 이나니
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1996.08a
    • /
    • pp.37-40
    • /
    • 1996
  • 정보검색과정에서 온라인 시소러스는 이용자가 생각하고 있는 개념어를 시스템의 색인어로 보다 정확하게 표현하는 동시에, 관련구조를 통해 탐색의 범위를 확장ㆍ축소할 수 있게 한다. 온라인 시소러스를 충분히 활용하기 위해서는 이용자가 시소러스의 구조에 쉽게 접근하여 계층ㆍ관련구조를 충분히 살피고, 용어 사이를 자유롭게 탐험할 수 있는 장치가 필요하다. 본 연구에서는 기존의 시소러스 표시방법의 장단점 등에 근거하여 정보검색과정에서 이용할 수 있는 시소러스 브라우저를 사전탐색 기능, 시소러스 구조의 표시 기능, 탐색문 형성 기능으로 나누어 설계하였다.

  • PDF

Implementation of Fuzzy Information Retrieval System Based on Fuzzy Relational Products (퍼지관계곱 기반 퍼지정보검색시스템 구현)

  • Kim, Chang-Min;Kim, Yong-Gi
    • The KIPS Transactions:PartB
    • /
    • v.8B no.2
    • /
    • pp.115-122
    • /
    • 2001
  • 퍼지관계 개념에 기반한 BK-FIRM(Bandler-Kohout 퍼지정보검색기법)은 형태론에 입각한 기존의 정보검색기법과는 달리 문서와 용어의 상대적 의미에 근거한 퍼지정보검색기법이다. BK-FIRM은 시소러스 자동 구축 기능, 검색 결과의 퍼지화된 우선 순위 제공과 같은 장점을 가지고 있다. 그러나, BK-퍼지정보검색기법은 높은 시간복잡도(time complexity)의 검색 연산을 내재하고 있어 다양한 분야 적용이 불가능하다. 본 논문에서는 축소용어집합을 이용하여 BK-FIRM의 시간복잡도를 낮춘 A-FIRM(개선된 Bandler-Kohout 퍼지정보검색모델)을 소개하고 이를 정보검색시스템으로 설계 및 구현한 A-FIRS(개선된 Bandler-Kohout 퍼지정보검색시스템)를 구현한다. A-FIRS는 크게 문서베이스와 시소러스를 구축하는 전처리부(preprocess unit)와 사용자의 검색요구를 처리하여 문서를 검색하는 실시간처리부(real-time process unit)로 나누어지며, 각 처리부는 기능적 특성에 따라 4개의 처리단계로 구성된다. A-FIRS는 WWW 기반 환경과 연동하도록 설계되었으며, WWW 환경의 사용자로부터 주어진 검색요구를 처리하여 검색결과를 제공한다.

  • PDF

Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect (한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로)

  • Lee, Jae-Sung;Kim, Mi-Suk;Lee, Young-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

A Method on Automatically Creating an Ontology by Extracting Various Relationships between Terms (용어 간의 다양한 관계 추출을 통해 온톨로지를 자동으로 생성하는 방법)

  • Young-tae Kim
    • Journal of Practical Engineering Education
    • /
    • v.15 no.2
    • /
    • pp.321-330
    • /
    • 2023
  • In this paper, we propose a method of automatically creating an ontology by extracting various relationships between terms necessary for constructing an ontology of a specific domain. The extracted relationship is constructed as an ontology by encoding it into an axiomatic set in the structure of the ontology. To solve efficiently, we represent the search space of the set as an integer programming problem, and we reduce the matrix by using a simple reduction that eliminates rules that are not very helpful for optimization. In conclusion, this paper proposes a way to generalize patterns using given data, reduce search space while maintaining useful patterns, and automatically generate efficient ontology using extracted relationships by applying algorithms composed of structured ontology.