• Title/Summary/Keyword: 재현율

Search Result 1,208, Processing Time 0.04 seconds

Korean Indicative Summarization Using Aggregate Similarity (도합유사도를 이용한 한국어 추출문서 요약)

  • 김재훈;김준홍
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.238-244
    • /
    • 2000
  • 본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다. 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서요약 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC 에서 구축한 신문기사 105 건을 이용하였다. 문서요약 시스템에 의해서 생성된 요약문서의 크기가 본문 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.

  • PDF

An Enhanced Context Sensitive Algorithm for Equivalent Foreign Word Transliteration Detection (문맥을 고려한 유사 외래어 검출 알고리즘의 성능 향상)

  • Ko, Sook Hyeon;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.114-121
    • /
    • 2007
  • 한국어에 대한 음성적 유사도 비교 알고리즘은 다양한 음차표기로 사용되는 외래어에 대하여 유사도 비교에 따른 등가부류를 형성해줌으로써 정보검색의 성능을 향상시킬 수 있다. 영어 환경에서의 음성적 유사도 비교 알고리즘인 SOUNDEX 알고리즘을 기반으로 하여 개발된 KODEX는 최소한의 제약사항으로 최대한의 재현율을 보였으나, 정확도 면에서 현저한 성능 감소를 보였다. 이를 보완하여 제안된 EKODEX 알고리즘은 Metaphone 알고리즘의 개념을 도입, 부분적인 모음 정보의 사용과 'ㅇ' 음가의 정보 보존 등의 제약사항을 통해 KODEX의 정확도를 끌어올렸다. 본 연구에서 제안하는 CKODEX 알고리즘은 KODEX와 EKODEX 알고리즘을 기반으로 한 것으로, 예외사항이 많은 한국어 발음 특성에 기반하여 세부적인 규칙을 정하고, 기존 알고리즘의 조건을 수정하는 방법으로 정확률과 재현율을 보다 향상시킴으로써 사용자의 질의어에 대한 클러스터링에 보다 효과적임을 밝혔다.

  • PDF

Word Alignment Using Chinese-Korean Linguistic Contrastive Information (중-한 대조분석정보를 이용한 단어정렬)

  • Li, Jin-Ji;Kim, Dong-Il;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.40-46
    • /
    • 2002
  • 본 논문에서는 범용 병렬코퍼스에서도 적용할 수 있는 단어정렬의 방법을 제안한다. 단어 단위로 정렬된 병렬코퍼스는 자연언어처리의 다양한 분야에 도움을 준다. 예를 들면 변환기반의 기계번역에서 변환패턴의 구축, MWTU(Multi Word Translation Unit)의 자동추출, 사전 구축, 의미 중의성 해소 등 분야에 적용된다. 중한 병렬 코퍼스의 단어정렬은 서로 다른 어족간의 관계의 규명을 포함하고 있기 때문에 본 논문에서는 통계적인 모델보다 중한 대역어 사전, 단일어 시소러스, 품사정보 및 언어학적 대조분석 정보 등 기존에 있는 리소스를 이용하여 재현율과 정확률을 높이는 방법에 대해 제시한다. 성능 평가를 위해 중앙일보에서 임의로 추출한 500개 대응문장을 이용하여 실험한 결과 82.2%의 정확률과 64.8%의 재현율을 보였다.

  • PDF

Korean Indicative Summarization Using Aggregate Similarity (도합유사도를 이용한 한국어 추출문서 요약)

  • Kim, Jae-Hoon;Kim, Jun-Hong
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.238-244
    • /
    • 2000
  • 본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC에서 구축한 신문기사 105건을 이용하였다. 문서 시스템에 의해서 생성된 문서의 크기가 본문의 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.

  • PDF

온톨로지의 구축과 학습: 상하위 관계

  • Choe, Gi-Seon;Ryu, Beop-Mo
    • Communications of the Korean Institute of Information Scientists and Engineers
    • /
    • v.24 no.4 s.203
    • /
    • pp.24-30
    • /
    • 2006
  • 온톨로지의 기본개념, 응용 분야 및 학습 단계에 대하여 간단하게 설명하였고, 온톨로지 학습단계에서 전문 분야의 개념간 계층 관계 학습 방법에 대하여 자세하게 알아보았다. 전문분야 개념을 표현하는 전문 용어 사이의 계층 관계를 학습하는 방법은 크게 규칙 기반 방법, 통계 기반 방법 그리고 용어의 전문성과 유사도를 이용하는 방법으로 나눌 수 있다. 규칙 기반 방법은 비교적 정확한 결과를 얻을 수 있는 장점이 있지만 재현율이 낮은 단점이 있다. 기존은 통계 기반 방법에서는 재현율이 높은 장점이 있지만 정확률이 낮은 단점이 있다. 또한 이 방법에서는 순수하게 통계 정보만 이용하기 때문에 오류에 대한 분석이 어려운 단점이 있다. 용어의 전문성과 용어간 유사도를 이용한 방법에서는 용어의 전문성을 이용하여 기존의 계층 구조에서 상위에 후보를 선택하고, 용어간 유사도를 이용하여 선택한 후보를 정렬하여 최적의 후보를 찾는다. 이 방법은 상위어 선정 과정을 두 단계로 분리하여 수행하기 때문에 오류 분석이 용이한 장점이 있다. 향후 온톨로지 학습 과정에서 계층 관계뿐 아니라 인과 관계 및 다양한 관계의 학습과 관련된 연구가 진행되어야 한다.

A Retrieval System Using the Automatic Transition of the English-Adopted Words into Transliterations (영어외래어의 음역어 자동변환을 이용한 검색 시스템)

  • Lee, Mi-Ran;Kim, Yang-Taek;Jeun, Hong-Tee;Youn, Sung-Dae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1073-1076
    • /
    • 2002
  • 정보 검색시 질의어가 외래어일 경우에 검색의 재현율은 급격하게 감소된다. 이는 외래어에서 나오는 음역어의 불일치와 영어외래어, 한글음역어는 같은 색인으로 처리가 되지 않기 때문이다. 따라서 본 논문에서는 영어외래어를 한글음역어로 자동 변환시키고, 자동 변환시에는 영어음소에 해당하는 발음값을 한글음소로 모두 변환시킨 다음 조합하였다. 조합된 음역어들은 다시 동치부류 DB에 저장되어, 질의어 검색시 검색어가 동치부류 색인어로 확장되어 검색된다. 제안한 검색시스템의 성능을 평가하기 위해서 재현율을 측정하였다.

  • PDF

Spam Mail Filtering System using Ontology and Semantic Enrichment (온톨로지와 Semantic Enrichment를 이용한 스팸 메일 필터링 시스템)

  • 김현준;김흥남;정재은;조근식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.553-555
    • /
    • 2004
  • 최근 인터넷의 급속한 성장과 더불어 전자메일(I-Mail)은 의사교환의 필수적인 매체로 사용 되어지고 있다. 그러나 편리하고 비용이 들지 앉는 장정을 이용해 엄청난 양의 스맴 메일이 매일같이 솎아져 오고, 이를 해결하기 위한 다양한 연구들이 제시되어져 왔다. 특히. 문서 분류에 널리 쓰이는 베이지안 분류자(Bayesian classifier)가 가장 널리 이용되어지고 있는데, 정확도와 재현율에서 비교적 우수한 성능을 보이고 있다. 그러나 몇 가지 문제점을 갖고 있는데, 첫째, 사전에 사용자에 의해 스팸. 논스팸 메일에 대한 충분한 학습이 선행되어야 하는 정, 둘째, 필터링을 위한 연산시간이 소요되는 점, 셋째, 필터링의 대상이 되는 메일 본문의 내용이 적을 경우 정확한 필터링이 어렵다는 정 등의 문제점이 있다. 본 논문에서는 마지막 문제점으로 지적된 메일 본문의 내용이 적을 경우 즉, 연산을 위한 특징적인 단어들의 부족으로 정확한 분류가 불가능한 경우의 해결방안으로 온틀로지와 Semantic Enrichment 기법을 이용한 스팸 메일 필터링 시스템을 제안한다. 실험 결과, 제안하는 시스템이 베이지안 분류자를 이용한 분류 시스템보다 정확도에서 4.1%, 재현율에서 10.5%. 그리고 F-measure에서 7.64%의 성능향상을 보였다.

  • PDF

Robust Method for Sentence Boundary Identification in informal documents (비형식적인 문서에 강건한 문장 경계 인식)

  • Kim, Ju-Hee;Seo, Jung-Yun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.266-270
    • /
    • 2010
  • 본 논문에서는 구두점이나 띄어쓰기가 없는 비형식적인 문서에서도 문장의 경계를 잘 인식할 수 있는 문장 경계 인식기를 제안한다. 기존의 문장인식기는 문장경계의 후보를 구두점 출현 위치만으로 하였는데 이는 잡음이 많은 웹문서를 처리하는데 한계가 있다. 반면에 제안한 방법은 문장 경계의 후보를 구두점의 출연 위치로 제한하지 않고 문장 경계 인식을 위한 자질로 구두점에 비 의존적인 음절 n-gram을 사용함으로써, 구두점이 잘 표현된 문서뿐만 아니라 구두점의 생략이 빈번한 웹문서의 문장 경계 인식까지 효과적으로 수행할 수 있다. 통계기반의 기계학습 기법으로 CRFs를 이용하여 하였고, 학습과 실험에 세종계획 말뭉치를 사용하였다. 제안한 문장 경계 인식기는 세종계획 말뭉치에서 99.99%의 정확률과 100.00%의 재현율을 보였고, 세종계획 말뭉치에서 문장 경계의 구두점을 제거한 경우에도 96.20%의 정확률과 87.51%의 재현율을 보여 구두점이 없는 경우에도 문장 경계 인식이 잘이루어짐을 확인할 수 있었다.

  • PDF

Dictionary-Based Opinion Features Extraction and Classification of Korean Product Reviews (사전기반의 한국어 상품 리뷰 의견표현 자질 추출 및 분류시스템)

  • Sangguen Yuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.631-634
    • /
    • 2008
  • 인터넷을 이용한 사람들의 사회 참여가 확대되면서 다양한 의견(Opinion)들이 급속도로 증가하고 있으며 이러한 의견을 분석하여 유용한 정보로 활용하기 위한 연구가 활발히 진행되고 있다. 그 중에서도 상품리뷰는 기업에서 연구, 개발, 마케팅의 주요 자료로 사용되고 있으며 사용자가 상품의 구매를 결정하는 중요한 요인 중 하나로 작용하고 있다. 본 논문에서는 한국어로 이루어진 상품 리뷰를 분석하여 의견 자질(Feature)을 추출하고 분류(Classification)하는 시스템을 설계하고 구현하였다. 한글 의견 자질 추출을 위하여 먼저 한글 상품 리뷰를 분석하여 의견 사전을 구축하였다. 의견 사전으로는 의견 자질과 의견 어휘, 독립의견어휘, 의견 숙어, 부정어 등의 각기 다른 세부 사전을 구축하여 리뷰 분석 시 단계적으로 적용하여 정확도를 높일 수 있도록 설계하였다. 이렇게 구현된 시스템을 평가하기 위하여 각기 다른 3개의 도메인에서 실제 한국어 리뷰를 수집하여 실험을 수행하였으며 자질 추출에서는 평균 78.86% 정확률, 61.41% 재현율을, 극성 분류에서는 평균 69.46% 정확률, 42.26% 재현율을 나타냈다.

An Experimental Study on Semantic Searches for Image Data Using Structured Social Metadata (구조화된 소셜 메타데이터를 활용한 이미지 자료의 시맨틱 검색에 관한 실험적 연구)

  • Kim, Hyun-Hee;Kim, Yong-Ho
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.44 no.1
    • /
    • pp.117-135
    • /
    • 2010
  • We designed a structured folksonomy system in which queries can be expanded through tag control; equivalent, synonym or related tags are bound together, in order to improve the retrieval efficiency (recall and precision) of image data. Then, we evaluated the proposed system by comparing it to a tag-based system without tag control in terms of recall, precision, and user satisfaction. Furthermore, we also investigated which query expansion method is the most efficient in terms of retrieval performance. The experimental results showed that the recall, precision, and user satisfaction rates of the proposed system are statistically higher than the rates of the tag-based system, respectively. On the other hand, there are significant differences among the precision rates of query expansion methods but there are no significant differences among their recall rates. The proposed system can be utilized as a guide on how to effectively index and retrieve the digital content of digital library systems in the Library 2.0 era.