• 제목/요약/키워드: 저빈도어

검색결과 6건 처리시간 0.017초

유사계수에 따른 전역적 질의확장 검색 성능 비교 (Comparing the Performance of Global Query Expansion according to Similarity Measures)

  • 이재윤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.526-528
    • /
    • 2003
  • 공기빈도를 이용한 전역적 질의확장 검색에서 공기유사도를 판정하는데 이용되는 유사계수의 특성에 따른 질의확장 성능을 비교해보았다. 먼저 각 유사계수의 통계적인 특성을 말뭉치와 검색실험 문서집단을 대상으로 살펴본 결과 코사인 계수, 자카드 계수는 고빈도어 선호경향을 보이고 상호정보량과 율의 Y는 저빈도어 선호경향을 보이는 것으로 나타났다. 질의확장 검색실험에서는 고빈도어 선호경향을 가진 유사계수에 비해서 저빈도어 선호경향을 가진 유사계수률 이용할 때 더 종은 성능이 나타났다. 특히 율의 Y는 질의어의 DF가 1에 가깝게 매우 낮을 때 다른 유사계수와 달리 고빈도어를 선호함으로써 항상 저빈도어를 선호하는 상호정보량에 비해서 질의확장 검색에 유리함을 알 수가 있었다.

  • PDF

저빈도어를 고려한 개념학습 기반 의미 중의성 해소 (Word Sense Disambiguation based on Concept Learning with a focus on the Lowest Frequency Words)

  • 김동성;최재웅
    • 한국언어정보학회지:언어와정보
    • /
    • 제10권1호
    • /
    • pp.21-46
    • /
    • 2006
  • This study proposes a Word Sense Disambiguation (WSD) algorithm, based on concept learning with special emphasis on statistically meaningful lowest frequency words. Previous works on WSD typically make use of frequency of collocation and its probability. Such probability based WSD approaches tend to ignore the lowest frequency words which could be meaningful in the context. In this paper, we show an algorithm to extract and make use of the meaningful lowest frequency words in WSD. Learning method is adopted from the Find-Specific algorithm of Mitchell (1997), according to which the search proceeds from the specific predefined hypothetical spaces to the general ones. In our model, this algorithm is used to find contexts with the most specific classifiers and then moves to the more general ones. We build up small seed data and apply those data to the relatively large test data. Following the algorithm in Yarowsky (1995), the classified test data are exhaustively included in the seed data, thus expanding the seed data. However, this might result in lots of noise in the seed data. Thus we introduce the 'maximum a posterior hypothesis' based on the Bayes' assumption to validate the noise status of the new seed data. We use the Naive Bayes Classifier and prove that the application of Find-Specific algorithm enhances the correctness of WSD.

  • PDF

역문헌빈도 가중치의 재검토 (Inverse Document Frequency Weighting Revisited)

  • 이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.253-261
    • /
    • 2003
  • 역문헌빈도 가중치는 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 이 연구에서는 역문헌빈도 가중치의 가정에 의문을 제기하고, 이를 보완하는 새로운 문헌빈도 가중치 공식을 제안하였다. 제안한 가중치 공식은 저빈도어가 아닌 중간빈도어가 더 중요하다는 가정에 근거한 것으로서 역시 문헌빈도를 이용한 함수이다. 문헌빈도에 의한 가중치를 문헌의 색인어에 부여하는 경우와 질의어에 부여하는 경우로 나누어서 실험을 수행하고, 두 경우의 차이점을 논하였다.

  • PDF

어휘인출과 구어동반 제스처의 관계 (The Relationship between Lexical Retrieval and Coverbal Gestures)

  • 하지완;심현섭
    • 인지과학
    • /
    • 제22권2호
    • /
    • pp.123-143
    • /
    • 2011
  • 본 연구의 목적은 구어동반 제스처가 어휘인출과정의 개념화와 어휘화 가운데 어떠한 단계와 관계가 있는지를 알아보고자 하는 것이다. 제스처와 발화 분석을 위하여, 모 방송국의 TV 버라이어티 프로그램 중 제시된 목표단어의 의미를 설명하여 전화상대방이 그 단어의 이름을 맞추게 하는 게임의 동영상 자료를 이용하였다. 분석자료로 이와 같은 TV 자료를 선택한 이유는 프로그램의 게임과제가 어휘인출의 개념화 과정과 어휘화 과정을 동시에 유도할 수 있는 과제로 판단되었기 때문이다. 20회의 동영상 자료를 재생하여 목표단어와 목표단어 설명과정에서 출연자들이 산출한 발화를 전사하고, 출연자들이 사용한 제스처를 어휘 제스처(lexical gesture)와 운동 제스처(motor gesture)로 구분하여 기록하였다. 구어동반 제스처가 어휘인출과정의 개념화와 관계가 있는지 알아보기 위하여, 구체적 단어와 추상적 단어 설명 시 동반된 제스처의 사용양상이 다른지, 그리고 단어 개념의 난이도와 제스처 양 사이에 상관관계가 있는지 분석하였다. 제스처가 어휘인출과정의 어휘화와 관계가 있는지 알아보기 위하여, 출연자가 목표단어 설명 시 산출한 발화의 단어 양과 제스처 양, 그리고 저빈도어 비율과 제스처 양 사이의 상관관계를 각각 살펴보았다. 연구결과 단어 개념의 심상성(imageability)에 따라 유의하게 많이 동반되는 제스처가 다르다는 것을 알 수 있었다. 즉 구체적 단어 설명 시에는 추상적 단어 설명 시보다 어휘 제스처가 유의하게 많이 동반되었고, 추상적 단어 설명 시에는 구체적 단어 설명 시보다 운동 제스처가 유의하게 많이 동반되었다. 또한 구체적 단어의 경우 개념의 난이도와 제스처 양 사이에 유의한 상관관계가 있었다. 그러나 목표단어 설명 시 산출된 발화의 단어 양과 제스처 양, 저빈도어 비율과 제스처 양 사이에는 상관관계가 나타나지 않았다. 본 연구의 결과는 구어동반 제스처가 어휘인출과정의 개념화부를 반영한다는 것을 시사한다. 뿐만 아니라 이제까지 많은 연구들에서 간과되어 왔던 운동 제스처의 기능에 대한 새로운 접근을 시도하였다는 점에서 본 연구는 의의가 있을 것이다.

  • PDF

피벗 역문헌빈도 가중치 기법에 대한 연구 (A Study on the Pivoted Inverse Document Frequency Weighting Method)

  • 이재윤
    • 정보관리학회지
    • /
    • 제20권4호통권50호
    • /
    • pp.233-248
    • /
    • 2003
  • 역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌번도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과, 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

비유창성 실어증 환자의 단어빈도 및 길이, 생물성에 따른 이름대기 수행의 차이 (The Differences of Naming by Word Frequency, Length, and Animacy in Nonfluent Aphasic Patients)

  • 권정희;최현주
    • 재활복지
    • /
    • 제20권1호
    • /
    • pp.171-188
    • /
    • 2016
  • 이 연구는 비유창성 실어증 환자 집단과 정상 성인 집단을 대상으로 단어빈도, 단어길이, 생물성의 세 가지 어휘조건에 따른 이름대기 수행에 차이가 있는지 알아보는 것을 목적으로 하였다. 연구 대상은 비유창성 실어증 환자 15명과 정상 성인 15명이었다. 이름대기 과제의 목표 단어는 그림으로 표현 가능한 구체명사만 사용하였으며, 이름대기 평가는 그림을 이용한 대면이름대기방법을 사용하였다. 목표 단어는 단어빈도(저빈도어/고빈도어), 단어길이(1음절/3음절), 생물성(생물/무생물)의 어휘조건을 적용하여 총 40개의 문항으로 구성하였다. 연구 결과를 살펴보면 다음과 같다. 첫째, 두 집단 모두 고빈도 단어의 이름대기 수행이 저빈도 단어보다 높게 나타났다. 둘째, 두 집단 모두 1음절 단어의 이름대기 수행이 3음절 단어보다 높게 나타났다. 셋째, 두 집단 모두 생물성에 따른 이름대기 수행에는 유의한 차이가 없었다. 넷째, 집단과 어휘조건의 상호작용 효과는 단어빈도에서만 나타났다. 이러한 결과는 비유창성 실어증 환자들의 어휘조건에 따른 이름대기 능력의 저하는 단어길이나 생물성에 비해 단어빈도의 효과가 크다는 것을 시사한다. 이러한 연구결과는 비유창성 실어증 환자의 이름대기 평가와 중재의 기초 자료로 활용될 수 있다.