• Title/Summary/Keyword: 자질선택

Search Result 125, Processing Time 0.024 seconds

Classification of Essay Discourse Elements Using Conditional Random Fields (CRF를 이용한 영어작문 구성요소 자동분류기법)

  • Rhee, John;Kwak, Dong-Min;Park, Sewon;Um, Jin-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.787-790
    • /
    • 2015
  • 본 연구에서는 글의 구성요소를 추측하는 가장 높은 성능을 나타내는 알고리즘을 제시한다. 실험 방법은 글의 각 문장에 대한 자질을 추출, 자질 선택, 그리고 데이터에 대해 여러 기계학습 알고리즘을 학습시킨 후 성능을 비교하여 진행하였다. 또한 이 중 가장 높은 성능을 보이는 CRF를 기존에 연구되어 있는 성능과도 비교하였다. 마지막으로 CRF가 구성요소를 추측하는 데 있어서 가장 높은 성능을 보이는 이유에 대해 분석하였다. 국내의 유명 어학원 및 토플 웹사이트를 통해 1969개의 토플 에세이를 수집했으며 2명의 전문 평가자를 통해 각 문장을 8개의 분류로 나누었다. 이를 CRF를 적용한 결과 87.2%의 F score가 나왔으며 기존 연구결과, 그리고 다른 알고리즘보다 높은 성능을 보였다.

Post Correction of Speech Recognition using Discourse Information (담화 정보를 이용한 음성 인식 후처리)

  • Kim, Ju-Hee;Kang, Sang-Woo;Seon, Choong-Nyoung;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.147-151
    • /
    • 2010
  • 본 연구는 대화 시스템에서 처리되는 사용자 발화의 의도 분석 기법과 담화 정보를 사용하여 음성 인식 결과로서의 인식 후보 문장들을 재순위하는 방법을 제안한다. 담화 정보는 사용자 발화의 의도 분석에 매우 중요한 자질로 사용되고 있기 때문에 음성 인식 결과들의 후보를 선택하는 문제에서도 담화 정보는 매우 중요한 자질로 사용될 수 있다. 음성 인식 결과의 후보 문장들을 모두 의도 분석 과정을 거치고 각각의 후보 의도들과 이전 담화 정보의 연관성을 이용하여 음성 인식 결과를 재순위화 한다. 실험을 통하여 재순위 과정을 수행한 결과 1순위 음성 인식 결과는 재순위 과정을 거치지 않는 결과에 비해 7.08%의 오류 감소율을 보였다.

  • PDF

A Comparison of Machine Learning Techniques for Evaluating the Quality of Blog Posts (블로그 포스트 자동 품질 평가를 위한 기계학습 기법 비교 연구)

  • Han, Bum-Jun;Kim, Min-Jeong;Lee, Hyoung-Gyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.385-388
    • /
    • 2010
  • 블로그는 다양한 주제 분야에 대한 내용을 자유롭게 표현할 수 있는 일종의 개인 웹사이트로, 많은 양과 다양성으로 매우 중요한 정보원이 될 수 있다. 블로그는 생산속도가 매우 빠르므로 보다 고품질의 블로그를 선별하는 것이 중요하다. 본 논문에서는 블로그의 본문을 담고 있는 포스트를 대상으로 기계학습 기법을 이용하여 문서의 품질을 자동으로 평가하고자 하였다. 학습을 위한 자질로는 모든 블로그에 공통적으로 적용할 수 있도록 형태소 분석에서 추출한 동사, 부사, 형용사의 내용어만을 선택하였다. 성능 비교를 위해 수작업으로 약 4,600개의 정답 집합을 구축하고, 적합한 기계학습 기법을 찾기 위해 다양한 학습 기법을 사용하여 비교 실험하였다. 실험 결과 Bagging 기법의 성능이 79% F-measure로 가장 좋음을 보여주었다. 한정된 자질을 사용했을 때와 정답 집합의 문서 수 비율이 불균등할 경우 단순함, 유연성, 효율성의 특징을 지닌 Bagging 기법이 적합할 것으로 보인다.

Study on Automatic Classification System of News based on NewsML (NewsML 기반의 뉴스 자동 분류 시스템에 관한 연구)

  • Tak-Hee Lee;Gumwon Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.619-622
    • /
    • 2008
  • 뉴스 분류 체계는 각각의 기사에 정치, 경제, 사회 등 가장 적합한 주제별로 분류하는 것으로 언론사별 분류 체계는 통일성이 없이 전혀 다르게 구성되어 사용하고 있다. 이로 인해 방대한 콘텐트를 통합하는데 많은 어려움이 있으며, 그만큼 시스템과 인력에 대해 중복 투자가 되고 있다. 이런 문제점을 개선하기 위해 국제 표준인 NewsML에 기반한 뉴스 분류에 대해 제안한다. NewsML은 XML 기반의 유연성과 확장성이 있는 구조적인 표준 형식으로 다양한 데이터 표현이 가능하여 자동 문서 범주화에 필요한 중요한 자질 선택이 가능하다. 본 논문에서는 NewsML 형식으로 되어 있는 뉴스와 그렇지 않은 뉴스를 구분하여 자동 분류에 대한 비교 실험을 한다. NewsML의 구조화된 정보를 활용한 실험이 뉴스의 제목과 본문만으로 실험한 결과보다 좋은 성능을 보여 주었으며, 그 중에서 자질 공간이 아주 큰 경우에 유용하고 문서 분류에 효과가 뛰어난 지지 벡터 기계 모델이 가장 좋은 성능을 보였다.

Naming Creation of Cultural Contents based on the Violation of Selectional Restrictions (선택제약 위반을 활용한 문화콘텐츠의 네이밍 창작)

  • Kim, Young-Do
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.12
    • /
    • pp.164-172
    • /
    • 2010
  • The purpose of this paper is to clarify the naming creation process of cultural contents based on the violation of selectional restrictions. This is to insist that the violation of selectional restrictions should be significantly considered as a mode of story planning and title naming in the cultural contents such as 'King and the Clown' and 'Ballerina Who Loves B-Boy'. This approach of selectional restrictions is based on the insistence of Chomsky's 'Aspects of the Theory of Syntax' in 1965. His idea had proposed that violation of linguistic rules affects the acceptability in the selectional properties of words and sentences. This focuses on the naming creation of cultural contents by widening his notion between selectional restrictions and the violation of selectional restrictions.

User Reputation Evaluation Using Co-occurrence Feature and Collective Intelligence (동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가)

  • Lee, Hyun-Woo;Han, Yo-Sub;Kim, Lae-Hyun;Cha, Jeong-Won
    • Korean Journal of Cognitive Science
    • /
    • v.19 no.4
    • /
    • pp.459-476
    • /
    • 2008
  • The user needs to find the answer to your question is growing fast at the service using collective intelligent knowledge. In the previous researches, it was proven that the non-text information like view counting, referrer number, and number of answer is good in evaluating answers. There were also many works about evaluating answers using the various kinds of word dictionaries. In this work, we propose new method to evaluate answers to question effectively using user reputation that estimated by the social activity. We use a modified PageRank algorithm for estimating user reputation. We also use the similarity between question and answer. From the result of experiment in the Naver GisikiN corpus, we can see that the proposed method gives meaningful performance to complement the answer selection rate.

  • PDF

Text Categorization Using TextRank Algorithm (TextRank 알고리즘을 이용한 문서 범주화)

  • Bae, Won-Sik;Cha, Jeong-Won
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.1
    • /
    • pp.110-114
    • /
    • 2010
  • We describe a new method for text categorization using TextRank algorithm. Text categorization is a problem that over one pre-defined categories are assigned to a text document. TextRank algorithm is a graph-based ranking algorithm. If we consider that each word is a vertex, and co-occurrence of two adjacent words is a edge, we can get a graph from a document. After that, we find important words using TextRank algorithm from the graph and make feature which are pairs of words which are each important word and a word adjacent to the important word. We use classifiers: SVM, Na$\ddot{i}$ve Bayesian classifier, Maximum Entropy Model, and k-NN classifier. We use non-cross-posted version of 20 Newsgroups data set. In consequence, we had an improved performance in whole classifiers, and the result tells that is a possibility of TextRank algorithm in text categorization.

Practical Target Word Selection Using Collocation in English to Korean Machine Translation (영한번역 시스템에서 연어 사용에 의한 실용적인 대역어 선택)

  • 김성묵
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.5 no.2
    • /
    • pp.56-61
    • /
    • 2000
  • The quality of English to Korean Machine Translation depends on how well it deals with target word selection of verbs containing enormous ambiguity. Verb sense disambiguation can be done by using collocation, but the construction of verb collocations costs a lot of efforts and expenses. So, existing methods should be examined in the practical view points. This paper describes the practical method of target word selection using existing collocation and semantic distance computed from minimum semantic features of nouns.

  • PDF

대학총장의 리더십

  • Lee, Hyo-Gye
    • 대학교육
    • /
    • s.143
    • /
    • pp.32-35
    • /
    • 2006
  • 우리 대학의 리더십 발휘와 책무는 대학사회의 구성원과 정치·경제적 압력, 제도 시스템과 같은 상황적 요소들이 작용하고 있다. 그러나 무엇보다도 가장 큰 정당성의 파워와 정책 결정의 권한을 가진 총장의 리더십이야말로 대학조직 전체 리더십의 핵심 요소이자 촉매제이다. 이러한 총장 리더십의 공통적인 덕목을 집약해 보면 대학총장은 비전과 꿈을 가져야 하며, 창조적 사고를 가지고, 대학의 생존전략 우선순위를 선택할 수 있는 능력 있고 전문가적인 자질을 가져야 한다. 또한 개방된 의식을 지녀야 하며, 국제적 감각이 있는, 교육경영자로서의 CEO형 총장이 되어야 한다. 그리고 재원확보에 다각적인 노력을 하여 그 기대에 부응해야 한다.

  • PDF