• Title/Summary/Keyword: 어휘 가중치

Search Result 59, Processing Time 0.021 seconds

Predicates Indexing for efficiency improvement in Korean Information Retrieval System (한국어 정보검색 시스템의 성능 향상을 위한 용언 색인)

  • 박진희;박대원;박민식;남현숙;김광영;권혁철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.164-166
    • /
    • 2000
  • 지금까지 대부분의 정보검색 시스템은 명사만을 색인어로 추출하여 사용하였다. 명사는 문서를 대표할 수 있는 어휘 요소이다. 그러나 명사 색인어만 가지고는 문서의 주제를 정확하게 나타낼 수 없다. 본 논문은 명사 색인어와 함께 용언도 색인어로 추출하여 사용하는 한국어 정보 검색시스템을 제시한다. 또한, 용역 색인어와 명사 색인어의 상대적 가중치를 검색에 이용하여 사용자의 질의에 적합한 문서를 검색할 수 있도록 한다. 이러한 과정에서 발견된 문제점은 향후 연구 과제로 계속 향상시켜나갈 것이다.

  • PDF

A Semantic Orientation Prediction Method of Sentiment Features Based on the General and Domain-Dependent Characteristics (일반적, 영역 의존적 특성을 반영한 감정 자질의 의미지향성 추정 방법)

  • Hwang, Jaewon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.155-159
    • /
    • 2009
  • 본 논문은 한국어 문서 감정분류를 위한 중요한 어휘 자원인 감정자질(Sentiment Feature)의 의미지향성(Semantic Orientation) 추정을 위해 일반적인 특성과 영역(Domain) 의존적인 특성을 반영하여 한국어 문서 감정분류(Sentiment Classification)의 성능 향상을 얻을 수 있는 기법을 제안한다. 감정자질의 의미지 향성은 검색 엔진을 통해 추출한 각 감정 자질의 스니핏(Snippet)과 실험 말뭉치를 이용하여 추정할 수 있다. 검색 엔진을 통해 추출된 스니핏은 감정자질의 일반적인 특성을 반영하며, 실험 말뭉치는 분류하고자 하는 영역 의존적인 특성을 반영한다. 이렇게 얻어진 감정자질의 의미지향성 수치는 각 문장의 감정강도를 추정하기 위해 이용되며, 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정자질의 가중치를 책정한다. 최종적으로 학습 과정에서 긍정 문서에서는 긍정 감정자질, 부정 문서에서는 부정 감정자질을 대상으로 추가 가중치를 부여하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능향상을 보였다.

  • PDF

A Document Sentiment Classification System Based on the Feature Weighting Method Improved by Measuring Sentence Sentiment Intensity (문장 감정 강도를 반영한 개선된 자질 가중치 기법 기반의 문서 감정 분류 시스템)

  • Hwang, Jae-Won;Ko, Young-Joong
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.6
    • /
    • pp.491-497
    • /
    • 2009
  • This paper proposes a new feature weighting method for document sentiment classification. The proposed method considers the difference of sentiment intensities among sentences in a document. Sentiment features consist of sentiment vocabulary words and the sentiment intensity scores of them are estimated by the chi-square statistics. Sentiment intensity of each sentence can be measured by using the obtained chi-square statistics value of each sentiment feature. The calculated intensity values of each sentence are finally applied to the TF-IDF weighting method for whole features in the document. In this paper, we evaluate the proposed method using support vector machine. Our experimental results show that the proposed method performs about 2.0% better than the baseline which doesn't consider the sentiment intensity of a sentence.

A Korean Homonym Disambiguation Model Based on Statistics Using Weights (가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델)

  • 김준수;최호섭;옥철영
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.11
    • /
    • pp.1112-1123
    • /
    • 2003
  • WSD(word sense disambiguation) is one of the most difficult problems in Korean information processing. The Bayesian model that used semantic information, extracted from definition corpus(1 million POS-tagged eojeol, Korean dictionary definitions), resulted in accuracy of 72.08% (nouns 78.12%, verbs 62.45%). This paper proposes the statistical WSD model using NPH(New Prior Probability of Homonym sense) and distance weights. We select 46 homonyms(30 nouns, 16 verbs) occurred high frequency in definition corpus, and then we experiment the model on 47,977 contexts from ‘21C Sejong Corpus’(3.5 million POS-tagged eojeol). The WSD model using NPH improves on accuracy to average 1.70% and the one using NPH and distance weights improves to 2.01%.

An Improved Automatic Text Summarization Based on Lexical Chaining Using Semantical Word Relatedness (단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법)

  • Cha, Jun Seok;Kim, Jeong In;Kim, Jung Min
    • Smart Media Journal
    • /
    • v.6 no.1
    • /
    • pp.22-29
    • /
    • 2017
  • Due to the rapid advancement and distribution of smart devices of late, document data on the Internet is on the sharp increase. The increment of information on the Web including a massive amount of documents makes it increasingly difficult for users to understand corresponding data. In order to efficiently summarize documents in the field of automated summary programs, various researches are under way. This study uses TextRank algorithm to efficiently summarize documents. TextRank algorithm expresses sentences or keywords in the form of a graph and understands the importance of sentences by using its vertices and edges to understand semantic relations between vocabulary and sentence. It extracts high-ranking keywords and based on keywords, it extracts important sentences. To extract important sentences, the algorithm first groups vocabulary. Grouping vocabulary is done using a scale of specific weight. The program sorts out sentences with higher scores on the weight scale, and based on selected sentences, it extracts important sentences to summarize the document. This study proved that this process confirmed an improved performance than summary methods shown in previous researches and that the algorithm can more efficiently summarize documents.

Disambiguation of Homograph Suffixes using Lexical Semantic Network(U-WIN) (어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 의미 중의성 해소)

  • Bae, Young-Jun;Ock, Cheol-Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.1 no.1
    • /
    • pp.31-42
    • /
    • 2012
  • In order to process the suffix derived nouns of Korean, most of Korean processing systems have been registering the suffix derived nouns in dictionary. However, this approach is limited because the suffix is very high productive. Therefore, it is necessary to analyze semantically the unregistered suffix derived nouns. In this paper, we propose a method to disambiguate homograph suffixes using Korean lexical semantic network(U-WIN) for the purpose of semantic analysis of the suffix derived nouns. 33,104 suffix derived nouns including the homograph suffixes in the morphological and semantic tagged Sejong Corpus were used for experiments. For the experiments first of all we semantically tagged the homograph suffixes and extracted root of the suffix derived nouns and mapped the root to nodes in the U-WIN. And we assigned the distance weight to the nodes in U-WIN that could combine with each homograph suffix and we used the distance weight for disambiguating the homograph suffixes. The experiments for 35 homograph suffixes occurred in the Sejong corpus among 49 homograph suffixes in a Korean dictionary result in 91.01% accuracy.

Improving Performance of Search Engine Using Category based Evaluation (범주 기반 평가를 이용한 검색시스템의 성능 향상)

  • Kim, Hyung-Il;Yoon, Hyun-Nim
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.1
    • /
    • pp.19-29
    • /
    • 2013
  • In the current Internet environment where there is high space complexity of information, search engines aim to provide accurate information that users want. But content-based method adopted by most of search engines cannot be used as an effective tool in the current Internet environment. As content-based method gives different weights to each web page using morphological characteristics of vocabulary, the method has its drawbacks of not being effective in distinguishing each web page. To resolve this problem and provide useful information to the users, this paper proposes an evaluation method based on categories. Category-based evaluation method is to extend query to semantic relations and measure the similarity to web pages. In applying weighting to web pages, category-based evaluation method utilizes user response to web page retrieval and categories of query and thus better distinguish web pages. The method proposed in this paper has the advantage of being able to effectively provide the information users want through search engines and the utility of category-based evaluation technique has been confirmed through various experiments.

An analytical methodology of guman sensibility ergonomics for textile design (직물디자인의 감성공학적 분석 방법론 연구)

  • 최자영;이현주;오대욱;임춘성;이병도;정경연
    • Science of Emotion and Sensibility
    • /
    • v.1 no.2
    • /
    • pp.43-53
    • /
    • 1998
  • 본 연구에서는 감성공학적 분석 방법론을 고안하여 직물 디자인 분야에 적용하고 그 효용성을 규명하였다. 방법론을 개발하기 위한 기초자료로서 직물 디자인요소와 이와 관련된 감성어휘를 수집하고 직물디자인요소계층도를 구축하였다. 수립된 직물디자인요소계층도상의 디자인요소에 관한 상대적인 중요도를 조사하여 디자인 요소별 가중치를 산출하고, 특정 디자인에 대하여 총체적인 감성수준과 디자인 요소별 감성수준을 측정한다. 측정된 요소별 감성수준을 Analytic Hierarchy Process 기법으로 종합한 감성수준을 비교한 결과 높은 상관관계를 보였다. 이 분석 방법론은 사전정보와 기술요소정보를 유기적으로 결합한 기반이 될 수 있는 합리적, 과학적인 개발 방법론을 제시하였다는데 큰 의의를 갖는다.

  • PDF

A digital system for apparel fabrication based on a fuzzy/multi-attribute model (퍼지-다속성 모델을 이용한 디지털 소재 기획 시스템)

  • 김주용;이지현
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2002.11a
    • /
    • pp.157-159
    • /
    • 2002
  • 패션트렌드와 소비자감성에 적합한 패션소재를 기획, 선정하는데 도움을 주는 컴퓨터 기반의 의사 결정시스템이 개발되었다. 패션소재로서의 유용성을 결정하는 속성을 두께, 무게, 밀도, 광택, 색상등으로 한정한 후 다속성 모델을 구축하였다. 각 속성들의 가중치는 의류 매장의 방문객 대상의 설문 조사에 의해 결정되었으며, 한 소재의 최조 가치는 퍼지 추론 시스템에 의해 계산되었다. 구축된 “퍼지-다속성” 모델을 이용하여 패션소재의 총 가치를 i) 품질로부터의 가치, ii) 품질을 기반으로 부가되는 가치, iii) 품질과는 무관하게 형성되는 브랜드 가치의 세가지 요소롤 분해하였다. 시중의 유명 스포츠 의류 브랜드 2종을 선정하여 위의 모델을 적용하였다. 위의 모델은 컴퓨터 시스템으로 개발되어, 특정 소재의 기본정보가 입력이 되면 그에 해당하는 감성정보로 변환되는 소재 평가 시스템과 역으로 원하는 감성 어휘를 입력하면 그에 해당하는 소재를 제안하는 소재 기획 시스템의 독립적인 두 요소로 구성된다.

  • PDF

A method to sequentially use lexical features for effective sentiment categorization of Korean Customer Reviews (효과적인 상품평 감정 분류를 위한 어휘 자질의 순차적 사용 방법)

  • Shin, Jun-Soo;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.151-154
    • /
    • 2009
  • 인터넷이 크게 발전하면서 현재는 인터넷으로 쉽게 쇼핑을 할 수 있다. 이 때 물건의 구입에 큰 영향력을 미치는 것이 바로 그 물건의 상품평이다. 하지만 실제로 수많은 상품평을 사용자가 일일이 확인하고 판단하는 데에는 많은 시간이 소모된다. 이러한 문제점을 해결하기 위해서 본 논문에서는 상품평 문장을 일반, 긍정, 부정의 세 단계로 나누는 시스템을 제안한다. 감정을 판단하는데 중요한 역할을 하는 품사에 따라 우선순위를 달리하여 자질을 추출한다. 추출된 자질을 사용하여 Paul Graham을 사용하여 가중치를 계산하고 기계학습을 한다. 실험은 일반과 감정(긍정, 부정)으로 분류하는 실험과 긍정과 부정으로 분류하는 실험을 하였다. 실험 결과 품사에 우선순위를 사용하여 만든 시스템이 기본 시스템보다 더 적은 자질을 사용하고 더 높은 성능을 보였다.

  • PDF