• 제목/요약/키워드: Seed Word

검색결과 30건 처리시간 0.016초

Extracting Multiword Sentiment Expressions by Using a Domain-Specific Corpus and a Seed Lexicon

  • Lee, Kong-Joo;Kim, Jee-Eun;Yun, Bo-Hyun
    • ETRI Journal
    • /
    • 제35권5호
    • /
    • pp.838-848
    • /
    • 2013
  • This paper presents a novel approach to automatically generate Korean multiword sentiment expressions by using a seed sentiment lexicon and a large-scale domain-specific corpus. A multiword sentiment expression consists of a seed sentiment word and its contextual words occurring adjacent to the seed word. The multiword sentiment expressions that are the focus of our study have a different polarity from that of the seed sentiment word. The automatically extracted multiword sentiment expressions show that 1) the contextual words should be defined as a part of a multiword sentiment expression in addition to their corresponding seed sentiment word, 2) the identified multiword sentiment expressions contain various indicators for polarity shift that have rarely been recognized before, and 3) the newly recognized shifters contribute to assigning a more accurate polarity value. The empirical result shows that the proposed approach achieves improved performance of the sentiment analysis system that uses an automatically generated lexicon.

저빈도어를 고려한 개념학습 기반 의미 중의성 해소 (Word Sense Disambiguation based on Concept Learning with a focus on the Lowest Frequency Words)

  • 김동성;최재웅
    • 한국언어정보학회지:언어와정보
    • /
    • 제10권1호
    • /
    • pp.21-46
    • /
    • 2006
  • This study proposes a Word Sense Disambiguation (WSD) algorithm, based on concept learning with special emphasis on statistically meaningful lowest frequency words. Previous works on WSD typically make use of frequency of collocation and its probability. Such probability based WSD approaches tend to ignore the lowest frequency words which could be meaningful in the context. In this paper, we show an algorithm to extract and make use of the meaningful lowest frequency words in WSD. Learning method is adopted from the Find-Specific algorithm of Mitchell (1997), according to which the search proceeds from the specific predefined hypothetical spaces to the general ones. In our model, this algorithm is used to find contexts with the most specific classifiers and then moves to the more general ones. We build up small seed data and apply those data to the relatively large test data. Following the algorithm in Yarowsky (1995), the classified test data are exhaustively included in the seed data, thus expanding the seed data. However, this might result in lots of noise in the seed data. Thus we introduce the 'maximum a posterior hypothesis' based on the Bayes' assumption to validate the noise status of the new seed data. We use the Naive Bayes Classifier and prove that the application of Find-Specific algorithm enhances the correctness of WSD.

  • PDF

종자 어휘를 이용한 자질 추출과 지지 벡터 기계(SVM)을 이용한 문서 감정 분류 시스템의 개발 (A Sentiment Classification System Using Feature Extraction from Seed Words and Support Vector Machine)

  • 황재원;전태균;고영중
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.938-942
    • /
    • 2007
  • 신문 기사 및 상품 평은 특정 주제나 상품을 대상으로 하여 글쓴이의 감정과 의견이 잘 나타나 있는 대표적인 문서이다. 최근 여론 조사 및 상품 의견 조사 등 다양한 측면에서 대용량의 문서의 의미적 분류 및 분석이 요구되고 있다. 본 논문에서는 문서에 나타난 내용을 기준으로 문서가 나타내고 있는 감정을 긍정과 부정의 두 가지 범주로 분류하는 시스템을 구현한다. 문서 분류의 시작은 감정을 지닌 대표적인 종자 어휘(seed word)로부터 시작하며, 자질의 선정은 한국어 특징상 감정 및 감각을 표현하는 명사, 형용사, 부사, 동사를 대상으로 한다. 가중치 부여 방법은 한글 유의어 사전을 통해 종자 어휘의 의미를 확장하여 각각의 가중치를 책정한다. 단어 벡터로 표현된 입력 문서를 이진 분류기인 지지벡터 기계를 이용하여 문서에 나타난 감정을 판단하는 시스템을 구현하고 그 성능을 평가한다.

  • PDF

한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩 (Utilizing Local Bilingual Embeddings on Korean-English Law Data)

  • 최순영;;임희석
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.45-53
    • /
    • 2018
  • 최근 이중 언어 임베딩(bilingual word embedding) 관련 연구들이 각광을 받고 있다. 그러나 한국어와 특정 언어로 구성된 병렬(parallel-aligned) 말뭉치로 이중 언어 워드 임베딩을 하는 연구는 질이 높은 많은 양의 말뭉치를 구하기 어려우므로 활발히 이루어지지 않고 있다. 특히, 특정 영역에 사용할 수 있는 로컬 이중 언어 워드 임베딩(local bilingual word embedding)의 경우는 상대적으로 더 희소하다. 또한 이중 언어 워드 임베딩을 하는 경우 번역 쌍이 단어의 개수에서 일대일 대응을 이루지 못하는 경우가 많다. 본 논문에서는 로컬 워드 임베딩을 위해 한국어-영어로 구성된 한국 법률 단락 868,163개를 크롤링(crawling)하여 임베딩을 하였고 3가지 연결 전략을 제안하였다. 본 전략은 앞서 언급한 불규칙적 대응 문제를 해결하고 단락 정렬 말뭉치에서 번역 쌍의 질을 향상시켰으며 베이스라인인 글로벌 워드 임베딩(global bilingual word embedding)과 비교하였을 때 2배의 성능을 확인하였다.

SNS대상의 지능형 자연어 수집, 처리 시스템 구현을 통한 한국형 감성사전 구축에 관한 연구 (Research on Designing Korean Emotional Dictionary using Intelligent Natural Language Crawling System in SNS)

  • 이종화
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권3호
    • /
    • pp.237-251
    • /
    • 2020
  • Purpose The research was studied the hierarchical Hangul emotion index by organizing all the emotions which SNS users are thinking. As a preliminary study by the researcher, the English-based Plutchick (1980)'s emotional standard was reinterpreted in Korean, and a hashtag with implicit meaning on SNS was studied. To build a multidimensional emotion dictionary and classify three-dimensional emotions, an emotion seed was selected for the composition of seven emotion sets, and an emotion word dictionary was constructed by collecting SNS hashtags derived from each emotion seed. We also want to explore the priority of each Hangul emotion index. Design/methodology/approach In the process of transforming the matrix through the vector process of words constituting the sentence, weights were extracted using TF-IDF (Term Frequency Inverse Document Frequency), and the dimension reduction technique of the matrix in the emotion set was NMF (Nonnegative Matrix Factorization) algorithm. The emotional dimension was solved by using the characteristic value of the emotional word. The cosine distance algorithm was used to measure the distance between vectors by measuring the similarity of emotion words in the emotion set. Findings Customer needs analysis is a force to read changes in emotions, and Korean emotion word research is the customer's needs. In addition, the ranking of the emotion words within the emotion set will be a special criterion for reading the depth of the emotion. The sentiment index study of this research believes that by providing companies with effective information for emotional marketing, new business opportunities will be expanded and valued. In addition, if the emotion dictionary is eventually connected to the emotional DNA of the product, it will be possible to define the "emotional DNA", which is a set of emotions that the product should have.

자막 병렬 코퍼스를 이용한 이중 언어 워드 임베딩 (Bilingual Word Embedding using Subtitle Parallel Corpus)

  • 이설화;이찬희;임희석
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.157-160
    • /
    • 2017
  • 최근 자연 언어 처리 분야에서는 단어를 실수벡터로 임베딩하는 워드 임베딩(Word embedding) 기술이 많은 각광을 받고 있다. 최근에는 서로 다른 두 언어를 이용한 이중 언어 위드 임베딩(Bilingual word embedding) 방법을 사용하는 연구가 많이 이루어지고 있는데, 이중 언어 워드 임베딩에서 임베딩 절과의 질은 학습하는 코퍼스의 정렬방식에 따라 많은 영향을 받는다. 본 논문은 자막 병렬 코퍼스를 이용하여 밑바탕 어휘집(Seed lexicon)을 구축하여 번역 연결 강도를 향상시키고, 이중 언어 워드 임베딩의 사천(Vocabulary) 확장을 위한 언어별 연결 함수(Language-specific mapping function)을 학습하는 새로운 방식의 모델을 제안한다. 제안한 모델은 기존 모델과의 성능비교에서 비교할만한 수준의 결과를 얻었다.

  • PDF

성경상에 나타난 식품 사회.문화사 (모세 오경 중심으로) (The History of Social and Culture with Food in the Bible (The Five of Books of Moses))

  • 김영희
    • 한국식품영양학회지
    • /
    • 제8권2호
    • /
    • pp.128-134
    • /
    • 1995
  • God created the havens and earth and god gave man every seed-bearing plant and every tree that has fruit with seed in it. These food Is all vegetable food that don't take diseases of adult people. But God gave Noah the green plants. Everything that lives and moves will be food for Noah. Just as God gave man the green plants. And then man must not eat meat (animal protein food) that has its lifeblood still in it and God must not eat fat in it. The fat contains much fat (saturated fatty acids) and cholesterol that have susceptibility to disease of coronary heart, hypertension and atheriosclerosis etc. God must not eat these fat before we don't know that It have susceptibility to disease of adult people.

  • PDF

트위터를 통한 제조 기업의 부정적 구전 확산: 공급사슬 리스크 관점에서 (Spread of Negative Word-of-mouth of Manufacturing Companies Via Twitter: From the Supply Chain Risk's Perspective)

  • 정의범;유한나
    • 한국산업정보학회논문지
    • /
    • 제26권5호
    • /
    • pp.79-94
    • /
    • 2021
  • 소셜 미디어상의 부정적 구전에 대한 기업의 공급사슬 리스크의 중요성과 심각성에도 불구하고 관련된 연구는 미흡한 실정이다. 이에 본 연구는 제품의 부정적 구전이 소셜 미디어를 통해 어떻게 유통되는지, 부정적 구전의 유통과 확산에 영향을 주는 주체의 특징은 무엇인지를 사회적 교환이론에 기초하여 분석하였다. 이를 위해 트위터를 이용해 미국도로교통안전국(NHTSA)에서 4개 자동차 기업의 자동차 리콜 정보를 수집하였다. 최초 트위터(Seed tweet)를 바탕으로 부정적 구전의 유통과 확산을 살펴보기 위한 RT(Re-tweet) 네트워크를 구조를 분석하여 부정적 구전 네트워크의 특징을 파악하고, 초기 유포자의 특성이 부정적 구전 확산에 미치는 영향을 분석하였다. 그 결과 부정적 구전은 다수 이용자와 연결된 허브 이용자를 중심으로 확산하는 스몰월드 네트워크 구조임을 확인하였으며, 초기 유포자의 영향력이 크고 상호호혜성이 높을수록 부정적 구전 확산의 속도와 규모가 유의미하게 증가함을 발견하였다.

변형 피스탈 네트워크 블록 암호 알고리즘 (Modified Feistel Network Block Cipher Algorithm)

  • 조경연;송홍복
    • 한국컴퓨터산업학회논문지
    • /
    • 제10권3호
    • /
    • pp.105-114
    • /
    • 2009
  • 본 논문에서는 변형된 피스탈 네트워크 구조 128 비트 블록 암호 알고리즘을 제안한다. 제안한 알고리즘은 128, 196 또는 256 비트 키를 가지며, 입력 값 전체에서 선택된 32 비트씩 처리한다. 이러한 구조적 특성은 기존은 블록 암호 알고리즘들과 큰 차별이 되고 있다. 제안한 블록 암호 알고리즘은 국제 표준 블록 암호 알고리즘인 AES와 국내 표준 블록 암호 알고리즘인 SEED 및 ARIA와의 소프트웨어 수행 속도 면에서 많이 개선된 것을 보이고 있다. 이러한 특성을 이용하면 제한된 환경에서 수행해야 하는 스마트카프와 같은 분야에 많이 활용될 수 있을 것이다.

  • PDF

수신 제한된 방송 서비스 제공 시스템 설계 및 구현 (Design and Implementation of Providing Conditional Access Broadcasting Service System)

  • 김동옥;신익룡
    • 정보통신설비학회논문지
    • /
    • 제8권2호
    • /
    • pp.64-71
    • /
    • 2009
  • In this paper, This thesis is cell phone for make CAS service be for hand joining broadcasting Create a way CAS Chip. PerSam issue card inside use Seed Key and algorithm make CID Key and record CAS Chip. PerSam member Card inside use Seed Key and algorithm make Subscriber Key after include Subscriber. Key CAS Chip for record CID Key register EMM. make CAS CHIP in accordance with issue CAS Chip. broadcast service entry be for hand treatment so make low bandwidth for joining massage and make increase a member.

  • PDF