• 제목/요약/키워드: Word distribution

검색결과 291건 처리시간 0.028초

텍스트 스트리밍 데이터에서 텍스트 임베딩과 이상 패턴 탐지를 이용한 신규 주제 발생 탐지 (Emerging Topic Detection Using Text Embedding and Anomaly Pattern Detection in Text Streaming Data)

  • 최세목;박정희
    • 한국멀티미디어학회논문지
    • /
    • 제23권9호
    • /
    • pp.1181-1190
    • /
    • 2020
  • Detection of an anomaly pattern deviating normal data distribution in streaming data is an important technique in many application areas. In this paper, a method for detection of an newly emerging pattern in text streaming data which is an ordered sequence of texts is proposed based on text embedding and anomaly pattern detection. Using text embedding methods such as BOW(Bag Of Words), Word2Vec, and BERT, the detection performance of the proposed method is compared. Experimental results show that anomaly pattern detection using BERT embedding gave an average F1 value of 0.85 and the F1 value of 1 in three cases among five test cases.

Temporal Variation Due to Tense vs. Lax Consonants in Korean

  • Yun, II-Sung
    • 음성과학
    • /
    • 제11권3호
    • /
    • pp.23-36
    • /
    • 2004
  • Many languages show reverse durational variation between preceding vowel and following voiced/voiceless (lax/tense) consonants. This study investigated the likely effects of phoneme type (tense vs. lax) on the timing structure (duration of syllable, word, phrase and sentence) of Korean. Three rates of speech (fast, normal, slow) applied to stimuli with the target word /a-Ca/ where /C/ is one of /p, p', $p^h$/. The type (tense/lax) of /C/ caused marked inverse durational variations in the two syllables /a/ and /Ca/ and highly different durational ratios between them. Words with /p', $p^h$/ were significantly longer than that with /p/, which contrasts with many other languages where such pairs of words have a similar duration. The differentials between words remained up to the phrase and sentence level, but in general the higher linguistic units did not statistically differ within each level. Thus, the phrase is suggested as a compensatory unit of phoneme type effects in Korean. Different rates did not affect the general tendency. Distribution of time variations (from normal to fast and slow) to each syllable (/a/ and /Ca/) was also observed.

  • PDF

FSN 기반의 대어휘 연속음성인식 시스템 개발 (Development of FSN-based Large Vocabulary Continuous Speech Recognition System)

  • 박전규;이윤근
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.327-329
    • /
    • 2007
  • This paper presents a FSN-based LVCSR system and it's application to the speech TV program guide. Unlike the most popular statistical language model-based system, we used FSN grammar based on the graph theory-based FSN optimization algorithm and knowledge-based advanced word boundary modeling. For the memory and latency efficiency, we implemented the dynamic pruning scheduling based on the histogram of active words and their likelihood distribution. We achieved a 10.7% word accuracy improvement with 57.3% speedup.

  • PDF

Multi-task learning with contextual hierarchical attention for Korean coreference resolution

  • Cheoneum Park
    • ETRI Journal
    • /
    • 제45권1호
    • /
    • pp.93-104
    • /
    • 2023
  • Coreference resolution is a task in discourse analysis that links several headwords used in any document object. We suggest pointer networks-based coreference resolution for Korean using multi-task learning (MTL) with an attention mechanism for a hierarchical structure. As Korean is a head-final language, the head can easily be found. Our model learns the distribution by referring to the same entity position and utilizes a pointer network to conduct coreference resolution depending on the input headword. As the input is a document, the input sequence is very long. Thus, the core idea is to learn the word- and sentence-level distributions in parallel with MTL, while using a shared representation to address the long sequence problem. The suggested technique is used to generate word representations for Korean based on contextual information using pre-trained language models for Korean. In the same experimental conditions, our model performed roughly 1.8% better on CoNLL F1 than previous research without hierarchical structure.

교육서비스 관련 상품 판매요인에 대한 교육서비스 만족이 재등록과 구전효과에 미치는 영향 (An Influence of the Satisfaction on Factors related to Educational Services sales of Re-registration and the Word of Mouth)

  • 강계영;송인암;황희중
    • 유통과학연구
    • /
    • 제9권3호
    • /
    • pp.15-23
    • /
    • 2011
  • 본 연구는 교육서비스 관련 상품 판매 요인이 교육서비스 만족에 미치는 영향을 파악하고, 이러한 만족이 재등록과 구전효과에 미치는 영향에 관하여 분석하였다. 입시학원에 수강 중인 학생들과 학부모들을 대상으로 실증분석 한 결과 교육서비스 관련 상품판매요인인 교육프로그램과 강사요인에 관한 가설들은 지지되었다. 그러나 물리적환경과 수강료가 교육서비스 만족에 미치는 영향에 대한 가설은 기각되었다. 또한 교육서비스 만족은 재등록과 구전효과에 미치는 영향에 관한 가설은 지지되었다. 이상의 연구결과를 종합해볼 때 교육서비스 만족에 미치는 영향에 있어 교육프로그램과 강사요인이 중요한 역할을 하며 물리적 환경과 수강료는 교육서비스 만족에 있어 중요한 요인이 아니다라는 결론이 도출되었다. 또한 교육서비스 만족은 재등록과 긍정적인 구전형성에 긍정적인 영향을 미친다는 결론이 도출되었다.

  • PDF

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

텍스트 마이닝을 활용한 매스 미디어와 소셜 미디어 의제 분석 : '마스크 5부제'를 중심으로 (Mass Media and Social Media Agenda Analysis Using Text Mining : focused on '5-day Rotation Mask Distribution System')

  • 이새미;유승의;안순재
    • 한국콘텐츠학회논문지
    • /
    • 제20권6호
    • /
    • pp.460-469
    • /
    • 2020
  • 본 연구는 코로나19 사태로 인하여 최근 이슈로 떠오르는 '마스크 5부제'에 대한 온라인 뉴스 기사와 카페글을 분석하여 언론과 대중들의 반응을 담고 있는 매스 미디어와 소셜 미디어 의제를 파악하고, 그 차이점을 알아보았다. 분석을 위해 네이버 뉴스 기사 전문 2,096건과 카페글 1,840건을 수집하고 데이터 전처리 과정과 정제과정을 거쳐 단어 빈도분석, 워드 클라우드, LDA 토픽모델링 분석을 실시하였다. 분석 결과, 매스 미디어에 비해 소셜 미디어는 '대리 구매', '개학 연기', '마스크 사용', '마스크 구입'과 같이 실생활 관련 토픽이 나타나 개인 미디어의 특성이 반영되어 정보 전달의 기능 보다는 개인의 의견, 감정, 정보를 교류하는 역할을 하는 것으로 나타났다. 본 연구에 적용된 연구방법의 적용으로 다양한 미디어 분석을 통해 사회이슈가 공중의제화되고, 정부의제로 진화하는 정책의제설정 과정에서 참고자료로 활용될 수 있을 것이다.

A Study on the Effects of Super-Supermarket Service Quality on Satisfaction in Store Selection

  • Kim, Gyeong-Cho
    • 산경연구논집
    • /
    • 제4권2호
    • /
    • pp.41-49
    • /
    • 2013
  • Purpose - Currently, the distribution environment has been changing rapidly because of the advent of super-supermarkets (SSM),which adopt the "price break" and "lowest price" strategies. Specifically, a diversification of the distribution environment allowed customers to reasonably decide where to shop. With a broadened range of criteria governing the choice of a store, determining changes in the distribution environment should be based on customer satisfaction surrounding the service levels of SSMs. This study examines the effects of service quality and product quality of SSMs on customer satisfaction levels, and analyzes whether these factors affect customers' revisit intention directly. Research design and methodology - A survey method was used and 127 SSM customers responded to the questionnaires that were developed to measure service quality, product quality, customer satisfaction, and store revisit intention. A multi-regression analysis was used to test the hypotheses. Results - Except hypothesis 2, the other seven hypotheses were supported. Hypothesis 2 suggested a positive relationship between product factors and customer satisfaction. Conclusions - This study found a systematic effect of service factors and product factors on customer satisfaction and word-of-mouth, and consequently on store revisit intention.

What drives Indonesians Subscribe and Push the Distribution of Disney+ Hotstar?

  • ZAHARA, Nadia;WULANDARI, Naomi Crisant;KAIRUPAN, Joshua Hezekiah;HIDAYAT, Z.
    • 유통과학연구
    • /
    • 제20권6호
    • /
    • pp.21-32
    • /
    • 2022
  • Purpose: This study aims to test the influence of brand relationship, price, content, brand awareness, and electronic Word-Of-Mouth (eWOM) on willingness to pay for the subscription fee of Disney+ Hotstar. As the latest streaming service provider in Indonesia, Disney + Hotstar under Disney Media and Entertainment Distribution has actively conducted strategies to strengthen the brand and attract consumers. Research design, data and methodology: Structural Equation Modelling with WarpPLS approach was used to assess the proposed model gathering data from 316 people who have ever known about Disney+ Hotstar through an online survey using measurement items from previous literature. Results: Most responses were obtained from millennial generations. Findings demonstrated that brand relationships, price, content, and brand awareness positively influenced willingness to pay for the subscription fee whereas eWOM showed a negative and insignificant influence on the willingness to pay for the subscription fee. Conclusions: The most significant factor towards willingness to pay a for subscription fee is price, followed by brand awareness, brand relationship, and content. The result of this study may be used as a guide for professionals in the streaming service industry to better implement their strategies in influencing people to have the willingness to subscribe.

코퍼스 기반 의미체계와 의미 별 공기정보를 이용한 비지도식 의미구분 (Word Sense Disambiguation using corpus based sense distribution and collocation)

  • 신사임;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.772-774
    • /
    • 2004
  • 본 논문은 원시코퍼스에서 추출한 동음이의어의 의미 별 공기정보를 사용한 비지도식 의미구분 시스템의 구축을 제안한다. 대용량 원시코퍼스에서 추출한 의미체계를 기준으로 의미구분을 수행하였기 때문에 비현실적인 의미체계에 의한 문제점을 해결하였고, 원시코퍼스에서 추출한 공기정보로 데이터 획득비용과 부족문제를 해소하였다 실험을 통해 의미체계의 현실화와 비지도식 훈련데이터 추출방법이 의미구분의 성능향상에 기여함을 보였다

  • PDF