• 제목/요약/키워드: Word-Prediction

검색결과 114건 처리시간 0.029초

단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측 (Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity)

  • 이상아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

A Method of Evaluating Korean Articulation Quality for Rehabilitation of Articulation Disorder in Children

  • Lee, Keonsoo;Nam, Yunyoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권8호
    • /
    • pp.3257-3269
    • /
    • 2020
  • Articulation disorders are characterized by an inability to achieve clear pronunciation due to misuse of the articulators. In this paper, a method of detecting such disorders by comparing to the standard pronunciations is proposed. This method defines the standard pronunciations from the speeches of normal children by clustering them with three features which are the Linear Predictive Cepstral Coefficient (LPCC), the Mel-Frequency Cepstral Coefficient (MFCC), and the Relative Spectral Analysis Perceptual Linear Prediction (RASTA-PLP). By calculating the distance between the centroid of the standard pronunciation and the inputted pronunciation, disordered speech whose features locates outside the cluster is detected. 89 children (58 of normal children and 31 of children with disorders) were recruited. 35 U-TAP test words were selected and each word's standard pronunciation is made from normal children and compared to each pronunciation of children with disorders. In the experiments, the pronunciations with disorders were successfully distinguished from the standard pronunciations.

Optimal Decision Tree를 이용한 Unseen Model 추정방법 (Unseen Model Prediction using an Optimal Decision Tree)

  • 김성탁;김회린
    • 대한음성학회지:말소리
    • /
    • 제45호
    • /
    • pp.117-126
    • /
    • 2003
  • Decision tree-based state tying has been proposed in recent years as the most popular approach for clustering the states of context-dependent hidden Markov model-based speech recognition. The aims of state tying is to reduce the number of free parameters and predict state probability distributions of unseen models. But, when doing state tying, the size of a decision tree is very important for word independent recognition. In this paper, we try to construct optimized decision tree based on the average of feature vectors in state pool and the number of seen modes. We observed that the proposed optimal decision tree is effective in predicting the state probability distribution of unseen models.

  • PDF

Mellin 변환을 이용한 격리 단어 인식 (An Isolated Word Recognition Using the Mellin Transform)

  • 김진만;이상욱;고세문
    • 대한전자공학회논문지
    • /
    • 제24권5호
    • /
    • pp.905-913
    • /
    • 1987
  • This paper presents a speaker dependent isolated digit recognition algorithm using the Mellin transform. Since the Mellin transform converts a scale information into a phase information, attempts have been made to utilize this scale invariance property of the Mellin transform in order to alleviate a time-normalization procedure required for a speech recognition. It has been found that good results can be obtained by taking the Mellin transform to the features such as a ZCR, log energy, normalized autocorrelation coefficients, first predictor coefficient and normalized prediction error. We employed a difference function for evaluating a similarity between two patterns. When the proposed algorithm was tested on Korean digit words, a recognition rate of 83.3% was obtained. The recognition accuracy is not compatible with the other technique such as LPC distance however, it is believed that the Mellin transform can effectively perform the time-normalization processing for the speech recognition.

  • PDF

통신보조기기용 어휘 예측 시스템의 구조 (Design of word prediction system for Assistive Communication System)

  • 황인정;김효진;이은주;민홍기
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 하계종합학술대회논문집
    • /
    • pp.169-172
    • /
    • 2000
  • 본 연구에서는 청각장애인용 통신보조기기에 적용하기 위한 어휘예측 시스템의 기본구조를 제안한다. 통신보조기기의 어휘는 사용자의 환경을 고려한 어휘이므로, 어휘 예측 시스템도 사용자의 환경과 실생활에서 쉽게 이용할 수 있는 방향으로 고안되어야 한다. 따라서 어휘예측 시스템은 사용자의 환경을 정의하고, 중심어휘와 장소별 도메인에서의 어휘를 발췌한다. 발췌된 어휘는 말뭉치와 의미함축의 원리를 이용하여 분류한다. 분류된 어휘는 문법적 지식을 바탕으로 가상 네트워크를 구성한다. 가상네트워크에서의 어휘는 명사, 조사, 동사의 3부분으로 나눈 후 의미함축과 말뭉치로부터 파생된 어휘를 근접한 거리에 위치시킨다. 동일한 네트워크상에서 어휘의 위치는 문법적 연관성, 빈도수 등을 이용하여 정한다. 따라서 본 연구에서는 어휘예측은 명사, 조사, 동사에서 가장 근접한 어휘를 연결하여 간단한 문장을 작성할 수 있는 어휘 예측 시스템의 기본구조를 제안한다.

  • PDF

워드 임베딩과 CNN을 사용하여 영화 리뷰에 대한 감성 분석 (Sentiment Analysis on Movie Reviews Using Word Embedding and CNN)

  • 주명길;윤성욱
    • 디지털산업정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.87-97
    • /
    • 2019
  • Reaction of people is importantly considered about specific case as a social network service grows. In the previous research on analysis of social network service, they predicted tendency of interesting topic by giving scores to sentences written by user. Based on previous study we proceeded research of sentiment analysis for social network service's sentences, which predict the result as positive or negative for movie reviews. In this study, we used movie review to get high accuracy. We classify the movie review into positive or negative based on the score for learning. Also, we performed embedding and morpheme analysis on movie review. We could predict learning result as positive or negative with a number 0 and 1 by applying the model based on learning result to social network service. Experimental result show accuracy of about 80% in predicting sentence as positive or negative.

A Study on Research Trend Analysis and Topic Class Prediction of Digital Transformation using Text Mining

  • Lee, JeeYoung
    • International journal of advanced smart convergence
    • /
    • 제8권2호
    • /
    • pp.183-190
    • /
    • 2019
  • In the era of the Fourth Industrial Revolution, digital transformation, which means changes in all industrial structures, politics, economics and society as well as IT technology, is an important issue. It is difficult to know which research topic is being studied because digital transformation is being studied in various fields. Convergence research is possible because a research topic is studied in various fields such as computer science area and Decision science area. However, it is difficult to know the specific research status of the research topic. In this study, eight research topics were derived using the topic modeling technique of text mining for abstract of academic literature and the trend of each topic was analyzed. We also proposed to create a Topic-Word Proportions Table in the LDA based Topic modeling process to predict the topic of new literature. The results of this study are expected to contribute to advanced convergence research on topic of digital transformation. It is expected that the literature related to each research topic will be grasped and contribute to the design of a new convergence research.

호가창(Limit Order Book)과 뉴스 헤드라인을 이용한 딥러닝 기반 주가 변동 예측 (Deep Learning-based Stock Price Prediction Using Limit Order Books and News Headlines)

  • 류의림;김채현;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.541-544
    • /
    • 2021
  • 본 논문은 어떤 기업의 주식 주문 정보를 담고 있는 호가창(limit order book)과 해당 기업과 관련된 뉴스 헤드라인을 사용하여 해당 기업의 주가 등락을 예측하는 딥러닝 기반 모델을 제안한다. 제안 모델은 호가창의 중기 변화와 단기 변화를 모두 고려하는 한편, 동기간 발생한 뉴스 헤드라인까지 예측에 고려함으로써 주가 등락 예측 정확도를 높인다. 제안 모델은 호가창의 변화의 특징을 CNN(convolutional neural network)으로 추출하고 뉴스 헤드라인을 Word2vec으로 생성된 단어 임베딩 벡터를 사용하여 나타낸 뒤, 이들 정보를 결합하여 특정 기업 주식의 다음 날 등락여부를 예측한다. NASDAQ 실데이터를 사용한 실험을 통해 제안 모델로 5개 종목(Amazon, Apple, Facebook, Google, Tesla)의 일일 주가 등락을 예측한 결과, 제안 모델은 기존 방법에 비해 정확도를 최대 17.14%, 평균 10.7% 향상시켰다.

입력 데이터 형식 및 Positive/Negative에 따른 한국어 증상 기반 질병 예측 모델 (Korean Symptom-Based Disease Prediction Model according to Input Data Format and Positive/Negative)

  • 김민정;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.418-421
    • /
    • 2023
  • 본 논문은 Word2Vec를 이용하여 한국어 증상 기반 질병 예측 모델을 제시한다. 아산병원 질환 백과의 크롤링 데이터를 세 가지 형식으로 나누어, 모델에 알맞은 데이터 형식을 찾고 모델에 적용한다. 가장 모델에 맞는 데이터 형식은 증상별 질병과 질병별 증상을 합친 경우이다. 데이터의 양을 늘려 임베딩 스페이스를 넓혔고, 가장 중요한 증상과 질병의 유사도도 정확하게 출력되었다. 이는 유사도가 높은 질병과 증상들이 제대로 학습이 되었다는 것을 알 수 있다. 이렇게 만들어진 예측 모델에 positive 증상을 입력하면 유사도가 향상되고, negative에 입력하면 하락하는 결과를 확인했다. 따라서 환자의 증상을 positive에 넣으면, 그 증상을 가진 질병이 가까워지는 반면, 환자의 증상이 아닌 증상을 negative에 넣으면, 환자에게 맞지 않는 질병이 멀어진다. 그러므로 환자의 상태에 맞는 질병을 유추해, 의사나 환자가 증상에 대한 질병을 알고 싶을 때 또는 검색에 유용하게 사용할 수 있다. 더불어, 질병의 진료과 데이터를 추가하여, 환자에게 맞는 진료과를 찾는 데도 도움을 줄 수 있다.

Factors Affecting the Sales of Newspapers and Magazines Based on Concise Catalog

  • Dayou Jiang
    • Journal of Information Processing Systems
    • /
    • 제19권4호
    • /
    • pp.498-512
    • /
    • 2023
  • The traditional newspaper industry faces the opportunities and challenges of industry transformation and integration with new media. Consequently, the catalogs of newspapers and magazines are also updated. In this study, necessary information on catalogs was obtained and used to analyze the overall development trend of the newspaper industry. A word frequency analysis was then performed on the introduction and product categories of the catalogs, and the content and types of newspapers and magazines were examined. Furthermore, related factors such as price, number of pages, publishing frequency, and best-selling status were analyzed; the correlation among factors affecting best-selling status was also explored. Subsequently, each element and a combination of elements were used to generate a dataset, build three classification models, and analyze the accuracy of predictions of whether newspapers sold well under other circumstances. The experimental results showed that price is the most critical factor affecting the best-selling status of newspapers and magazines. Publishing frequency and the number of pages were also found to be significant indicators that impact people's subscription choices. Finally, a competitive strategy regarding content, price, quality, and positioning was developed.