• Title/Summary/Keyword: Word-Prediction

검색결과 114건 처리시간 0.024초

한의학 고문헌 데이터 분석을 위한 단어 임베딩 기법 비교: 자연어처리 방법을 적용하여 (Comparison between Word Embedding Techniques in Traditional Korean Medicine for Data Analysis: Implementation of a Natural Language Processing Method)

  • 오준호
    • 대한한의학원전학회지
    • /
    • 제32권1호
    • /
    • pp.61-74
    • /
    • 2019
  • Objectives : The purpose of this study is to help select an appropriate word embedding method when analyzing East Asian traditional medicine texts as data. Methods : Based on prescription data that imply traditional methods in traditional East Asian medicine, we have examined 4 count-based word embedding and 2 prediction-based word embedding methods. In order to intuitively compare these word embedding methods, we proposed a "prescription generating game" and compared its results with those from the application of the 6 methods. Results : When the adjacent vectors are extracted, the count-based word embedding method derives the main herbs that are frequently used in conjunction with each other. On the other hand, in the prediction-based word embedding method, the synonyms of the herbs were derived. Conclusions : Counting based word embedding methods seems to be more effective than prediction-based word embedding methods in analyzing the use of domesticated herbs. Among count-based word embedding methods, the TF-vector method tends to exaggerate the frequency effect, and hence the TF-IDF vector or co-word vector may be a more reasonable choice. Also, the t-score vector may be recommended in search for unusual information that could not be found in frequency. On the other hand, prediction-based embedding seems to be effective when deriving the bases of similar meanings in context.

보완대체의사소통(AAC) 글자판의 단어예측기능에 대한 뇌병변장애인 대상의 사용성 평가 (A Usability Testing of the Word-Prediction Function of the AAC Keyboard for the People with Cerebral Palsy)

  • 이희연;홍기형
    • 재활복지공학회논문지
    • /
    • 제9권3호
    • /
    • pp.209-214
    • /
    • 2015
  • 본 연구의 목적은 (1) 구어로 의사소통을 하는데 어려움을 가지고 있는 뇌병변장애인을 대상으로 보완대체의사소통 글자판의 단어예측기능이 문장산출 속도에 미치는 영향 및 (2) 단어예측기능의 필요성, 편의성, 만족도 등을 조사하는 것이다. 총 10명의 성인 뇌병변장애인들이 평가에 참여하였고, 한국형 하이테크 AAC 기기인 마이토키스마트의 글자판에 탑재된 단어예측기능이 평가도구로 사용되었다. 참가자들은 제시되는 문장을 단어예측기능과 낱글자 직접입력방식을 각각 사용하여 음성출력한 후에, 단어예측기능의 필요성, 사용 편의성 및 만족도를 5점 척도로 평가하도록 요청되었고, 자유 피드백을 통해 기타 의견들을 조사하였다. 연구결과, 문장예측기능을 사용했을 때의 문장생성속도가 낱글자입력방식을 사용했을 때보다 평균적으로 빠르게 나타났으나 통계적으로 유의한 차이는 나타나지 않았다. 이는 참가자들이 새로운 실험도구를 충분히 연습하고 학습할 적응기간이 부족했기 때문인 것으로 보인다. 참가자들의 문장예측기능에 대한 필요성, 편의성, 만족도 등은 전반적으로 긍정적인 응답을 나타냈다.

  • PDF

자연어 처리 및 기계학습을 통한 동의보감 기반 한의변증진단 기술 개발 (Donguibogam-Based Pattern Diagnosis Using Natural Language Processing and Machine Learning)

  • 이승현;장동표;성강경
    • 대한한의학회지
    • /
    • 제41권3호
    • /
    • pp.1-8
    • /
    • 2020
  • Objectives: This paper aims to investigate the Donguibogam-based pattern diagnosis by applying natural language processing and machine learning. Methods: A database has been constructed by gathering symptoms and pattern diagnosis from Donguibogam. The symptom sentences were tokenized with nouns, verbs, and adjectives with natural language processing tool. To apply symptom sentences into machine learning, Word2Vec model has been established for converting words into numeric vectors. Using the pair of symptom's vector and pattern diagnosis, a pattern prediction model has been trained through Logistic Regression. Results: The Word2Vec model's maximum performance was obtained by optimizing Word2Vec's primary parameters -the number of iterations, the vector's dimensions, and window size. The obtained pattern diagnosis regression model showed 75% (chance level 16.7%) accuracy for the prediction of Six-Qi pattern diagnosis. Conclusions: In this study, we developed pattern diagnosis prediction model based on the symptom and pattern diagnosis from Donguibogam. The prediction accuracy could be increased by the collection of data through future expansions of oriental medicine classics.

인턴십 지원자를 위한 기계학습기반 취업예측 모델 개발 (Development of the Machine Learning-based Employment Prediction Model for Internship Applicants)

  • 김현수;김선호;김도현
    • 반도체디스플레이기술학회지
    • /
    • 제21권2호
    • /
    • pp.138-143
    • /
    • 2022
  • The employment prediction model proposed in this paper uses 16 independent variables, including self-introductions of M University students who applied for IPP and work-study internship, and 3 dependent variable data such as large companies, mid-sized companies, and unemployment. The employment prediction model for large companies was developed using Random Forest and Word2Vec with the result of F1_Weighted 82.4%. The employment prediction model for medium-sized companies and above was developed using Logistic Regression and Word2Vec with the result of F1_Weighted 73.24%. These two models can be actively used in predicting employment in large and medium-sized companies for M University students in the future.

CRF를 이용한 운율경계추성 성능개선 (Improvements on Phrase Breaks Prediction Using CRF (Conditional Random Fields))

  • 김승원;이근배;김병창
    • 대한음성학회지:말소리
    • /
    • 제57호
    • /
    • pp.139-152
    • /
    • 2006
  • In this paper, we present a phrase break prediction method using CRF(Conditional Random Fields), which has good performance at classification problems. The phrase break prediction problem was mapped into a classification problem in our research. We trained the CRF using the various linguistic features which was extracted from POS(Part Of Speech) tag, lexicon, length of word, and location of word in the sentences. Combined linguistic features were used in the experiments, and we could collect some linguistic features which generate good performance in the phrase break prediction. From the results of experiments, we can see that the proposed method shows improved performance on previous methods. Additionally, because the linguistic features are independent of each other in our research, the proposed method has higher flexibility than other methods.

  • PDF

Brain-Operated Typewriter using the Language Prediction Model

  • Lee, Sae-Byeok;Lim, Heui-Seok
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제5권10호
    • /
    • pp.1770-1782
    • /
    • 2011
  • A brain-computer interface (BCI) is a communication system that translates brain activity into commands for computers or other devices. In other words, BCIs create a new communication channel between the brain and an output device by bypassing conventional motor output pathways consisting of nerves and muscles. This is particularly useful for facilitating communication for people suffering from paralysis. Due to the low bit rate, it takes much more time to translate brain activity into commands. Especially it takes much time to input characters by using BCI-based typewriters. In this paper, we propose a brain-operated typewriter which is accelerated by a language prediction model. The proposed system uses three kinds of strategies to improve the entry speed: word completion, next-syllable prediction, and next word prediction. We found that the entry speed of BCI-based typewriter improved about twice as much through our demonstration which utilized the language prediction model.

특징적 단어 및 이모티콘 집합을 활용한 모바일 기기 내 성별 예측 프레임워크 (On-Device Gender Prediction Framework Based on the Development of Discriminative Word and Emoticon Sets)

  • 김소이;최예림;김윤정;박규연;박종헌
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권11호
    • /
    • pp.733-738
    • /
    • 2015
  • 사용자의 인구통계학적 정보는 추천 시스템과 같은 개인화 서비스 발달에 도움이 되며, 모바일 사용 데이터는 사용자의 인구통계학적 정보 예측에 활용될 수 있다. 특히 텍스트 데이터는 성별 예측에 효과적인 것으로 알려져 있지만, 모바일 텍스트 데이터는 프라이버시 이슈가 존재하여 그 활용이 제한되고 있다. 본 연구에서는 디바이스 내 예측 방법론을 제안하여 모바일 텍스트 데이터를 사용하면서 프라이버시 이슈를 최소화는 동시에 사용자의 성별을 효과적으로 예측하고자 한다. 우선, 성별에 따른 특징이 반영된 웹문서를 수집하여 각 성별에 따른 특징적 단어 집합과 특징적 이모티콘 집합을 구성한다. 단어 집합과 이모티콘 집합을 디바이스 내에서 사용자의 모바일 데이터와 비교하여 성별을 각각 예측하고, 두 예측 결과를 앙상블하여 최종적인 성별 예측 결과를 도출한다. 피실험자들의 모바일 텍스트 데이터를 사용하여 성별 예측 실험을 수행하였으며 제안 방법론의 우수한 성능을 확인하였다.

Word2Vec을 활용한 뉴스 기반 주가지수 방향성 예측용 감성 사전 구축 (News based Stock Market Sentiment Lexicon Acquisition Using Word2Vec)

  • 김다예;이영인
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.13-20
    • /
    • 2018
  • 주식 시장에 대한 예측은 오랜 기간 많은 이들의 꿈이었다. 하지만 수많은 노력에도 불구하고 주식 시장을 정확하게 예측하기란 쉬운 일이 아니었다. 본 연구는 주식 시장의 방향성에 주목하여 이 방향성을 예측할 수 있는 감성사전을 구축하는 새로운 방법을 제시한다. 이를 위해 2015년 1월 1일부터 2017년 12월 31일까지 3년간의 증시 뉴스 25,000여 건의 데이터를 수집하여, 문맥을 고려하기 위한 Word2Vec을 적용하였다. 이를 바탕으로 뉴스에 감성분석을 실시하여 KOSPI 종가 지수를 예측해 보았다.

정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형 (A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data)

  • 하만석;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제19권1호
    • /
    • pp.1-15
    • /
    • 2019
  • 직업훈련 교육 현장에서 느끼는 가장 큰 어려움 중 하나는 중도탈락 문제이다. 훈련과정마다 많은 수의 학생들이 중도탈락을 하게 되어 국가 예산 낭비 및 청년 취업률 개선에 장애 요인이 되고 있다. 본 연구에서는 중도탈락의 원인을 주로 분석한 기존 연구들과 달리, 각종 수강생 정보를 활용하여 사전에 중도탈락을 예측할 수 있는 기계학습 기반 모형을 제안하고자 한다. 특히 본 연구의 제안모형은 수강생 관련 정형 데이터 뿐 아니라 비정형 데이터인 강사의 상담일지 정보까지 동시에 고려하여 모형의 예측정확도를 제고하고자 하였다. 이 때 비정형 데이터에 대한 분석은 최근 주목받고 있는 텍스트 분석 기술인 Word2vec과 합성곱 신경망을 이용해 수행하였다. 국내 한 직업훈련기관의 실제 데이터에 제안모형을 적용해 본 결과, 정형데이터만을 사용하여 중도탈락을 예측할 때보다 비정형 데이터를 함께 고려했을 때 예측의 정확도가 최대 20%까지 향상됨을 확인할 수 있었다. 아울러, Support Vector Machine을 기반으로 정형 데이터와 비정형 데이터를 결합해 분석했을 때, 검증용 데이터셋 기준으로 90% 후반대의 높은 예측 정확도를 나타냄을 확인하였다.

효율적 대화 정보 예측을 위한 개체명 인식 연구 (A Study on Named Entity Recognition for Effective Dialogue Information Prediction)

  • 고명현;김학동;임헌영;이유림;지민규;김원일
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.58-66
    • /
    • 2019
  • 대화 문장 내 고유명사와 같은 개체명에 대한 인식 연구는 효율적 대화 정보 예측을 위한 가장 기본적이며 중요한 연구 분야이다. 목적 지향 대화 시스템에서 가장 주요한 부분은 대화 내 객체가 어떤 속성을 가지고 있느냐 하는 것을 인지하는 것이다. 개체명 인식모델은 대화 문장에 대하여 전처리, 단어 임베딩, 예측 단계를 통해 개체명 인식을 진행한다. 본 연구는 효율적인 대화 정보 예측을 위해 전처리 단계에서 사용자 정의 사전을 이용하고 단어 임베딩 단계에서 최적의 파라미터를 발견하는 것을 목표로 한다. 그리고 설계한 개체명 인식 모델을 실험하기 위해 생활 화학제품 분야를 선택하고 관련 도메인 내 목적 지향 대화 시스템에서 적용 할 수 있는 개체명 인식 모델을 구축하였다.