• 제목/요약/키워드: short texts

검색결과 57건 처리시간 0.024초

감정요소를 사용한 정보검색에 관한 연구 (A Study of using Emotional Features for Information Retrieval Systems)

  • 김명관;박영택
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.579-586
    • /
    • 2003
  • 감정요소를 사용한 정보검색시스템은 감정에 기반한 정보검색을 수행하기 위하여 감정시소러스를 구성하였으며 이를 사용한 감정요소추출기를 구현하였다. 감정요소추출기는 기본 5가지 감정 요소를 해당 문서에서 추출하여 문서를 벡터화시킨다. 벡터화시킨 문서들은 k-nearest neighbor, 단순 베이지안 및 상관계수기법을 사용한 2단계 투표방식을 통해 학습하고 분류하였다. 실험결과 분류 방식과 K-means를 이용한 클러스터링에서 감정요소에 기반한 방식이 더 우수하다는 결과와 5,000 단어 미만의 문서 검색에 감정기반 검색이 유리하다는 것을 보였다.

Lightweight Named Entity Extraction for Korean Short Message Service Text

  • Seon, Choong-Nyoung;Yoo, Jin-Hwan;Kim, Hark-Soo;Kim, Ji-Hwan;Seo, Jung-Yun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제5권3호
    • /
    • pp.560-574
    • /
    • 2011
  • In this paper, we propose a hybrid method of Machine Learning (ML) algorithm and a rule-based algorithm to implement a lightweight Named Entity (NE) extraction system for Korean SMS text. NE extraction from Korean SMS text is a challenging theme due to the resource limitation on a mobile phone, corruptions in input text, need for extension to include personal information stored in a mobile phone, and sparsity of training data. The proposed hybrid method retaining the advantages of statistical ML and rule-based algorithms provides fully-automated procedures for the combination of ML approaches and their correction rules using a threshold-based soft decision function. The proposed method is applied to Korean SMS texts to extract person's names as well as location names which are key information in personal appointment management system. Our proposed system achieved 80.53% in F-measure in this domain, superior to those of the conventional ML approaches.

Weibo Disaster Rumor Recognition Method Based on Adversarial Training and Stacked Structure

  • Diao, Lei;Tang, Zhan;Guo, Xuchao;Bai, Zhao;Lu, Shuhan;Li, Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권10호
    • /
    • pp.3211-3229
    • /
    • 2022
  • To solve the problems existing in the process of Weibo disaster rumor recognition, such as lack of corpus, poor text standardization, difficult to learn semantic information, and simple semantic features of disaster rumor text, this paper takes Sina Weibo as the data source, constructs a dataset for Weibo disaster rumor recognition, and proposes a deep learning model BERT_AT_Stacked LSTM for Weibo disaster rumor recognition. First, add adversarial disturbance to the embedding vector of each word to generate adversarial samples to enhance the features of rumor text, and carry out adversarial training to solve the problem that the text features of disaster rumors are relatively single. Second, the BERT part obtains the word-level semantic information of each Weibo text and generates a hidden vector containing sentence-level feature information. Finally, the hidden complex semantic information of poorly-regulated Weibo texts is learned using a Stacked Long Short-Term Memory (Stacked LSTM) structure. The experimental results show that, compared with other comparative models, the model in this paper has more advantages in recognizing disaster rumors on Weibo, with an F1_Socre of 97.48%, and has been tested on an open general domain dataset, with an F1_Score of 94.59%, indicating that the model has better generalization.

Encoding Dictionary Feature for Deep Learning-based Named Entity Recognition

  • Ronran, Chirawan;Unankard, Sayan;Lee, Seungwoo
    • International Journal of Contents
    • /
    • 제17권4호
    • /
    • pp.1-15
    • /
    • 2021
  • Named entity recognition (NER) is a crucial task for NLP, which aims to extract information from texts. To build NER systems, deep learning (DL) models are learned with dictionary features by mapping each word in the dataset to dictionary features and generating a unique index. However, this technique might generate noisy labels, which pose significant challenges for the NER task. In this paper, we proposed DL-dictionary features, and evaluated them on two datasets, including the OntoNotes 5.0 dataset and our new infectious disease outbreak dataset named GFID. We used (1) a Bidirectional Long Short-Term Memory (BiLSTM) character and (2) pre-trained embedding to concatenate with (3) our proposed features, named the Convolutional Neural Network (CNN), BiLSTM, and self-attention dictionaries, respectively. The combined features (1-3) were fed through BiLSTM - Conditional Random Field (CRF) to predict named entity classes as outputs. We compared these outputs with other predictions of the BiLSTM character, pre-trained embedding, and dictionary features from previous research, which used the exact matching and partial matching dictionary technique. The findings showed that the model employing our dictionary features outperformed other models that used existing dictionary features. We also computed the F1 score with the GFID dataset to apply this technique to extract medical or healthcare information.

영화 <드라이브 마이 카>의 다층적 상호텍스트성 고찰 (A Study on the Multi-Layered Intertextuality of )

  • 배기형;김치호
    • 한국콘텐츠학회논문지
    • /
    • 제22권9호
    • /
    • pp.169-178
    • /
    • 2022
  • 본고에서는 하마구치 류스케 감독의 <드라이브 마이 카>의 서사 전략을 다층적 상호텍스트성을 중심으로 고찰한다. <드라이브 마이 카>는 '이야기를 품고 있는 이야기 속의 이야기' 형식으로 액자식으로 구성되어 있는데, 상호텍스트성의 인지는 <드라이브 마이 카>의 스토리텔링 전략을 짚어보는 데에 중요한 의미를 갖는다. 왜냐하면 이 영화는 하루키의 <여자 없는 남자들>에 수록된 동명의 단편과 또 다른 단편들을 차용하여 각색하였으며, 영화 속에 포함된 여러 이야기들이 중첩되어 전체의 서사를 이룬다. 따라서 <드라이브 마이 카>를 잘 이해하기 위해서는 영화 속 텍스트들의 유기적 의미 관계를 파악하는 것이 중요하다. <드라이브 마이 카>의 서사를 이해한다는 것은 곧 영화 속에 포함된 다중의 텍스트 내용들을 상호텍스트적으로 연결하는 과정이기도 하다. <드라이브 마이 카>는 주인공 가후쿠의 아내 오토가 말하는 꿈의 이야기와 극중 <바냐 아저씨>가 액자 속 텍스트로 다층적으로 또 입체적으로 전체 영화의 서사와 정교하게 연결되어 있다. 하마구치는 이러한 <드라이브 마이 카>의 상호텍스트성 서사 전략을 통해 관객을 향한 핍진성을 강화한다. 아울러 <드라이브 마이 카>의 은유와 성격화된 공간은 치유와 성장의 서사를 관객들에게 효과적으로 전달하는 데에 기여한다.

호우이동을 고려한 DAD 분석방법 (DAD Analysis on Storm Movement)

  • 김남원;원유승
    • 한국수자원학회논문집
    • /
    • 제37권5호
    • /
    • pp.437-448
    • /
    • 2004
  • 수문학 교과서를 통해 널리 알려진 기존의 유역중심 DAD 분석방법은 유역면적이 작거나 호우이동이 거의 없는 경우에 매우 유용한 방법으로 계산이 비교적 간단하다. 그러나, 태풍과 같이 호우이동이 뚜렷한 경우에는 DAD 관계를 명확히 표현하기 어려우며, 특히 유역면적이 증가함에 따라 평균면적강우량의 오차도 증가하므로, 분석자의 혼란을 야기시킬 수 있다. 이에 본 연구에서는 기존의 유역중심 DAD 분석방법의 단점을 보완코저 호우중실 DAD 분석방법을 개발하였고, 객관적인 DAD 분석결과를 얻기 위해 이를 프로그램화하였다. 관측강우량을 이용하여 기존의 방법과 비교ㆍ검토를 수행한 결과 제안된 방법이 평균면적강우량을 보다 적절하게 표현함을 알 수 있었다. 따라서 개발된 프로그램을 이용하여 우리나라의 전국단위 호우분석(1969년부터 1999년까지 약 130여개 호우)을 수행하였으며, 그 결과를 유역중심 DAD 분석결과와 비교ㆍ검토하였다.

낚시성 인터넷 신문기사 검출을 위한 특징 추출 (Feature Extraction to Detect Hoax Articles)

  • 허성완;손경아
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1210-1215
    • /
    • 2016
  • 스마트 기기의 발달로 많은 사람들이 인터넷 신문기사를 이용하고 있다. 하지만 인터넷 언론사간의 치열한 경쟁으로 조회수를 올리기 위한 낚시성 기사가 범람하고 있다. 낚시성 신문기사는 제목을 통해 올바른 기사의 줄거리가 제공되지 않았을 뿐만 아니라, 독자로 하여금 잘못된 내용을 떠올리게 한다. 낚시성 신문기사는 핵심에서 벗어난 유명인사 인용, 애매한 문장의 마무리, 제목과 내용의 불일치 등의 특징을 갖는다. 본 논문에서는 이러한 낚시성 기사를 분류하기 위한 특징을 추출하고 성능을 검증해 본다. 기사에 달린 댓글의 키워드를 활용하여 대용량 학습데이터를 생성하고 이를 기반으로 다섯 가지 분류 특징을 추출하였다. 추출된 특징들은 서포트 벡터 머신 분류기를 이용한 실험에서 92%의 정확도를 보여 낚시성 인터넷 신문기사를 분류하는데 적합하다고 판단된다. 뿐만 아니라 제목과 본문의 일관성을 측정하기 위한 전처리 방법으로 고안한 선택적 바이그램 모델은 낚시성 인터넷 신문기사 분류 외에도 일반적인 단문 분석을 위한 전처리 방법으로 유용할 것으로 기대된다.

정서 차원 공간에서 소설의 지배 정서 분석 및 분류 (Analyzing and classifying emotional flow of story in emotion dimension space)

  • 이신영;함준석;고일주
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.299-326
    • /
    • 2011
  • 소설, 블로그, 채팅 메시지, 상품평 등의 텍스트는 전반적인 정서의 흐름을 가지고 있다. 텍스트 간의 정서 흐름의 유사도를 비교하면 유사한 정서 흐름을 갖는 텍스트를 분류할 수 있고, 상품 추천이나 의견 수집 등에 활용할 수 있다. 본 논문에서는 텍스트에서 정서 단어를 순차적으로 추출하고 쾌-불쾌, 활성화의 2차원으로 분석하여 텍스트의 정서 흐름을 파악하였다. 또한 텍스트의 순차적인 흐름을 시간 차원으로 설정하여 텍스트의 전반적인 정서 흐름인 '지배 정서(dominant emotion)'를 파악하기 위하여 쾌-불쾌, 활성화, 시간의 3차원 공간에서 정서 흐름을 탐색하였다. 또한 이 3차원 공간 안에서 유클리드 거리를 사용하여 지배 정서 흐름의 유사도를 계산함으로써 유사한 정서 흐름을 가지는 텍스트를 분류하는 방법을 제안하였다. 제안한 방법을 통해 한국 근대 단편 소설들을 분석하여 지배 정서를 분석하였고 유사한 지배 정서를 가지는 소설들을 분류하였다.

  • PDF

교정사전과 신문기사 말뭉치를 이용한 한국어 철자 오류 교정 모델 (A Spelling Error Correction Model in Korean Using a Correction Dictionary and a Newspaper Corpus)

  • 이세희;김학수
    • 정보처리학회논문지B
    • /
    • 제16B권5호
    • /
    • pp.427-434
    • /
    • 2009
  • 인터넷 및 모바일 환경의 빠른 발전과 함께 신조어나 줄임말과 같은 철자 오류들을 포함하는 텍스트들이 활발히 통용되고 있다. 이러한 철자 오류들은 텍스트의 가독성을 떨어뜨림으로써 자연어처리 응용들을 개발하는데 걸림돌이 된다. 이러한 문제를 해결하기 위해서 본 논문에서는 철자오류 교정사전과 신문기사 말뭉치를 이용한 철자 오류 교정 모델을 제안한다. 제안 모델은 구하기 쉬운 신문기사 말뭉치를 학습 말뭉치로 사용하기 때문에 데이터 구축비용이 크지 않다는 장점이 있다. 또한 교정사전 기반의 단순 매칭 방법을 사용하기 때문에 띄어쓰기 교정 시스템이나 형태소 분석기와 같은 별도의 외부 모듈이 필요 없다는 장점이 있다. 신문기사 말뭉치와 실제 휴대폰에서 수집한 문자 메시지 말뭉치를 이용한 실험 결과, 제안 모델은 다양한 평가 척도에서 비교적 높은 성능(오교정률 7.3%, F1-척도 97.3%, 위양성율 1.1%)을 보였다.

Short-term treatment effects produced by rapid maxillary expansion evaluated with computed tomography: A systematic review with meta-analysis

  • Giudice, Antonino Lo;Spinuzza, Paola;Rustico, Lorenzo;Messina, Gabriele;Nucera, Riccardo
    • 대한치과교정학회지
    • /
    • 제50권5호
    • /
    • pp.314-323
    • /
    • 2020
  • Objective: To identify the available evidence on the effects of rapid maxillary expansion (RME) with three-dimensional imaging and provide meta-analytic data from studies assessing the outcomes using computed tomography. Methods: Eleven electronic databases were searched, and prospective case series were selected. Two authors screened all titles and abstracts and assessed full texts of the remaining articles. Seventeen case series were included in the quantitative synthesis. Seven outcomes were investigated: nasal cavity width, maxillary basal bone width, alveolar buccal crest width, alveolar palatal crest width, inter-molar crown width, inter-molar root apex width, and buccopalatal molar inclination. The outcomes were investigated at two-time points: post-expansion (2-6 weeks) and post-retention (4-8 months). Mean differences and 95% confidence intervals were used to summarize and combine the data. Results: All the investigated outcomes showed significant differences post-expansion (maxillary basal bone width, +2.46 mm; nasal cavity width, +1.95 mm; alveolar buccal crest width, +3.90 mm; alveolar palatal crest width, +3.09 mm; intermolar crown width, +5.69 mm; inter-molar root apex width, +2.85 mm; and dental tipping, +3.75°) and post-retention (maxillary basal bone width, +2.21 mm; nasal cavity width, +1.55 mm; alveolar buccal crest width, +3.57 mm; alveolar palatal crest width, +3.32 mm; inter-molar crown width, +5.43 mm; inter-molar root apex width, +4.75 mm; and dental tipping, 2.22°) compared to pre-expansion. Conclusions: After RME, skeletal expansion of the nasomaxillary complex was greater in most caudal structures. Maxillary basal bone showed 10% post-retention relapse. During retention period, uprighting of maxillary molars occurred.