• 제목/요약/키워드: morphemes

검색결과 140건 처리시간 0.025초

한국어 단어재인에 있어서 빈도와 길이 효과 탐색 (The exploration of the effects of word frequency and word length on Korean word recognition)

  • 이창환;이윤형;김태훈
    • 한국산학기술학회논문지
    • /
    • 제17권1호
    • /
    • pp.54-61
    • /
    • 2016
  • 단어는 언어의 기초적인 의미 단위이기 때문에 단어재인에 대한 연구는 언어 연구에서 중요하며 단어처리에 기여하는 변인이 무엇인지에 관한 연구가 이루어져 왔다. 본 연구에서는 한국어 단어재인 과정의 주요 변인 중 단어 빈도와 단어길이의 영향을 탐색하였다. 먼저 단어 빈도와 관련하여, 한국어의 특징 중 하나인 한자어로 이루어진 단어에서도 기존의 연구와 동일한 양상의 빈도 효과가 나타나는지를 탐색하였다. 이를 위해 순 한글 단어와 한자어로 이루어진 단어를 비교하였으며, 그 결과 한자어로 이루어진 단어에서는 빈도 효과가 나타나지 않았다. 한편 단어 길이 효과의 경우, 단음절로 구성된 단어의 양상을 확인해 보고자, 음절의 개수를 변화시켜 단어 길이 효과를 측정하였다. 그 결과 단음절 단어는 이음절 단어에 비해 느리게 처리되었다. 특정 유형의 단어에 대한 빈도 효과의 부재 및 단음절 단어의 느린 처리는 한국어의 특징을 반영한 결과라 할 수 있으며 추후 연구를 통해 이에 대한 좀더 자세한 탐색이 필요할 것이다.

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템 (A Stochastic Word-Spacing System Based on Word Category-Pattern)

  • 강미영;정성원;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권11호
    • /
    • pp.965-978
    • /
    • 2006
  • 본 논문에서는 형태소 unigram과 한국어 어절을 형성하는 형태소 범주 패턴에 기반하여 어절을 인식하는 한국어 띄어쓰기 시스템을 구현하였다. 기존에 많이 연구된 통계 정보를 이용한 띄어쓰기 모델은 비교적 짧은 시간에 쉽게 구현할 수 있는 장점이 있지만, 한국어의 형태 유형론적 특성 때문에 발생하는 (ㄱ) 자료부족 문제와 (ㄴ) 메모리 크기 문제에 효과적으로 대처하지 못한다. 본 논문은 이 두 문제를 동시에 해결하기 위해 어절을 구성하고 있는 개별 형태소의 통계 정보와 그 형태소의 범주의 통계 정보를 기반으로 하여 띄어쓰기 후보 어절들을 추천한다. 임의의 후보 어절이 최종의 띄어쓰기 단위인 어절이 될 수 있는 확률은 (ㄱ) 해당 후보 어절 내의 각 형태소 확률과 (ㄴ) 해당 후보 어절을 구성하기 위해 그 형태소의 범주가 다른 형태소 범주와 함께 형성하는 패턴 내에서 차지하는 '범주가중치'를 고려하여 구한다. 해당 '범주가중치'는 (ㄱ) 말뭉치로부터 실제로 관찰된 어절의 확률과 (ㄴ) 후보 어절 내의 개별 형태소의 확률과 (ㄷ) 그 범주 가중치에 의해 추정된 어절 확률 사이의 평균 에러(error mean)가 최저가 되는 방향으로 학습하여 얻어진다.

Sequence-to-Sequence 모델 기반으로 한 한국어 형태소 분석의 재순위화 모델 (A Reranking Model for Korean Morphological Analysis Based on Sequence-to-Sequence Model)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권4호
    • /
    • pp.121-128
    • /
    • 2018
  • Sequence-to-sequence(Seq2seq) 모델은 입력열과 출력열의 길이가 다를 경우에도 적용할 수 있는 모델로 한국어 형태소 분석에서 많이 사용되고 있다. 일반적으로 Seq2seq 모델을 이용한 한국어 형태소 분석에서는 원문을 음절 단위로 처리하고 형태소와 품사를 음절 단위로 출력한다. 음절 단위의 형태소 분석은 사전 미등록어 문제를 쉽게 처리할 수 있다는 장점이 있는 반면 형태소 단위의 사전 정보를 반영하지 못한다는 단점이 있다. 본 연구에서는 Seq2seq 모델의 후처리로 재순위화 모델을 추가하여 형태소 분석의 최종 성능을 향상시킬 수 있는 모델을 제안한다. Seq2seq 모델에 빔 서치를 적용하여 K개 형태소 분석 결과를 생성하고 이들 결과의 순위를 재조정하는 재순위화 모델을 적용한다. 재순위화 모델은 기존의 음절 단위 처리에서 반영하지 못했던 형태소 단위의 임베딩 정보와 n-gram 문맥 정보를 활용한다. 제안한 재순위화 모델은 기존 Seq2seq 모델에 비해 약 1.17%의 F1 점수가 향상되었다.

사례기반 학습을 이용한 음절기반 한국어 단어 분리 및 범주 결정 (Segmenting and Classifying Korean Words based on Syllables Using Instance-Based Learning)

  • 김재훈;이공주
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.47-56
    • /
    • 2003
  • 한국어는 영어와 같이 공백을 단어의 경계로 사용하지만, 그 단어의 구조는 영어와 다소 차이가 있다. 영어는 일반적으로 공백 사이에 하나의 단어가 포함되나, 한국어는 여러 개의 단어 혹은 형태소가 포함된다. 이런 차이 때문에 일반적으로 한국어에서는 공백을 경계로 이루어진 단어를 어절이라고 한다. 본 논문에서는 하나의 어절 내에 포함된 단어들을 분리하고, 분리된 각 단어의 적절한 범주를 결정하는 방법을 제안한다. 본 논문에서는 사례기반 기계학습 방법을 이용하고 음절 단위로 단어를 분리한다. 사례기반 학습을 위해 사용된 자질집합은 이전 음절 자신의 음절, 이후의 두 음절, 자신의 음절에 대한 받침 정보, 이전 두 범주 정보이다. 제안된 시스템을 평가하기 위해서 ETRI 말뭉치와 KAIST 말뭉치를 사용하였으며, 두 말뭉치 모두에서 단어 분리의 F 측도가 97% 이상으로 비교적 좋은 성능을 보였다.

The Unsupervised Learning-based Language Modeling of Word Comprehension in Korean

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권11호
    • /
    • pp.41-49
    • /
    • 2019
  • 본 연구는 비지도 기계학습 기술과 코퍼스의 각 단어를 이용하여 한국어 단어를 형태소 분석하는 언어 모델을 구축하는데 목적을 둔다. 그리고 이 언어 모델의 단어 형태소 분석의 결과와 언어 심리 실험결과에서 얻은 한국어 언어사용자의 단어 이해/판단 시간이 상관관계을 갖는지를 규명하고자 한다. 논문에서는 한국어 세종코퍼스를 언어 모델로 학습하여 형태소 분리 규칙을 통해 한국어 단어를 자동 분리하는데 발생하는 단어 정보량(즉, surprisal(놀라움) 정도)을 측정하여 실제 단어를 읽는데 걸리는 반응 시간과 상관이 있는지 분석하였다. 이를 위해 코퍼스에서 단어에 대한 형태 구조 정보를 파악하기 위해 Morfessor 알고리즘을 적용하여 단어의 하위 단위 분리와 관련한 문법/패턴을 추출하고 형태소를 분석하는 언어 모델이 예측하는 정보량과 반응 시간 사이의 상관관계를 알아보기 위하여 선형 혼합 회귀(linear mixed regression) 모형을 설계하였다. 제안된 비지도 기계학습의 언어 모델은 파생단어를 d-형태소로 분석해서 파생단어의 음절의 형태로 처리를 하였다. 파생단어를 처리하는 데 필요한 사람의 인지 노력의 양 즉, 판독 시간 효과가 실제로 형태소 분류하는 기계학습 모델에 의한 단어 처리/이해로부터 초래될 수 있는 놀라움과 상관함을 보여 주었다. 본 연구는 놀라움의 가설 즉, 놀라움 효과는 단어 읽기 또는 처리 인지 노력과 관련이 있다는 가설을 뒷받침함을 확인하였다.

형태소 분석기를 이용한 키워드 검색 기반 한국어 텍스트 명령 시스템 (Keyword Retrieval-Based Korean Text Command System Using Morphological Analyzer)

  • 박대근;이완복
    • 한국융합학회논문지
    • /
    • 제10권2호
    • /
    • pp.159-165
    • /
    • 2019
  • 딥러닝을 기반으로 한 음성 인식 기술이 상용 제품에 적용되기 시작했지만, 음성 인식으로 분석된 텍스트를 효율적으로 처리할 방법이 없기 때문에 VR 컨텐츠에서 그 적용 예를 찾아 보기는 쉽지 않다. 본 논문은 문장의 형태소를 분석하는 형태소 분석기와 챗봇 개발에 주로 이용되는 검색 기반 모델(Retrieval-Based Model)을 활용하여 명령어를 효율적으로 인식하고 대응할 수 있는 한국어 텍스트 명령 시스템을 제안하는 것을 목적으로 한다. 실험 결과 제안한 시스템은 문자열 비교 방식과 같은 동작을 하기 위해 16%의 명령어만 필요했으며, Google Cloud Speech와 연동하였을 때 60.1%의 성공률을 보였다. 실험 결과를 통해 제안한 시스템이 문자열 비교 방식보다 효율적이라는 것을 알 수 있다.

텍스트네트워크분석을 적용한 통증관리 간호연구의 지식구조 (Identification of Knowledge Structure of Pain Management Nursing Research Applying Text Network Analysis)

  • 박찬숙;박은준
    • 대한간호학회지
    • /
    • 제49권5호
    • /
    • pp.538-549
    • /
    • 2019
  • Purpose: This study aimed to explore and compare the knowledge structure of pain management nursing research, between Korea and other countries, applying a text network analysis. Methods: 321 Korean and 6,685 international study abstracts of pain management, published from 2004 to 2017, were collected. Keywords and meaningful morphemes from the abstracts were analyzed and refined, and their co-occurrence matrix was generated. Two networks of 140 and 424 keywords, respectively, of domestic and international studies were analyzed using NetMiner 4.3 software for degree centrality, closeness centrality, betweenness centrality, and eigenvector community analysis. Results: In both Korean and international studies, the most important, core-keywords were "pain," "patient," "pain management," "registered nurses," "care," "cancer," "need," "analgesia," "assessment," and "surgery." While some keywords like "education," "knowledge," and "patient-controlled analgesia" found to be important in Korean studies; "treatment," "hospice palliative care," and "children" were critical keywords in international studies. Three common sub-topic groups found in Korean and international studies were "pain and accompanying symptoms," "target groups of pain management," and "RNs' performance of pain management." It is only in recent years (2016~17), that keywords such as "performance," "attitude," "depression," and "sleep" have become more important in Korean studies than, while keywords such as "assessment," "intervention," "analgesia," and "chronic pain" have become important in international studies. Conclusion: It is suggested that Korean pain-management researchers should expand their concerns to children and adolescents, the elderly, patients with chronic pain, patients in diverse healthcare settings, and patients' use of opioid analgesia. Moreover, researchers need to approach pain-management with a quality of life perspective rather than a mere focus on individual symptoms.

사회과학 분야 도서의 목차 텍스트에 대한 통계적 특성에 관한 연구 (A Study on the Statistical Characteristics for Table of Contents Text of the Books in Social Sciences Field)

  • 이용구
    • 정보관리학회지
    • /
    • 제36권2호
    • /
    • pp.255-273
    • /
    • 2019
  • 이 연구는 최근 접근 및 활용이 높아지고 있는 목차에 대해 품사 측면과 주제 측면에서 가지는 기술통계와 비교 분석을 수행하였다. 이를 위해 대학 도서관의 수서 목록에서 사회과학분야 도서를 추출하고 해당하는 도서에 대해 종합목록으로부터 DDC 분류기호를, 인터넷 서점으로부터 목차 정보를 추출하였다. 서명과 목차를 대상으로 형태소 분석하여 명사 중심의 어휘에 대해 기술통계와 빈도 분석을 실시하였다. 그 결과 형태소 측면에서 서명과 목차는 명사가 대략 절반가량 차지하며, 서명과 비교하여 목차는 50배 정도 더 많은 명사를 가지며, 목차에 출현한 명사 중에 목차만이 고유하게 가지는 비율이 95.2%에 달하는 것으로 파악되었다. 또한 목차는 사회과학 학문분야에 따라 길이가 차이가 나는 것으로 나타났다.

소셜 네트워크 분석을 이용한 4차 산업혁명 기술 분야의 연구 동향 분석 (The Analysis of Research Trends in Technology to the Fourth Industrial Revolution using SNA)

  • 김홍광;안종욱
    • 지적과 국토정보
    • /
    • 제49권1호
    • /
    • pp.113-121
    • /
    • 2019
  • 본 연구에서는 국내 외 4차 산업혁명 관련 기술 분야의 연구 동향을 분석하기 위해서 웹 기반의 텍스트 마이닝 및 소셜 네트워크 분석 기법을 이용하였다. 이를 위해 2014년 1월 1일부터 2018년 12월 31일까지 국내 외 4차 산업혁명 관련 기술에 대한 연구 논문 및 보고서의 제목 텍스트와 날짜를 대상으로 하여 텍스트 마이닝을 수행하였다. 이후 개념적인 차원에서의 키워드 간 연관성을 분석하기 위해서 형태소 분석을 통한 대표 키워드를 도출하였다. 이후 사회 연결망 분석을 활용하여 핵심 키워드 및 연관 키워드 등을 도출하였다. 그 결과, 우리나라에서는 4차 산업혁명 기술 관련 연구 개발 및 법 제도적 완화 등에 대한 초점을 두고 있다고 유추할 수 있다. 반면, 국외는 단위 서비스 형태로의 접근을 통해 도시에 대한 실질적 적용 기술에 초점을 두고 있음을 파악할 수 있었다.

임신성 당뇨와 모유수유에 대한 연구 동향 분석: 텍스트네트워크 분석과 토픽모델링 중심 (A study on research trends for gestational diabetes mellitus and breastfeeding: Focusing on text network analysis and topic modeling)

  • 이정림;김영지;곽은주;박승미
    • 한국간호교육학회지
    • /
    • 제27권2호
    • /
    • pp.175-185
    • /
    • 2021
  • Purpose: The aim of this study was to identify core keywords and topic groups in the 'Gestational diabetes mellitus (GDM) and Breastfeeding' field of research for better understanding research trends in the past 20 years. Methods: This was a text-mining and topic modeling study composed of four steps: 1) collecting abstracts, 2) extracting and cleaning semantic morphemes, 3) building a co-occurrence matrix, and 4) analyzing network features and clustering topic groups. Results: A total of 635 papers published between 2001 and 2020 were found in databases (Web of Science, CINAHL, RISS, DBPIA, RISS, KISS). Among them, 3,639 words extracted from 366 articles selected according to the conditions were analyzed by text network analysis and topic modeling. The most important keywords were 'exposure', 'fetus', 'hypoglycemia', 'prevention' and 'program'. Six topic groups were identified through topic modeling. The main topics of the study were 'cardiovascular disease' and 'obesity'. Through the topic modeling analysis, six themes were derived: 'cardiovascular disease', 'obesity', 'complication prevention strategy', 'support of breastfeeding', 'educational program' and 'management of GDM'. Conclusion: This study showed that over the past 20 years many studies have been conducted on complications such as cardiovascular diseases and obesity related to gestational diabetes and breastfeeding. In order to prevent complications of gestational diabetes and promote breastfeeding, various nursing interventions, including gestational diabetes management and educational programs for GDM pregnancies, should be developed in nursing fields.