• Title/Summary/Keyword: 문맥 인지 모델

Search Result 14, Processing Time 0.024 seconds

Korean Noun Phrase Identification Using Maximum Entropy Method (최대 엔트로피 모델을 이용한 한국어 명사구 추출)

  • 강인호;전수영;김길창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.127-132
    • /
    • 2000
  • 본 논문에서는 격조사의 구문적인 특성을 이용하여, 수식어까지 포함한 명사구 추출 방법을 연구한다. 명사구 판정을 위해 연속적인 형태소열을 문맥정보로 사용하던 기존의 방법과 달리, 명사구의 처음과 끝 그리고 명사구 주변의 형태소를 이용하여 명사구의 수식 부분과 중심 명사를 문맥정보로 사용한다. 다양한 형태의 문맥 정보들은 최대 엔트로피 원리(Maximum Entropy Principle)에 의해 하나의 확률 분포로 결합된다. 본 논문에서 제안하는 명사구 추출 방법은 먼저 구문 트리 태깅된 코퍼스에서 품사열로 표현되는 명사구 문법 규칙을 얻어낸다. 이렇게 얻어낸 명사구 규칙을 이용하여 격조사와 인접한 명사구 후보들을 추출한다. 추출된 각 명사구 후보는 학습 코퍼스에서 얻어낸 확률 분포에 기반하여 명사구로 해석될 확률값을 부여받는다. 이 중 제일 확률값이 높은 것을 선택하는 형태로 각 격조사와 관계있는 명사구를 추출한다. 본 연구에서 제시하는 모델로 시험을 한 결과 평균 4.5개의 구를 포함하는 명사구를 추출할 수 있었다.

  • PDF

Morphological Processing with LR Techniques (LR 테크닉을 이용한 형태소 분석)

  • 이강혁
    • Korean Journal of Cognitive Science
    • /
    • v.4 no.2
    • /
    • pp.115-143
    • /
    • 1994
  • In this paper,I present an extended two-level model using LR parsing techniques.The LR-based two-level model not only guarantees effcient morphological processing but also achieves a higher degree of descriptive adequacy than Koskenniemi's original model.The two-level model is augmented with an independent morphosyntactic module based on feature-based CF word grammar.By adopting a CF word grammar,our model is capable of dealing with complex words with discontinuous dependencies without having duplicate lexicons.It is shown how LR predictions manifested in the parsing table can help the morphological processor to minimize the dictionary lookup process.

Morphological disambiguation using Local Context (국소 문맥을 이용한 형태적 중의성 해소)

  • 이충희;윤준태;송만석
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.48-55
    • /
    • 2000
  • 본 논문은 국소문맥을 사용하여 만들어진 Decision List를 통해 단어의 형태적 중의성을 제거하는 방법을 기술한다. 최초 종자 연어(Seed Collocation)로 1차 Decision List를 만들어 실험 말뭉치에 적용하고 태깅된 결과를 자가 학습하는 반복과정에 의해 Decision List의 수행능력을 향상시킨다. 이 방법은 단어의 형태적 중의성 제거에 일정 거리의 연어가 가장 큰 영향을 끼친다는 직관에 바탕을 두며 사람의 추가적인 교정을 필요로 하지 않는 비교사 방식(대량의 원시 말뭉치에 기반한)에 의해 수행한다. 학습을 통해 얻어진 Decision List는 연세대 형태소 분석기인 MORANY의 형태소 분석 결과에 적용되어 태깅시 성능을 향상시킨다. 실험 말뭉치에 있는 중의성을 가진 12개의 단어들에 본 알고리즘을 적용하여 긍정적인 결과(90.61%)를 얻었다. 은닉 마르코프 모델의 바이그램(bigram) 모델과 비교하기 위하여 '들었다' 동사만을 가지고 실험하였는데 바이그램 모델의 태깅결과(72.61%)보다 뛰어난 결과(94.25%)를 얻어서 본 모델이 형태적 중의성 해소에 유용함을 확인하였다.

  • PDF

Exercise Optimization Algorithm based on Context Aware Model for Ubiquitous Healthcare (유비쿼터스 헬스케어를 위한 문맥 인지 모델 기반 운동 최적화 알고리즘)

  • Lim, Jung-Eun;Choi, O-Hoon;Na, Hong-Seok;Baik, Doo-Kwon
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.13 no.6
    • /
    • pp.378-387
    • /
    • 2007
  • To enhancing the exercise effect, exercise management systems are introduced and generally used. They create the proper exercise program through exercise prescription after determining the personal body status. When the exercise programs are created, they will consider $2weeks{\sim}3months$ period. And, existing exercise programs cannot respect with personal exercise habits or exercise period which are changing variedly. If exercise period is long, it can be caused inappropriate exercise about user current status. To solve these problems in legacy systems, this paper proposes a Context Aware Exercise Model (CAEM) to provide the exercise program considering the user context. Also, we implemented that as Intelligent Fitness Guide (IFG) System. The IFG system is selectively received necessary measurement values as input values according to user's context. If exercise kinds, frequency and strength of user are changing, that system creates the exercise program through exercise optimization algorithm and exercise knowledge base. As IFG is providing the exercise program in a real time, it can be managed the effective exercise according to user context.

Context-Based Prompt Selection Methodology to Enhance Performance in Prompt-Based Learning

  • Lib Kim;Namgyu Kim
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.4
    • /
    • pp.9-21
    • /
    • 2024
  • Deep learning has been developing rapidly in recent years, with many researchers working to utilize large language models in various domains. However, there are practical difficulties that developing and utilizing language models require massive data and high-performance computing resources. Therefore, in-context learning, which utilizes prompts to learn efficiently, has been introduced, but there needs to be clear criteria for effective prompts for learning. In this study, we propose a methodology for enhancing prompt-based learning performance by improving the PET technique, which is one of the contextual learning methods, to select PVPs that are similar to the context of existing data. To evaluate the performance of the proposed methodology, we conducted experiments with 30,100 restaurant review datasets collected from Yelp, an online business review platform. We found that the proposed methodology outperforms traditional PET in all aspects of accuracy, stability, and learning efficiency.

How are they layerwisely 'surprised', KoBERT and KR-BERT? (KoBERT와 KR-BERT의 은닉층별 통사 및 의미 처리 성능 평가)

  • Choi, Sunjoo;Park, Myung-Kwan;Kim, Euhee
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.340-345
    • /
    • 2021
  • 최근 많은 연구들이 BERT를 활용하여, 주어진 문맥에서 언어학/문법적으로 적절하지 않은 단어를 인지하고 찾아내는 성과를 보고하였다. 하지만 일반적으로 딥러닝 관점에서 NLL기법(Negative log-likelihood)은 주어진 문맥에서 언어 변칙에 대한 정확한 성격을 규명하기에는 어려움이 있다고 지적되고 있다. 이러한 한계를 해결하기 위하여, Li et al.(2021)은 트랜스포머 언어모델의 은닉층별 밀도 추정(density estimation)을 통한 가우시안 확률 분포를 활용하는 가우시안 혼합 모델(Gaussian Mixture Model)을 적용하였다. 그들은 트랜스포머 언어모델이 언어 변칙 예문들의 종류에 따라 상이한 메커니즘을 사용하여 처리한다는 점을 보고하였다. 이 선행 연구를 받아들여 본 연구에서는 한국어 기반 언어모델인 KoBERT나 KR-BERT도 과연 한국어의 상이한 유형의 언어 변칙 예문들을 다른 방식으로 처리할 수 있는지를 규명하고자 한다. 이를 위해, 본 연구에서는 한국어 형태통사적 그리고 의미적 변칙 예문들을 구성하였고, 이 예문들을 바탕으로 한국어 기반 모델들의 성능을 놀라움-갭(surprisal gap) 점수를 계산하여 평가하였다. 본 논문에서는 한국어 기반 모델들도 의미적 변칙 예문을 처리할 때보다 형태통사적 변칙 예문을 처리할 때 상대적으로 보다 더 높은 놀라움-갭 점수를 보여주고 있음을 발견하였다. 즉, 상이한 종류의 언어 변칙 예문들을 처리하기 위하여 다른 메커니즘을 활용하고 있음을 보였다.

  • PDF

Research cases and considerations in the field of hydrosystems using ChatGPT (ChatGPT를 활용한 수자원시스템분야 문제해결사례 소개 및 고찰)

  • Do Guen Yoo;Chan Wook Lee
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.98-98
    • /
    • 2023
  • ChatGPT(Chat과 Generative Pre-trained Transformer의 합성어)는 사용자와 주고받는 대화의 과정을 통해 질문에 답하도록 설계된 대형언어모델로, 지도학습과 강화학습을 모두 사용하여 세밀하게 조정된 인공지능 챗봇이다. ChatGPT는 주고받은 대화와 대화의 문맥을 기억할 수 있으며, 보고서나 실제로 작동하는 파이썬 코드를 비롯한 인간과 유사하게 상세하고 논리적인 글을 만들어 낼 수 있다고 알려져있다. 본 연구에서는 수자원시스템분야의 문제해결에 있어 ChatGPT의 적용가능성을 사례기반으로 확인하고, ChatGPT의 올바른 활용을 위해 필요한 사항에 대해 고찰하였다. 수자원시스템분야의 대표적인 연구주제인 상수관망시스템의 누수인지와 수리해석을 통한 문제해결에 ChatGPT를 활용하였다. 즉, 딥러닝 기반의 데이터분석을 활용한 누수인지와 오픈소스기반의 수리해석 모델을 활용한 관망시스템 적정 분석을 목표로 ChatGPT와 대화를 진행하고, ChatGPT에 의해 제안된 코드를 구동하여 결과를 분석하였다. ChatGPT가 제시한 코드의 구동결과를 사전에 연구자가 직접 구현한 코드구동 결과와 비교분석하였다. 분석결과 ChatGPT가 제시한 코드가 보다 더 간결할 수 있으며, 상대적으로 경쟁력 있는 결과를 도출하는 것을 확인하였다. 다만, 상대적으로 간결한 코드와 우수한 구동결과를 획득하기 위해서는 해당 도메인의 전문적 지식을 바탕으로 적절한 다수의 질문을 해야 하며, ChatGPT에 의해 작성된 코드의 의미를 명확히 해석하거나 비판적 분석을 하기 위해서는 전문가지식이 반드시 필요함을 알 수 있었다.

  • PDF

Word Sense Similarity Clustering Based on Vector Space Model and HAL (벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집)

  • Kim, Dong-Sung
    • Korean Journal of Cognitive Science
    • /
    • v.23 no.3
    • /
    • pp.295-322
    • /
    • 2012
  • In this paper, we cluster similar word senses applying vector space model and HAL (Hyperspace Analog to Language). HAL measures corelation among words through a certain size of context (Lund and Burgess 1996). The similarity measurement between a word pair is cosine similarity based on the vector space model, which reduces distortion of space between high frequency words and low frequency words (Salton et al. 1975, Widdows 2004). We use PCA (Principal Component Analysis) and SVD (Singular Value Decomposition) to reduce a large amount of dimensions caused by similarity matrix. For sense similarity clustering, we adopt supervised and non-supervised learning methods. For non-supervised method, we use clustering. For supervised method, we use SVM (Support Vector Machine), Naive Bayes Classifier, and Maximum Entropy Method.

  • PDF

A Study on the Improvement of Tesseract-based OCR Model Recognition Rate using Ontology (온톨로지를 이용한 tesseract 기반의 OCR 모델 인식률 향상에 관한 연구)

  • Hwang, Chi-gon;Yun, Dai Yeol;Yoon, Chang-Pyo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.438-440
    • /
    • 2021
  • With the development of machine learning, artificial intelligence techniques are being applied in various fields. Among these fields, there is an OCR technique that converts characters in images into text. The tesseract developed by HP is one of those techniques. However, the recognition rate for recognizing characters in images is still low. To this end, we try to improve the conversion rate of the text of the image through the post-processing process that recognizes the context using the ontology.

  • PDF

A Tensor Space Model based Semantic Search Technique (텐서공간모델 기반 시멘틱 검색 기법)

  • Hong, Kee-Joo;Kim, Han-Joon;Chang, Jae-Young;Chun, Jong-Hoon
    • The Journal of Society for e-Business Studies
    • /
    • v.21 no.4
    • /
    • pp.1-14
    • /
    • 2016
  • Semantic search is known as a series of activities and techniques to improve the search accuracy by clearly understanding users' search intent without big cognitive efforts. Usually, semantic search engines requires ontology and semantic metadata to analyze user queries. However, building a particular ontology and semantic metadata intended for large amounts of data is a very time-consuming and costly task. This is why commercialization practices of semantic search are insufficient. In order to resolve this problem, we propose a novel semantic search method which takes advantage of our previous semantic tensor space model. Since each term is represented as the 2nd-order 'document-by-concept' tensor (i.e., matrix), and each concept as the 2nd-order 'document-by-term' tensor in the model, our proposed semantic search method does not require to build ontology. Nevertheless, through extensive experiments using the OHSUMED document collection and SCOPUS journal abstract data, we show that our proposed method outperforms the vector space model-based search method.