• Title/Summary/Keyword: 사전기반

Search Result 3,174, Processing Time 0.034 seconds

Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews (화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축)

  • Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Choi, Seong-Yong;Shin, Dong-Heouk;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.400-405
    • /
    • 2018
  • 본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.

  • PDF

Parameter-Efficient Prompting for Few-Shot Learning (Prompting 기반 매개변수 효율적인 Few-Shot 학습 연구)

  • Eunhwan Park;Sung-Min Lee;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.343-347
    • /
    • 2022
  • 최근 자연어처리 분야에서는 BERT, RoBERTa, 그리고 BART와 같은 사전 학습된 언어 모델 (Pre-trained Language Models, PLM) 기반 미세 조정 학습을 통하여 여러 하위 과업에서 좋은 성능을 거두고 있다. 이는 사전 학습된 언어 모델 및 데이터 집합의 크기, 그리고 모델 구성의 중요성을 보여주며 대규모 사전 학습된 언어 모델이 각광받는 계기가 되었다. 하지만, 거대한 모델의 크기로 인하여 실제 산업에서 쉽게 쓰이기 힘들다는 단점이 명백히 존재함에 따라 최근 매개변수 효율적인 미세 조정 및 Few-Shot 학습 연구가 많은 주목을 받고 있다. 본 논문은 Prompt tuning, Prefix tuning와 프롬프트 기반 미세 조정 (Prompt-based fine-tuning)을 결합한 Few-Shot 학습 연구를 제안한다. 제안한 방법은 미세 조정 ←→ 사전 학습 간의 지식 격차를 줄일 뿐만 아니라 기존의 일반적인 미세 조정 기반 Few-Shot 학습 성능보다 크게 향상됨을 보인다.

  • PDF

A Study on the Conversion of IoT Infrastructure Smart Construction Safety System for Industrial Accident Prevention (산업재해예방을 위한 IoT기반 스마트 건설안전시스템 전환에 관한 연구)

  • Kim, Gwang-Bae;Lee, Je-Dong;Shin, YongTae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.152-155
    • /
    • 2021
  • 최근 많은 이슈가 되고 있는 제 4 차 산업혁명 기술을 건설 분야에 적용하여 다양한 형태의 센서를 활용한 IoT 의 활용가치를 높이고 근로자의 위험사항을 사전에 예방함과 동시에 건설현장에서 IoT 기반 스마트 건설안전시스템 전호구축을 위한 아키텍처를 개발하는 것을 목적으로 하고 있다. 이를 위해 IoT 의 개념을 살펴보고, 현장 안전관리 프로세스를 근로자 편리성을 감안한 아키텍처로 전환연구를 하고자 한다. IoT 기반 스마트 건설안전시스템 구축을 위해서 활용 가능한 위험지역을 도식화하고, 적용 가능한 영역을 파악하였고, 다양한 사전예측분석 알고리즘을 활용하여 안전사고 예방에 관한 사전예측 유형을 분석하였다. 이를 바탕으로 위험지역에 대한 근로자의 동선을 파악한 후 위험지역에 사전정보 제공을 통한 건설현장의 IoT 기반 스마트 건설안전시스템을 전환해서 재해율 감소에 기여하고자 한다.

Better Foreground Segmentation for 3D Face Reconstruction using Graph Cuts (3차원 얼굴 복원을 위한 그래프 컷 기반의 전경 물체 추출 방법)

  • Park, An-Jin;Hong, Kwang-Jin;Jung, Kee-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.459-464
    • /
    • 2007
  • 영상기반의 3자원 복원(reconstruction)에 대한 연구가 컴퓨터 성능의 발전과 다양한 영상기반의 복원 알고리즘의 연구로 인해 최근 좋은 결과를 보이고 있으나, 이는 얼굴영역과 같은 목적이 되는 영역이 각 입력영상으로부터 미리 정확하게 추출되어 있다고 가정하기 때문이다. 일반적으로 목적이 되는 영역을 추출하기 위해 차영상이 많이 이용되고 있지만 차영상은 잡음과 구멍(hole)과 같은 오 추출된 영역이 발생하기 때문에 목적이 되는 영역을 3차원으로 복원을 할 때 심각한 오류를 초래할 수 있다. 전경물체(목적이 되는 영역)을 정확하게 추출하기 위해 최근 그래프 컷(graph cut)을 이용한 방법이 다양하게 시도되고 있다. 그래프 컷은 데이터 항(data term)과 스무드 항(smooth term)으로 구성된 에너지 함수를 전역적으로 최소화하는 방법으로 여러 공학적 문제에서 좋은 결과를 보이고 있지만, 에너지 함수의 데이터 항을 설정할 때 필요한 사전정보를 자동으로 얻기가 어렵다. 스테레오 비전의 깊이 정보가 최근 전경 물체 추출을 위한 사전정보로 많이 이용되고 있고 그들의 실험환경에서는 좋은 결과를 보이지만, 3차원 얼굴 복원에서 얼굴의 대부분이 동질의 영역을 가지고 있기 때문에 깊이 정보를 구하기 어려워 정확한 사전정보를 구하기가 어렵다. 본 논문에서는 3차원 얼굴 복원을 효과적으로 하기 위한 그래프 컷 기반의 전경 물체 추출 방법을 제안한다. 에너지 함수의 데이터 항을 설정하기 위해 전경 물체에 대한 사전정보를 추출해야 하며, 이를 위해 차영상을 이용하여 대략적인 전경 물체 추출하고, 사전정보에 대한 오류를 줄이기 위해 잡음과 그림자 영역을 제거한다. 잡음과 그림자 영역을 제거하면 구멍이 발생하거나 실루엣이 손상되는 문제가 발생한다. 손상된 정보는 근접한 픽셀이 유사하지 않을 때 낮은 비용을 할당하는 에너지 함수의 스무드(smooth) 항에 의해 에지 정보를 기반으로 채워진다. 결론적으로 제안된 방법은 스무드 항과 대략적으로 설정된 데이터 항으로 구성된 에너지 함수를 그래프 컷으로 전역적으로 최소화함으로써 더욱 정확하게 목적이 되는 영역을 추출할 수 있다.

  • PDF

The effects of Pre-briefing Team-based Learning in Standardized Patients Simulation (표준화 환자 시뮬레이션 실습교육기반의 간호교육에서 사전브리핑을 활용한 팀 기반 학습 효과)

  • Kim, Hyun-Ju
    • Journal of Digital Convergence
    • /
    • v.18 no.8
    • /
    • pp.271-279
    • /
    • 2020
  • Simulation practice training is used in nursing education as an education method to improve the adaptability to the clinical field, but responds to unpredictable situations and negatively affects practice satisfaction. This study applied a team-based learning utilizing a pre-briefing inequality controls ago to investigate the effect of self-efficacy, simulation practice satisfaction and clinical performance of the nursing college in the simulation based nursing education and after quasi-experimental study. Data collection in the fourth grade and P University Nursing 72 peoples, the study period is from November 15 from October 14, 2019. As a result, the experimental group that applied team-based learning using pre-briefing showed higher self-efficacy, simulation practice satisfaction, and clinical performance than the control group. Therefore, applying team-based learning to the pre-briefing process can be an important learning strategy for simulation practice training, and suggests a follow-up study to confirm the effectiveness by standardizing the pre-briefing step later.

Oriental Medicine-based Health Pre-Diagnosis System using Fuzzy Decision Tree (퍼지 의사 결정 트리를 이용한 한의학 기반의 건강 사전 진단 시스템)

  • Kim, Kwang Baek
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.11
    • /
    • pp.1519-1524
    • /
    • 2021
  • In this paper, we propose a method that uses fuzzy decision tree based health pre-diagnosis system of oriental medicine. The proposed fuzzy decision tree based health pre-diagnosis system uses the data from the past which has been pre-trained to get the boundary values based on entropy then, when the user inputs the symptoms, the top 5 diseases that causes those symptoms are extracted. With the extracted top 5 diseases, the system provides information on those diseases with the cause and how to treat them with folk remedies. The database of the diseases and their symptoms is established with the information based on the various books that the oriental doctor recommended then reviewed by the oriental doctor for confirmation. By utilizing the data from the past to train the symptoms of the diseases, the proposed oriental medicine-based health pre-diagnosis system method could provide more accurate diagnosis results faster.

A Semi-automatic Annotation Tool based on Named Entity Dictionary (개체명 사전 기반의 반자동 말뭉치 구축 도구)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

A Semi-automatic Annotation Tool based on Named Entity Dictionary (개체명 사전 기반의 반자동 말뭉치 구축 도구)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

Wine Label Character Recognition in Mobile Phone Images using a Lexicon-Driven Post-Processing (사전기반 후처리를 이용한 모바일 폰 영상에서 와인 라벨 문자 인식)

  • Lim, Jun-Sik;Kim, Soo-Hyung;Lee, Chil-Woo;Lee, Guee-Sang;Yang, Hyung-Jung;Lee, Myung-Eun
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.5
    • /
    • pp.546-550
    • /
    • 2010
  • In this paper, we propose a method for the postprocessing of cursive script recognition in Wine Label Images. The proposed method mainly consists of three steps: combination matrix generation, character combination filtering, string matching. Firstly, the combination matrix generation step detects all possible combinations from a recognition result for each of the pieces. Secondly, the unnecessary information in the combination matrix is removed by comparing with bigram of word in the lexicon. Finally, string matching step decides the identity of result as a best matched word in the lexicon based on the levenshtein distance. An experimental result shows that the recognition accuracy is 85.8%.

Automatic Generation of Domain-Dependent Pronunciation Lexicon with Data-Driven Rules and Rule Adaptation (학습을 통한 발음 변이 규칙 유도 및 적응을 이용한 영역 의존 발음 사전 자동 생성)

  • Jeon, Je-Hun;Chung, Min-Hwa
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2005.05a
    • /
    • pp.233-238
    • /
    • 2005
  • 본 논문에서는 학습을 이용한 발음 변이 모델링을 통해 특정 영역에 최적화된 발음 사전 자동 생성의 방법을 제시하였다. 학습 방법을 이용한 발음 변이 모델링의 오류를 최소화 하기 위하여 본 논문에서는 발음 변이 규칙의 적응 기법을 도입하였다. 발음 변이 규칙의 적응은 대용량 음성 말뭉치에서 발음 변이 규칙을 유도한 후, 상대적으로 작은 용량의 음성 말뭉치에서 유도한 규칙과의 결합을 통해 이루어 진다. 본 논문에서 사용된 발음 사전은 해당 형태소의 앞 뒤 음소 문맥의 음운 현상을 반영한 발음 사전이며, 학습 방법으로 얻어진 발음 변이 규칙을 대용량 문자 말뭉치에 적용하여 해당 형태소의 발음을 자동 생성하였다. 발음 사전의 평균 발음의 수는 적용된 발음 변이 규칙의 확률 값들의 한계 값 조정에 의해 이루어졌다. 기존의 지식 기반의 발음 사전과 비교 할 때, 본 방법론으로 작성된 발음 사전을 이용한 대화체 음성 인식 실험에서 0.8%의 단어 오류율(WER)이 감소하였다. 또한 사전에 포함된 형태소의 평균 발음 변이 수에서도 기존의 방법론에서 보다 5.6% 적은 수에서 최상의 성능을 보였다.

  • PDF