• 제목/요약/키워드: 사전기반 후처리

검색결과 151건 처리시간 0.028초

산업재해예방을 위한 IoT기반 스마트 건설안전시스템 전환에 관한 연구 (A Study on the Conversion of IoT Infrastructure Smart Construction Safety System for Industrial Accident Prevention)

  • 김광배;이제동;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.152-155
    • /
    • 2021
  • 최근 많은 이슈가 되고 있는 제 4 차 산업혁명 기술을 건설 분야에 적용하여 다양한 형태의 센서를 활용한 IoT 의 활용가치를 높이고 근로자의 위험사항을 사전에 예방함과 동시에 건설현장에서 IoT 기반 스마트 건설안전시스템 전호구축을 위한 아키텍처를 개발하는 것을 목적으로 하고 있다. 이를 위해 IoT 의 개념을 살펴보고, 현장 안전관리 프로세스를 근로자 편리성을 감안한 아키텍처로 전환연구를 하고자 한다. IoT 기반 스마트 건설안전시스템 구축을 위해서 활용 가능한 위험지역을 도식화하고, 적용 가능한 영역을 파악하였고, 다양한 사전예측분석 알고리즘을 활용하여 안전사고 예방에 관한 사전예측 유형을 분석하였다. 이를 바탕으로 위험지역에 대한 근로자의 동선을 파악한 후 위험지역에 사전정보 제공을 통한 건설현장의 IoT 기반 스마트 건설안전시스템을 전환해서 재해율 감소에 기여하고자 한다.

딥러닝 기반 집-나무-사람 검사 분석 모델의 개발 (Development of Deep Learning-Based House-Tree-Person Test Analysis Model)

  • 조승제;조건우;김영욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.558-561
    • /
    • 2021
  • 심리학에서 사람의 심리 상태를 알아보기 위해 사용되는 검사 방법 중, 집-나무-사람 검사(HTP Test)는 피실험자가 그린 집, 나무, 사람을 포함하는 그림을 사용하여 피실험자의 심리를 분석하는 투영 검사법이다. 본 논문에서는 딥러닝 모델을 이용해 HTP Test 에 사용되는 그림을 분석하는 시스템을 제안하며, 성능 평가를 통해 심리학에서의 딥러닝 모델 적용 가능성을 확인한다. 또한 그림 데이터 분석에 적합한 사전 훈련 모델을 개발하기 위해, ImageNet 과 스케치 데이터셋으로 사전 훈련하여 성능을 비교한다. 본 논문에서 제안하는 시스템은 크게 감정 분석을 위한 이미지 객체 추출부, 추출된 객체로 피실험자의 감정을 분류하는 감정 분류부로 구성되어 있다. 객체 추출과 이미지 분류 모두 CNN(Convolution Neural Network) 기반의 딥러닝 모델을 사용하며, 이미지 분류 모델은 서로 다른 데이터셋으로 모델을 사전 훈련한 후, 훈련 데이터셋으로 전이 학습하여 모델의 성능을 비교한다. 그림 심리 분석을 위한 HTP test 스케치 데이터셋은, HTP Test 와 동일하게 피실험자가 3 개 클래스의 집, 나무, 사람의 그림을 그려 자체 수집하였다.

한국어 중심의 토큰-프리 언어 이해-생성 모델 사전학습 연구 (Towards Korean-Centric Token-free Pretrained Language Model)

  • 신종훈;허정;류지희;이기영;서영애;성진;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.711-715
    • /
    • 2023
  • 본 연구는 대부분의 언어 모델이 사용하고 있는 서브워드 토큰화 과정을 거치지 않고, 바이트 단위의 인코딩을 그대로 다룰 수 있는 토큰-프리 사전학습 언어모델에 대한 것이다. 토큰-프리 언어모델은 명시적인 미등록어 토큰이 존재하지 않고, 전 처리 과정이 단순하며 다양한 언어 및 표현 체계에 대응할 수 있는 장점이 있다. 하지만 관련 연구가 미흡, 서브워드 모델에 대비해 학습이 어렵고 낮은 성능이 보고되어 왔다. 본 연구에서는 한국어를 중심으로 토큰-프리 언어 이해-생성 모델을 사전 학습 후, 서브워드 기반 모델과 비교하여 가능성을 살펴본다. 또한, 토큰 프리 언어모델에서 지적되는 과도한 연산량을 감소시킬 수 있는 그래디언트 기반 서브워드 토크나이저를 적용, 처리 속도를 학습 2.7배, 추론 1.46배 개선하였다.

  • PDF

사전 학습된 Transformer 언어 모델의 이종 언어 간 전이 학습을 통한 자원 희소성 문제 극복 (Cross-Lingual Transfer of Pretrained Transformers to Resource-Scarce Languages)

  • 이찬희;박찬준;김경민;오동석;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.135-140
    • /
    • 2020
  • 사전 학습된 Transformer 기반 언어 모델은 자연어처리 시스템에 적용되었을 시 광범위한 사례에서 큰 폭의 성능 향상을 보여준다. 여기서 사전 학습에 사용되는 언어 모델링 태스크는 비지도 학습에 속하는 기술이기 때문에 상대적으로 데이터의 확보가 쉬운 편이다. 하지만 몇 종의 주류 언어를 제외한 대부분 언어는 활용할 수 있는 언어 자원 자체가 희소하며, 따라서 이러한 사전 학습 기술의 혜택도 누리기 어렵다. 본 연구에서는 이와 같은 상황에서 발생할 수 있는 자원 희소성 문제를 극복하기 위해 이종 언어 간 전이 학습을 이용하는 방법을 제안한다. 본 방법은 언어 자원이 풍부한 언어에서 학습된 Transformer 기반 언어 모델에서 얻은 파라미터 중 재활용 가능한 부분을 이용하여 목표 언어의 모델을 초기화한 후 학습을 진행한다. 또한, 기존 언어와 목표 언어의 차이를 학습하는 역할을 하는 적응층들을 추가하여 이종 언어 간 전이 학습을 돕는다. 제안된 방법을 언어 자원이 희귀한 상황에 대하여 실험해본 결과, 전이 학습을 사용하지 않은 기준 모델 대비 perplexity와 단어 예측의 정확도가 큰 폭으로 향상됨을 확인하였다.

  • PDF

의미처리 기반의 한글-한자 변환 시스템 (korean-Hanja Translation System based on Semantic Processing)

  • 김홍순;신준철;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.398-401
    • /
    • 2011
  • 워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.

백과사전 질의응답을 위한 격틀 기반 의존관계 분석 (Dependency Relation Analysis using Case Frame for Encyclopedia Question-Answering System)

  • 임수종;정의석;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.167-172
    • /
    • 2004
  • 백과사전에서 정답을 찾기 위한 정보 중의 하나로 구조분석 정보를 이용하기 위하여 의존 관계 분석을 통해 정확한 구조분석에 대한 연구를 하였다. 정답을 찾기 위한 대상이 되는 용언과 논항의 관계를 파악하기 위해 먼저 의존관계 분석의 모호성 정도를 줄이기 위해 문장을 구묶음으로 나누었고 나눠진 구묶음에서 중심어와 중심어에 해당하는 의미코드를 추출하였다. 이렇게 구분된 구묶음 간의 의존관계를 파악하기 위하여 주로 격틀과 의미코드에 의존하는 의미자질, 거리 자질, 격관계 자질, 절형태 자질을 이용하여 의존관계 모호성을 해소하였다. 백과사전의 특성상 생략되는 성분과 연속 동사 처리를 하여 보다 정확하게 백과사전 QA시스템에서 정답을 찾을 수 있는 정보를 제공하도록 하였다. 실험결과 동사구와 명사구의 의존관계는 89.43의 성능을 보였고 의존관계에 격을 부여한 경우는 78.40%의 정확율, 백과사전 후처리에 해당하는 복원은 68.23의 성능을 보인다.

  • PDF

Deep Prompt Tuning 기반 한국어 질의응답 기계 독해 (Deep Prompt Tuning based Machine Comprehension on Korean Question Answering)

  • 김주형;강상우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.269-274
    • /
    • 2023
  • 질의응답 (Question Answering)은 주어진 질문을 이해하여 그에 맞는 답변을 생성하는 자연어 처리 분야의 핵심적인 기계 독해 작업이다. 현재 대다수의 자연어 이해 작업은 사전학습 언어 모델에 미세 조정 (finetuning)하는 방식으로 학습되고, 질의응답 역시 이러한 방법으로 진행된다. 하지만 미세 조정을 통한 전이학습은 사전학습 모델의 크기가 커질수록 전이학습이 잘 이루어지지 않는다는 단점이 있다. 게다가 많은 양의 파라미터를 갱신한 후 새로운 가중치들을 저장하여야 한다는 용량의 부담이 존재한다. 본 연구는 최근 대두되는 deep prompt tuning 방법론을 한국어 추출형 질의응답에 적용하여, 미세 조정에 비해 학습시간을 단축시키고 적은 양의 파라미터를 활용하여 성능을 개선했다. 또한 한국어 추출형 질의응답에 최적의 prompt 길이를 최적화하였으며 오류 분석을 통한 정성적인 평가로 deep prompt tuning이 모델 예측에 미치는 영향을 조사하였다.

  • PDF

MASS와 복사 메커니즘을 이용한 한국어 문서 요약 (Korean Text Summarization using MASS with Copying Mechanism)

  • 정영준;이창기;고우영;윤한준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.157-161
    • /
    • 2020
  • 문서 요약(text summarization)은 주어진 문서로부터 중요하고 핵심적인 정보를 포함하는 요약문을 만들어 내는 작업으로, 기계 번역 작업에서 주로 사용되는 Sequence-to-Sequence 모델을 사용한 end-to-end 방식의 생성(abstractive) 요약 모델 연구가 활발히 진행되고 있다. 최근에는 BERT와 MASS 같은 대용량 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 MASS 모델에 복사 메커니즘(copying mechanism) 방법을 적용하고, 한국어 언어 생성(language generation)을 위한 사전학습을 수행한 후, 이를 한국어 문서 요약에 적용하였다. 실험 결과, MASS 모델에 복사 메커니즘 방법을 적용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였다.

  • PDF

2단계 한국어 복합명사 분해기 (Two-Stage Korea Compound Noun Decomposer)

  • 박찬준;류법모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.495-497
    • /
    • 2018
  • 복합명사는 둘 이상의 명사가 결합된 명사로, 한국어는 무한한 복합명사 생성이 가능하며 기계번역, 정보검색 등 다양한 분야에서 시스템의 정확도를 향상시키는데 중요한 역할을 한다. 본 논문은 리소스 확장을 이용한 사전 기반 복합명사 분해기[1]의 후속연구로 한국어 복합명사 분해기를 총 2단계에 걸쳐 분해하는 시스템을 제안한다. 먼저 대용량 복합명사 입출력쌍 사전을 구축한 후 1단계 분해를 진행하며, 1단계에서 분해가 실패한 경우 2단계에서 자체 구축한 Unigram사전을 기반으로 복합명사 분해를 진행한다. 실험결과 97.4%의 정확률이 나왔으며 기존의 리소스확장을 이용한 방법론보다 5.6%의 성능향상을 보였다.

  • PDF

용언구에 기반한 한영 기계번역 시스템 : 'CaptionEye/KE' (Korean-to-English Machine Translation System based on Verb-Phrase : 'CaptionEye/KE')

  • 서영애;김영길;서광준;최승권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.269-272
    • /
    • 2000
  • 본 논문에서는 ETRI에서 개발 중인 용언구에 기반한 한영 기계번역 시스템 CaptionEye/KE에 대하여 논술한다. CaptionEye/KE는 대량의 고품질 한-영 양방향 코퍼스로부터 추출된 격틀사전 및 대역패턴, 대역문 연결패턴 등의 언어 지식들을 바탕으로 하여, 한국어의 용언구 단위의 번역을 조합하여 전체 번역을 수행한다. CaptionEye/KE는 변환방식의 기계번역 시스템으로서, 크게 한국어 형태소 분석기, 한국어 구문 분석기, 부분 대역문 연결기, 부분 대역문 생성기, 대역문 선택/정련기, 영어형태소 생성기로 구성된다. 입력된 한국어 문장에 대해 형태소 분석 및 태깅을 수행한 후, 격틀사전을 이용하여 구문구조를 분석하고 의존 트리를 생성해 낸다. 이렇게 생성된 의존 트리로부터 대역문 연결패턴을 이용하여 용언구들간의 연결에 대한 번역을 수행한 후 대역패턴을 이용하여 각 용언구들을 번역하고 문장 정련과정을 거쳐 영어 문장을 최종 생성한다.

  • PDF