• 제목/요약/키워드: 한글 모형

검색결과 86건 처리시간 0.02초

챗봇 프레임워크 성능 향상을 위한 점진적 학습 기법 (Incremental Learning for Performance Enhancement of Chatbot Framework)

  • 박상현;박진욱;조수헌;현제혁;황진성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.283-284
    • /
    • 2019
  • 규칙 기반의 챗봇(Chatbot)은 개발자가 미리 지정한 키워드와 패턴을 통해 사용자의 의도(Intent)를 파악하기 때문에, 챗봇을 응용한 어플리케이션에서는 제한적인 활용도를 보인다. 본 논문에서는 위 문제를 해결하기 위해, 프레임워크 기반의 한글 자연어 처리 챗봇 성능 향상을 위한 점진 학습(Incremental Learning)을 제안한다. DialogFlow는 규칙 기반의 챗봇 프레임워크로서, 사용자 질의 패턴에 대한 사전 학습이 치명적이다. 제안하는 점진 학습 기법은 사용자 질의가 미리 학습되어 있지 않은 경우에도, 유사도 기반으로 질의의 의도를 결정할 수 있다. 이때 entity 조합과 기존에 학습된 질의들과의 유사도를 통해 의도를 결정하여, 프레임워크를 점진적으로 학습한다. 이를 적용하여 연세대학교 정보들을 제공하는 챗봇을 개발하고, 실험을 통해 제안된 점진 학습 기법은 기존 시스템보다 다양한 종류의 질의 처리가 가능하고, 더욱 빠른 응답 속도를 나타내는 것을 확인하였다. 또한 사용자가 증가함에 따라 점진 학습을 통해 성능이 더욱 증가하는 자가 학습 모형으로서의 우수함을 확인하였다.

  • PDF

멀티미디어 수화 콘텐츠의 Semantic Logic 플랫폼 연구 (A Study on Semantic Logic Platform of multimedia Sign Language Content)

  • 정회준;박대우;한경돈
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.199-206
    • /
    • 2009
  • 초고속 인터넷의 발달로 멀티미디어 수화 콘텐츠가 청각장애인의 수화교육에 활용되고 있다. 수화교육에서 사용되는 대부분 콘텐츠는 한글단어에 대한 수화표현을 수화동영상으로 보여주는 내용이다. 수화를 처음 배우거나, 수화에 익숙하지 않은 사용자들은 수화특성을 이해하기 어렵고, 수화표현에 어려움을 나타내고 있다. 본 논문에서는 온라인에서 수화표현을 학습하기 위해서 수화가 가지고 있는 특성을 참고하고, Semantic Logic을 적용한 멀티미디어 동영상기반의 수화 콘텐츠 모형에 대한 플랫폼 설계를 연구하고자 한다.

TAPAS를 이용한 사전학습 언어 모델 기반의 표 질의응답 (Table Question Answering based on Pre-trained Language Model using TAPAS)

  • 조상현;김민호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.87-90
    • /
    • 2020
  • 표 질의응답은 반-정형화된 표 데이터에서 질문에 대한 답을 찾는 문제이다. 본 연구에서는 한국어 표 질의응답을 위한 표 데이터에 적합한 TAPAS를 이용한 언어모델 사전학습 방법과 표에서 정답이 있는 셀을 예측하고 선택된 셀에서 정확한 정답의 경계를 예측하기 위한 표 질의응답 모형을 제안한다. 표 사전학습을 위해서 약 10만 개의 표 데이터를 활용했으며, 텍스트 데이터에 사전학습된 BERT 모델을 이용하여 TAPAS를 사전학습한 모델이 가장 좋은 성능을 보였다. 기계독해 모델을 적용했을 때 EM 46.8%, F1 63.8%로 텍스트 텍스트에 사전학습된 모델로 파인튜닝한 것과 비교하여 EM 6.7%, F1 12.9% 향상된 것을 보였다. 표 질의응답 모델의 경우 TAPAS를 통해 생성된 임베딩을 이용하여 행과 열의 임베딩을 추출하고 TAPAS 임베딩, 행과 열의 임베딩을 결합하여 기계독해 모델을 적용했을 때 EM 63.6%, F1 76.0%의 성능을 보였다.

  • PDF

신뢰성이 부족한 FAQ 데이터셋에서의 강건성 개선을 위한 모델의 예측 강도 기반 손실 조정 정규화 (Loss-adjusted Regularization based on Prediction for Improving Robustness in Less Reliable FAQ Datasets)

  • 박예원;양동일;김수필;이강욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-22
    • /
    • 2019
  • FAQ 분류는 자주 묻는 질문을 범주화하고 사용자 질의에 대해 가장 유사한 클래스를 추론하는 방식으로 진행된다. FAQ 데이터셋은 클래스가 다수 존재하기 때문에 클래스 간 포함 및 연관 관계가 존재하고 특정 데이터가 서로 다른 클래스에 동시에 속할 수 있다는 특징이 있다. 그러나 최근 FAQ 분류는 다중 클래스 분류 방법론을 적용하는 데 그쳤고 FAQ 데이터셋의 특징을 모델에 반영하는 연구는 미미했다. 현 분류 방법론은 이러한 FAQ 데이터셋의 특징을 고려하지 못하기 때문에 정답으로 해석될 수 있는 예측도 오답으로 여기는 경우가 발생한다. 본 논문에서는 신뢰성이 부족한 FAQ 데이터셋에서도 분류를 잘 하기 위해 손실 함수를 조정하는 정규화 기법을 소개한다. 이 정규화 기법은 클래스 간 포함 및 연관 관계를 반영할 수 있도록 오답을 예측한 경우에도 예측 강도에 비례하여 손실을 줄인다. 이는 오답을 높은 확률로 예측할수록 데이터의 신뢰성이 낮을 가능성이 크다고 판단하여 학습을 강하게 하지 않게 하기 위함이다. 실험을 위해서는 다중 클래스 분류에서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 비교 실험을 위한 정규화 방법으로는 통상적으로 사용되는 라벨 스무딩을 채택했다. 실험 결과, 본 연구에서 제안한 방법은 기존 방법보다 성능이 개선되고 보다 안정적으로 학습이 된다는 것을 확인했으며, 데이터의 신뢰성이 부족한 상황에서 효과적으로 분류를 수행함을 알 수 있었다.

  • PDF

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

온라인 상품 판매 성과에 영향을 미치는 상품 소개글 효과 측정 기법 (Measuring the Economic Impact of Item Descriptions on Sales Performance)

  • 이동원;박성혁;문송천
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.1-17
    • /
    • 2012
  • 온라인 상에서 판매되는 상품은 매우 다양하지만, 소비자에게 판매 가격을 제시하거나 소개글을 통해서 상품에 대한 구체적인 설명을 제공한다는 점은 모든 상품에 있어서 가장 기본이 되는 공통적인 특징이다. 만약, 상품의 실제 품질이나 가격과는 독립적으로 상품 소개글이 판매에 미치는 영향력을 파악할 수 있다면 어떠한 소개글이 상품의 판매를 촉진하는 측면에서 더 좋은 글인지 분별할 수 있게 된다. 이런 관점에서 본 연구는 상품 소개글과 판매 성과의 관계를 파악하기 위한 목적으로 수행되었으며, 구체적으로는 온라인 시장에서 한글로 작성된 상품 소개글에 쓰인 각각의 표현 별로 소비자가 구매를 결정하는 데에 어떤 영향을 미치는지를 분석하고자 하였다. 한글 형태소 분석기를 사용하여 국내 앱 시장에서 수집된 앱 소개글 및 판매이력 데이터로부터 상품을 설명하는 주요 속성과 그 속성에 대한 평가를 추출하였으며, 추출된 키워드를 입력 변수로 구성한 계량경제학 모형을 구축하였고, 구체적으로 특정 표현들이 판매 성과에 미치는 영향을 구축된 모형을 사용하여 계량적으로 측정하였다. 앱의 카테고리 별로 표현의 종류가 상이하게 나타남이 관찰됨에 따라, 분석은 각 카테고리 별로 수행되었다. 유료 앱과 무료 앱에 대해서 데이터 분석을 수행한 결과, 판매 성과에 영향을 미치는 '속성과 평가' 키워드를 그 영향력의 크기 별로 파악할 수 있었으며, 특히 무료 앱의 경우는 무료로 이용할 수 있음에도 불구하고 품질이 좋다는 것을 강조했을 때 판매량을 더 높일 수 있다는 것이 확인되었다. 본 연구는 모바일 앱에 대해 수행되었으나, 온라인에서 거래되는 다양한 상품에 대해서도 소개글이 판매 성과에 미치는 영향을 분석할 수 있는 모형으로 활용될 수 있다. 마지막 장에서는 기업의 마케팅 매니저가 본 연구에서 제시하는 연구 방법론과 분석 결과를 활용할 수 있는 방안을 제시하였다.

유행(流行)으로부터 자유로운 세이커(Shaker) 디자인에 대한 고찰 (A Study on Shaker's Free Design from Fashion)

  • 최성운;허진
    • 디자인학연구
    • /
    • 제20권3호
    • /
    • pp.279-288
    • /
    • 2007
  • 오늘날 디자인은 유행의 영향으로부터 자유로울 수 없다. 이러한 유행은 일시적으로 등장하였다 사라지며 동시에 평균화를 지향하는 속성을 지니고 있기 때문이다. 그 결과 유행의 영향으로 인하여 제품들이 오래 사용되지 못하고 사라지게 된다. 제품의 기능과 상관없이 단지 검증되지 않은 사회적 관념을 통해 제품의 수명이 결정되고 있는 것이다. 결국 유행에 대한 대응이 없게 된다면, 유용한 제품들마저 서서히 우리 주변으로 부터 멀어지게 될 것이며, 최후에는 심각한 환경 문제로 확장 될 수 있는 것이다. 따라서 이러한 상황에서 세이커 디자인의 특성을 살펴보는 것은 중요한 의미가 있다. 미국의 세이커 공동체의 경우 일반 소비사회와 다른 특징을 지닌 경우라고 할 수 있다. 일시적인 유행과 왜곡된 정보가 그들의 의식에 관여할 수 없기 때문이다. 세이커 종교공동체를 살펴보면 종교와 생활 그리고 디자인의 원리가 모두 동일한 선상에서 전개되고 있다. 세이커 디자인에서는 그 어떤 장식과 재료적 차이가 허용되지 않는다. 신(神) 앞에서 모두가 평등하다고 생각하고 있기 때문이다. 따라서 사회적 신분과 경제적 우월감에 대한 그 어떤 표식도 용납되지 않는다. 이러한 의식적 내용을 통해 그들의 디자인은 유행과 장식으로부터 자유로울 수 있었던 것이다. 또한 그들은 완벽성을 추구하였으며, 실용성과 단순성을 통해 그것이 가능하다고 믿었다. 세이커 디자인이 유행으로부터 자유로울 수 있었던 것은 바로 디자인에 의식이 관여하고 있기 때문이다. 결국 유행으로부터 자유롭고, 오랜 기간 동안 사용되는 제품이 디자인되기 위해서는 종교 또는 사회 의식적 내용이 전제되어야 한다.성에 대한 만족도가 비고령자와 고령자간에 어떤 차이가 있는지, 그리고 이를 활용하여 한글서체 환경에서 웹 표준방식에 맞게 활용할 수 있도록 구체화 하여, 고령자를 위한 웹 컨텐츠에서의 서체활용 가이드를 개발하여 급속도로 다가오는 고령화 사회에서 고령자도 쉽게 인터넷을 통하여 정도를 습득하고 사용할 수 있는 유니버설 웹 인터페이스를 위한 기반자료로 활용될 것으로 전망된다. 제외지를 통합하여 TIN분석을 실시하여 범람 홍수해석에 활용할 수 있도록 하였다. 하천수리해석의 기능을 보강하기 위해 역산조도계수 산정모형, 상류-사류 천이류 구간에 대한 부등류 해석모형, 범람 홍수류에 대한 홍수위 산정모형, 하천수리계산시의 불확실도 해석모형 등의 새로운 기능을 추가하여 제시하였다. 모든 입출력자료는 프로젝트 단위별로 운영되어 data의 관리가 손쉽도록 하였으며 결과를 DB에 저장하여 다른 모형에서도 적용할 수 있도록 하였다. 그리고 HyGIS-HMS 및 HyGIS-RAS 모형에서 강우-유출-하도 수리해석-범람해석 등이 일괄되게 하나의 시스템 내에서 구현될 수 있도록 하였다. 따라서 HyGIS와 통합된 수리, 수문모형은 국내 하천 및 유역에 적합한 시스템으로서 향후 HydroInformatics 구현을 염두에 둔 특화된 국내 수자원 분야 소프트웨어의 개발에 기본 토대를 제공할 것으로 판단된다.았다. 또한 저자들의 임상병리학적 연구결과가 다른 문헌에서 보고된 소아 신증후군의 연구결과와 큰 차이를 보이지 않음을 알 수 있었다. 자극에 차이가 있지 않나 추측되며 이에 관한 추후 연구가 요망된다. 총대장통과시간의 단축은 결장 분절 모두에서 줄어들어 나타났으나

  • PDF

다학제적 접근을 통한 대학디자인 교육혁신 프로그램 연구 (A Study on Design Education Re-engineering by Multi-disciplinary Approach)

  • 이순종;김종원;주우진;채승진;윤수현
    • 디자인학연구
    • /
    • 제20권3호
    • /
    • pp.299-314
    • /
    • 2007
  • 20세기 후반 불어 닥친 급격한 기술변동과 산업구조의 변화에 따라 기업은 갈수록 현장 중심적인 디자인 전문 인력을 요구하고 있다. 미술단과대학 중심의 디자인교육은 성과도 있었지만 이러한 환경변화 요구에 적절히 대응하기에는 여러 가지 부족한 점이 나타나고 있다. 이에 대해 최근 나타나고 있는 진보적 디자인 교육 프로그램의 공통점은 복합 지식기술 기반의 다학제 교육이다. 이를 통하여 산업수요에 즉각 대응하고 국제사회에서 디자인 혁신을 주도하고 있으며 정보, 지식, 문화, 융복합 지식기술과 새로운 학문 및 직업 분야가 속속 출현하고 있는 시점에서 그 유용성을 높여가고 있다. 본 연구는 제품 디자인혁신에 초점을 둔 디자인, 공학, 경영분야의 복합적 지식과 기술을 갖춘 인재를 교육하고 훈련시킬 수 있는 교육프로그램을 제시하고있다. 성공적 신제품 개발과 위해 디자인, 공학, 경영 분야의 전문가들은 각 분야의 지식과 기술을 겸비하고 효과적으로 협력하여야 한다. 본 연구에서 제안하는 IPDI 다학제 교육프로그램은 공간적 효율성과 분야 전문성을 기초로 종합대학(university) 환경에서 디자인, 경영학, 공학의 학제간 교육을 중심으로 이루어지며 단계적으로 주변 분야를 연계 통합할 수 있는 응복합형 교육프로그램이다. 프로그램의 실제 적용이 가능하도록 전공수업의 협동운영, 현장실습연계, 학제간 연구기반 조성, 혁신 디자인 개발프로그램 적용, 교육시설공유에 대한 세부적이며 종합적 프로그램 구성으로 이루어져있다. 단, 프로그램 속성 상 단과대학(college)이나 인스티튜트(institute) 같은 중소형 교육기관에는 적합지 않을 수도 있다.성에 대한 만족도가 비고령자와 고령자간에 어떤 차이가 있는지, 그리고 이를 활용하여 한글서체 환경에서 웹 표준방식에 맞게 활용할 수 있도록 구체화 하여, 고령자를 위한 웹 컨텐츠에서의 서체활용 가이드를 개발하여 급속도로 다가오는 고령화 사회에서 고령자도 쉽게 인터넷을 통하여 정도를 습득하고 사용할 수 있는 유니버설 웹 인터페이스를 위한 기반자료로 활용될 것으로 전망된다. 제외지를 통합하여 TIN분석을 실시하여 범람 홍수해석에 활용할 수 있도록 하였다. 하천수리해석의 기능을 보강하기 위해 역산조도계수 산정모형, 상류-사류 천이류 구간에 대한 부등류 해석모형, 범람 홍수류에 대한 홍수위 산정모형, 하천수리계산시의 불확실도 해석모형 등의 새로운 기능을 추가하여 제시하였다. 모든 입출력자료는 프로젝트 단위별로 운영되어 data의 관리가 손쉽도록 하였으며 결과를 DB에 저장하여 다른 모형에서도 적용할 수 있도록 하였다. 그리고 HyGIS-HMS 및 HyGIS-RAS 모형에서 강우-유출-하도 수리해석-범람해석 등이 일괄되게 하나의 시스템 내에서 구현될 수 있도록 하였다. 따라서 HyGIS와 통합된 수리, 수문모형은 국내 하천 및 유역에 적합한 시스템으로서 향후 HydroInformatics 구현을 염두에 둔 특화된 국내 수자원 분야 소프트웨어의 개발에 기본 토대를 제공할 것으로 판단된다.았다. 또한 저자들의 임상병리학적 연구결과가 다른 문헌에서 보고된 소아 신증후군의 연구결과와 큰 차이를 보이지 않음을 알 수 있었다. 자극에 차이가 있지 않나 추측되며 이에 관한 추후 연구가 요망된다. 총대장통과시간의 단축은 결장 분절 모두에서 줄어들어 나타났으나

  • PDF

OPAC에서 탐색결과의 클러스터링에 관한 연구 (The Effectiveness of Hierarchic Clustering on Query Results in OPAC)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제38권1호
    • /
    • pp.35-50
    • /
    • 2004
  • 본 연구는 한글 OPAC에서 문헌의 분류와 브라우징에 적합한 정적 계층클러스터링 모형이 서명단어 탐색으로 검색된 탐색결과를 클러스터링하는데도 효과적인지를 규명하기 위해 수행되었다. 서명에 출현하는 단어와 색인자가 부여한 통제어를 통합한 색인어를 이진빈도로 가중치를 주어, 다이스와 자카드 계수, 집단 간 평균연결과 완전연결 클러스터링 기법이 테스트되었다. 16개의 서명단어 탐색으로 검색된 문헌을 클러스터링한 결과 최적으로 선택된 클러스터의 정확률은 유사도 계수나 클러스터링 기법에 관계없이 서명단어탐색보다 100%이상 향상되었다. 1단계와 최종단계 클러스터링 모두에서, 정확률 측면에서는 완전연결이, 재현을 측면에서는 집단 간 평균연결이 더 효과적이었으나 통계적으로 유의한 수준은 아니었다. 1단계 클러스터에서 집단 간 평균연결이 보다 높은 재현율을 보인 것은 유의하였다. 다이스와 자카드 사이에 차이는 없었다. 최종클러스터가 선택되기까지 집단 간 평균연결은 너무 긴 계층군집 단계를 필요로 하여 탐색효율 측면에서 바람직해 보이지 않았다.

투자전략 보고서의 제목이 주가 예측에 미치는 영향: 텍스트마이닝 중심으로 (How the Title of Investment Strategy Report Affects Stock Price Forecast: Using Text Mining Method)

  • 장준규;이규현;이준기
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.21-34
    • /
    • 2016
  • 재무분석가의 투자전략 보고서는 전문가의 금융정보 분석으로 사람들간의 금융 정보 격차를 줄일 수 있게 만들어 줄 수 있다. 하지만 여러 다른 인센티브로 말미암아 투자전략 보고서는 왜곡의 소지가 있을 수 있다. 만약, 투자전략 보고서 제목만으로 예측에 미치는 영향을 파악할 수 있다면, 예측력이 높은 투자전략 보고서를 분별할 수 있게 된다. 이에 본 연구는 재무분석가의 투자전략 보고서의 제목과 예측의 관계를 파악하려 한다. 텍스트 마이닝을 사용하여, 국내 재무분석가의 투자전략 보고서 제목으로부터 연구의 중요변수인 투자의견을 추출하고 모형을 구축하여 재무분석가의 예측 정확도와 예측 달성도를 측정하였다. 분석 결과, 강한 매수의견과 매도의견이 제목에 있을수록 재무분석가의 예측 정확도와 예측 달성도가 높아짐을 검증하였다. 본 연구 결과가 투자자에게 더 정확한 투자전략 보고서를 판단하는 기준를 제시하기를 바라고 빅데이터를 통한 분석 연구에 시사점을 주길 기대한다.

  • PDF