• 제목/요약/키워드: Perplexity

검색결과 37건 처리시간 0.021초

Enhancement of a language model using two separate corpora of distinct characteristics

  • 조세형;정태선
    • 한국지능시스템학회논문지
    • /
    • 제14권3호
    • /
    • pp.357-362
    • /
    • 2004
  • 언어 모델은 음성 인식이나 필기체 문자 인식 등에서 다음 단어를 예측함으로써 인식률을 높이게 된다. 그러나 언어 모델은 그 도메인에 따라 모두 다르며 충분한 분량의 말뭉치를 수집하는 것이 거의 불가능하다. 본 논문에서는 N그램 방식의 언어모델을 구축함에 있어서 크기가 제한적인 말뭉치의 한계를 극복하기 위하여 두개의 말뭉치, 즉 소규모의 구어체 말뭉치와 대규모의 문어체 말뭉치의 통계를 이용하는 방법을 제시한다. 이 이론을 검증하기 위하여 수십만 단어 규모의 방송용 말뭉치에 수백만 이상의 신문 말뭉치를 결합하여 방송 스크립트에 대한 퍼플렉시티를 30% 향상시킨 결과를 획득하였다.

대어휘 연속음성 인식을 위한 결합형태소 자동생성 (Automatic Generation of Concatenate Morphemes for Korean LVCSR)

  • 박영희;정민화
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.407-414
    • /
    • 2002
  • 본 논문에서는 형태소를 인식 단위로 하는 한국어 연속음성 인식의 성능 개선을 위해 결합형태소를 자동으로 생성하는 방법을 제시한다. 학습코퍼스의 54%를 차지하고 오인식의 주요인이 되는 단음절 형태소를 감소시켜서 인식 성능을 높이는 것을 목적으로 한다. 품사의 접속 규칙을 이용한 기존의 지식기반의 형태소 결합방법은 접속 규칙의 생성이 어렵고, 학습 코퍼스에 나타난 출현 빈도를 반영하지 못하여 저빈도 결합형태소를 다수 생성하는 경향을 보였다. 본 논문에서 제시하는 방법은 학습데이터의 통계정보를 이용하여 결합형태소를 자동 생성한다. 결합할 형태소 쌍 선정을 위한 평가척도로는 형태소 쌍의 빈도, 상호정보, 유니그램 로그 유도값(unigram log likelihood)을 이용하였고 여기에 한국어의 특성 반영을 위해 단음절 형태소 제약과 형태소 결합길이를 제한하는 두개의 제약사항을 추가하였다. 학습에 사용된 텍스트 코퍼스는 방송뉴스와 신문으로 구성된 7백만 형태소이고, 최빈도 2만 형태소 다중 발음사전을 사용하였다. 세가지 평가척도 중 빈도를 이용한 것의 성능이 가장 좋았고 여기에 제약조건을 반영하여 성능을 더 개선할 수 있었다. 특히 최대 결합 길이를 3으로 할 때의 성능이 가장 우수하여 언어모델 혼잡도는 117.9에서 97.3으로 18%감소했으며, 형태소 에러율 (MER: Morpheme error rate)은 21.3%에서 17.6%로 감소하였다. 이때 단음절 형태소는 54%에서 30%로 24%가 감소하였다.

이종의 통계정보를 이용한 품사 부착 기법 (Part-Of-Speech Tagging using multiple sources of statistical data)

  • 조세형
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.501-506
    • /
    • 2008
  • 통계적 방식의 품사부착 문제는 보통 N-그램과 같을 단일 통계정보를 활용하지만 단순한 통계 정보라는 원천적인 한계가 있어 많은 오류가 발생한다. 따라서 다양한 정보를 활용하는 것이 정확도를 높일 가능성이 있다는 데는 이론의 여지가 없다. 그러나 다른 종류의 통계 자료는 배타적 자료가 아닌 한 상충되는 정보를 가질 수밖에 없으므로 이러한 정보들로부터 어떻게 종합적인 결론을 내는가가 문제이다. 본 논문에서는 이러한 상이한 통계정보를 통합하는 방법으로 언어 모델의 구성에서 활용된 바 있는 최대엔트로피 모델의 한국어 품사 부착에의 사용 가능성을 제시한다. 여기서는 이종의 통계정보로서 N그램과, 트리거 쌍을 사용하게 된다. 이러한 트리거 쌍 통계정보를 N그램과 함께 최대엔트로피 모델링을 했을 경우 퍼플렉시티가 어떻게 변화하는지에 대한 실험결과를 관찰하게 될 것이다. 트리거 쌍은 또한 다양하게 문맥사이즈를 변화할 수 있으며, N그램의 확률 모델도 다양하기 때문에 여러 종류의 실험을 통한 많은 향상을 예상 할 수 있다. 본 실험에서는 단일 모델 사용시 94.9 %의 정확도를 가진 3-그램 모델에 트리거 쌍을 최대 엔트로피 방식으로 추가한 견우 95.6% 의 정확도를 보여 0.7% 포인트의 정확도 향상을 기록하였다. 따라서 향후 다양한 정보원을 개발하여 최대엔트로피 방식으로 통합할 경우 지속적인 정확도 향상을 가져 올 수 있는 가능성을 보여준다고 할 수 있다.

성폭력 피해 아동 어머니의 심리적 경험에 관한 현상학적 연구 (The phenomenological study on the psychological experience of mothers of sexually abused children)

  • 양선화
    • 한국가족복지학
    • /
    • 제23호
    • /
    • pp.183-224
    • /
    • 2008
  • 본 연구는 아동성폭력 피해 자녀를 돌보는 어머니의 경험을 이해하기 위한 현상학적 연구이다. 연구 참여자는 성폭력 피해 자녀를 돌보는 어머니 6명이다. Colaizzi가 제시한 방법에 따라 자료를 분석한 결과, 주제 27개, 주제 모음 13개, 범주 5개가 도출되었다. 범주와 주제모음은 충격(당혹, 혼란), 대처(수습), 고통(분노, 불안, 괴로움, 고립), 극복(안정, 수용, 위안, 변화), 상흔(남아있는 불안, 염려) 등이다. 연구 결과 아동성폭력 피해 자녀를 돌보는 어머니의 경험은 '시간의 흐름'에 따른 역동적 변화와 '다양한 관계'들 속에서 자녀를 보호하고 문제를 해결하고자 하는 '적극적인 의지'가 반영된 독특한 체험으로 자리잡고 있었다. 본 연구 결과를 바탕으로 아동성폭력 피해 자녀를 돌보는 어머니에 대한 사회복지적 개입 방안과 아동성폭력 피해자 지원체계 확장 및 정착 방안을 제시했다.

미술가와 역사-미술사 교육의 한계와 전망 (Artist and History: Looking at the current problems of teaching art history in art school)

  • 조은정
    • 미술이론과 현장
    • /
    • 제2호
    • /
    • pp.49-74
    • /
    • 2004
  • It has been frequently pointed out that the established art history with the stylistic and iconographic interpretations and monographic analysis is fallen behind the currency of modern art. Among those who claimed the crisis in the discipline of art history, there is a suggestion that the art historical study should be fostered by other factors in the fields of the humanities. The so called New Art History or 'visual Culture Studies' insists that art history has to be restructured to integrate the broader study of culture and society, and by now, such an opinion is not a novelty at all. One of the most significant yet overlooked elements that induced the new currency of art history is properties of contemporary art that conflict the traditional claim of art historians. Although the idea that art is not purely aesthetic but that it has many other functions has been brought up by the art historians, it was the artists that provoked such a perception. When Arthur C. Danto and Hans Belting proclaimed the End of Art and Art History in the 1980s, the concept of art has been changed radically through the avant-garde tendency of Modernism and a new pluralism of Postmodernism. One dominant concern that strikes art historians is to find a new approach to art, since the traditional method and goal of analysis for past art and past art history seem unavailable. The perplexity arising from the situation is intensified in the field of teaching art, especially for those who teach art history in art school. Basically art history is a pursuit of learning of art in history, and its purpose is to reconcile the present with the past and the future as well. Since Modernism, as it is confusing sometimes because it implies the present state, somehow art became considered 'tradition-less'. It does not mean that a work of art stands aloof from the past attainments, hut modern art imposed itself on a task seeking after the new for its own sake, turning its back on the tradition. And now in the era of Postmodernism, an historians face the requirement to revaluate the whole history of art including modernism. The necessity of art history in art education is indisputable, but methods and contents in the academic courses should he reexamined now. Because artists' concept of history and past art has been altered, and art history as a humanistic discipline can only maintain its identity through incorporation with art itself. Academics teaching art history, or, strictly speaking, past works of art and history, to the student in art school, confront with the need to rethink the object of art history and its meaning to the artists.

  • PDF

A BERGPT-chatbot for mitigating negative emotions

  • Song, Yun-Gyeong;Jung, Kyung-Min;Lee, Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.53-59
    • /
    • 2021
  • 본 연구에서는 '레플리카'와 같은 텍스트 입력 기반의 부정적 감정 완화가 가능한 국내 인공지능 챗봇인 BERGPT-chatbot을 제안하고자 한다. BERGPT-chatbot은 KR-BERT와 KoGPT2-chatbot을 파이프라인으로 만들어 감정 완화 챗봇을 모델링하였다. KR-BERT를 통해 정제되지 않은 일상 데이터셋에 감정을 부여하고, 추가 데이터셋을 KoGPT2-chatbot을 통해 학습하는 방식이다. BERGPT-chatbot의 개발 배경은 다음과 같다. 현재 전 세계적으로 우울증 환자가 증가하고 있으며, 이는 COVID-19로 인해 장기적 실내 생활이나 대인 관계 제한으로 더욱 심각한 문제로 대두되었다. 그로 인해 부정적 감정 완화나 정신 건강 케어에 목적을 둔 국외의 인공지능 챗봇이 팬데믹 사태로 사용량이 증가하였다. 국내에서도 국외의 챗봇과 비슷한 심리 진단 챗봇이 서비스 되고 있으나, 국내의 챗봇은 텍스트 입력 기반 답변이 아닌 버튼형 답변 중심으로 국외 챗봇과 비교하였을 때 심리 진단 수준에 그쳐 아쉬운 실정이다. 따라서, BERGPT-chatbot을 통해 감정 완화에 도움을 주는 챗봇을 제안하였으며, BERGPT-chatbot과 KoGPT2-chatbot을 언어 모델의 내부 평가 지표인 '퍼플렉서티'를 통해 비교 분석하여 BERGPT-chatbot의 우수함을 보여주고자 한다.

텍스트 마이닝을 이용한 공군 부사관 지원자 자기소개서의 차별적 특성 분석 (Analyzing the discriminative characteristic of cover letters using text mining focused on Air Force applicants)

  • 권혁;김우주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.75-94
    • /
    • 2021
  • 저출산 문제로 인한 병역자원 감소와 병 복무기간 단축에 따른 군 간부 대비 병 복무 선호 현상은 우수한 군 간부확보정책에 대한 추가적인 고찰을 필요로 한다. 이와 관련된 연구들은 대부분 사회과학에서 주로 사용되는 방법론으로 분석하였으나, 본 연구는 대량의 문헌조사에 적합한 텍스트 마이닝의 방법론으로 접근한다. 이를 위해, 본 연구는 공군 부사관 지원자 자기소개서에서 차별적인 특성의 단어들을 추출하고 합격 및 불합격의 극성을 분석한다. 본 연구는 총 3단계로 이루어졌다. 첫번째, 지원분야를 일반분야와 기술분야로 나누고, 자기소개서에서 특성을 가지는 단어들을 분야별 빈도수 비율의 차이대로 순서화 한다. 각 지원분야별 비율의 차이가 클수록 해당 지원분야의 특성을 나타내는 것으로 정의하였다. 두번째, 이 특성을 나타내는 단어들을 LDA를 통해 단어들의 Topic을 군집화하고 이를 바탕으로 Label을 정의하였다. 세번째, 이 군집화 된 지원분야별 단어들을 L-LDA를 통해 합격과 불합격의 극성을 분석하였다. L-LDA값의 차이가 합격에 가까울수록 합격자들이 많이 사용하는 단어로 정의하였다. 본 연구를 통해, 공군 부사관 자기소개서의 차별적 특성을 추출하기에는 LDA보다 L-LDA가 더 적합함을 알 수 있다. 또한, 이러한 방법론은 별도의 서면 또는 대면 설문 방식이 아니라, 대량 문서에 대한 텍스트 마이닝 기법을 적용하여 분석시간을 단축하고, 전체 모집단에 대한 신뢰성을 높일 수 있다. 따라서 본 연구인 공군 부사관 선발결과 분석을 통해, 선발제도 및 홍보제도에 활용 가능한 정보를 제공하고, 군 인력획득 분야 연구에 있어 활용 가능한 방법론을 제안하고자 한다.