• 제목/요약/키워드: 한국어 언어 모델

검색결과 1,032건 처리시간 0.024초

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

이전 문장 자질과 다음 발화의 후보 화행을 이용한 한국어 화행 분석 (Korean Speech Act Tagging using Previous Sentence Features and Following Candidate Speech Acts)

  • 김세종;이용훈;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권6호
    • /
    • pp.374-385
    • /
    • 2008
  • 화행 분석이란 자연언어로 된 발화를 통해서 나타나는 화자의 의도를 인식하는 것으로 대화를 처리하는 여러 응용 분야에서 중요하게 요구되는 과정이다. 기존의 연구에서는 이전 발화의 화행과 현재 발화의 문장 자질을 사용하여 규칙 기반 및 통계 기반의 연구가 진행되었다. 하지만 본 논문에서는 현재 발화 이후의 후보 화행을 추정하여 이를 현재 발화의 화행을 결정하는데 사용함으로써 기존의 연구와 차별화를 두었으며, 실제로 기존 방법보다. 3.65%의 성능 향상을 보인 95.27%의 정확도(accuracy)를 보였다. 또한 이전 발화의 화행 정보뿐만 아니라 이전 화행을 결정하는데 사용했던 문장 자질을 현재 발화의 화행 결정에 추가적으로 사용함으로써 이전 발화의 화행 결정을 통해 소실된 정보들의 활용을 최대화하였다. 마지막으로 화행의 종류에 따라 그에 알맞은 확률 모델을 단계별로 적용하여 최종적으로 97.97%의 정확도를 얻었다.

텍스트의 정서 단어 추출을 통한 문학 작품의 정서 분석 (Analyzing Emotions in Literature by Extracting Emotion Terms)

  • 함준석;이신영;고일주
    • 감성과학
    • /
    • 제14권2호
    • /
    • pp.257-268
    • /
    • 2011
  • 본 논문에서는 단위 시단 동안 주로 작용하는 정서를 '지배적 정서(dominant emotion)'라고 정의하고, 문학작품의 지배적 정서 흐름을 자동적으로 추출하기 위한 방법론을 제시한다. 한국어는 언어 구조적 특성상 접미어에 따라 의미가 역전되거나 달라질 수 있다. 하지만 소설이나 수필 같이 일정 이상의 분량을 가진 텍스트에서 정서 단어를 추출한다면 어느 정도 추출이 잘못되어도 지배적 정서 흐름을 판단하는 것이 가능한 것이다. 문학작품에서 지배적 정서를 추출하기 위한 절차는 다음과 같다. 먼저 문학작품의 전제 텍스트에서 형태소를 분석하여 형태소 단위의 단어를 추출한다. 추출된 단어를 정서 단어 데이터베이스와 매칭하여 정서적 의미를 담고 있는 단어를 분리해 낸다. 분리된 단어들을 정서 모델에 사상하여 해당 단어가 갖고 있는 정서를 도출한다. 도출된 정서 단어들을 통해 지배적 정서를 분석한다. 제안한 방법론에 따라 현진건의 현대소설 '운수 좋은 날'과 윤오영의 수필 '방망이 깎던 노인'을 분석한 결과, 지배적 정서의 흐름을 파악할 수 있었다.

  • PDF

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF

중국인 학습자의 한국어 모음 습득에 대한 제2언어 습득 모델 비교 연구 (A Comparative Study of Second Language Acquisition Models: Focusing on Vowel Acquisition by Chinese Learners of Korean)

  • 김주연
    • 말소리와 음성과학
    • /
    • 제6권4호
    • /
    • pp.27-36
    • /
    • 2014
  • This study provided longitudinal examination of the Chinese learners' acquisition of Korean vowels. Specifically, I examined the Chinese learners' Korean monophthongs /i, e, ɨ, ${\Lambda}$, a, u, o/ that were created at the time of 1 month and 12 months, tried to verify empirically how they learn by dealing with their mother tongue, and Korean vowels through dealing with pattern of the Perceptual Assimilation Model (henceforth PAM) of Best (Best, 1993; 1994; Best & Tyler, 2007) and the Speech Learning Model (henceforth SLM) of Flege (Flege, 1987; Bohn & Flege, 1992, Flege, 1995). As a result, most of the present results are shown to be similarly explained by the PAM and SLM, and the only discrepancy between these two models is found in the 'similar' category of sounds between the learners' native language and the target language. Specifically, the acquisition pattern of /u/ and /o/ in Korean is well accounted for the PAM, but not in the SLM. The SLM did not explain why the Chinese learners had difficulty in acquiring the Korean vowel /u/, because according to the SLM, the vowel /u/ in Chinese (the native language) is matched either to the vowel /u/ or /o/ in Korean (the target language). Namely, there is only a one-to-one matching relationship between the native language and the target language. In contrast, the Chinese learners' difficulty for the Korean vowel /u/ is well accounted for in the PAM in that the Chinese vowel /u/ is matched to the vowel pair /o, u/ in Korean, not the single vowel, /o/ or /u/.

모바일 기반 증강현실 기술을 활용한 3D전래동화 콘텐츠 연구 (3D Graphic Nursery Contents Developed by Mobile AR Technology)

  • 박영숙;박대우
    • 한국정보통신학회논문지
    • /
    • 제20권11호
    • /
    • pp.2125-2130
    • /
    • 2016
  • 본 논문에서는 모바일 증강현실기술 기반을 활용한 3D전래동화 콘텐츠에 관한 연구이다. 지식기반사회의 핵심콘텐츠 산업으로 주목받고 있는 시공간을 연결하는 SW기술 증강현실(Augmented Reality) 기술을 활용하여 흥미로운 전래동화를 한국어, 중국어, 영어로 자막언어선택으로 외국어학습에 적용한다. 이를 위해 상호작용 AR게임(놀이)으로 재구성하였다. 전래동화는 3D 콘텐츠 제작을 위해 6~8개의 scene으로 분량을 구성하고, 각색하여 번역하였다. 더빙은 모국어로 사용하는 원어민 성우를 통해 표준발음을 사용하여 더빙하였고, 효과음은 장면에 어울리도록 별도 제작하여 편집하였다. 시나리오를 구성하고, 3D 모델구성, 인터렉션 구성, 사운드 이펙트를 구성하고 콘텐츠 메타데이터를 작성한 후, Unity 3D 게임엔진을 실행하여 프로젝트를 생성하고, 스크립터로 기술한다. 재미있고 유익한 전래동화를 ICT기술을 접목한 융복한 콘텐츠로 경험하면서, 첨단기술기반 교육을 수용하며, 생활주변에서 소프트웨어를 인식할 수 있는 기회를 가지게 한다.

Hidden Markov Network 음성인식 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of Hidden Markov Network Speech Recognition System)

  • 오세진;김광동;노덕규;위석오;송민규;정현열
    • 융합신호처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.30-39
    • /
    • 2003
  • 본 논문에서는 한국어 음성 데이터를 대상으로 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다. HM-Net은 기존의 SSS(Successive State Splitting) 알고리즘을 개량한 PDT(Phonetic Decision Tree)-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행하며, 마지막으로 파라미터의 공유를 통해 triphone 형태의 최적인 모델 네트워크를 작성하게 된다. 인식에 사용된 알고리즘은 음소 및 단어인식의 경우에는 One-Pass Viterbi 빔 탐색을 사용하며 트리 구조 형태의 사전과 phone/word-pair 문법을 채용하고 있다. 연속음성인식의 경우에는 단어 bigram과 단어 trigram 언어모델과 목구조 형태의 사전을 채용한 Multi-Pass 빔 탐색을 사용하고 있다. 전체적으로 본 논문에서는 다양한 조건에서 HM-Net 음성인식 시스템의 성능평가를 수행하였으며, 지금까지 소개된 음성인식 시스템과 비교하여 매우 우수한 인식성능을 보임을 실험을 통해 확인할 수 있었다.

  • PDF

An An.0, pproach to the Reorganization of University Libraries in the 21st Century

  • 홍현진;이병목
    • 한국도서관정보학회지
    • /
    • 제29권
    • /
    • pp.443-464
    • /
    • 1998
  • 21세기를 맞이하여 대학도서관은 정보기술의 도입, 업무내용의 변화, 이용자의 요구변화등 급격하게 변화하는 새로운 환경에 직면해 있다. 본 연구는 한국의 대학도서관 조직구조의 현황에 대한 분석과 함께 다양한 조직이론들과 정보환경의 변화에 기초해서 도서관조직을 활성화시키기위한 개념적인 조직모델을 제시하고자 한다. 한국의 대학도서관은 거의 10년동안 법적인 제약과 조직내외의 환경적인 한계 등으로 인해 전산화시스템의 도입, 도서관부관장의 임명, 그리고 도서관과 컴퓨터 센터와의 통합시도와 같은 약간의 변화외에는 거의 변화가 없었다. 전형적인 한국의 대학도서관은 수서, 기술서비스, 열람과 참고봉사 부문으로 조직되었다. 여기서 수서 기능을 기술서비스의 부문으로 간주한다면, 본 연구의 대상인 대학도서관 114개관 중 95개관(82.5%)이 전통적인 도서관조직의 형태인 기술서비스와 공공서비스 부문으로 조직된 것으로 나타났다. 본 연구에서는 전통적인 도서관조직의 문제점들을 급복할 수 있는 21세기의 개념적인 대학도서관 조직모델로서, 네가지 부문 - 서비스 부문, 서비스지원 부문, 기술지원 부문, 그리고 통합·조정부문-을 대학도서관의 개념적인 기본 구성요소로써 제안하였다. 그러나 모든 도서관의 서비스나 업무과정에 대해 적합한 잉상적인 조직구조는 없으며, 조직의 재조직과정은 도서관의 형태와 목적, 업무과정에 따라 매우 다양하다. 따라서 도서관의 재조직화는 환경의 변화에 따라 끊임없는 과정이 될 것이며, 도서관조직의 성공은 이러한 변화에 적응할 수 있는 개인과 조직의 역량에 달려있다고 하겠다.대한 순서에 있어서 차이가 있다. 4) 도서관에 대한 태도에 있어서 두 집단은 상이한 입장을 보이고 있다. 학자들의 과반수는 중요 정보원으로서 자신의 개인장서를 활용하며, 도서관의 장서 및 그 조직방법에 대해서도 별로 만족하지를 못하고 있다. 반면에, 실무가들은 도서관에 대하여 비교적 만족하며 따라서 도서관에 대한 이용도도 높다. 5) 두 집단 모두 보조인을 적극적으로 활용하지 않으며 사서의 도움을 받는 경우도 극소수에 불과하다. 이러한 조사결과를 기초로 하여 볼 때 법률전문직을 둘러싼 정보환경을 개선하기 위하여는, 인쇄된 일차적 정보자료의 검색방법등을 개선하고, 나아가서는 법령과 판례정보를 위한 효율적인 시스템을 구축하며, 뿐만 아니라 이용자의 요구에 충분히 대처할 수 잇는 도서관으로 변화되는 것이다. 이와 함께 가장 중요한 것은 법과대학과 사법연수원에서 법학 연구방법에 관한 강좌를 개설하여 각종 법률정보원의 활용 내지 도서관 이용방법에 관하여 교육하는 것이다.글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\boxDr$한국어사전$\boxUl$등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다. 것이 필요하다고 사료된다.크기에 의존하며, 또한 이러한 영향은 $(Ti_{1-x}AI_{x})N$ 피막에 존재하는 AI의 함량이 높고, 초기에

  • PDF

빅카인즈를 활용한 GenAI(생성형 인공지능) 기술 동향 분석: ChatGPT 등장과 스타트업 영향 평가 (GenAI(Generative Artificial Intelligence) Technology Trend Analysis Using Bigkinds: ChatGPT Emergence and Startup Impact Assessment)

  • 이현주;성창수;전병훈
    • 벤처창업연구
    • /
    • 제18권4호
    • /
    • pp.65-76
    • /
    • 2023
  • 기술 창업 및 스타트업 분야에서는 인공지능(AI)의 발전이 사업 모델 혁신의 핵심 주제로 부상하였다. 이를 통해 벤처기업들은 경쟁력 확보를 위해 AI를 중심으로 다양한 노력을 기울이고 있다. 본 연구는 GenAI 기술의 발전과 스타트업 생태계 간의 관계를 국내 뉴스 기사를 분석하여, 기술 창업 분야의 동향을 파악하는 것을 목적으로 하였다. 본 연구는 빅카인즈(BIG Kinds)를 활용하여 1990년부터 2023년 8월 10일까지의 국내 뉴스 기사에서 ChatGPT의 등장 전후를 중심으로 GenAI 관련 뉴스 기사, 주요 이슈 및 트렌드의 변화를 조사하였으며, 네트워크 분석 및 키워드 시각화를 통해 관련성을 시각화하였다. 연구결과, 2017년부터 2023년까지 GenAI에 대한 언급이 기사 내에서 점차 증가하였다. 특히, OpenAI의 GPT-3.5를 기반으로 한 ChatGPT 서비스가 주요 이슈로 부각 되었는데, 이 서비스는 OpenAI의 DALL-E, Google의 MusicLM, VoyagerX의 Vrew 등과 같은 언어 모델 기반 GenAI 기술의 대중화를 시사하였다. 이로써 생성형 인공지능은 다양한 분야에서의 유용성을 입증하며, ChatGPT 출시 이후 국내 기업들의 한국어 언어 모델 개발 활동이 활발히 이루어지고 있는 것으로 확인되었다. 리튼 테크놀로지스와 같은 스타트업들도 GenAI를 활용하여 기술 창업 분야에서의 영역을 확장하고 있다. 본 연구에서는 GenAI 기술과 스타트업 창업 활동 간의 연관성을 확인하였으며, 이는 혁신적인 비즈니스 전략의 구축 지원을 시사하며 GenAI 기술의 발전과 스타트업 생태계의 성장을 지속해서 형성할 것으로 전망된다. 더 나아가 국제적 동향 및 다양한 분석 방법의 활용, 실제 현장에서의 GenAI 응용 가능성을 모색하는 연구가 요구 된다. 이러한 노력은 GenAI 기술의 발전과 스타트업 생태계의 성장 발전에 이바지할 것으로 기대된다.

  • PDF

복합기제 텍스트의 확장 의미에 대한 수용자의 인지적 재구성 : 서사적 미디어 표현을 활용한 의사소통 교육을 위해 (Audience Cognitive Reconstruction of the Extended Meaning of Complex Mechanism Text : For Communication Education using Story Media Expressions)

  • 임지원
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권7호
    • /
    • pp.137-143
    • /
    • 2021
  • 본 논의는 복합기제를 담은 미디어 텍스트의 확장 의미에 대한 인지화용적 의미 해석 이론을 토대로 대학생을 위한 의사소통 교육 및 한국어 연계 전공 교육자의 리터러시 교육의 연계가능성에 대해 논의된 질적 연구라 할 수 있다. 쌍방향적 의사소통 전략으로 활용된 미디어 콘텐츠 표현의 내포적 의미는 학습자 개개인의 인지환경에 따라 다각적인 해석으로 수용될 것이다. 그렇다면 콘텐츠 제작자가 의도한 일반적인 미디어 콘텐츠 의미 내용은 어떻게 수용되고 있는가. 이러한 의구심이 논의의 출발점이다. 필자는 문제해결을 위해 인지의미론의 실험화용적 방법론에 기대어, 인지언어학의 관련성 모델을 적용시켜 학습자의 창의적인 인지환경과 현시적 내용을 연결시켜 그 대비점을 모색하였다. 논의 결과 학습자 스스로 인지환경과 현시적 내용을 연결시킬 수 있는 주체성과 창의적 사고를 표현할 수 있는 기본 틀을 마련할 수 있었다. 특히 적극적이며 긍정적인 학습자들은 제작된 미디어 텍스트를 문제제기할 수 있는 토론의 능력과 텍스트에 내포된 의미의 타당성을 논증하기 위해 제 3의 대안을 제시하는 등 새로운 인지환경을 구축하는 직접적인 서술적 표현도 드러났다. 추후 복합기제가 담긴 미디어 텍스트는 현대 사회에서 다양한 매체를 통해 쉽게 이뤄지는 간접적이며 설득적인 의사소통 행위이기에 미디어 텍스트 제작자와 학습자의 신뢰적인 대화의 보편적 의사소통 원리가 존재해야 할 것이다