• 제목/요약/키워드: word dictionary

검색결과 277건 처리시간 0.033초

딥러닝 모형을 사용한 한국어 음성인식 (Korean speech recognition using deep learning)

  • 이수지;한석진;박세원;이경원;이재용
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.213-227
    • /
    • 2019
  • 본 논문에서는 베이즈 신경망을 결합한 종단 간 딥러닝 모형을 한국어 음성인식에 적용하였다. 논문에서는 종단 간 학습 모형으로 연결성 시계열 분류기(connectionist temporal classification), 주의 기제, 그리고 주의 기제에 연결성 시계열 분류기를 결합한 모형을 사용하였으며. 각 모형은 순환신경망(recurrent neural network) 혹은 합성곱신경망(convolutional neural network)을 기반으로 하였다. 추가적으로 디코딩 과정에서 빔 탐색과 유한 상태 오토마타를 활용하여 자모음 순서를 조정한 최적의 문자열을 도출하였다. 또한 베이즈 신경망을 각 종단 간 모형에 적용하여 일반적인 점 추정치와 몬테카를로 추정치를 구하였으며 이를 기존 종단 간 모형의 결괏값과 비교하였다. 최종적으로 본 논문에 제안된 모형 중에 가장 성능이 우수한 모형을 선택하여 현재 상용되고 있는 Application Programming Interface (API)들과 성능을 비교하였다. 우리말샘 온라인 사전 훈련 데이터에 한하여 비교한 결과, 제안된 모형의 word error rate (WER)와 label error rate (LER)는 각각 26.4%와 4.58%로서 76%의 WER와 29.88%의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.

딥러닝 기반 소셜미디어 한글 텍스트 우울 경향 분석 (A Deep Learning-based Depression Trend Analysis of Korean on Social Media)

  • 박서정;이수빈;김우정;송민
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.91-117
    • /
    • 2022
  • 국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

한국농수산대학 재학생의 학교생활 감성 분석 및 영농의지에 관한 연구 (A Study on the Sensibility Analysis of School Life and the Will to Farming of Students at Korea National College of Agricultural and Fisheries)

  • 주진수;이소영;김종숙;신용광;박노복
    • 현장농수산연구지
    • /
    • 제21권2호
    • /
    • pp.103-114
    • /
    • 2019
  • 본 연구에서는 한농대에 재학 중인 3학년 학생을 대상으로 대학생활 선호도 및 졸업 후 영농의지를 파악하기 위하여 설문조사를 실시하였다. 연구 분석에는 구조화되지 않은 데이터의 분석 기법으로 오피니언 마이닝과 텍스트 마이닝 기법을 이용하였으며, 텍스트 마이닝의 결과는 워드 클라우드로 시각화하여 정보를 추출하였다. 또한 감성분석 결과를 이용하여 졸업 후 농사일을 하려는 학생들의 영농의지에 대한 통계적 분석을 하였다. 대학생활 호감도 조사는 대학 이미지, 자기 역량, 기숙사, 교육시스템, 미래 비전 등 5개 분야에 전체 10개 항목에 대하여 이루어졌다. 감성 분석을 위한 긍·부정 사전은 수집된 응답지에서 긍정과 부정의 감정을 분류하여 긍정어 사전과 부정어 사전을 각각 만들어 분석에 이용하였다. 분석 결과 10개 평가항목 가운데 대학 지원 당시의 '대학 이미지', 10년 후의 '자기 모습' 항목은 70% 이상, '자기 역량'과 '현재의 한농대' 항목은 60% 이상의 긍정적 감정을 나타냈다. 반면 '대학 기숙사' '교육과정' '장기현장실습' '한국 농업의 미래' 항목에 대해서는 긍정적 감성보다 부정적 감성이 높게 나타났다. 성별, 영농기반, 입학 동기에 따른 영농의지 차이의 교차 분석에서는 성별, 입학 동기에 따른 영농의지는 통계적으로 유의미한 결과가 나타났으나, 영농기반에서는 유의미하지 않은 결과가 나타났다. 또한 영농의지에 대한 이항 로지스틱 회귀분석에서는 통계적으로 유의미한 변수는 '입학 동기'로 파악되었으며, 본인의 의지로 입학한 학생일수록 영농의지가 형성될 확률이 높게 나타났다.

웹문서를 이용한 단계별 한국어 미등록어 인식 모델 (Phase-based Model Using Web Documents for Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회논문지
    • /
    • 제13권9호
    • /
    • pp.1898-1904
    • /
    • 2009
  • 신문이나 블로그와 같은 실제 문서에서는 위키백과(Wikipedia)와 같은 기존에 없던 새로운 단어를 포함하고 있다. 그러나, 대부분의 정보 처리 기술은 시스템 개발 당시 확보한 자료를 바탕으로 사전을 구축하므로, 이러한 새로운 단어에 대해 신속하게 대처할 수 없다는 한계가 있다. 따라서 본 논문에서는 사전에 등록되어 있지 않은 한국어 미등록어를 자동으로 인식하는 모델을 제안한다. 제안하는 모델은 전문분석 기반 미등록명사 인식 단계, 웹 출현빈도 기반 미등록용언 인식 단계, 웹 출현빈도 기반 미등록명사 인식 단계로 구성된다. 제안하는 모델은 문서에서 여러 번 나타난 미등록어에 대해 전문분석을 통해 정확하게 인식할 수 있다. 그리고, 제안하는 모델은 문서에 한번 나타난 미등록어에 대해서도 웹문서를 바탕으로 광범위하게 인식할 수 있다. 또한, 제안하는 모델은 기본형이 어절에 그대로 나타나는 미등록명사뿐만 아니라 기본형이 변형하여 나타날 수 있는 미등록용언도 인식할 수 있다. 실험 결과 기존 미등록어 인식방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현을 8.50%를 개선하였다.

소셜네트워크 서비스와 연상단어를 활용한 증강기억 시스템 (An Augmented Memory System using Associated Words and Social Network Service)

  • 김태완;박범준;박태근
    • 인터넷정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.41-50
    • /
    • 2010
  • 인간은 어떤 정보를 기억하려 노력하더라도, 시간이 지남에 따라 그 정보의 대부분을 잊어버린다. 반면에 인간은 사진을 보며 대부분 잊혀진 과거의 기억을 떠올릴 뿐만 아니라, 사진 속에 존재하는 특정 물체로부터 여러 단어들을 연상한 뒤, 그 연상된 단어로부터 새로운 기억을 떠올리곤 한다. 또한 이렇게 떠올린 기억으로 그 당시의 감성을 느끼기도 한다. 따라서 본 논문은 소셜 네트워크 서비스에 업로드된 사진들과 개인의 연상 단어 사전을 활용하여 사용자의 과거 회상에 도움이 되는 증강 기억 시스템을 제안한다. 제안하는 시스템에서 사용자가 특정 사진 속에 존재하는 물체를 선택하면, 그 물체와 관련된 연상 단어가 사용자에게 제공된다. 만일 사용자가 연상 단어중 하나를 선택하면, 제안하는 시스템은 해당 단어의 물체를 포함하는 다른 사진들의 목록을 사용자에게 제공함으로써, 사용자의 기억 회상을 돕고 감성을 자극할 수 있다. 본 논문에서 제안하는 시스템은 소셜 네트워크 서비스에서 보다 다양한 콘텐츠를 제공할 수 있을 것으로 기대 된다.

명사후문자열을 이용한 미등록어 인식 (Korean Unknown-noun Recognition using Strings Following Nouns in Words)

  • 박기탁;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제17권4호
    • /
    • pp.576-584
    • /
    • 2017
  • 사전에 등록되지 않은 미등록어는 형태소분석에서 뿐만 아니라 자연언어처리의 모든 분야에서 문제를 발생시킨다. 본 논문에서는 명사후문자열을 이용하여 미등록어를 인식하는 방법을 제안한다. 명사후문자열이란 명사를 포함하고 있는 어절에서 명사 뒤에 나오는 문자열을 의미하며, 조사, 접미사+조사, 동사화접미사+어미 등이 이에 속한다. 문서에 출현한 미등록어 포함 어절들을 모아 정렬한 다음, 동일한 앞부분을 가지는 어절이 두 개 이상일 경우에 한하여 미등록어 인식을 시도한다. 이 어절들에서 동일한 앞부분을 미등록 명사로, 그 다음 음절부터 끝 음절까지를 명사후문자열로 추정한다. 그리고 세종말뭉치에서 추출한 명사후문자열 정보를 이용하여 미등록 명사를 결정한다. 포털사이트 기사를 이용하여 실험한 결과, 2가지 형태 이상으로 출현한 미등록어에 대해 정확률 99.64%, 재현율 99.46%의 높은 인식 성능을 보였다.

중간언어 문맥벡터의 정제를 통한 이중언어 사전 구축의 성능개선 (Enhancing Performance of Bilingual Lexicon Extraction through Refinement of Pivot-Context Vectors)

  • 권홍석;서형원;김재훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권7호
    • /
    • pp.492-500
    • /
    • 2014
  • 본 논문은 중간언어 기반 이중언어 사전 구축 방법에서 문맥벡터의 정제 방법을 제안한다. 중간언어 기반 이중언어 사전 구축 방법은 두 언어 간의 사전이나 병렬말뭉치 등 언어 자원이 부족한 언어쌍에 매우 효과적인 방법이다. 본 논문은 두 가지 정제 방법을 통해서 성능을 개선한다. 첫 번째 방법은 양방향 번역확률을 통하여 문맥벡터를 정제하였고 두 번째 방법은 품사 정보를 이용하여 문맥벡터를 정제하였다. 본 논문은 두 개의 서로 다른 언어 쌍으로 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 48.5%를, 상위 20에서 최대 88.5%의 정확도를 얻었고, 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 26.5%를, 상위 20에서 최대 66.5%의 성능을 보였다.

중국의 문화관광 공연작품 <장한가>에 나타난 영상이미지 효과 분석 (Analysis on Video Image Effect in , China's Performing Arts Work of Cultural Tourism)

  • 육정학
    • 한국콘텐츠학회논문지
    • /
    • 제13권6호
    • /
    • pp.77-85
    • /
    • 2013
  • 본 연구는 중국 최초의 대형 역사 무용극을 표방한 서안의 <장한가> 라는 작품 속에 들어있는 영상이미지의 공연효과를 분석하고자 한 것이다. 즉 <장한가> 작품 속에 들어 있는 특정 주제, 소재들을 표현함에 있어 어떠한 영상이미지를 사용하여 공연의 효과를 거두고 있는가에 대한 것이다. 영상이란 '사물의 모습이 반영된 상', 특히 영화, 텔레비전, 사전 등의 이미지를 의미하는 말로 그 범위는 매우 넓으며 image의 어원은 imitary에 근거를 둔 것으로 구체적 또는 심적으로 나타낼 수 있는 시각적 표시를 말한다. 따라서 영상이미지는 '영상'과 '이미지' 라는 동의어의 결합으로 볼 수 있는데 여기서 영상이란 단순히 시나리오의 문학성, 연극성, 미술성 등과 같이 전통적인 예술장르의 종합이 아니라 모든 예술의 본원적 기능을 통합하고 인간존재의 오묘한 이미지 활동을 연결한 결과로서의 총체라고 보는 것이다. 연구결과는 다음과 같다. <장한가>에 표현되는 영상 이미지의 효과로 첫째, 시대성과 문화를 반영한 함축적 의미의 표현 효과 둘째, 상상적 동일시 효과, 셋째, 장면전환의 효과 넷째, 몰입을 통한 극적 재미의 효과, 다섯째, 공연의 입체감을 통한 시각적 효과가 있음을 알 수 있었다.

음절 복원 후보 집합의 생성과 후보 감소에 관한 연구 (A Study on a Generation of a Syllable Restoration Candidate Set and a Candidate Decrease)

  • 김규식;김경징;이상범
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권12호
    • /
    • pp.1679-1690
    • /
    • 2002
  • 본 논문에서는 음성 인식의 후처리를 위한 음절 복원 규칙의 생성과 복원 후보의 감소에 관한 연구를 수행하였다. 대화체 연속 음성 인식의 성능 향상을 위하여 음절 단위를 인식하는 음성인식 시스템의 후처리를 통하여 인식된 로 발음되는 복원 후보를 생성하는 음절 복원 규칙을 생성하였다. 또한 복원 집합의 후보수를 줄이기 위한 방안으로 복원 규칙에서 실생활에서 사용되지 않는 표기를 생성하는 규칙을 제거하는 방안을 제시하였다. 음절 복원 규칙이 올바른 복원 후보 집합을 생성함을 보이기 위하여 복원 후보 집합 생성기를 설계 구현하고, 표준 발음법 예제와 발음법 사전에서 무작위로 추출된 단어에 대하여 실험한 결과 발성 이전의 표기가 포함된 올바른 표기 집합이 생성됨을 입증하였다.

  • PDF

AN ALGORITHM FOR CLASSIFYING EMOTION OF SENTENCES AND A METHOD TO DIVIDE A TEXT INTO SOME SCENES BASED ON THE EMOTION OF SENTENCES

  • Fukoshi, Hirotaka;Sugimoto, Futoshi;Yoneyama, Masahide
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 IWAIT
    • /
    • pp.773-777
    • /
    • 2009
  • In recent years, the field of synthesizing voice has been developed rapidly, and the technologies such as reading aloud an email or sound guidance of a car navigation system are used in various scenes of our life. The sound quality is monotonous like reading news. It is preferable for a text such as a novel to be read by the voice that expresses emotions wealthily. Therefore, we have been trying to develop a system reading aloud novels automatically that are expressed clear emotions comparatively such as juvenile literature. At first it is necessary to identify emotions expressed in a sentence in texts in order to make a computer read texts with an emotionally expressive voice. A method on the basis of the meaning interpretation that utilized artificial intelligence technology for a method to specify emotions of texts is thought, but it is very difficult with the current technology. Therefore, we propose a method to determine only emotion every sentence in a novel by a simpler way. This method determines the emotion of a sentence according to an emotion that words such as a verb in a Japanese verb sentence, and an adjective and an adverb in a adjective sentence, have. The emotional characteristics that these words have are prepared beforehand as a emotional words dictionary by us. The emotions used here are seven types: "joy," "sorrow," "anger," "surprise," "terror," "aversion" or "neutral."

  • PDF