• 제목/요약/키워드: Text Input Method

검색결과 165건 처리시간 0.026초

영어 작문 자동채점에서 ConceptNet과 작문 프롬프트를 이용한 주제-이탈 문서의 자동 검출 (Automatic Detection of Off-topic Documents using ConceptNet and Essay Prompt in Automated English Essay Scoring)

  • 이공주;이경호
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1522-1534
    • /
    • 2015
  • 본 연구에서는 미리 구축해 놓은 학습데이터 없이도 입력된 작문이 주어진 작문 주제에 적합한 내용인지 아닌지를 자동으로 판단할 수 있는 방법을 제안한다. ConceptNet은 다양한 종류의 문서에서 추출한 자연언어 문장들로부터 구축된 그래프 형태의 지식베이스이다. 본 연구에서는 작문 주제에 해당하는 작문 프롬프트(essay prompt)와 ConceptNet만을 이용하여 문서의 주제-이탈 여부를 판별하는 방법을 제안한다. ConceptNet에서 두 개념간의 최단 경로를 찾고 이에 대한 의미 유사도를 계산하는 방법을 제안한다. 이를 이용하여 작문 프롬프트와 수험생 작문 내용을 ConceptNet의 개념들로 매핑하고 이 개념들 사이의 의미 유사도를 계산하여 작문 프롬프트와 수험생 작문 사이의 주제 부합 여부를 판단한다. 8개의 작문 시험을 수행하여 얻은 수험생 작문 데이터에 대하여 평가를 수행한 결과 기존의 연구에 비해 좋은 성능을 얻을 수 있었다. ConceptNet을 활용하면 유의미한 단순 추론이 가능하기 때문에 본 연구에서 제안한 방법은 추론을 요하는 작문 문제에도 적용 가능함을 보였다.

비디오 영상 정보 검색을 위한 문자 추출 및 인식 (Caption Detection and Recognition for Video Image Information Retrieval)

  • 구건서
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권7호
    • /
    • pp.901-914
    • /
    • 2002
  • 본 논문에서는 비디오에서 입력된 영상으로부터 내용기반 검색을 위해 자동으로 자막을 추출하여 특징 추출을 기반의 단층 연결 신경망 인식기(FE-MCBP)에 의해 자막 문자를 인식하여 영상 자막의 내용을 검출하는 방법을 제시하였다. 비디오에서 자막 추출은 먼저, 비디오에서 일정한 시간 간격으로 획득한 프레임 중에서 히스토그램 분석을 통하여 키 프레임을 찾는 과정을 수행하며, 그 다음에 각각의 키 프레임에 대하여 칼라 세그먼테이션 후 라인 검사 방법 통하여 자막 영역을 추출하도록 하였다. 마지막으로 추출된 자막영역에서 개별문자를 분리하였다. 본 연구에서는 칼라 히스토그램을 분석 후 지역 최대값을 이용하여 세그먼테이션 후 라인 검사를 수행함으로써 처리 속도와 자막영역 검출의 정확도를 개선하였다. 비디오에서 자막 추출은 비디오 정보를 멀티미디어 데이터베이스화하는 초기 단계로 추출된 자막은 바로 문자 인식기의 입력이 된다. 또한 인식된 자막정보는 데이터베이스로 구축되며 내용기반 검색 기법에 의해 검색되도록 하였다.

  • PDF

가상현실을 위한 합성얼굴 동영상과 합성음성의 동기구현 (Synchronizationof Synthetic Facial Image Sequences and Synthetic Speech for Virtual Reality)

  • 최장석;이기영
    • 전자공학회논문지S
    • /
    • 제35S권7호
    • /
    • pp.95-102
    • /
    • 1998
  • This paper proposes a synchronization method of synthetic facial iamge sequences and synthetic speech. The LP-PSOLA synthesizes the speech for each demi-syllable. We provide the 3,040 demi-syllables for unlimited synthesis of the Korean speech. For synthesis of the Facial image sequences, the paper defines the total 11 fundermental patterns for the lip shapes of the Korean consonants and vowels. The fundermental lip shapes allow us to pronounce all Korean sentences. Image synthesis method assigns the fundermental lip shapes to the key frames according to the initial, the middle and the final sound of each syllable in korean input text. The method interpolates the naturally changing lip shapes in inbetween frames. The number of the inbetween frames is estimated from the duration time of each syllable of the synthetic speech. The estimation accomplishes synchronization of the facial image sequences and speech. In speech synthesis, disk memory is required to store 3,040 demi-syllable. In synthesis of the facial image sequences, however, the disk memory is required to store only one image, because all frames are synthesized from the neutral face. Above method realizes synchronization of system which can real the Korean sentences with the synthetic speech and the synthetic facial iage sequences.

  • PDF

오피니언 분류의 감성사전 활용효과에 대한 연구 (A Study on the Effect of Using Sentiment Lexicon in Opinion Classification)

  • 김승우;김남규
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.133-148
    • /
    • 2014
  • 최근 다양한 정보채널들의 등장으로 인해 빅데이터에 대한 관심이 높아지고 있다. 이와 같은 현상의 가장 큰 원인은, 스마트기기의 사용이 활성화 됨에 따라 사용자가 생성하는 텍스트, 사진, 동영상과 같은 비정형 데이터의 양이 크게 증가하고 있는 것에서 찾을 수 있다. 특히 비정형 데이터 중에서도 텍스트 데이터의 경우, 사용자들의 의견 및 다양한 정보를 명확하게 표현하고 있다는 특징이 있다. 따라서 이러한 텍스트에 대한 분석을 통해 새로운 가치를 창출하고자 하는 시도가 활발히 이루어지고 있다. 텍스트 분석을 위해 필요한 기술은 대표적으로 텍스트 마이닝과 오피니언 마이닝이 있다. 텍스트 마이닝과 오피니언 마이닝은 모두 텍스트 데이터를 입력 데이터로 사용할 뿐 아니라 파싱, 필터링 등 자연어 처리기술을 사용한다는 측면에서 많은 공통점을 갖고 있다. 특히 문서의 분류 및 예측에 있어서 목적 변수가 긍정 또는 부정의 감성을 나타내는 경우에는, 전통적 텍스트 마이닝, 또는 감성사전 기반의 오피니언 마이닝의 두 가지 방법론에 의해 오피니언 분류를 수행할 수 있다. 따라서 텍스트 마이닝과 오피니언 마이닝의 특징을 구분하는 가장 명확한 기준은 입력 데이터의 형태, 분석의 목적, 분석의 결과물이 아닌 감성사전의 사용 여부라고 할 수 있다. 따라서 본 연구에서는 오피니언 분류라는 동일한 목적에 대해 텍스트 마이닝과 오피니언 마이닝을 각각 사용하여 예측 모델을 수립하는 과정을 비교하고, 결과로 도출된 모델의 예측 정확도를 비교하였다. 오피니언 분류 실험을 위해 영화 리뷰 2,000건에 대한 실험을 수행하였으며, 실험 결과 오피니언 마이닝을 통해 수립된 모델이 텍스트 마이닝 모델에 비해 전체 구간의 예측 정확도 평균이 높게 나타나고, 예측의 확실성이 강한 문서일수록 예측 정확성이 높게 나타나는 일관적인 성향을 나타내는 등 더욱 바람직한 특성을 보였다.

딥러닝 기반의 딥 클러스터링 방법에 대한 분석 (Analysis of deep learning-based deep clustering method)

  • 권현;이준
    • 융합보안논문지
    • /
    • 제23권4호
    • /
    • pp.61-70
    • /
    • 2023
  • 클러스터링은 데이터의 정답값(실제값)이 없는 데이터를 기반으로 데이터의 특징벡터의 거리 기반 등으로 군집화를 하는 비지도학습 방법이다. 이 방법은 이미지, 텍스트, 음성 등 다양한 데이터에 대해서 라벨링이 없이 적용할 수 있다는 장점이 있다. 기존 클러스터링을 하기 위해 차원축소 기법을 적용하거나 특정 특징만을 추출하여 군집화하는 방법이 적용되었다. 하지만 딥러닝 기반 모델이 발전하면서 입력 데이터를 잠재 벡터로 표현하는 오토인코더, 생성 적대적 네트워크 등을 통해서 딥 클러스터링의 기술이 연구가 되고 있다. 본 연구에서, 딥러닝 기반의 딥 클러스터링 기법을 제안하였다. 이 방법에서 오토인코더를 이용하여 입력 데이터를 잠재 벡터로 변환하고 이 잠재 벡터를 클러스터 구조에 맞게 벡터 공간을 구성 및 k-평균 클러스터링을 하였다. 실험 환경으로 pytorch 머신러닝 라이브러리를 이용하여 데이터셋으로 MNIST와 Fashion-MNIST을 적용하였다. 모델로는 컨볼루션 신경망 기반인 오토인코더 모델을 사용하였다. 실험결과로 k가 10일 때, MNIST에 대해서 89.42% 정확도를 가졌으며 Fashion-MNIST에 대해서 56.64% 정확도를 가진다.

문장유사도 측정 기법을 통한 스팸 필터링 시스템 구현 (Implementation of a Spam Message Filtering System using Sentence Similarity Measurements)

  • 우수빈;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권1호
    • /
    • pp.57-64
    • /
    • 2017
  • 문자 메시지는 휴대폰을 사용하는 사람들에게 중요한 의사소통의 방법 중 하나이다. 또한 친구맺기 방식이 필요 없이 사용이 가능하기 때문에 이를 악용한 불법 광고 스팸메시지가 기승을 부리고 있다. 최근 스팸 필터링을 위해 기계 학습을 이용한 시스템들이 등장 하였지만 많은 계산을 필요로 하는 단점이 있다. 본 논문에서는 검색할 쿼리를 입력할 때 부정확한 쿼리를 입력하더라도 저장된 데이터베이스와 비교하여 가장 비슷한 단어를 차수 개념을 적용하여 유추하는 집합 기반 POI(Point of Interest) 검색 알고리즘을 이용하여 스팸 필터링 시스템을 구현하였다. 이 알고리즘을 적용하면 서버 컴퓨팅 없이 문자의 조합만을 이용해 쿼리를 유추할 수 있기 때문에 스팸 필터링에 적용하여 입력된 문자메시지가 교묘하게 변형되더라도 스팸이라고 필터링이 가능하다. 또한 문장 유사도 측정 기법을 활용하여 스팸 필터링 성능을 향상시켰으며, 스팸 필터링에 취약한 특정 유형도 걸러내기 위해 특정 전처리 과정을 지원함으로써 대부분의 스팸메세지를 필터링 가능하도록 하였다. 기존 집합기반 POI 검색 알고리즘과 이를 확장 시킨 문장 유사도 측정 기법, 특정 전처리 과정을 추가한 시스템으로 필터링 시스템의 성능평가를 진행하였다. 그 결과 본 논문에서 구현한 시스템이 기존 집합기반 POI 알고리즘과 비교하여 향상된 스팸 필터링 성능을 보여주는 것을 확인하였다. 또한 이동통신사 3사에서 필터링에 취약한 유형이 본 논문에서 구현한 시스템으로 높은 성능으로 필터링이 가능하다는 것을 확인하였다.

생성형 대규모 언어 모델과 프롬프트 엔지니어링을 통한 한국어 텍스트 기반 정보 추출 데이터셋 구축 방법 (A Study on Dataset Generation Method for Korean Language Information Extraction from Generative Large Language Model and Prompt Engineering)

  • 정영상;지승현;권다롱새
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.481-492
    • /
    • 2023
  • 본 연구는 생성형 대규모 언어 모델을 활용하여 텍스트에서 정보를 추출하기 위한 한글 데이터셋 구축 방법을 탐구한다. 현대 사회에서는 혼합된 정보가 빠르게 유포되며, 이를 효과적으로 분류하고 추출하는 것은 의사결정 과정에 중요하다. 그러나 이에 대한 학습용 한국어 데이터셋은 아직 부족하다. 이를 극복하기 위해, 본 연구는 생성형 대규모 언어 모델을 사용하여 텍스트 기반 제로샷 학습(zero-shot learning)을 이용한 정보 추출을 시도하며, 이를 통해 목적에 맞는 한국어 데이터셋을 구축한다. 본 연구에서는 시스템-지침-소스입력-출력형식의 프롬프트 엔지니어링을 통해 언어 모델이 원하는 결과를 출력하도록 지시하며, 입력 문장을 통해 언어 모델의 In-Context Learning 특성을 활용하여 데이터셋을 구축한다. 생성된 데이터셋을 기존 데이터셋과 비교하여 본 연구 방법론을 검증하며, 관계 정보 추출 작업의 경우 KLUE-RoBERTa-large 모델 대비 25.47% 더 높은 성능을 달성했다. 이 연구 결과는 한국어 텍스트에서 지식 요소를 추출하는 가능성을 제시함으로써 인공지능 연구에 도움을 줄 것으로 기대된다. 더욱이, 이 방법론은 다양한 분야나 목적에 맞게 활용될 수 있어, 다양한 한국어 데이터셋 구축에 잠재력을 가진다고 볼 수 있다.

ASK-HIM: 아날로그 스틱을 이용한 한국어 입력 방법 (ASK-HIM: Analog Stick Korean Hangeul Input Method)

  • 김호진;이기혁
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1056-1062
    • /
    • 2006
  • 소니컴퓨터엔터테인먼트의 플레이스테이션(R)이나 마이크로소프트의 엑스박스(R)등의 비디오 게임기가 차지하고 있는 시장의 크기가 점점 커지고 있고, 이에 적용되는 기술도 점점 발전하고 있다. 최근에는 무선랜이나 블루투스 등의 기술을 통한 네트워크 연결을 통해 인터넷 접속이 가능해졌고, 간단한 문서 편집이나 개인 정보 관리 기능도 추가되었다. 이러한 기능들이 추가되면서 비디오 게임기에 문자를 입력하는 방법의 필요성이 일어나고 있다. 하지만 비디오 게임기의 기본 입력 장치인 아날로그 스틱을 이용하여 한국어를 입력하는 방법에 대한 연구는 부족한 상태이다. 본 논문에서는 한글의 창제원리를 이용하여 자음과 모음을 각각 아래쪽, 위쪽, 왼쪽, 오른쪽의 네 가지 기본 그룹으로 분류하고, 시계 방향 회전과 반시계 방향 회전을 이용해서 자모를 매핑하는 새로운 한국어 입력 방법인 ASK-HIM을 제안한다. ASK-HIM 은 화면 키보드와 비교를 하였을 때 좀 더 좋은 결과를 보여주었고, 단순한 방식으로 사용이 편리하다는 장점을 지니고 있다.

  • PDF

자연어 처리를 이용한 감정 스트레스 인지 및 관리 챗봇 개발 (A Development of Chatbot for Emotional Stress Recognition and Management using NLP)

  • 박종진
    • 전기학회논문지
    • /
    • 제67권7호
    • /
    • pp.954-961
    • /
    • 2018
  • In this paper, a chatbot for emotional stress recognition and management using rule-based method and NLP is designed and developed to tackle various emotional stresses of people through questionnaire. For this, Dialogflow as open chatbot development platform and Facebook messenger as chatting platform are used. We can build natural and resourceful conversational experiences through predefined questions by using powerful tools of Dialogflow, and can use developed chatbot on the Facebook page messenger. Developed chatbot perceives emotional stresses of user by user-input which is either text or choice of predefined answer. It also gives user questions according to the user's feeling, and assess the strength of the emotional stresses, and provide a solution to the user. Further research can improve the developed chatbot by using open Korean NLP library and database of emotions and stresses.

KT 서비스 단말을 위한 문자 입력 방식 표준화 전략 (KT standardization strategy of text input method for KT service terminals)

  • 홍영국;양승진;조상욱;김정준;이상홍
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 2부
    • /
    • pp.780-783
    • /
    • 2006
  • 본 논문에서는 KT 서비스 단말을 위한 문자 입력 방식 표준화 전략에 대해 기술한다. KT 표준 문자 입력 방식은 문자 입력을 필요로 하는 KT 서비스 단말기에 탑재되어, 고객의 서비스 이용 편의성 증대와 사업 효율성 증대를 위한 통일된 문자 입력 인터페이스로 사용된다. 대표적인 30 개의 문자 입력 방식에 대해, 문자 입력 방식의 우수성, KT 사업 추진 기여도, 지적재산권 확보 여부 등의 3 가지 평가 기준을 적용하여, KT 사업에 가장 적합한 문자 입력 방식을 KT 표준 문자 입력 방식으로 선정한다. 선정된 표준 문자 입력 방식은 KT 서비스 단말의 특성 및 단말 제조업체와의 관계 등을 고려하여, KT 주도형 단말에 대해 우선 적용할 계획이다.

  • PDF