• 제목/요약/키워드: 한글과컴퓨터

검색결과 347건 처리시간 0.029초

한국어 음성 인식 시스템의 오류 유형 분류 및 분석 (Categorization and Analysis of Error Types in the Korean Speech Recognition System)

  • 손준영;박찬준;서재형;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.144-151
    • /
    • 2021
  • 딥러닝의 등장으로 자동 음성 인식 (Automatic Speech Recognition) 기술은 인간과 컴퓨터의 상호작용을 위한 가장 중요한 요소로 자리 잡았다. 그러나 아직까지 유사 발음 오류, 띄어쓰기 오류, 기호부착 오류 등과 같이 해결해야할 난제들이 많이 존재하며 오류 유형에 대한 명확한 기준 정립이 되고 있지 않은 실정이다. 이에 본 논문은 음성 인식 시스템의 오류 유형 분류 기준을 한국어에 특화되게 설계하였으며 이를 다양한 상용화 음성 인식 시스템을 바탕으로 질적 분석 및 오류 분류를 진행하였다. 실험의 경우 도메인과 어투에 따른 분석을 각각 진행하였으며 이를 통해 각 상용화 시스템별 강건한 부분과 약점인 부분을 파악할 수 있었다.

  • PDF

감정 분석에서의 심리 모델 적용 비교 연구 (A Comparative Study on Sentiment Analysis Based on Psychological Model)

  • 김해준;도준호;선주오;정서희;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.450-452
    • /
    • 2020
  • 기술의 발전과 함께 사용자에게 가까이 자리 잡은 소셜 네트워크 서비스는 이미지, 동영상, 텍스트 등 활용 가능한 데이터의 수를 폭발적으로 증가시켰다. 작성자의 감정을 포함하고 있는 텍스트 데이터는 시장 조사, 주가 예측 등 다양한 분야에서 이용할 수 있으며, 이로 인해 긍부정의 이진 분류가 아닌 다중 감정 분석의 필요성 또한 높아지고 있다. 본 논문에서는 딥러닝 기반 감정 분류에 심리학 이론의 기반 감정 모델을 활용한 결합 모델과 단일 모델을 비교한다. 학습을 위해 AI Hub에서 제공하는 데이터와 노래 가사 데이터를 복합적으로 사용하였으며, 결과에서는 대부분의 경우에 결합 모델이 높은 결과를 보였다.

  • PDF

멀티헤드 어텐션과 포인터 네트워크 기반의 음절 단위 의존 구문 분석 (Multi-head Attention and Pointer Network Based Syllables Dependency Parser)

  • 김홍진;오신혁;김담린;김보은;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.546-548
    • /
    • 2019
  • 구문 분석은 문장을 구성하는 어절들 사이의 관계를 파악하여 문장의 구조를 이해하는 기술이다. 구문 분석은 구구조 분석과 의존 구문 분석으로 나누어진다. 한국어처럼 어순이 자유로운 언어에는 의존 구문 분석이 더 적합하다. 의존 구문 분석은 문장을 구성하고 있는 어절 간의 의존 관계를 분석하는 작업으로, 각 어절의 지배소를 찾아내어 의존 관계를 분석한다. 본 논문에서는 멀티헤드 어텐션과 포인터 네트워크를 이용한 음절 단위 의존 구문 분석기를 제안하며 UAS 92.16%, LAS 89.71%의 성능을 보였다.

  • PDF

문화속의 과학 - 간편하고 능률적인 표기법은 국제정보통신용 로마자를

  • 이현복
    • 과학과기술
    • /
    • 제32권4호통권359호
    • /
    • pp.12-12
    • /
    • 1999
  • 로마자 표기법은 우리말을 한글이 아닌 로마자로 적는 법을 말한다. 현재 우리가 쓰고 있는 로마자 표기법은 발음 위주의 표기를 하고 부호가 잡다하여 컴퓨터로 쉽게 입력할 수 없는 단점을 갖고 있다. 그래서 필자는 간편하고 능률적인 국제 정보통신용 로마자 표기법을 제안한다.

  • PDF

제스쳐 인식기를 포함한 통합된 온라인 한글인식기의 구현 (Implementation of integrated On-line Hangul recognition system including Gesture recognition system)

  • 정우식;권영빈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.461-463
    • /
    • 1999
  • 컴퓨터 발전되면서 컴퓨터는 소형화 되어져 왔다. 컴퓨터의 소형화란 사람들이 들고 다니면서 어디서든지 쉽게 사용할 수 휴대성이 만족되어져야 한다. 휴대성을 만족하기 위해서 입력장치의 간편화가 요구되는데 가장 널리 알려진 키보드는 너무 크기 때문에 휴대성 만족하기에는 많은 문제를 안고 있다. 이러한 문제를 해결하기 위해서 등장한 것이 전자펜이다. 전자펜은 크기도 작고 사용법도 사람들이 많이 사용하는 펜과 비슷하기 때문에 배우기 쉽다는 장점이 있다. 그러므로 전자펜을 사용하기 위해서는 전자펜을 사용했을 때 컴퓨터가 사람이 쓴 문자나 제스쳐를 인식할 수 있는 기술이 필요하다. 본 논문에서는 온라인 문자인식기술에 대해서 간략히 설명을 한 뒤, 입력한 글자를 편집할 수 있는 제스쳐 인식 기술에 대해서 설명할 것이다.

  • PDF

교육환경에서의 기계독해 기반 질의응답 시스템 (Machine Reading Comprehension-based Q&A System in Educational Environment)

  • 주준하;박상현;남승완;임경태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.541-544
    • /
    • 2022
  • 코로나19 이후로 교육의 형태가 오프라인에서 온라인으로 변화되었다. 하지만 온라인 강의 교육 서비스는 실시간 소통의 한계를 가지고 있다. 이러한 단점을 해결하기 위해 본 논문에서는 기계독해 기반 실시간 강의 질의응답 시스템을 제안한다. 본 논문연구에서는 질의응답 시스템을 만들기 위해 KorQuAD 1.0 학습 데이터를 활용해 BERT를 fine-tuning 했고 그 결과를 이용해 기계독해 기반 질의응답 시스템을 구축했다. 하지만 이렇게 구축된 챗봇은 강의 내용에 대한 질의응답에 최적화되어있지 않기 때문에 강의 내용 질의응답에 관한 문장형 데이터 셋을 구축하고 추가 학습을 수행하여 문제를 해결했다. 실험 결과 질의응답 표를 통해 문장형 답변에 대한 성능이 개선된 것을 확인할 수 있다.

  • PDF

OpenCV를 활용한 음료 제품 점자 표기 개선 방안 (An Improvement Method for the Braille Labeling of Beverage Products Using OpenCV)

  • 최효현;문수현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.447-448
    • /
    • 2022
  • 본 논문에서는 대중의 참여를 통해 캔 음료 제품의 점자 표기 실태를 파악하고, 음료 제조사가 이를 개선하도록 유도하는 방안을 제안한다. 캔 음료 상단에 표기된 점자를 촬영한 이미지에서 OpenCV를 통해 점자의 윤곽을 검출하고, 검출된 윤곽의 좌표를 계산하여 점자를 국문으로 번역하는 모듈을 개발한 후 서버에 이식한다. 서버와 통신하는 모바일 애플리케이션을 개발하여 소비자가 점자 이미지를 서버에 업로드하고, 점자의 인식결과를 확인할 수 있도록 한다. 점자 표기가 적절하지 않다고 판단하는 경우 해당 제품에 대한 정보를 기록하도록 하고, 제조사 별로 제보된 횟수의 순위를 제공한다. 이를 통해 소비자는 올바른 점자 표기를 제공하지 않는 제조사를 파악할 수 있으며, 제조사는 이를 의식하고 점자 표기를 개선할 수 있는 효과를 기대한다.

  • PDF

한국어 언어모델 주의집중 패턴과 의미적 대표성 (Attention Patterns and Semantics of Korean Language Models)

  • 양기수;장윤나;임정우;박찬준;장환석;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.605-608
    • /
    • 2021
  • KoBERT는 한국어 자연어처리 분야에서 우수한 성능과 확장성으로 인해 높은 위상을 가진다. 하지만 내부에서 이뤄지는 연산과 패턴에 대해선 아직까지 많은 부분이 소명되지 않은 채 사용되고 있다. 본 연구에서는 KoBERT의 핵심 요소인 self-attention의 패턴을 4가지로 분류하며 특수 토큰에 가중치가 집중되는 현상을 조명한다. 특수 토큰의 attention score를 층별로 추출해 변화 양상을 보이고, 해당 토큰의 역할을 attention 매커니즘과 연관지어 해석한다. 이를 뒷받침하기 위해 한국어 분류 작업에서의 실험을 수행하고 정량적 분석과 함께 특수 토큰이 갖는 의미론적 가치를 평가한다.

  • PDF

한국어 대용량 코퍼스의 오류 어휘 탐지 방안 (Error Word Detection in Korean Corpus)

  • 최민주;박지훈;손성환;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.500-502
    • /
    • 2019
  • 대용량의 언어 코퍼스를 이용할 때, 오류 어휘가 코퍼스에 포함되어 있는 경우 해당 코퍼스를 이용한 실험의 성능이 저하될 수 있다. 이 때문에 정확한 문장들로 이루어진 코퍼스를 구축하기 위해 다량의 문장 중에서 정확하게 오류 어휘를 탐지할 필요가 있다. 본 논문에서는 대용량 데이터에서 빈도수가 낮은 음절을 이용해 오류 어휘를 탐지하는 방법을 제안하고, 제안 방법을 이용하여 오류 어휘 탐지 시 고려하여야 할 점에 대해 서술한다.

  • PDF

Word2Vec 기반 장르 유사성을 활용한 웹툰 검색 (Webtoon Search utilizing Genre Similarity with Word2Vec)

  • 이창민;안제정;강동연;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.503-505
    • /
    • 2019
  • 본 논문에서는 기존 웹툰 장르 검색 시스템의 단점을 보완하기 위해 키워드 기반 유사 장르 검색 시스템을 제안한다. 기존 웹툰의 장르와 키워드를 분석하여 44개의 장르를 설정하고 해당 장르에 적합한 웹툰을 수집한다. 나무위키와 위키피디아 문서로 학습된 Word2Vec모델에 기반하여 계산한 사용자 입력 키워드와 44개의 장르간 유사도로 사용자 입력에 가장 유사한 장르를 찾는다. 유사 장르에 포함되는 웹툰을 결과로 출력하여 사용자가 선호하는 장르의 웹툰을 제시한다. 실험 결과에서는 나무위키에서 '장르'로 검색하여 얻는 작은 크기의 문서 집합에서 Word2Vec을 학습한 모델에서 가장 높은 검색 성능을 보였다.

  • PDF