• 제목/요약/키워드: Multilingual

검색결과 173건 처리시간 0.027초

군사적 환경에서 음성인식 모델의 취약성에 관한 연구 (Study on the Vulnerabilities of Automatic Speech Recognition Models in Military Environments)

  • 원엘림;나성중;고영진
    • 융합보안논문지
    • /
    • 제24권2호
    • /
    • pp.201-207
    • /
    • 2024
  • 목소리는 인간의 의사소통에서 중요한 요소로, 음성인식 모델의 발전은 인공지능의 중요한 성과 중 하나이며 최근 인간의 생활에 다방면으로 사용되고 있다. 음성인식 모델의 활용은 군사분야에서도 피해갈 수 없는 과제이다. 하지만 인공지능 모델의 군사적 활용 이전에 모델의 취약성에 대한 연구가 필요하다. 본 연구에서는 다국적 음성인식 모델인 Whisper의 군사적 활용 가능성을 알아보기 위해, 전장소음, 잡음, 적대적 공격에 대한 취약성을 평가하였다. 전장소음을 포함하는 실험에서는 Whisper의 성능 저하가 크게 나타났으며, 평균 72.4%의 문자 오류율(CER)을 기록하여 군사적 활용에 어려움이 있는 것으로 나타났다. 또한, 잡음을 포함하는 실험에서는 낮은 강도의 잡음에 대해 Whisper가 강건하였으나, 높은 강도의 잡음에서는 성능이 저하되었고, 적대적 공격 실험에서는 특정 입실론 값에서 취약성이 드러났다. 따라서 Whisper 모델을 군사적 환경에서 사용하기 위해서는 파인튜닝, 적대적 훈련 등을 통해 개선이 필요하다는 것을 시사한다.

머신러닝 분류기법을 활용한 신생 유튜버의 생존 및 수익창출에 관한 연구 (A study on Survive and Acquisition for YouTube Partnership of Entry YouTubers using Machine Learning Classification Technique)

  • 김호익;김한민
    • 경영정보학연구
    • /
    • 제25권2호
    • /
    • pp.57-76
    • /
    • 2023
  • 본 연구는 목적은 디지털 플랫폼인 YouTube에서 최근 채널을 만든 크리에이터와 유튜버의 성공 여부를 분류 분석을 통해 알아보고자 함이다. 이를 위하여 과학기술 카테고리의 유튜버 채널 실제 정보들을 바탕으로 평균 동영상 업로드 횟수, 평균 영상 길이, 선택 가능한 다국어 자막 개수, 운영 중인 다른 소셜 네트워크 채널의 정보를 식별하였다. 식별한 정보와 머신러닝 기법을 활용하여 초기 유튜버들의 성공 여부인 수익창출 여부를 분류 분석하였으며, 분석결과, 인공 신경망 알고리즘이 초기 유튜버의 성공 또는 실패를 예측하는 데 가장 정확한 결과를 제공하고 있음을 발견했다. 또한, 제시된 다섯 가지 요인은 분석결과 향상에 기여하는 것으로 나타났다. 본 연구는 유튜브를 시작하고자 하는 신규 개인 창업가, 현재 유튜브를 운영하고 있는 인플루언서, 이러한 디지털 플랫폼을 활용하고자 하는 기업들에게 디지털 플랫폼의 다양한 접근 방식과 활용 방향에 대해 제언한다.

BERT와 지식 그래프를 이용한 한국어 문맥 정보 추출 시스템 (Korean Contextual Information Extraction System using BERT and Knowledge Graph)

  • 유소엽;정옥란
    • 인터넷정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.123-131
    • /
    • 2020
  • 인공지능 기술의 비약적 발전과 함께 사람의 언어를 다루는 자연어 처리 분야 역시 활발하게 연구가 진행되고 있다. 특히 최근에는 구글에서 공개한 언어 모델인 BERT는 대량의 코퍼스를 활용해 미리 학습시킨 모델을 제공함으로써 자연어 처리의 여러 분야에서 좋은 성능을 보이고 있다. BERT에서 다국어 모델을 지원하고 있지만 한국어에 바로 적용했을 때는 한계점이 존재하기 때문에 대량의 한국어 코퍼스를 이용해 학습시킨 모델을 사용해야 한다. 또한 텍스트는 어휘, 문법적인 의미만 담고 있는 것이 아니라 전후 관계, 상황과 같은 문맥적인 의미도 담고 있다. 기존의 자연어 처리 분야에서는 어휘나 문법적인 의미를 중심으로 연구가 주로 이루어졌다. 텍스트에 내재되어 있는 문맥 정보의 정확한 파악은 맥락을 이해하는 데에 있어 중요한 역할을 한다. 단어들의 관계를 이용해 연결한 지식그래프는 컴퓨터에게 쉽게 문맥을 학습시킬 수 있는 장점이 있다. 본 논문에서는 한국어 코퍼스를 이용해 사전 학습된 BERT 모델과 지식 그래프를 이용해 한국어 문맥 정보를 추출하는 시스템을 제안하고자 한다. 텍스트에서 중요한 요소가 되는 인물, 관계, 감정, 공간, 시간 정보를 추출할 수 있는 모델을 구축하고 제안한 시스템을 실험을 통해 검증한다.

동사 어휘의미망 평가를 위한 단어클러스터링 시스템의 활용 방안 (The Method of Using the Automatic Word Clustering System for the Evaluation of Verbal Lexical-Semantic Network)

  • 김혜경;윤애선
    • 한국문헌정보학회지
    • /
    • 제40권3호
    • /
    • pp.175-190
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만. 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68.455.856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '(-하)동사류' 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 석부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론. 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

국방과학기술 전문용어 사전 구축을 위한 프로세스 표준화 및 활용 방안 (Application and Process Standardization of Terminology Dictionary for Defense Science and Technology)

  • 최중환;최석두;김이겸;박영욱;정종희;안희정;정한민;김평
    • 한국콘텐츠학회논문지
    • /
    • 제11권8호
    • /
    • pp.247-259
    • /
    • 2011
  • 국방과학기술분야 업무의 효율성을 극대화하기 위해서는 국가적인 차원에서 국방 관련 기관들이 사용하고 있는 국방과학기술분야의 전문용어를 광범위하게 수집하고 기술 체계를 통일하여 관리하는 것이 필요하다. 각 분야별/기관별로 사용되고 있는 국방과학기술 용어들의 표준화를 통해서 전문용어에 대한 혼란을 없애는 것은 물론, 전문용어 사전을 오프라인 및 온라인 서비스에 활용함으로써 전문용어에 대한 접근성을 높이는 것이 요구된다. 본 연구에서는 고도의 신뢰성이 요구되는 국방과학기술 정보 분석의 기반을 제공하기 위해서 국방과학기술분야를 중심으로 전문용어의 선정, 기술 기준, 기술 구조를 포함하는 모든 프로세스를 표준화하는 것은 물론, 온라인 서비스에 전문용어 사전의 효과적으로 활용하기 위한 방안을 제시하고 있다. 또한 표준화된 구축 프로세스에 따라 전문용어 사전을 시범 구축하였다. 본 연구를 통해 생성되는 전문용어 사전은 다음과 같은 분야에 활용될 수 있다. 1) 국방과학기술 전문용어 데이터베이스 구축 및 용어 사전의 발간. 2) 국방과학기술분야의 정보 분석. 3) 전문용어 다국어 대역어를 이용한 외국어 정보분석. 4) 정보 처리 용어의 일관성 보증. 5) 전문용어를 추출하기 위한 언어 자원.

실시간 처리를 위한 멀티채널 오디오 코덱의 구현 (The Implementation of Multi-Channel Audio Codec for Real-Time operation)

  • 홍진우
    • The Journal of the Acoustical Society of Korea
    • /
    • 제14권2E호
    • /
    • pp.91-97
    • /
    • 1995
  • 본 논문은 저비트율을 갖는 고품질의 HDTV용 멀티채녈 오디오 코덱을 구현에 대해 기술한다. 이 코덱은 저주파수 효과 채널을 포함한 최대 3/2 스테레오 채널 구성, 최대 채널 구성보다 낮은 채널 구성과의 호환성, 기존 2채널 스테레오 시스템과의 호환성(MPEG-1 오디오), 그리고 다중 대화 채널 등을 제공하는 특징을 갖는다. 구현한 멀티채널 오디오 코덱의 인코더는 3개의 DSP(TI의 TMS320C40)로 구성되었고, 최대 48KHz 샘플링율과 16비트의 부호화를 갖는 5.1 채널의 아날로그 및 AES/EBU, IEC 958등의 포맷을 갖는 스테레오 2채널의 디지털 오디오를 이력으로 받아 지각 심리음향 모델을 사용하여 압축한후 384Kbps의 빛 스트림으로 전송하는 특징을 가지며, 디코더는 2개의 DSP로 구성되어 있고, 384Kbps로 입력되는 비트 스트림을 받아 최대 5.1 채널의 아날로그 및 2개의 2채널 스테레오의 디지털 오디오 신호로 출력시키는 특징을 갖는다. DSP를 이용한 다중처리는 DMA를 통한 통신포트를 이용한 DSP들간의 고속 데이터 전송에 의해 이루어진다. 끝으로, 멀티 채널 오디오 코덱의 구현을 통하여 나타난 실시간 처리는 위해 고려해야할 기술적 사항을 제안한다.

  • PDF

국제 음소의 자동 생성을 활용한 연속음성인식에 관한 연구 (A Study on the Continuous Speech Recognition for the Automatic Creation of International Phonetics)

  • 김석동;홍성수;신좌철;우인성;강흥순
    • 한국게임학회 논문지
    • /
    • 제7권2호
    • /
    • pp.83-90
    • /
    • 2007
  • 자동 음성 인식(Automatic Speech Recognition)기술은 세계적인 의사소통과 협력을 원활히 할 수 있는 가능성을 제시한다. 현재까지 대부분의 연구들은 주로 사용되는 단일 언어의 말하기에만 집중되어 있다. 따라서 다른 언어들과 함께 사용되는 특정 ASR 시스템을 도입하는 데에는 비싼 비용이 뒤따른다. 본 논문은 다국어 음성 인식에 대한 일반적 접근으로 각 나라 언어를 대표한 발음사전(어휘모델)을 만들기 위하여 음성 인식에 이용하는 어휘 모델을 만들기 위하여 음소 언어 인식(PLI, Phonetic Language Identity) 형식의 입력된 파일을 해석하는 국제 음소 엔진(IPE, International Phoneticizing Engine)를 제안한다. IPE는 독립적이며 규칙을 기본으로 한다. 어휘모델 생성 과정은 Java 언어로 구현된 프로그램에 의해 이루어지고, 이 과정들은 규칙 상충을 줄여주며, 언어학적 훈련을 받지 않은 사람의 규칙 생성도 가능하게 한다. IPE에 의해 생성된 어휘모델을 연속 음성 인식기에 적용한 결과 우리말 인식률이 92.55%, 영어에 대하여 89.93%를 얻었다.

  • PDF

결혼이주여성 게이트키퍼 분석을 통한 이주여성의 정보리터러시 향상 방안 (A Study on Improving Information Literacy of Marriage Immigrants through the Analysis of Marriage Immigrants Gatekeepers)

  • 이용재;조용완
    • 한국비블리아학회지
    • /
    • 제21권3호
    • /
    • pp.57-75
    • /
    • 2010
  • 본 연구는 부산과 경남지역에 거주하는 결혼이주여성 게이트키퍼의 정보리터러시 수준을 살펴보기 위해 51명을 대상으로 설문조사를 실시하고 2009년 같은 설문도구로 진행된 일반 결혼이주여성 189명의 정보리터러시 수준과 비교하였다. 그 결과, 게이트키퍼들의 정보리터러시 수준은 2009년 같은 설문조사로 얻어진 일반 결혼이주여성의 정보리터러시 수준에 비해 높은 것으로 드러났고, 총 8개의 정보리터러시 세부항목에서도 그러하였다. 또한 결혼이주여성 게이트키퍼들이 일반 이주여성에 비해 상대적으로 높은 정보리터러시 수준을 가지게 된 배경을 조사하기 위해 게이트키퍼 14명에 대해 면담을 실시하였다. 그 결과, "모국의 정보이용환경"은 그다지 도움을 주지 못한 것으로 나타나며, 그들의 "높은 교육 수준", "한국어 능력과 이중/다중 언어능력", "정보활용교육의 경험", "정보이용 관련 한국 가정의 우호적 환경", "적극적인 삶의 태도와 활발한 사회참여", "다양한 정보제공기관과 매체의 적극적 이용" 등은 그들이 상대적으로 높은 정보리터러시 수준을 가지게 된 배경으로 작용하는 것으로 인식되었다. 끝으로, 위의 연구결과들을 토대로 하여 결혼이주여성들의 정보리터러시 증진을 위한 몇 가지 방안들이 제시되었다.

영어 리뷰데이터를 이용한 딥러닝 기반 다국어 감성분석 (Deep learning-based Multilingual Sentimental Analysis using English Review Data)

  • 성재경;김영복;김용국
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.9-15
    • /
    • 2019
  • 영어로 된 아마존과 같은 대형 글로벌 온라인 쇼핑몰은 전 세계를 대상으로 영어 또는 판매 해당국가 언어로 서비스를 하고 있다. 온라인 쇼핑몰 이용자 중, 많은 고객은 상품 리뷰평가를 참조하여 상품을 구매하고 있다. 그래서 고객들이 작성한 대량의 리뷰데이터를 이용하여 구매 상품에 대해 긍정과 부정을 판정하는 감성분석을 영어를 중심으로 활발히 연구되고 분석 결과는 고객의 타켓 마케팅에 활용되고 있다. 하지만 이와 같은 영어 중심의 감성분석 시스템을 전 세계의 다양한 언어에 그대로 적용하기는 어렵다. 따라서 본 연구에서는 영어로 된 50만개 이상의 아마존 푸드 상품 리뷰데이터를 학습과 테스트 데이터로 분리하여 딥러닝 기술 기반의 감성분석 시스템을 구현하였다. 먼저 영어 테스트데이터의 3가지 모델에 대한 감성분석 평가 실험을 한 후에, 같은 데이터를 자동번역기로 7개국(한국어, 일본어, 중국어, 베트남어, 불어, 독어, 영어) 언어로 번역 후에 다시 영어로 번역하여 실험 결과를 얻었다. 감성분석 정확성은 영어(94.35%)에 비해 각 7개국 언어의 평균(91.59%)보다 정확도가 2.77% 정도 낮게 나왔으나 번역 성능 수준에서 실용 가능성을 확인하였다.

고천문 기록 서비스를 위한 웹 기반 시스템의 소프트웨어 개발 방법론적 개발 연구 (STUDY ON SOFTWARE DEVELOPMENT METHODOLOGY OF A WEB-BASED SYSTEM FOR HISTORICAL ASTRONOMY RECORDS AND ACCOUNTS SERVICE)

  • 서윤경;김상혁;민병희;최영실;안영숙;최고은;이기원;전준혁;박은미;황병한;정명우
    • 천문학논총
    • /
    • 제35권3호
    • /
    • pp.29-41
    • /
    • 2020
  • Korea has numerous astronomical resources, such as observational records, star maps, and a wealth of literature, covering the period from the Three Kingdoms (54 BC - 932 AD) to the Joseon Dynasty (1392 - 1910 AD). The research activities related to these resources have been limited to those by individual researchers. It is now necessary to conduct research by efficiently and systematically collecting and managing Korean astronomical records using an accessible Web environment. The purpose of this study is to complete a system that enables researchers systematically to collect and verify a large number of historical records related to astronomical phenomena in a Web environment. In 2017, a preliminary survey was conducted, and the requirements pertaining to an implementation target system were devised. In addition, a joint development plan was carried out by the developer, lasting three months in 2018. Although the system is relatively simple, it is the first system to be attempted in the historical astronomy field. In order to proceed with the systematic development, the software development methodology is applied to the entire process from deriving the requirements of researchers to completing the system. The completed system is verified through integrated function and performance tests. The functional test is repeated while modifying and testing the system based on various test scenarios. The performance test uses a performance measurement test tool that takes measurements by setting up a virtual operation environment. The developed system is now in normal operation after a one-year trial period. Researchers who become authorized to use the system can use it to verify the accuracy of data and to suggest improvements. The collected feedback will be reflected in future systems, and Korean astronomical records will be available for use internationally through a multilingual service.