• 제목/요약/키워드: Voice and Text Analysis

검색결과 68건 처리시간 0.028초

구문 의미 이해 기반의 VOC 요약 및 분류 (VOC Summarization and Classification based on Sentence Understanding)

  • 김문종;이재안;한규열;안영민
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.50-55
    • /
    • 2016
  • VOC(Voice of Customer)는 기업의 제품 또는 서비스에 대한 고객의 의견이나 요구를 파악할 수 있는 중요한 데이터이다. 그러나 VOC 데이터는 대화체의 특징으로 인해 내용의 분절이나 중복이 다수 존재할 뿐 아니라 다양한 내용의 대화가 포함되어 유형을 파악하는데 어려움이 있다. 본 논문에서는, 문서에서 중요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하였고, 이를 바탕으로 문장의 구조 및 의미를 이해하기 위한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이해 기반의 주요 문장을 요약문으로 추출하였다. 요약문을 생성함에 있어 분절된 문장을 연결하고 중복된 의미를 갖는 문장을 줄이는 방법을 제안하였다. 또한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하였다. 실험에서는 VOC 데이터를 대상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하였다.

HSI 컬러 공간과 신경망을 이용한 내용 기반 이미지 검색 (Content-based Image Retrieval Using HSI Color Space and Neural Networks)

  • 김광백;우영운
    • 한국전자통신학회논문지
    • /
    • 제5권2호
    • /
    • pp.152-157
    • /
    • 2010
  • 컴퓨터와 인터넷의 발달로 정보의 형태가 다양화 되어 문서 위주의 자료들로부터 이미지, 오디오, 비디오, 음성 등의 모습으로 혼합되어 가고 있다. 하지만 대부분의 검색은 문서 위주로 하기 때문에 이미지, 오디오, 비디오 등은 파일의 이름이 명확하게 설정되어 있지 않을 경우에는 검색을 할 수 없다. 이러한 문제점을 해결하기 위해 문서가 아닌 내용을 기반으로 검색하는 방법을 내용 기반 검색이라고 한다. 그리고 이미지의 내용을 기반으로 검색하는 방법을 내용 기반 이미지 검색이라고 한다. 본 논문에서는 HSI 컬러 공간, ART2 알고리즘, SOM 알고리즘을 이용한 내용 기반 이미지 검색 방법을 제안한다. 제안하는 방법은 학습 대상을 선정하기 위해 원 영상의 특징을 분할한다. 그리고 사용자가 학습 대상을 선정하도록 하기 위해 분할된 특징을 SOM 알고리즘에 적용하여 비슷한 특징을 가지는 영상들로 군집화 한다. 군집화된 영상들에 대해 사용자가 학습 대상을 선정하여 ART2 알고리즘에 적용하여 학습한다. 제안한 방법을 적용하여 이미지 검색을 실험한 결과 제안된 방법은 하나의 이미지가 여러 개의 키워드를 가질 수 있기 때문에 이미지에 포함된 정보를 효과적으로 검색하는 것을 확인하였다.

음소단위를 이용한 소규모 문자-음성 변환 시스템의 설계 및 구현 (Design and Implementation of Simple Text-to-Speech System using Phoneme Units)

  • 박애희;양진우;김순협
    • 한국음향학회지
    • /
    • 제14권3호
    • /
    • pp.49-60
    • /
    • 1995
  • 본 논문은 소규모 시스템에 적용 가능한 한국어 문자-음성 변환 시스템의 설계 및 구현에 대한 연구를 목적으로 한다. 본 논문에서 채택한 음성합성 방법은 파라메터 합성법으로서 LPC(linear Predictive Coding)계열의 PARCOR(PARtial autoCORrelation) 계수를 음향 파라메터로 사용하였으며, 음성합성 단위로는 가장 기본적인 단위인 음소를 채택하였다. 합성 파라메터로는 유성음의 경우 PARCOR계수, 피치, 진폭을 무성음의 경우 잔차신호와 PARCOR계수를 사용하였다. 특히 무성음의 경우 LPC합성시 음질이 떨어진다는 단점이 있었으나, 본 논문에서는 LPC분석시 얻어지는 잔차신호를 무성음의 여기신호로 사용하여 단어 단위의 합성에서 60%의 이해도를 얻을 수 있었다. 합성결과 단어 단위의 합성에 적용 가능하였고, 문장단위의 합성을 위해서는 음소 지속시간 조절에 대한 연구가 진행되어야 할것이다. 본 논문의 구현환경으로는 486 PC상에서 음성의 입,출력을 위해 70[Hz]-4.5[KHz] 대역통과 필터와 증폭기, 그리고 TMS320C30 디지털 신호처리 프로세서를 장착한 DSP 보드를 사용하였다.

  • PDF

Integrated Media Platform-based Virtual Office Hours Implementation for Online Teaching in Post-COVID-19 Pandemic Era

  • Chen, Mingzi;Wei, Xin;Zhou, Liang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권8호
    • /
    • pp.2732-2748
    • /
    • 2021
  • In post-COVID-19 pandemic era, students' learning effects and experience may sharply decrease when teaching is transferred from offline to online. Several tools suitable for online teaching have been developed to guarantee and promote students' learning effects. However, they cannot fully consider teacher-student interaction in online teaching. To figure out this issue, this paper proposes integrated media platform-based virtual office hours implementation for online teaching. Specifically, an integrated media platform (IMP) is first constructed. Then, virtual office hours (VOH) is implemented based on the IMP, aiming at increasing student-teacher interactions. For evaluating the effectiveness of this scheme, 140 undergraduate students using IMP are divided into one control group and three experimental groups that respectively contain text, voice and video modes. The experiment results indicate that applying VOH in the IMP can improve students' online presence and test scores. Furthermore, students' participating modes during VOH implementation can largely affect their degree of presence, which can be well classified by using principal component analysis. The implication of this work is that IMP-based VOH is an effective and sustainable tool to be continuously implemented even when the COVID-19 pandemic period ends.

Comparative Analysis of Speech Recognition Open API Error Rate

  • Kim, Juyoung;Yun, Dai Yeol;Kwon, Oh Seok;Moon, Seok-Jae;Hwang, Chi-gon
    • International journal of advanced smart convergence
    • /
    • 제10권2호
    • /
    • pp.79-85
    • /
    • 2021
  • Speech recognition technology refers to a technology in which a computer interprets the speech language spoken by a person and converts the contents into text data. This technology has recently been combined with artificial intelligence and has been used in various fields such as smartphones, set-top boxes, and smart TVs. Examples include Google Assistant, Google Home, Samsung's Bixby, Apple's Siri and SK's NUGU. Google and Daum Kakao offer free open APIs for speech recognition technologies. This paper selects three APIs that are free to use by ordinary users, and compares each recognition rate according to the three types. First, the recognition rate of "numbers" and secondly, the recognition rate of "Ga Na Da Hangul" are conducted, and finally, the experiment is conducted with the complete sentence that the author uses the most. All experiments use real voice as input through a computer microphone. Through the three experiments and results, we hope that the general public will be able to identify differences in recognition rates according to the applications currently available, helping to select APIs suitable for specific application purposes.

피싱에 대한 분석 및 대응방안에 대한 연구 (A Study of the Analysis and Countermeasure about the Phishing Scam)

  • 강현중
    • 융합보안논문지
    • /
    • 제14권5호
    • /
    • pp.65-74
    • /
    • 2014
  • 유선전화로 시작된 피싱 사기는 스미싱, 파밍 등으로 계속 진화하고 있다. 우리가 유 무선 통화, 문자, 이메일, 온라인 뱅킹 등을 편리하게 이용하고 있는 만큼 그에 따라 해킹 및 피싱 사기 공격의 종류도 진화하고 다양해지고 있는 것이다. 본 논문에서는 그에 따라 피싱의 종류에 따른 공격방법을 살펴보고 그에 따른 일반적인 예방대책을 살펴본다. 그리고 사용자들이 직접적으로 느낄 수 있는 실질적인 예방대책과 정부에서 추진할 수 있는, 장기적인 대책을 제시하였다. 계속 진화하는 피싱 사기를 단기간 내에 박멸하기는 어려우며 정부의 장 단기적인 대책과 기술개발 그리고 지속적인 홍보 등이 해결책이 될 것이다. 물론 SNS를 비롯한 인터넷상의 매체들도 홍보에 큰 도움이 되고 있다. 아울러 새로 개발되는 서비스기술들은 보안상의 허점이 없도록 다시 한번 살펴서 기술개발이 이루어져야 할 것이다.

프로세싱에서 삼각함수 공식을 응용한 장식적 타입페이스 제안 (Voice Activity Detection Algorithm using Wavelet Band Entropy Ensemble Analysis in Car Noisy Environments)

  • 전혜연
    • 한국멀티미디어학회논문지
    • /
    • 제20권12호
    • /
    • pp.1992-1999
    • /
    • 2017
  • This study proposes a decorative typeface which is produced through the concept of trigonometric functions in an open-source programming language known as Processing. First, the theoretical background of Processing and trigonometric functions as well as previous research in this area are analyzed. Second, basic modules of 'V', 'I', 'O', and 'M' were created for use as the final alphabet typeface with the concept of a trigonometric function. Third, a decorative parabolic curve that encircles the base module was created. Finally, the modules created on Processing were edited in Adobe Illustrator to create a typeface set with characters from A to Z. Various artworks using Programming can produce an infinite number of different versions by modifying only some of the variables and codes, and this method can include multimedia features such as text, images, videos, interactive art and various forms of content and media. Therefore, with regard to expression, the possibilities are endless. In this study, I attempt to expand the field of visual culture using programming and computational methodologies. In contrast to the digital typeface production method, which relies on existing graphic tools, this study is meaningful because it expands the range of use of decorative typefaces.

현대 뮤지컬 보컬 테크닉의 융합적 특징 - 'The Girl in 14G' 분석을 중심으로 - (Convergence Characteristics of Contemporary Musical Vocal Techniques - Focusing on the Analysis of 'The Girl in 14G' -)

  • 이은혜
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권4호
    • /
    • pp.157-166
    • /
    • 2021
  • 본 연구는 뮤지컬 보컬 수업에 있어 다양한 발성법을 익히고 학생들에게 적용시키기 위해 동시대에 나타나는 발성법과 노래의 특징을 파악하기 위함이다. 뮤지컬 보컬 발성법은 시대의 요구에 따라 변화하며 진화하고 있다. 오늘날 현대 뮤지컬의 특징은 어느 한 장르로 국한 할 수 없으며 작품 양식과 더불어 음악의 장르도 여러 장르로 파생되어 공존한다. 본 연구의 대상인 'The Girl in 14G'는 다양한 보컬 창법을 구사하는 미국의 유명 뮤지컬 배우인 크리스틴 체노웨스(Kristin Chenoweth)의 앨범에 실린 노래이다. 이 노래의 작곡자인 제닌 테소리(Jeanine Tesori)는 이 노래에서 뉴욕을 대표하는 음악 장르인 '브로드웨이 뮤지컬, 메트로폴리탄 오페라, 이스트 빌리지 재즈'를 표현하기 위해, '성악 창법(Classical Voice), 재즈(Jazz), 벨팅(Belting) 창법, 믹스드 보이스(Mixed Voice)'의 다양한 보컬 테크닉으로 작곡하였다. 노래의 전개는 1명의 배우가 3가지 음악 스타일과 창법으로 3명의 다른 인물을 넘나들며 연기해야 하는 어려운 과정으로 구성되어 있다. 'The Girl in 14G'를 부르기 위해서는 다양한 보컬 테크닉의 습득이 필요한 만큼 많은 노력과 연습이 필요하며, 교육적 측면에서 학생과 배우에게 좋은 텍스트라 할 수 있다. 결과적으로 연구를 통해 이 노래는 탄탄한 음악적, 극적 구성을 갖는 대표적인 노래로써 현대 뮤지컬 보컬 테크닉의 융합적 특징을 잘 보여주는 예임을 확인 할 수 있었다.

사회정책연구에 있어 담론연구의 위상과 의미 (The Methodological Standpoint and the Meaning of "Discourse Study" in Social Policy Research)

  • 우아영
    • 한국사회복지학
    • /
    • 제61권2호
    • /
    • pp.247-276
    • /
    • 2009
  • 이 글은 사회정책연구에 있어 담론연구를 위한 서설로, 담론연구의 철학적 배경을 간단히 정리하고, "정책"을 무엇으로 볼 것인가, "정책"을 어떻게 이해할 것인가, "정책연구자"는 어디에 위치하며 무엇을 해야 하는가의 내용을 통해 담론연구의 방법론적 위상과 의미를 살펴본다. 담론연구는 텍스트, 맥락, 담론, 이데올로기로서의 정책과, 복합적이고 역동적인 정치의 장에서 일어나는 정책현상을 해석적이며 비판적으로 이해한다. 정책현실에 대한 이같은 이해는 정책연구에 있어 '논증적 전환'을 가져왔고, 이와 같은 사유방식은 논리실증주의에 기반한 기존의 가치중립적이고 인과적 설명 방식을 취하며 보편적 법칙을 추구하는 방법론과는 구별된다. 이같은 인식론적 입장은 주체와 객체의 관계를 상호주관적이고 호혜적 구성관계로 보며, 정책현실과 정책대상을 담론의 구조 안에서 제한적으로 구성된 실체로 본다. 담론연구는 지배담론의 질서 내에서 문제가 어떻게 규명되고 현실이 어떻게 재단되며 정책대상이 어떻게 규정되는지를 해체하는데 주목한다. 이 해체의 과정은 담론질서가 품고 있는 권력성에 대한 비판적 인식과 담론구조 내 한계를 가질 수 밖에 없는 사유주체로서의 연구자 스스로에 대한 반성적 성찰을 포함한다. 또한 담론연구자는 사회정책의 중심에 자리하고 있는 사회적 약자의 '형식과 과정'으로서의 참여 뿐 아니라 그들 목소리를 '내용'으로 하는 대안담론의 가능성을 모색한다. 이러한 참여와 소통 그리고 반성적 성찰은 정책연구에 있어 해방적 관심을 의미한다.

  • PDF

텍스트 마이닝 기반 사용자 경험 분석 및 관리: 스마트 스피커 사례 (User Experience Analysis and Management Based on Text Mining: A Smart Speaker Case)

  • 연다인;박가연;김희웅
    • 경영정보학연구
    • /
    • 제22권2호
    • /
    • pp.77-99
    • /
    • 2020
  • 스마트 스피커는 인공지능을 활용하여 음악, 일정, 날씨, 상품 등 다양한 정보와 콘텐츠들을 검색, 이용할 수 있는 대화형 음성 기반 서비스를 제공하는 기기이다. 인공지능 기술은 데이터가 축적될수록 이를 활용하여 더욱 정교하고 최적화된 서비스를 이용자에게 제공한다. 따라서 스마트 스피커 제조사들은 초기에 공격적인 마케팅을 통해 플랫폼 구축에 힘썼다. 하지만 스마트 스피커의 사용빈도는 월 1회 미만이 전체의 3분의 1 이상을 차지하고, 사용자 만족도도 49%에 그치는 것으로 나타났다. 이에 지속적인 이용활성화와 만족도 증진을 위해 스마트 스피커의 사용자 경험을 강화할 필요성이 대두되었다. 이에 본 연구에서는 스마트 스피커의 사용자 경험을 분석하고, 이를 바탕으로 스마트 스피커의 사용자 경험 강화 방안을 제시하고자 한다. 본 연구는 사용자가 직접 작성한 실제 리뷰 데이터를 수집하여 스마트 스피커 사용자 경험 차원을 기반으로 분석 결과를 해석했다는 점에서 의의가 있다. 또한 스마트 스피커 사용자 경험 차원을 개발하여 텍스트 마이닝 결과를 해석한 것에서 학술적 의의가 있다. 본 연구 결과를 통해 스마트 스피커 제조사에게 실무적으로 사용자 경험 강화를 위한 전략을 제안할 수 있다.