• 제목/요약/키워드: DB dictionary

검색결과 20건 처리시간 0.03초

코퍼스 기반 무제한 단어 중국어 TTS (Corpus Based Unrestricted vocabulary Mandarin TTS)

  • ;하주홍;김병창;이근배
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.175-179
    • /
    • 2003
  • In order to produce a high quality (intelligibility and naturalness) synthesized speech, it is very important to get an accurate grapheme-to-phoneme conversion and prosody model. In this paper, we analyzed Chinese texts using a segmentation, POS tagging and unknown word recognition. We present a grapheme-to-phoneme conversion using a dictionary-based and rule-based method. We constructed a prosody model using a probabilistic method and a decision tree-based error correction method. According to the result from the above analysis, we can successfully select and concatenate exact synthesis unit of syllables from the Chinese Synthesis DB.

  • PDF

음성출력/학습기능을 지원하는 컴퓨터용어 약어 전자사전 설계 (A Design of Electronic Dictionary for Computer English Abbreviation Supporting Voice and Study Functions)

  • 김홍섭;이현걸;김철호;이금석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.347-357
    • /
    • 1992
  • 컴퓨터용어에 대한 약어들을 기존 사건관리 방법에서 벗어나 컴퓨터에 수록하여, 음성을 포함한 한글 및 영문풀이 조회, 추가등록, 삭제, 수정을 가능케 하여 어휘변화 및 의미파악에 신속히 대처하고, 영문, 한글 단어를 이용한 약어검색 기능과 시스템에서 임의로 문제를 출제, 학습자 수준을 측정해볼 수 있는 컴퓨터 보조학습(CAI)과 knowledge base 교체시 타분야에서 활용이 가능하도록 DB화한 약어 전문가체제로, 업무 활용자(학습자)와 컴퓨터 상호작용에 의한 개인차를 극복할 수 있도록 컴퓨터용어 약어 전자사전을 설계하였다.

  • PDF

인터넷 쇼핑몰 니즈 분석 시스템의 설계 및 구현 (A Design and Implementation of Needs Analysis System in Internet Shopping Mall)

  • 박성훈;김진덕
    • 한국정보통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.2073-2080
    • /
    • 2015
  • 온라인에서 제품을 고르고 실질적인 구매는 오프라인에서 이루어지는 역 쇼루밍이 급격히 늘고 있다. 역 쇼루밍이 늘고 있다는 것은 이미지와 설명을 기반으로 한 인터넷 쇼핑몰의 사용자 분석에 한계가 있음을 의미한다. 따라서 대형 온라인 쇼핑몰은 고객 맞춤형 쇼핑정보를 제공하고 있으나, 단순히 고객이 검색하거나 구매한 상품을 나열하여 제공하여 준다. 따라서 사용자의 다양한 요구를 분석하고 적용할 수 있는 온라인 쇼핑몰이 필요하다. 본 논문에서는 새로운 니즈분석 시스템을 제안한다. 제안된 시스템은 사용자 정의 모듈과 후기 분석 모듈로 구성되어 있다. 전자는 두 개의 상품을 지정하고 개인별 사용자 선호도를 수집하며, 후자는 저장된 데이터베이스 사전을 이용하여 구매 상품의 후기를 분석한다. 구현된 시스템은 개별 사용자의 요구를 충족하는 상품을 추천할 수 있음을 보였다.

소셜 미디어 상 고객피드백을 위한 감성분석 (The Sensitivity Analysis for Customer Feedback on Social Media)

  • 송은지
    • 한국정보통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.780-786
    • /
    • 2015
  • SNS 등과 같은 소셜 미디어는 실시간으로 자발적인 고객의 의견들을 대거 포함하고 있어 최근 기업들은 효율적인 경영을 위해 소셜 미디어상의 빅 데이터를 분석하는 시스템을 이용하여 고객피드백에 관한 정보를 수집하고 분석하고 있다. 그러나 온라인 사이트에서 수집한 데이터는 띄어쓰기와 철자 오류가 많아 기존의 형태소 분석기로는 정확한 분석을 할 수 없다. 또한 온라인 상의 문장은 짧다는 특징이 있어 상호 정보량, 카이제곱 통계량 등과 같은 기존의 의미 선택 방법을 이용하게 되면 문장 내 선택 할 수 있는 의미의 부재로 인해 정확한 감성 분류를 할 수 없다는 문제점이 있다. 이러한 문제점들을 해결하기 위해서 본 논문에서는 초/중성 및 어절 패턴 사전을 이용해서 보정할 수 있는 모듈과 문장 내 품사의 우선순위를 이용한 의미 선택 방법을 제안한다. 이러한 방법으로 형태소 분석기에서 추출된 품사 정보를 기반으로 용언과 체언을 분리해서 분석 해당 품사에 종속적인 속성 DB 구축 한 후 학습에 의해 누적된 속성 DB를 사용하여 보다 정확한 긍/부정 감성을 추출한다.

데이터베이스의 효과적인 통합방안에 관한 연구 - Name Conflict의 식별을 중심으로- (A Study on the Effective Database Integration Methodology - The Identification of Name Conflict -)

  • 이홍걸;비가방언;부사천효지
    • 한국항해항만학회지
    • /
    • 제29권5호
    • /
    • pp.457-464
    • /
    • 2005
  • 물류환경에 있어서, 데이터베이스의 연계와 데이터베이스 통합의 문제는 매우 중요한 과제로 인식되어 왔다. 그러나, 여기에 대한 빈번한 문제제기에 비해 합리적인 데이터베이스 통합방안에 관한 학술적 측면의 연구는 아직까지 매우 미흡한 실정이다. 본 연구는 효과적인 DB통합법과 관련하여 개체 및 속성 간의 유사도 측정에 기반을 둔 계량화된 충돌 식별법을 제안하는 것을 연구의 목적으로 한다. 구체적으로, DB 통합 시 빈번히 발생하는 의미적 충돌(Semantic Conflict)현상인 이른바 "Name Conflict"의 식별을 위한 하나의 해결법으로서 개체 및 속성 간 종합적인 유사도를 측정하는 계량화된 식별법을 제안하고자 한다. 그리고, 간단한 예제를 통해 제안한 방안의 유효성과 식별방안을 가늠해 보고자 한다.

그룹 사용자간 안전한 콘텐츠 전송을 위한 검증자를 이용한 패스워드 기반 다자간 키 교환 프로토콜 (Verifier-Based Multi-Party Password-Authenticated Key Exchange for Secure Content Transmission)

  • 권정옥;정익래;최재탁;이동훈
    • 방송공학회논문지
    • /
    • 제13권2호
    • /
    • pp.251-260
    • /
    • 2008
  • 본 논문에서는 서로 다른 패스워드를 가지는 그룹의 구성원들이 자신의 패스워드만을 사용하여 공통된 그룹 키(세션 키)를 공유할 수 있는 패스워드의 검증자(verifier)를 이용하는 두 개의 패스워드 기반 다자간 키 교환 프로토콜을 제안한다. 공유된 키는 그룹 사용자간 안전한 콘텐츠 전송을 위해 사용될 수 있다. 제안 프로토콜들은 서버의 DB가 노출되었을 경우에 기존의 스킴들 보다 강한 안전성을 제공하도록 설계되었다. 첫 번째 제안 프로토콜은 전방향 안전성(forward secrecy)과 기지 키 공격에 대한 안전성(known-key secrecy)을 제공하며, 두 번째 제안 프로토콜은 추가적으로 서버에 대한 키 기밀성(key secrecy)을 제공한다. 제안 프로토콜들은 상수 라운드를 가지며 표준 모델(standard model)에서 안전성이 증명되었다. 기존에 서버의 DB 노출공격에 안전한 패스워드 기반 다자간 그룹 키 교환 프로토콜이 제안된 적이 없으며, 본 논문에서 처음으로 제안한다.

발음열 자동 변환을 이용한 한국어 음운 변화 규칙의 통계적 분석 (Statistical Analysis of Korean Phonological Rules Using a Automatic Phonetic Transcription)

  • 이경님;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.81-85
    • /
    • 2002
  • We present a statistical analysis of Korean phonological variations using automatic generation of phonetic transcription. We have constructed the automatic generation system of Korean pronunciation variants by applying rules modeling obligatory and optional phonemic changes and allophonic changes. These rules are derived from knowledge-based morphophonological analysis and government standard pronunciation rules. This system is optimized for continuous speech recognition by generating phonetic transcriptions for training and constructing a pronunciation dictionary for recognition. In this paper, we describe Korean phonological variations by analyzing the statistics of phonemic change rule applications for the 60,000 sentences in the Samsung PBS(Phonetic Balanced Sentence) Speech DB. Our results show that the most frequently happening obligatory phonemic variations are in the order of liaison, tensification, aspirationalization, and nasalization of obstruent, and that the most frequently happening optional phonemic variations are in the order of initial consonant h-deletion, insertion of final consonant with the same place of articulation as the next consonants, and deletion of final consonant with the same place of articulation as the next consonants. These statistics can be used for improving the performance of speech recognition systems.

  • PDF

Operational Experience in DB "TERMIN"

  • Shaburova, Natalya N.
    • Journal of Information Science Theory and Practice
    • /
    • 제7권3호
    • /
    • pp.21-30
    • /
    • 2019
  • Information about the formation and filling (in 2014 to 2016) of a terminological dictionary on electronics and radioengineering and collective work (in 2017 to 2018) with a data bank "TERMIN" is presented in this article. In purpose of creating an instrument of navigating the modern scientific-technical space a net of terms with set semantic links is described. This set is based on the analysis of terms' definitions (each term is checked for inclusion in the definitions of all other terms; the definitions were borrowed from reputable reference editions: encyclopedias, dictionaries, reference books). The created model of a system that consists of different information sources, in which it (information) is indexed by the terminology of Russian State Rubricator of Scientific and Technical Information rubrics and/or keywords, is described. There is an access for the search in all these sources in the system. Searching inquiries are referred to in the language of these rubrics or formulated by arbitrary terms. The system is to refer to information sources and give out relevant information. In accordance with this model, semantic links of various types, which allow expanding a search at different modalities of query, should be set among data bank terms. Obtained links will have to increase semantic matching, i.e., they can provide actual understanding of the meaning of the information that is being sought.

발음열 자동 생성기를 이용한 한국어 음운 변화 현상의 통계적 분석 (Statistical Analysis of Korean Phonological Variations Using a Grapheme-to-phoneme System)

  • 이경님;정민화
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.656-664
    • /
    • 2002
  • 본 논문에서는 한국어 발음열 자동 생성기를 이용하여 한국어의 음운 규칙에 대한 통계적 분석을 수행하였다. 실험에 사용한 발음열 자동 생성기는 한국어 음운 변화 현상에 대해 형태음운론에 기반 한 언어학적 분석과 문교부 표준어 규정의 표준 발음법에서 유도된 필수 및 수의적 음소 변동 규칙과 변이음 규칙의 단계적 적용 모델을 사용해서 구현되었으며, 특히 연속음성 인식을 위한 학습용 발음열과 인식용 발음사전 생성의 최적화를 목표로 하였다. 본 논문에서는 대어휘 연속음성 인식기의 음향 모델을 구축하기 위해 만들어진 삼성 PBS(Phonetically Balanced Sentence) 음성 데이터 베이스의 60,000문장에 적용된 발음열 생성기의 음소 변동규칙들의 분포 및 그 통계를 사용해서 한국어 음운 변화 양상을 분석하였다. 적용된 빈도수를 기준으로 분석한 결과, 필수음소 변동규칙의 경우는 연음법칙, 경음화, 격음화, 장애음의 비음화순으로, 수의적 음소 변동규칙의 경우는 초성 ㅎ 탈락, 중복 자음화, 동일 조음위치 자음탈락 순으로 음운 변화가 발생하였다. 이러한 적용 규칙들의 통계적 자료를 기반으로 한국어 음운 변화 양상을 파악할 수 있었으며, 나아가 본 논문의 연구 결과는 음성 인식 시스템을 개발하는데 유용하게 사용할 수 있을 것이다.

국방 빅데이터/인공지능 활성화를 위한 다중메타데이터 저장소 관리시스템(MRMM) 기술 연구 (A Research in Applying Big Data and Artificial Intelligence on Defense Metadata using Multi Repository Meta-Data Management (MRMM))

  • 신우택;이진희;김정우;신동선;이영상;황승호
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.169-178
    • /
    • 2020
  • 국방부는 감소되는 부대 및 병력자원의 문제해결과 전투력 향상을 위해 4차 산업혁명 기술(빅데이터, AI)의 적극적인 도입을 추진하고 있다. 국방 정보시스템은 업무 영역 및 각군의 특수성에 맞춰 다양하게 개발되어 왔으며, 4차 산업혁명 기술을 적극 활용하기 위해서는 현재 폐쇄적으로 운용하고 있는 국방 데이터 관리체계의 개선이 필요하다. 그러나, 국방 빅데이터 및 인공지능 도입을 위해 전 정보시스템에 데이터 표준을 제정하여 활용하는 것은 보안문제, 각군 업무특성 및 대규모 체계의 표준화 어려움 등으로 제한사항이 있고, 현 국방 데이터 공유체계 제도적으로도 각 체계 상호간 연동 소요를 기반으로 체계간 연동합의를 통해 직접 연동을 통하여 데이터를 제한적으로 공유하고 있는 실정이다. 4차 산업혁명 기술을 적용한 스마트 국방을 구현하기 위해서는 국방 데이터를 공유하여 잘 활용할 수 있는 제도마련이 시급하고, 이를 기술적으로 뒷받침하기 위해 국방상호운용성 관리지침 규정에 따라 도메인 및 코드사전을 생성된 국방 전사 표준과 각 체계별 표준 매핑을 관리하고 표준간 연계를 통하여 데이터 상호 운용성 증진을 지원하는 국방 데이터의 체계적인 표준 관리를 지원하는 다중 데이터 저장소 관리(MRMM) 기술개발이 필요하다. 본 연구에서는 스마트 국방 구현을 위해 가장 기본이 되는 국방 데이터의 도메인 및 코드사전을 생성된 국방 전사 표준과 각 체계별 표준 매핑을 관리하고, 표준간 연계를 통하여 데이터 상호 운용성 증진을 지원하는 다중 데이터 저장소 관리 (MRMM) 기술을 제시하고, 단어의 유사도를 통해 MRMM의 실현 방향성을 구현하였다. MRMM을 바탕으로 전군 DB의 표준화 통합을 좀 더 간편하게 하여 실효성 있는 국방 빅데이터 및 인공지능 데이터 구현환경을 제공하여, 스마트 국방 구현을 위한 막대한 국방예산 절감과 전투력 향상을 위한 전력화 소요기간의 감소를 기대할 수 있다.