• 제목/요약/키워드: word-net

검색결과 258건 처리시간 0.029초

음성인식에서 문맥의존 음향모델의 성능향상을 위한 유사음소단위에 관한 연구 (A Study on Phoneme Likely Units to Improve the Performance of Context-dependent Acoustic Models in Speech Recognition)

  • 임영춘;오세진;김광동;노덕규;송민규;정현열
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.388-402
    • /
    • 2003
  • In this paper, we carried out the word, 4 continuous digits. continuous, and task-independent word recognition experiments to verify the effectiveness of the re-defined phoneme-likely units (PLUs) for the phonetic decision tree based HM-Net (Hidden Markov Network) context-dependent (CD) acoustic modeling in Korean appropriately. In case of the 48 PLUs, the phonemes /ㅂ/, /ㄷ/, /ㄱ/ are separated by initial sound, medial vowel, final consonant, and the consonants /ㄹ/, /ㅈ/, /ㅎ/ are also separated by initial sound, final consonant according to the position of syllable, word, and sentence, respectively. In this paper. therefore, we re-define the 39 PLUs by unifying the one phoneme in the separated initial sound, medial vowel, and final consonant of the 48 PLUs to construct the CD acoustic models effectively. Through the experimental results using the re-defined 39 PLUs, in word recognition experiments with the context-independent (CI) acoustic models, the 48 PLUs has an average of 7.06%, higher recognition accuracy than the 39 PLUs used. But in the speaker-independent word recognition experiments with the CD acoustic models, the 39 PLUs has an average of 0.61% better recognition accuracy than the 48 PLUs used. In the 4 continuous digits recognition experiments with the liaison phenomena. the 39 PLUs has also an average of 6.55% higher recognition accuracy. And then, in continuous speech recognition experiments, the 39 PLUs has an average of 15.08% better recognition accuracy than the 48 PLUs used too. Finally, though the 48, 39 PLUs have the lower recognition accuracy, the 39 PLUs has an average of 1.17% higher recognition characteristic than the 48 PLUs used in the task-independent word recognition experiments according to the unknown contextual factor. Through the above experiments, we verified the effectiveness of the re-defined 39 PLUs compared to the 48PLUs to construct the CD acoustic models in this paper.

반복적 기법을 사용한 그래프 기반 단어 모호성 해소 (Graph-Based Word Sense Disambiguation Using Iterative Approach)

  • 강상우
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.102-110
    • /
    • 2017
  • 최근 자연어 처리 분야에서 단어의 모호성을 해소하기 위해서 다양한 기계 학습 방법이 적용되고 있다. 지도 학습에 사용되는 데이터는 정답을 부착하기 위해 많은 비용과 시간이 필요하므로 최근 연구들은 비지도 학습의 성능을 높이기 위한 노력을 지속적으로 시도하고 있다. 단어 모호성 해소(word sense disambiguation)를 위한 비지도 학습연구는 지식 기반(knowledge base)를 이용한 방법들이 주목받고 있다. 이 방법은 학습 데이터 없이 지식 기반의 정보을 이용하여 문장 내에서 모호성을 가지는 단어의 의미를 결정한다. 지식 기반을 이용한 방법에는 그래프 기반방식과 유사도 기반 방법이 대표적이다. 그래프 기반 방법은 모호성을 가지는 단어와 그 단어가 가지는 다양한 의미들의 집합 간의 모든 경로에 대한 의미 그래프를 구축한다는 장점이 있지만 불필요한 의미 경로가 추가되어 오류를 증가시킨다는 단점이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 그래프 구축을 위해 불필요한 간선들을 배제하면서 반복적으로 그래프를 재구축하는 모델을 제안한다. 또한, 구축된 의미 그래프에서 더욱 정확한 의미를 예측하기 위해 하이브리드 유사도 예측 모델을 적용한다. 또한 제안된 모델은 다국어 어휘 의미망 사전인 BabelNet을 사용하기 때문에 특정 언어뿐만 아니라 다양한 언어에도 적용 가능하다.

워드넷의 의미 관계 집합을 이용한 온톨로지 매핑 (Ontology Mapping using Semantic Relationship Set of the WordNet)

  • 곽정애;용환승
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권6호
    • /
    • pp.466-475
    • /
    • 2009
  • 다양한 온톨로지 개발로 온톨로지간에 정보공유와 재사용이 필요하게 되면서 온톨로지 매핑에 관련된 연구가 활발이 이루어지고 있다. 온톨로지 매핑 기법으로는 어휘 유사성, 구조 유사성, 인스턴스 유사성, 추론 유사성 검사 기법으로 나누어진다. 이 중 어휘 유사성 검사 기법은 대부분의 온톨로지 매핑 연구에서 사용하는 기법으로써 주로 워드넷에 정의되어 있는 동의어 집합만을 사용한다. 이에 본 연구에서는 워드넷에 정의되어 있는 동의어 집합 외에 상위어, 하위어, 전체어, 부분어 집합의 모든 단어들을 포함한 수퍼워드셋을 정의하고, 이것을 이용한 온톨로지 매핑 기법을 제안한다. 실험 결과에 의하면, 제안된 기법은 기존 온톨로지 매핑 기법보다 평균 12%까지 온톨로지 매칭율을 높인 것을 보여준다.

IPTV의 VOD 어노테이션을 위한 반자동 온톨로지 모델링 (Semi-automatic Ontology Modeling for VOD Annotation for IPTV)

  • 최정화;허길;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권7호
    • /
    • pp.548-557
    • /
    • 2010
  • 본 연구는 IPTV의 지능형 검색을 가능하게 하는 VOD 어노테이션을 위해 효율적인 반자동 온톨로지 모델링 기법을 제안한다. 제안하는 방법은 워드넷(WordNet)으로 부터 특정 도메인(또는 장르)을 대표하는 콘텐츠에 관련된 키워드의 상 하위어와 동의어에 해당하는 부분 트리를 추출하고, 워드넷에 없는 외래어, 한자어 등은 확장하여 콘텐츠 온톨로지를 구축한다. 이 온톨로지는 보편적 계층구조와 특정 계층구조를 생성한다. 전자는 콘텐츠와 관련 키워드를 제약 기술(description)을 포함하는 클래스로 정의한 어휘의 의미 모델이다. 후자는 생성된 모델에 함의관계(subsumption) 추론 기술을 적용하여 키워드를 관련있는 콘텐츠로 추론한 모델이다. 어노테이션은 이 온톨로지를 기반으로 VOD에 콘텐츠와 장르의 메타데이터를 의미 기반으로 생성한다. 보편적 계층구조는 서비스 도메인에 독립적으로 재사용이 가능하며, 특정 계층구조는 서비스 목적에 맞는 완전하고 함축적인 모델을 생성한다. 제안하는 방법은 서비스 도메인에 상관없이 적용 가능한 알고리즘이며, 2,400건의 테스트 데이터로 어노테이션 결과를 평가하여 82%의 정확도를 보였다.

온라인 브랜드 커뮤니티 내 부정적 감정들이 기업 혁신을 위한 고객 기여에 미치는 영향 (The Influence of Negative Emotions on Customer Contribution to Organizational Innovation in an Online Brand Community)

  • 정수연;이한준;서용무
    • 인터넷정보학회논문지
    • /
    • 제14권4호
    • /
    • pp.91-100
    • /
    • 2013
  • 최근 많은 기업들이 도입하는 온라인 브랜드 커뮤니티는 기업 혁신에 도움이 될 고객의 의견을 수집하는 데 유용하게 활용되고 있다. 본 논문은 온라인 브랜드 커뮤니티에 게시되는 다양한 의견들 중 부정적 감정을 담고 있는 고객의견이 기업 혁신에 기여하는데 미치는 영향력을 분석하였다. 이를 위해 먼저 부정적 감정을 Fear, Anger, Shame, Sadness, Frustration의 총 다섯 가지 세분화된 감정으로 분류하고 WordNet과 SentiWordNet을 기반으로 부정적 감정에 대한 감정 어휘군을 구축하였다. 실험을 위해 본 연구에서는 스타벅스의 브랜드 커뮤니티인 MyStarbucksIdea.com에서 81,534건의 고객의견을 수집하였으며 부정적 감정 어휘군을 활용하여 각 고객의견 내 부정적 감정 정보를 추출하였다. 부정적 감정의 유무, 빈도, 강도의 세 가지 측면에 따른 기업 혁신에 대한 영향력을 분석한 결과, 부정적 감정이 담긴 고객의견이 기업 혁신에 유의미한 영향력을 미치는 것으로 나타났으며 부정적 감정 중, Frustration과 Sadness의 감정이 기업 혁신에 긍정적인 영향을 가지고 있음을 확인할 수 있었다.

기계학습 기반 개체명 인식을 위한 사전 자질 생성 (Feature Generation of Dictionary for Named-Entity Recognition based on Machine Learning)

  • 김재훈;김형철;최윤수
    • 정보관리연구
    • /
    • 제41권2호
    • /
    • pp.31-46
    • /
    • 2010
  • 오늘날 정보 추출의 한 단계로서 개체명 인식은 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 개체명은 일반 단어와 달리 다양한 문서에서 꾸준히 생성되고 변화되고 있다. 이와 같은 개체명의 특성 때문에 여러 응용 시스템에서 미등록어 문제가 야기된다. 본 논문에서는 이런 미등록어 문제를 해결하기 위해 기계학습 기반 개체명 인식 시스템을 위한 새로운 자질 생성 방법을 제안한다. 일반적으로 기계학습 기반 개체명 인식 시스템은 단어 단위의 자질을 사용하므로 구절 단위의 개체명을 그대로 자질로 사용할 수 없다. 이 문제를 해결하기 위해 본 논문에서는 새로운 구절 단위의 정보를 단어 단위의 자질로 변환하는 자질 생성 방법을 제안하였다. 이 방법으로 개체명 사전과 WordNet을 개체명 인식의 자질로 사용할 수 있었다. 그 결과 영어 개체명 시스템은 F1 점수의 약 6%가 향상되었고 오류의 약 38%가 줄어들었다.

의미 애매성 해소를 이용한 WordNet 자동 매핑 (Automatic WordNet mapping using word sense disambiguation)

  • 이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.262-268
    • /
    • 2000
  • 본 논문에서는 어휘 의미 애매성 해소와 영어 대역어 사전 그리고 외국언어에 존재하는 개념체계를 이용하여 한국어 개념체계를 자동으로 구축하는 방법을 기술한다. 본 논문에서 사용하는 방법은 기존의 개념체계 구축 방법들에 비해 적은 노력과 시간을 필요로 한다. 또한 상기한 자동 구축 방법에서 사용하는 어휘 의미 애매성 해소를 위한 6가지 feature도 함께 설명한다.

  • PDF

지능형 전문가관리 프레임워크를 위한 주제 분야 계층 자동 생성

  • 양근우;이상로
    • 한국경영정보학회:학술대회논문집
    • /
    • 한국경영정보학회 2007년도 추계학술대회
    • /
    • pp.294-299
    • /
    • 2007
  • In this paper, we introduce the methodology for the automatic generation of the subject field hierarchy for Intellgent Expert Management Framework using WordNet. Intelligent Expert Management Framework, which is proposed as an appropriate method to manage valuable tacit knowledge within the organization, defines the expert profile structure and proposes the efficient method to automate the process to collect and update the expert profile information based on the profile structure defined. To increase the satisfaction level of users, additional intelligent search features are defined and users can be given the list of experts in related or similar expert fields when they perform expert searches based on the expert database being built. To enable automatic profiling of the organizational experts as well as intelligent expert searches, the subject field hierarchy, upon which the expert profiles are classified and expert searches for similar fields are performed, should be predefined. In this paper, we propose the WordNet library method that first eliminates the ambiguity of the senses of nominal data values, constructs the subject field hierarchy by overlapping the hypernym of the remaining senses, and lastly adjusts the derived hierarchy to the preference of users. Based on the proposed methodology, we expect to avoid the prohibitive costs in building large subject field hierarchies when manually done as well as maintain the objectivity of the hierarchies.

  • PDF

TagPlus: 폭소노미에서 동의어 태그를 이용한 검색 시스템 (TagPlus: A Retrieval System using Synonym Tag in Folksonomy)

  • 이선숙;용환승
    • 디지털콘텐츠학회 논문지
    • /
    • 제8권3호
    • /
    • pp.255-262
    • /
    • 2007
  • 태깅은 사용자들이 공유된 콘텐츠에 키워드의 형태로 메타 데이터를 추가하는 과정이다. 최근 이러한 태깅은 웹 상 에서 더 많은 사용자들에게 사용되어지고 있는 추세인데, 이런 태깅 사이트는 사용자가 북마크, 사진, 비디오 등의 콘텐츠에 태그를 추가할 수 있도록 한다. 본 논문에서는 사용자의 참여를 바탕으로 하는 태깅 시스템의 구조와 배경 지식 또 이런 시스템이 가지는 다양한 의미와 한계들을 분석한다. 또한 WordNet 데이터베이스의 동의어 집합을 태그의 검색에 적용한 TagPlus 시스템을 제안하고 Flickr 이미지 공유 시스템으로부터 동의어 태그 검색을 가능하도록 구현하였다.

  • PDF

Creation of the Conversion Table from Hangeul to the Roman Alphabet

  • Kim, Kyoung-Jing;Rhee, Sang-Burm
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.321-324
    • /
    • 2002
  • For a rule-based conversion of Hangout into the Roman alphabet rather than a word-for-word conversion, one must come up with a faultless model for the Korean standard pronunciation rules, which are the basis of the Romanization. It is on this foundation that the Korean-Roman alphabet conversion table can be created. For linguistic modeling using PetriNet, modeling boundary and notation of modeling can be defined. In order to describe PetriNet, which is a dynamic modeling tool, as a static one, one can model the standard Korean pronunciation rules and the Hangout-Roman alphabet notation by conversion into incident matrix Thus, this research attempts to develop a mathematical modeling tool for a natural language using PetriNet, and create a Korean-Roman alphabet conversion table.

  • PDF