• 제목/요약/키워드: 어휘데이터베이스

검색결과 79건 처리시간 0.021초

한글 두 글자 단어와 비단어의 어휘판단에 글자 빈도, 글자 유형, 받침이 미치는 영향: KLP 자료의 분석 (The Effect of Syllable Frequency, Syllable Type and Final Consonant on Hangeul Word and Pseudo-word Lexical Decision: An Analysis of the Korean Lexicon Project Database)

  • 신명석;박창호
    • 인지과학
    • /
    • 제34권4호
    • /
    • pp.277-297
    • /
    • 2023
  • 본 연구는 한국어 심성어휘 데이터베이스(KLP-DB)의 분석을 통해 글자 빈도, 글자의 모음 유형, 받침 유무 등 글자 수준 정보가 두 글자로 된 단어와 비단어의 어휘판단에 어떤 영향을 주는지를 알아보고자 하였다. 반응시간과 오반응률에 대한 위계적 회귀분석을 실시한 결과 단어의 어휘판단에는 단어빈도가 중대한 영향을 미치지만, 첫째 글자의 빈도, 첫째 글자와 둘째 글자의 모음 유형과 받침 유무와 같은 글자 속성이 영향을 미쳤고, 두 글자의 모음 유형의 조합 및 둘째 글자의 빈도와 받침 유무의 조합도 영향을 주었다. 비단어의 어휘판단에는 첫째 글자와 둘째 글자의 빈도, 첫째 글자의 모음 유형, 첫째 글자와 둘째 글자의 받침 유무와 같은 글자 속성이 영향을 미쳤고, 두 글자의 사용빈도의 조합, 모음 유형의 조합, 및 첫째 글자의 빈도와 받침의 조합도 영향을 주었다. 단어빈도는 단어의 어휘판단에서 강력한 영향을 미쳤으며, 글자속성은 단어보다 비단어의 판단에서 더 일관적인 영향을 미쳤다. 본 연구의 결과는 어휘판단과제에서 단어와 비단어 목록의 구성 및 반응시간의 해석에 글자 속성의 문제를 충분히 고려해야 함을 가리킨다. 글자 속성의 효과에 대한 이해는 단어 재인 과정의 이해에도 기여할 것이다.

GMM 음소 단위 파라미터와 어휘 클러스터링을 융합한 음성 인식 성능 향상 (Speech Recognition Performance Improvement using a convergence of GMM Phoneme Unit Parameter and Vocabulary Clustering)

  • 오상엽
    • 융합정보논문지
    • /
    • 제10권8호
    • /
    • pp.35-39
    • /
    • 2020
  • DNN은 기존의 음성 인식 시스템에 비해 에러가 적으나 병렬 훈련이 어렵고, 계산의 양이 많으며, 많은 양의 데이터 확보를 필요로 한다. 본 논문에서는 이러한 문제를 효율적으로 해결하기 위해 GMM에서 모델 파라메터를 가지고 음소별 GMM 파라메터를 추정하여 음소 단위를 생성한다. 그리고 이를 효율적으로 적용하기 위해 특정 어휘에 대한 클러스터링을 통해 성능을 향상시키기 위한 방법을 제안한다. 이를 위해 3가지 종류의 단어 음성 데이터베이스를 이용하여 DB를 가지고 어휘 모델을 구축하였고, 잡음 처리는 워너필터를 사용한 특징을 추출하여 음성 인식실험에 사용하였다. 본 논문에서 제안한 방법을 사용한 결과 음성 인식률에서 97.9%의 인식률을 나타내었다. 본 연구에서 개선된 오버피팅의 문제점을 향상시킬 수 있는 추가적인 연구를 필요로 한다.

한국어 개념사전의 구축에 관한 연구 (A Study on the Construction of a Korean Concept Dictionary)

  • 김수정;김태수
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.239-242
    • /
    • 1998
  • 개념 정보를 제공하는 어휘 데이터베이스로 WordNet, CYC, EDR등이 출현하였다. 본 연구는 WordNet의 개념 기술 방식에 따라 한국어 개념 사전을 구축하기 위한 것이다 우선 개념을 분류할 적절한 분류 체계를 설정하고, 연세 말뭉치에서 빈도수가 높은 상위 300개 명사를 추출하여 사전의 뜻풀이에 나타난 명사와 연관관계로 표시된 명사를 함께 제시함으로써 개념을 표현하였다. 이러한 한국어 개념 사전은 의미모호성을 해소하는데 기여할 수 있을 것이다.

  • PDF

의사형태소 단위 대어휘 연속 음성 인식기 개발 (Development of a Pseudomorpheme-Based Large Vocabulary Continuous Speech Recognizer)

  • 권오욱
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.320-327
    • /
    • 1998
  • 대어휘 연속음성인식을 목표로 개발한 의사형태소 단위의 인식기를 기술하였다. 먼저 의상형태소를 정의하고, 의사형태소 태거를 간단히 기술하며, 의사형태소의 병합에 의한 인식단위 결정방법, 의사형태소 단위 인식기에서 특히 고려되어야 할 음향모델링, 품사 정보를 이용한 언어모델 및 어절규칙의 적용 방안, 의사형태소 단위 인식을 위한 새로운 탐색기 구조를 기술한다. 약 5,500 어절의 인식어휘를 갖는 여행계획 영역의 대화체 연속음성 데이터베이스를 이용하여 초벌 인식실험을 한 결과, 의사형태소 단위의 인식기의 단어인식률은 66.4%, 어절인식률은 60.0%를 나타내었다.

  • PDF

한중일영 다국어 어휘 데이터베이스의 모형

  • 차재은;강범모
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 학술대회 발표논문집
    • /
    • pp.48-67
    • /
    • 2002
  • This paper is a report on part of the results of a research project entitled "Research and Model Development for a Multi-Lingual Lexical Database". It Is a six-year project in which we aim to construct a model of a multilingual lexical database of Korean, Chinese, Japanese, and English. Now we have finished the first two-year stage of the project In this paper, we present the goal of the project, the construction model of items in the lexical database, and the possible (semi-)automatic methods of acquisition of lexical information. As an appendix, we present some sample items of the database as an i1lustration.

  • PDF

결합범주문법을 이용한 자연언어 인터페이스 (Natural Language Interface with Combinatory Categorial Grammar)

  • 이호동;박종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.173-175
    • /
    • 2000
  • 본 연구에서는 전자상거래 데이터베이스를 대상으로 결합범주문법을 이용한 자연언어질의 인터페이스를 구현한다. 이를 위해 질의문을 분석하고 표현 방법을 논의한다. 또한 SQL 형식언어로 변환하기 위한 어휘 표현 및 유도 방법을 보인다. 제안하는 방법은 구문분석 과정에서 SQL 형식의 질의문을 직접 유도하는 것으로 기존 연구에서 제안됐던 중간논리언어 변환단계를 거치지 않으므로 과정이 간결해져 시스템의 성능향상을 가져올 수 있다. 시스템은 웹 기반과 client/server 구조로 구현된다.

  • PDF

인식 및 합성용 음성 코퍼스의 발성 목록 설계 (Design of the Linguistic Contents of Speech Corpus for Speech Recognition and Synthesis)

  • 김형주;김봉완;이용주
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 춘계학술발표논문집(상)
    • /
    • pp.330-335
    • /
    • 2002
  • 최근 컴퓨터와 인간간의 대화 수단으로 음성을 활용하는 기술인 음성정보기술이 발달함에 따라 대어휘 연속 음성 인식 및 무제한 어휘 음성 합성의 고도화를 위한 연구가 진행되고 있다. 음성 인식의 경우 HMM으로 대표되는 통계적 수법의 발달에 따라 시스템의 학습을 위해 대량의 음성데이터가 필요하며, 음성 합성의 경우에도 최근 대형의 음성 데이터 베이스로부터 임의 길이의 음성 부분을 골라내어 접속함으로써 좋은 합성 품질을 얻고 있다. 본 논문에서는 이러한 음성 인식 및 합성을 위해 공동으로 사용하기 위한 음성 데이터베이스의 발성 목록을 설계하고 설계된 결과에 대하여 논의한다.

  • PDF

웹게임 기반 온라인 설문조사 방법론 -공간배색과 감성언어를 중심으로- (Methodology of Online Survey Questionnaire based on Webgame towards Spacial Color Combination and Affective Word)

  • 강승묵;김해윤;박경수;박영성
    • 한국콘텐츠학회논문지
    • /
    • 제10권7호
    • /
    • pp.133-141
    • /
    • 2010
  • 본 연구의 목적은 웹 게임을 이용한 새로운 온라인 설문조사방법을 제시하는 것이다. 이는 웹 게임에서 실제로 사용되는 배경을 중심으로 공간 디자인 요소와 감성언어 간의 상관관계를 규명하고 데이터베이스 시스템을 구축하여 기존 온라인 설문조사방법의 한계인 불성실한 응답의 문제를 극복하는 새로운 조사방법론 제시 하는 것이다. 이를 위해서 관련 문헌을 고찰하고 기존 텍스트 기반의 설문 조사 방법과 온라인 설문조사의 장단점을 비교하여 그 단점에 해당하는 오류를 개선할 수 있는 웹 게임 기반의 온라인 설문조사 방법을 도출하였다. 이는 주거 전통 상업 환타지 등 4가지 공간과 감성어휘들 간의 상관관계를 가우스분포의 위치 결정값을 기초로 감성어휘 데이터베이스가 구현되었다. 본 연구는 소비자 선호도 조사와 같은 모집단 예측 시스템에 활용할 수 있을 것을 시사한다.

신사복 재킷디자인의 감성 및 형상 데이터베이스를 이용한 제품검색 시스템 개발에 관한 연구 (The Development of a System for Product Search Using a Sensibility and Configuration Database on Designing Men's Jackets)

  • 박윤아
    • 대한가정학회지
    • /
    • 제44권4호
    • /
    • pp.133-144
    • /
    • 2006
  • The contemporary period is called "the age of sensibility" in which each individual consumer seeks to have her or his own products. Businesses are in need of design developments with an emphasis on customer sensitivity, and at the same time consumers must understand their own sensitivity to acquire information on designs that suit them. This research established a sensitivity and configuration database on designing men's jackets using the sensitivity engineering approach to clothing design information. The user interface was created on the Internet. Sixty-seven sensitivity terms of vocabulary appropriate for the assessment of men's jacket design were selected, and the different designs were classified into six items and 24 categories. Thirty men's jackets with different designs were produced for sensory testing and the results were analyzed in accordance with general linear I statistics. A sensitivity database was established for each category. My-sql, PHP, Java Script, and Html were used for the configuration database work. The configuration of items/categories, with the most appropriate sensitivity database information assigned to the selected sensitivity vocabulary, was programmed for display on the computer screen. The sensitivity vocabulary of a customer's choice for each factor was selected for the program to run, while the category and product configuration of the men's jacket most suitable for the search was displayed based on the user interface.

우리말 시소러스 작성(作成)에 관한 연구(硏究) (A Study on Constructing Korean Language Thesaurus)

  • 김태중
    • 정보관리연구
    • /
    • 제21권1호
    • /
    • pp.53-75
    • /
    • 1990
  • 정보검색(情報檢索)시스템에서 통제어휘(統制語彙)는 재현율을 높이고 색인자(索引者) 또는 이용자(利用者)가 적합한 용어(用語)를 선정하는데 도움을 준다. 시소러스는 통제어휘집(統制語彙集)의 한 형태로 대부분의 데이터베이스 제작자(製作者)들이 사용하고 있다. 이 연구(硏究)의 목적(目的)은 우리말 시소러스의 작성방법(作成方法)을 개발(開發)하는 것이며 다음과 같은 내용(內容)을 다루었다. 1) 시소러스의 정의(定義), 2)시소러스 작성이론(作成理論)에 관한 문헌조사(文獻調査)와 검토(檢討), 3) 실제적인 시소러스 작성방법(作成方法) 제시(提示), 4) 시소러스의 출력형태(出力形態), 5) 실험(實驗) 및 실험결과(實驗結果)

  • PDF