• 제목/요약/키워드: 단어 데이터베이스

검색결과 208건 처리시간 0.031초

형태소분석에 기초한 수화영상변환시스템에 관한 연구 (Sign Language Transformation System based on a Morpheme Analysis)

  • 이용동;김형근;정운달
    • 한국음향학회지
    • /
    • 제15권6호
    • /
    • pp.90-98
    • /
    • 1996
  • 본 논문에서는 한글의 형태소 분석에 기초한 청각장애자용 수화영상 변환시스템을 제안하였다. 제안된 시스템은 입력 문자열에 대해 형태소 분석에 의한 음운성분과 접속정보를 추출한 다음, 이에 대응한 수화영상을 구축된 수화영상 데이터베이스를 통하여 정확히 출력한다. 효과적인 수화영상변환을 위해 입력문자열에 대한 형태소 분석부와 수화패턴 참조를 위한 수화언어기술부로 이루어진 언어정보기술사전을 구성하였다. 수화패턴은 중복을 피하기 위해 기본수화, 복합수화 그리고 유사수화단어로 분류하여 작성하였으며, 실험을 통해 제안된 시스템의 유용성을 확인하였다.

  • PDF

다중색인에 의한 정보검색 시스템 구현 (Implementation of an Information Retrieval System with Multiple Indexing)

  • 이준영;강상배;양장모;박승;박현주;김민정;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-67
    • /
    • 1996
  • 이 논문에서는 대량의 신문기사나 일반 텍스트 문서를 효율적으로 저장 및 검색 할 수 있는 정보검색 시스템을 구현한다. 이 시스템은 문서의 주제, 저자, 날짜, 출판사 또는 사용자 정의에 의한 속성과 본문에 대한 색인어와 색인관련정보를 생성한다. 모든 색인어는 최대 64가지의 속성정보와 문서별 단어빈도(tf)를 가질 수 있다. 색인은 형태소 분석을 이용하는 방법과 N-gram을 이용하는 방법이 동시에 사용되며, 색인어는 가중치를 가진다. 이 논문에서 구현한 시스템을 이용하여 7개월치 신문자료를 색인한 결과, 생성된 데이터베이스의 크기는 원래 문서의 약 22%이며 문서의 개수가 증가함에 따라 점점 그 비율은 감소한다.

  • PDF

한국어 어휘 인식을 위한 혼합형 음성 인식 단위 (Monophone and Biphone Compuond Unit for Korean Vocabulary Speech Recognition)

  • 이기정;이상운;홍재근
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권6호
    • /
    • pp.867-874
    • /
    • 2001
  • 본 논문에서는 한국어의 발음 특성을 고려하여 인식시간 단축과 동시에 조음현상을 반영할 수 있는 인식단위 표현법을 제안하였다. 제안한 인식단위는 단음소(monophone)와 바이폰(biphone)의 혼합형으로서, 단음소 단위는 안정적인 특성을 나타내는 모음에 적용되고 바이폰 단위는 인접한 모음에 의해 변하는 자음에 적용된다. PBW455 데이터베이스에 대한 단어인식 실험에서 혼합형 단위표현법은 트라이폰 단위에 비해 비슷한 인식률을 나타내면서 57%의 인식시간 단축효과를 나타냈고, 음절 단위에 비해 향상된 인식률과 비슷한 인식시간을 나타내었다. 또한 트라이폰 및 음절 단위보다 적은 모델 수를 가져 메모리 양을 줄일 수 있었다.

  • PDF

연관속성개념공간으로의 사상을 이용한 단백질 상호작용 예측 (Prediction of Protein Interactions using the Associative Feature Concept Space Mapping)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.73-75
    • /
    • 2006
  • 생물체 내에서 중요 생물학적 기능을 수행하는 기본 단위인 단백질 및 이들의 상호작용 대한 많은 연구가 이루어져 다양한 생물체에 대한 단백질 상호작용 데이터베이스가 구축되었다. 본 논문에서는 효모에 대해 공개되어있는 단백질 상호작용 데이터를 이용하여 새로운 단백질 상호작용을 예측하는 방법을 제안한다. 논문에서는 문헌에서 연관 정보를 효율적으로 찾아내기 위하여 제안된 연관개념공간 탐색 방법을 확장하여 단백질 상호작용 예측에 사용한다. 단백질들은 각각이 가지는 다양한 속성들의 벡터로 간주되며, 상호작용은 해당 단백질들의 연관성을 통해 이루어지는 것으로 표현된다. 상호작용하는 두 단백질들의 속성은 단어의 공동 출현과 같이 고려되어 단백질 상호작용은 두 단백질 벡터의 요소로 표현되고 벡터의 요소 속성들 간의 연관성을 표현하기 위해 연관속성개념공간으로 사상되어 공간상의 거리 기반으로 연관속성을 추출한다. 추출된 연관속성을 최대로 포함하는 단백질들 간의 상호작용을 예측하는 방식으로 단백질 상호작용을 예측한다. 논문에서 제안한 방법은 효모의 단백질 상호작용 예측에 대해 평균 약 91.8%의 예측 정확도를 보여, 연관속성개념공간을 이용한 방법이 단백질 상호작용을 예측하는 또 다른 대안으로 사용 될 수 있음을 확인하였다.

  • PDF

NDSL 검색 질의어와 기술용어간의 관계에 대한 분석적 연구 (A Relation Analysis between NDSL User Queries and Technical Terms)

  • 강남규;조민희;권오석
    • 정보관리연구
    • /
    • 제39권3호
    • /
    • pp.163-177
    • /
    • 2008
  • 본 논문에서는 NDSL을 검색하기 위해 이용자가 입력하는 검색 질의어를 대상으로 질의어에 사용되는 키워드와 학술지에서 추출한 기술용어와의 관계를 분석하고자 한다. 관계 분석을 위해 사용된 키워드는 17개월 동안의 NDSL 검색 질의어에서 추출한 약 83만3,000개, 기술용어는 NDSL, INSPEC, FSTA 3개 영문 학술지 데이터베이스 약 4,100만건에서 추출한 약 97만5,000개이다. 그리고 분석에 사용된 키워드와 기술용어는 2어절 이상의 영어 단어이며, 이들 간의 관계 분석은 키워드와 기술용어간의 일치성, 연관성, 기술용어에 대한 빈도 분석 등이다.

효과적인 웹 문서 변경도 측정 방법 (An Effective Metric for Measuring the Degree of Web Page Changes)

  • 권신영;김성진;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권5호
    • /
    • pp.437-447
    • /
    • 2007
  • 다양한 유사도 측정 방법들이 웹 문서의 변경도 측정에 사용되어 왔다. 본 논문은 여섯 가지 웹 문서 변경 종류에 근거하여 변경도 측정 방법의 효과성 평가 척도를 정의하고, 새로운 유사도 측정 방법을 제안한다. 실제 웹 문서들과 인위적 문서들을 사용하여, 기존의 다섯 가지 측정 방법들(바이트 비교, TF IDF 코사인 거리, 단어 거리, 편집 거리, 슁글링)과 제안된 측정 방법을 비교 평가한다. 실험 결과 분석을 통해 제안된 측정 방법이 웹 문서의 변경 측정에 효과적임을 보인다. 본 연구는 웹 문서의 변화 정보를 필요로 하는 웹 응용 분야에서 웹 문서 변경도 측정 방법의 적합한 선택을 위한 지침이 될 수 있다.

후처리를 이용한 음성 다이얼링 시스템의 성능향상 (Performance Improvement of Voice Dialing System using Post-Processing)

  • 김원구
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.9-12
    • /
    • 2000
  • 음성 다이얼링 시스템은 화자의 음성을 인식하여 원하는 전화번호로 자동으로 전화를 걸어주는 시스템으로 주로 이동 전화나 휴대형 통신 장비에 유용하게 사용된다. 개인 음성 다이얼링 시스템의 경우, 다이얼링에 사용되는 모든 구문은 사용자가 선택하고 사용자의 음성을 사용하여 학습되어 음성 인식을 위한 HMM을 생성한다. 이러한 시스템은 화자독립 시스템 보다 매우 적은 메모리 공간과 계산량으로 구현이 가능하다. 그러나 이러한 시스템은 학습시 각 단어당 2-3개의 음성만을 사용하므로 음성인식 시스템의 성능을 개선하기 위한 각 상태에서의 상태지속분포을 추정하기는 매우 어렵다. 따라서 본 논문에서는 성능개선을 위한 후처리기를 제안하였다. 전화선을 통하여 구성된 데이터베이스를 이용한 실험에서 제안된 후처리기가 인식 시스템의 성능을 향상시킴을 확인하였다.

  • PDF

발음 속도에 따른 지속시간 제한 값의 보상 (A Compensation of the Duration Bounds According to Speaking Speed)

  • 양태영;이충용;윤대희;차일환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.193-196
    • /
    • 2000
  • 본 논문에서는 제한 지속시간 모델링(bounded duration modeling)의 지속시간 제한 값(duration bound)을 화자의 발음 속도에 따라 조절해주는 발음 속도 보상 알고리즘을 제안한다. 제안된 알고리즘은 두 번의 인식 과정을 수행하는데, 1차 인식 과정은 화자의 발음 속도를 추정하기 위한 과정이고, 2차 인식 과정이 인식 결과를 얻기 위한 과정이다. 1차 인식 과정에서 추정된 화자의 발음 속도에 따라, 지속시간 제한 값을 증가, 또는 감소시킨 후, 2차 인식과정에 사용한다. 제안된 알고리즘은 CHMM 기반의 한국어 연결 숫자음 인식 시스템에 적용되었으며, KAIST에서 제작된 4-7자리 연결 숫자음 데이터베이스인 DigitDB를 대상으로 성능을 평가하였다. 인식 실험 결과, 제안된 발음 속도 보상 알고리즘이 적용된 인식 시스템에서는 $96.26\% 단어 인식률을 얻어, 제안된 알고리즘이 적용되지 않은 인식 시스템의 $94.72\%보다 $1.54\% 향상된 인식 성능을 얻을 수 있었다.

  • PDF

메타 검색 엔진을 위한 인기도 기반 캐쉬 관리 및 성능 평가 (A Popularity-driven Cache Management and its Performance Evaluation in Meta-search Engines)

  • 홍진선;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권2호
    • /
    • pp.148-157
    • /
    • 2002
  • 메타 검색 엔진에서 캐쉬의 사용은 사용자의 응답시간을 향상시킬 수 있다. 본 논문에서는 메타 검색 엔진의 구조와 동작을 보이고, 메타 검색 엔진을 위한 인기도 기반의 새로운 캐쉬 대체 방법을 제안한다. 인기도는 사용자들이 검색 엔진에 요청한 단어들의 출현 빈도수를 정규화한 값으로, 캐쉬 대체를 위한 기준치로 이용된다. 본 논문에서는 인기 검색어 수집 방법, 인기도 산출방법을 기술하고, 인기도를 기반으로 하는 새로운 알고리즘을 제안한다. 또한 실제 사용자가 검색 엔진에 입력한 자료를 바탕으로, 전통적인 캐쉬 대체 기법인 LRU, LFU 알고리즘과 제안된 알고리즘을 성능 평가하였다. 본 성능 평가에서는 제안된 알고리즘이 대다수의 경우 우수한 성능을 나타내었다.

키 프레임 영상을 이용한 실시간 시각 루프 결합 탐지기의 설계 (Design of a Real-Time Visual Loop Closure Detector using Key Frame Images)

  • 김혜숙;김주희;김동하;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.809-812
    • /
    • 2014
  • 본 논문에서는 키 프레임 영상을 이용한 효과적인 실시간 시각 루프 결합 탐지기를 제안한다. 시각 루프 결합 탐지기는 과거에 지나온 위치들 중 하나를 다시 재방문하였는지를 판단하기 위해, 새로운 입력 영상을 이미 지나온 위치들에서 수집한 과거 영상들과 모두 비교해 보아야 한다. 따라서 새로운 위치나 장소를 방문할수록 비교 대상 영상들이 계속해서 증가하기 때문에, 일반적으로 루프 결합 탐지는 높은 정확도와 실시간성을 동시에 만족하기 어렵다. 이러한 문제점을 극복하기 위해, 본 시스템에서는 입력 영상들 중에서 키 프레임들만을 골라 비교함으로써, 루프 결합 탐지에 필요한 비교 연산량을 효과적으로 줄이는 방법을 채택하였다. 또한 본 시스템에서는 루프 결합 탐지의 정확도와 효율성을 높이기 위해, 키 프레임 영상들을 시각 단어들의 집합(BoW)으로 표현하고, DBoW 데이터베이스 시스템을 이용해 키 프레임 영상들에 대한 색인을 구성하였다. TUM 대학의 벤치마크 데이터들을 이용한 성능 분석 실험을 통해, 본 논문에서 제안한 시각 루프 결합 탐지기의 높은 성능을 확인할 수 있었다.