• 제목/요약/키워드: 어휘정보

검색결과 1,062건 처리시간 0.023초

자질별 관계 패턴의 다변화를 통한 온톨로지 확장 (Incremental Enrichment of Ontologies through Feature-based Pattern Variations)

  • 이신목;장두성;신지애
    • 정보처리학회논문지B
    • /
    • 제15B권4호
    • /
    • pp.365-374
    • /
    • 2008
  • 본 논문에서는 패턴의 다변화를 통하여 관계를 점진적으로 추출함으로써 온톨로지를 확장하는 모델을 제안한다. 패턴 다변화 과정에서 위키피디아로부터 추출한 관계 패턴 후보를 자질별로 다변화시킨다. 다변화된 패턴 후보로부터 말뭉치 빈도수에 따른 신뢰도를 이용하여 패턴을 선별한다. 선별된 패턴은 위키피디아로부터 관계를 추출하는 데 사용되며, 추출된 관계는 다시 관계 패턴 확장에 사용된다. 본 논문에서는 점진적 학습 과정에서의 패턴 다변화를 통하여 패턴 선택의 범위를 확장함으로써, 선택되는 패턴이 점진적으로 정제되는 모델을 제시한다. 이를 통하여, 관계의 확장성과 정확도를 향상시키고자 하였다. 단일 자질 패턴 모델에 대한 실험을 통하여, 어휘, 중심어, 상위어 정보는 신뢰도에, 품사, 구문 정보는 확장성에 유리하며, 구문 단위 유형별로 필요한 자질 유형이 다름을 관찰하였다. 이와 같은 특성에 기반하여 현재 연구 진행 중인복합 자질 패턴 모델을 제안한다.

이용자 태그를 활용한 비디오 스피치 요약의 자동 생성 연구 (Investigating an Automatic Method in Summarizing a Video Speech Using User-Assigned Tags)

  • 김현희
    • 한국문헌정보학회지
    • /
    • 제46권1호
    • /
    • pp.163-181
    • /
    • 2012
  • 본 연구는 스피치 요약의 알고리즘을 구성하기 위해서 방대한 스피치 본문의 복잡한 분석 없이 적용될 수 있는 이용자 태그 기법, 문장 위치 및 문장 중복도 제거 기법의 효율성을 분석해 보았다. 그런 다음, 이러한 분석 결과를 기초로 하여 스피치 요약 방법을 구성, 평가하여 효율적인 스피치 요약 방안을 제안하는 것을 연구 목적으로 하고 있다. 제안된 스피치 요약 방법은 태그 및 표제 키워드 정보를 활용하고 중복도를 최소화하면서 문장 위치에 대한 가중치를 적용할 수 있는 수정된 Maximum Marginal Relevance 모형을 사용하여 구성하였다. 제안된 요약 방법의 성능은 스피치 본문의 단어 빈도 및 단어 위치 정보를 적용하여 상대적으로 복잡한 어휘 처리를 한 Extractor 시스템의 성능과 비교되었다. 비교 결과, 제안된 요약 방법을 사용한 경우가 Extractor 시스템의 경우 보다 평균 정확률은 통계적으로 유의미한 차이를 보이며 더 높았고, 평균 재현율은 더 높았지만 통계적으로 유의미한 차이를 보이지는 못했다.

한국어 질의응답시스템을 위한 지지 벡터기계 기반의 질의유형분류기 ((A Question Type Classifier based on a Support Vector Machine for a Korean Question-Answering System))

  • 김학수;안영훈;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.466-475
    • /
    • 2003
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 의도를 파악할 수 있는 질의 유형 분류기가 필요하다. 본 논문에서는 지지 벡터 기계(support vector machine, SVM)를 이용한 질의유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에 자동 문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

단어연상검사법을 이용한 탐색 시소러스 구축에 관한 실험적 연구 (Searching Thesaurus Construction with Word Association Test: A Pilot Study)

  • 한승희
    • 한국문헌정보학회지
    • /
    • 제40권3호
    • /
    • pp.289-304
    • /
    • 2006
  • 본 연구에서는 단어의 의미연상을 이용하여 시소러스를 구축하고. 이 시소러스에 대해 탐색 시소러스로서의 기능성을 확인하기 위해 질의확장 실험을 수행하였다 연상 시소러스 구축을 위해 문헌정보학 분야를 대상으로 단어연상검사를 실시한 후 자극어와 반응어간의 의미관계를 파악하고 반응어와 기존 시소러스의 디스크립터를 비교 분석하였다. 실험 및 분석결과. 단어연상검사를 이용하여 시소러스를 구축하면 기존의 시소러스에 비해 연관관계 용어들을 시소러스에 다양하게 반영할 수 있으며, 통제어휘집에 나타난 하위관계와 동등관계 용어들을 어느 정도 반영할 수 있다는 것을 확인하였다. 또한 질의확장 실험결과 단어연상 시소러스가 기존 시소러스에 비해 비교적 우수한 성능을 보여 단어연상 시소러스가 정보검색환경에서 질의 확장에 응용될 수 있음을 증명하였다.

한글 일음절 단어처리에서의 음운정보의 역할 (The Role of Phonological Information in Korean Monosyllabic Word Processing)

  • 김연희;이창환
    • 인지과학
    • /
    • 제15권1호
    • /
    • pp.35-41
    • /
    • 2004
  • 한글단어가 음운경로를 통해 처리되는지 아닌지를 알아보고 단어재인의 어느 단계에서 음운 정보의 영향을 주로 받는지 알아보기 위하여, 1음절 단어를 사용하고 철자를 지연시키는 실험올 하였다. 두 개의 초점조건은 옴가가 있는 철자를 지연시키거나 묵음을 지연시키는 조건이었다. 실험 1에서는 음운정보가 단어재인 초기에 영향을 미치는지 또는 후기 과정에서 영향을 미치는지 알아 보기 위하여, 점화자극을 l50ms와 250ms로 제시한 명명과제를 실시하였다, 그 결과 150ms로 점화자극 을 제시하였을 때에는 음가조건파 정화자극제시여부간의 유의한 상호작용이 나타나 묵음조건에서는 점화자극 제시에 따라 목표자극이 촉진된 반면 유음조건에서는 점화자극 제시에 따른 효과가 없었다. '반면, 250ms로 정화자극이 제시되었을 때에는 유의한 상호작용효파가 나타나지 않았다. 실험 2에서는 어휘 판단과제를 통해 실험 1의 결과가 일반화되는지를 살펴보았다 그 결과, 실험l과 마찬가지로 150ms로 정화자극을 제시하였을 때에는 음가조건과 점화자극제시여부 간의 유의한 상호작용이 나타났으나, 점화자극을 250ms로 제시한 경우에는 유의한 상호작용이 나타나지 않았다. 이상의 결과는 한글단어가 음운경로를 통해 처리되고, 주로 단어재인과정의 초기 단계에서 음운정보가 개입함을 시사한다.

  • PDF

한국어 정보처리 시스템의 전처리를 위한 미등록어 추정 및 철자 오류의 자동 교정 (Recognizing Unknown Words and Correcting Spelling errors as Preprocessing for Korean Information Processing System)

  • 박봉래;임해창
    • 한국정보처리학회논문지
    • /
    • 제5권10호
    • /
    • pp.2591-2599
    • /
    • 1998
  • 본 논문은 한국어 정보 처리 시스템의 성능 향상을 위하여 입력 문서에 존재하는 미등록어를 인식하고 철자 오류(뛰어쓰기 오류 포함)를 자동으로 교정하는 방법을 제안한다. 동일한 미등록어 후보가 포함된 둘 이상의 형태적 유사 어절을 비교 분석함으로써 입력 문서에 존재하는 미등록어를 인식하고, 오류 어절과 코퍼스내에 존재하는 교정 어절 사이의 형태적 및 문맥적 유사성에 근거하여 대량의 원시 코퍼스로부터 자동으로 오류 교정용 어휘 규칙을 생성한 후에 이를 이용하여 입력 문서에 존재하는 뛰어쓰기 및 절차 오류를 교정한다. 실험 결과에 따르면 제안한 방법으로 구현된 시스템은 약 98.9%의 정확도로 미등록어를 인식할 수 있고, 98.1%와 97.1%의 정확도로 뛰어쓰기 오류와 철자 오류를 각각 교정할 수 있다.

  • PDF

감성기반 음악.이미지 검색 추천 시스템 설계 및 구현 (A Design and Implementation of Music & Image Retrieval Recommendation System based on Emotion)

  • 김태연;송병호;배상현
    • 전자공학회논문지CI
    • /
    • 제47권1호
    • /
    • pp.73-79
    • /
    • 2010
  • 감성 지능형 컴퓨팅은 컴퓨터가 학습과 적응을 통하여 인간의 감성을 처리할 수 있는 감성인지 능력을 갖는 것으로 보다 효율적인 인간과 컴퓨터의 상호 작용을 가능하게 한다. 감성 정보들 중 시각과 청각 정보인 음악 이미지는 짧은 시간에 형성되고 기억에 오랫동안 지속되기 때문에 성공적인 마케팅에 있어서 중요한 요인으로 꼽히고 있으며, 인간의 정서를 이해하고 해석하는데 있어서 매우 중요한 역할을 한다. 본 논문에서는 사용자의 감성키워드(짜증, 우울, 차분, 기쁨)를 고려하여 매칭된 음악과 이미지를 검색하는 시스템을 구축하였다. 제안된 시스템은 인간의 감성을 4단계 경우로 상황을 정의하며, 정규화 된 음악과 이미지를 검색하기 위해 음악 이미지 온톨로지와 감성 온톨로지를 사용하였으며, 이미지의 특징정보를 추출, 유사성을 측정하여 원하는 결과를 얻게 하도록 하였다. 또한, 이미지 감성인식정보를 분류하기위해 대응일치분석과 요인분석을 통한 성컬러와 감성어휘를 하나의 공간에 매칭하였다. 실험결과 제안된 시스템은 4가지 감성상태에 대해 82.4%의 매칭율를 가져올 수 있었다.

면역학 시소러스 및 온톨로지 구축 (Construction of Immunology Thesaurus and Ontology)

  • 임지희;최호섭;배영준;옥철영;최성필;성원경;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.21-27
    • /
    • 2005
  • 본 논문에서는 국가에서 추진하는 차세대신성장동력산업과 관련된 특정 분야('바이오 신약/장기' 분야 중 '면역 기능 제어')를 선택하여, 기구축된 면역학 전문용어사전을 비롯하여 의학용어사전, 표준국어대사전 등을 참조하여 핵심 용어와 관련 용어를 중심으로 면역학 시소러스(어휘 3,462개) 및 온톨로지(개념 노드 4,703개)를 구축하였다. 이것은 전문용어사전부터 온톨로지에 이르기까지 통일화된 표준 체계를 가지고 있으며, 도메인 온톨로지를 구축하여 향후 온톨로지 개발 방향을 설정할 수 있는 계기가 되었다고 할 수 있다. 또한 면역학 시소러스는 검색의 성능을 향상시킬 수 있도록 충분한 양의 데이터를 구축하였고 면역학 온톨로지는 언어처리적 관점에서의 온톨로지를 표현하였다. 이는 정보검색에서의 효율성을 비롯하여, 특정 웹 온톨로지 언어를 이용한 웹 온톨로지로의 변환성, 대규모 도메인 온톨로지라는 점에서 의미를 가진다고 할 수 있다.

  • PDF

온톨로지 기반의 자연어 검색 시스템 설계 및 구현 (Design and Implementation of Ontology-Based Natural Language Search System)

  • 강래구;임동일;정채영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.875-878
    • /
    • 2007
  • 지금까지의 상품 검색 방법으로는 찾고자하는 정보를 검색할 때 주로 단어의 빈도수나 어휘 정보를 이용하는 키워드 기반의 검색이 주로 쓰이고 있었다. 키워드 기반의 검색에서는 사용자의 질의와 관련이 없는 문서들까지도 같은 결과로 나타내 주고 이로 인해 사용자는 제시된 결과를 한번 더 수동적으로 검색해야하는 부담을 않게 되었다. 이러한 문제점을 해결하기 위해 온톨로지가 대두되었다. 본 논문에서는 온톨로지를 이용한 상품 검색 시스템을 직접 구축하여 분류별 검색을 통해 얼마나 정확한 검색을 하는지 실험하였다. 실험을 위해 전국적으로 On/Off라인 할인점을 운영 중에 있는 A할인점의 상품 데이터 약 40,000여개를 데이터베이스로 구축하였고 User Interface 개발환경은 JSP와 PowerBuilder9.0을 사용하여 검색 시스템을 개발하여 실험하였다. 그 결과 본 논문에서 제안하고 설계한 상품 도메인 온톨로지를 이용한 검색 방법이 기존의 키워드 기반의 검색 방법보다 우수한 결과를 나타내고 있음을 입증하였다.

  • PDF

환자중심서비스를 위한 온톨로지 기반의 u-Healthcare 시스템 (Ontology-based u-Healthcare System for Patient-centric Service)

  • 정용규;이정찬;장은지
    • 서비스연구
    • /
    • 제2권2호
    • /
    • pp.45-51
    • /
    • 2012
  • U-Healthcare는 홈 네트워크, 휴대용 장치 등에 기반한 정보통신기술과 의료시스템이 서로 융합되어 개인의 생체정보 등을 실시간으로 모니터링하고, 자동으로 병원 및 의사와 연결되어 시공간의 제약을 줄임으로써 언제 어디서나 건강을 관리하고 질병을 예방하는 새로운 형태의 의료서비스이다. 본 논문에서는 진료 중심에서 예방 중심으로 변화되어가고 있는 최근의 U-Healthcare 시스템의 기술 발전 추세에 맞추어 조기 대응이 가능한 Healthcare 정보시스템 구축을 위한 요구분석 사항들에 대해 정리하고, 이를 기반으로 u-Healthcare의 실현을 위한 기존의 단위 시스템인 PACS, OCS, EMR, 응급의료시스템을 통합한 환자중심의 클라이언트 시스템을 설계한다. 특히, 온톨로지는 특정분야의 정보 모델에 이용되어 그 분야에서 공통의 어휘를 제공하고, 그 용어의 의미와 용어간의 관계를 다양한 수준의 형식성을 가지고 제공한다. 본 논문에서는 이러한 온톨로지 및 무질서한 데이터에 대한 관계를 정의하고, 보다 체계적으로 데이터를 군집화하는 클러스터링의 개념을 포함한 환자중심의 서비스를 위한 온톨로지 기반의 시스템을 제안한다.

  • PDF