• 제목/요약/키워드: 자동 의미 태깅

검색결과 29건 처리시간 0.031초

비지도 학습을 기반으로 한 한국어 부사격의 의미역 결정 (Unsupervised Semantic Role Labeling for Korean Adverbial Case)

  • 김병수;이용훈;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.112-122
    • /
    • 2007
  • 말뭉치를 이용하여 통계적으로 의미역 결정(semantic role labeling)을 하기 위해서는, 의미역을 태깅하는 작업이 필수적이다. 그러나 한국어의 경우 의미역이 태깅된 대량의 말뭉치를 구하기 힘들며, 이를 직접 구축하기 위해서는 많은 시간과 노력이 필요한 문제점이 있다. 본 논문에서는 비지도 학습의 하나인 self-training 알고리즘을 적용하여, 의미역이 태깅되지 않은 말뭉치로부터 의미역을 결정하는 방법을 제안한다. 이를 위해, 세종 용언 전자사전의 격틀 정보를 이용하여 자동으로 학습 말뭉치를 구축하였으며, 확률 모델을 적용하여 점진적으로 학습하였다. 그 결과, 4개의 부사격 조사에 대해 평균적으로 83.00%의 정확률을 보였다.

대규모 태깅 데이터를 이용한 태깅 온톨로지 학습 (Learning Tagging Ontology from Large Tagging Data)

  • 강신재
    • 한국지능시스템학회논문지
    • /
    • 제18권2호
    • /
    • pp.157-162
    • /
    • 2008
  • 본 논문은 대중에 의해 자유롭게 생성된 분류 체계인 폭소노미, 즉 대규모의 태깅 데이터로부터 태깅 온톨로지를 학습하는 방법을 제시하고 있다. 기존 소셜웹 시스템간에는 태깅의 의미에 대해 공통의 합의가 이루어지지 않았기 때문에, 시스템마다 태깅 정보를 표현하기 위해 내부적으로 다른 방법을 쓰고 있으며, 따라서 소프트웨어 에이전트를 이용하여 시스템간의 정보처리를 자동으로 할 수가 없다. 이를 해결하는 방법으로 폭소노미를 위한 태깅 온톨로지가 필요하다. 태깅의 본질적인 속성을 분석하여 태깅 온톨로지를 정의하고, 태깅 데이터의 기계 학습을 통하여 유사 태그와 사용자 그룹 정보를 획득한 후, 태깅 온톨로지를 학습한다. 이의 활용 방안으로 학습된 태깅 온톨로지를 이용하여 모델링한 추천 시스템도 제안한다.

하위범주화 사전의 구축 및 자동 확장 (Development and Automatic Extraction of Subcategorization Dictionary)

  • 이수선;박현재;우요섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.179-181
    • /
    • 2000
  • 한국어의 통사적, 의미적 중의성 해결을 위해 하위범주화 사전을 구축하였다. 용언에 따라 제한될 수 있는 문형 패턴과 의미역(semantic roles) 정보의 표준을 정하여 이를 부가하였고 구축한 하위범주화 사전이 명사에 대한 의미를 갖고 있는 계층 시소러스 의미사전과 연동하도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 말뭉치와 구문분석된 말뭉치를 통해 검증 작업을 수행했다. 이 과정에서 자동으로 하위범주 패턴에 대한 빈도 정보나, 연어정보, 각 의미역과 용언의 통계적 공기 정보 등을 추출하여 하위범주화사전에 추가시켰다. 또한 여기서 얻은 정보를 기준으로 하위범주화 사전을 자동으로 확장하는 알고리즘을 적용하여 확장시켰다.

  • PDF

기술 지식 자동 추출을 위한 테스트 컬렉션 구축 (Construction of Test Collection for Automatically Extracting Technological Knowledge)

  • 신성호;최윤수;송사광;최성필;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권7호
    • /
    • pp.463-472
    • /
    • 2012
  • 지난 10년간 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 페이스북이나 트위터와 같은 소셜 네트워크의 출현 등으로 정보량은 급속도로 늘어나고 있다. 대용량의 데이터와 이로 인해 파생되는 방대한 정보는 그것을 얻고자 하는 사람들에게 한계를 느끼게 한다. 따라서 방대한 정보 속에서 의미있는 지식을 추출하기 위한 시스템 기반의 연구가 활발히 시도되고 있다. 이로 인해 지식 추출 시스템의 중요성이 날로 강조되고 있지만, 정확성과 효율성 측면에서 여전히 많은 과제가 있다. 지식 추출 시스템의 성능을 향상시키기 위해서는 시스템을 평가하기 위한 테스트 컬렉션이 중요하다. 본 논문에서는 기술 지식의 자동 추출을 위해 개발된 시스템을 평가하기 위한 테스트 컬렉션을 소개한다. KEEC/KREC(KISTI Entity Extraction Collection/KISTI Relation Extraction Collection)라 명명된 테스트 컬렉션에 대한 구축 절차 및 기준과 구축된 테스트 컬렉션의 특징을 제시한다. 특히 테스트 컬렉션의 주요한 평가 기준이 되는 정확도를 높이기 위해 태깅 지원 도구를 활용한 전문가 태깅 방식을 사용하는 것이 주요 특징이다. 태깅 지원 도구를 활용한 전문가 태깅은 시스템에 의한 자동 태깅 도구들 또는 사람이 태깅을 하되, 지원 도구 없이 태깅하는 방법보다 태깅의 정확도를 높여준다. 구축된 KEEC/KREC은 실제로 과학기술 문헌에 존재하는 PLOT(Person, Location, Organization, Technology) 간 연관관계 추출 성능 평가를 위해서 사용되었고, 의미있는 연구결과를 도출하는데 기여하였다.

옴니버스 형태의 동영상에서 태깅아이콘을 이용한 에피소스 분할 방법 (The Method of Episode Segmentation using Tagging-Icon on Video of Omnibus Type)

  • 주성일;최형일
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.117-119
    • /
    • 2010
  • 본 논문에서는 옴니버스 형태의 동영상을 각 프로그램 별로 자동 분할하는 방법에 대해 제안하고자 한다. 국내 TV 프로그램의 경우 대부분의 개그 프로그램에서는 코너 별로 상단 또는 하단의 일정 위치에 코너명을 캡션으로 삽입하여 옴니버스 형태의 영상을 서비스한다. 이러한 코너명을 태깅아이콘으로 하여 지속되는 구간을 검출하여 시작시점과 종료시점을 검출함으로써 동영상을 의미적으로 분할 할 수 있다. 하지만 태깅아이콘의 경우 매우 높은 투명도를 갖는 경우가 많으므로 본 연구에서는 에지와 시간적인 지속성을 이용하여 에피소드를 분할하는 방법을 제안하고, 옴니버스 형태의 다양한 개그 프로그램에 대해 실험하여 제안한 방법의 우수성을 보인다.

  • PDF

질의응답 시스템에서 의미 연관성 참조를 위한 온톨로지의 자동 구축 (Automatic Ontology Construction for Semantic Relevance in Question Answering System)

  • 김혜정;강보영;황선욱;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.109-111
    • /
    • 2003
  • 본 논문에서는 질의응답 시스템에서 질의에 포함된 언어 정보와 검색 대상 문장 사이의 의미 연관성을 참조하여 정확한 결과를 추출 가능하도록 하는 온톨로지의 자동 구축 방법을 제시한다. 검색 대상 문장은 웹에서의 활용과 표준화를 위하여 단어 태그, 품사 정보 및 파싱 구조를 갖는 XML 문서로 변환하고, 이 구조를 이용한 연관성 분석을 위해 의미망을 갖는 온톨로지를 자동으로 생성할 수 있도록 하였다. 온톨로지에서 의미 연관성을 결정하는데 중요하게 활용되는 개념으로써는 동사의 행위, 명사절 그룹 매치, 복합명사 선별, 고유명사 매치, 품사 태깅 등이 있다. 제안한 방법의 성능은 NIST TREC-10의 질의 응답문을 사용해서 단어 패턴 매치 방법과 비교 분석하였으며, 본 논문에서 제안한 방식이 재현율과 정확율 측면에서 우수한 성능을 나타냄을 입증하였다.

  • PDF

다중 얼굴 태깅 자동화 (Automatic Tagging Scheme for Plural Faces)

  • 이충연;이재동;진성아
    • 전자공학회논문지CI
    • /
    • 제47권3호
    • /
    • pp.11-21
    • /
    • 2010
  • 최근 웹페이지의 생성 및 웹이 가진 정보량이 기하급수적으로 늘면서 사용자의 검색 목적을 파악하여 효율을 높이기 위한 다양한 방법이 연구되고 있으며, 태깅 시스템이 하나의 대안으로 떠오르고 있다. 태깅 시스템은 인터넷 사용자로 하여금 태그라고 불리는 메타데이터를 글, 사진, 동영상 등에 부여하도록 함으로써 콘텐츠의 검색 및 브라우징을 편리하게 하는 시스템이다. 이처럼 태그는 해당 페이지의 대표 키워드를 의미하므로 콘텐츠 분류의 기준을 마련할 수 있으나, 사용자에 의해 직접 입력되어야 하는 수고가 필요하고, 또한 무분별한 태깅으로 인해 오히려 분류에 방해가 되는 등의 문제점들이 있다. 본 논문에서는 이러한 태깅의 문제를 해결하기 위한 방법으로 얼굴인식 알고리즘을 활용한 영상콘텐츠 내에서의 다중 얼굴 태깅 자동화 방법을 제시한다. 이를 위해 먼저 여러 얼굴검출 방법 중 Haar-like features와 AdaBoost 알고리즘을 이용하여 빠른 속도와 높은 정확도로 영상콘텐츠 내에서 얼굴 영역을 검출한다. 이후 PCA와 고유얼굴을 이용하여, 검출해 낸 얼굴을 데이터베이스에 미리 저장해 놓은 프로필 사진과 비교, 인식해냄으로써 해당 인물에 대한 정보를 불러와서 자동으로 태깅하는 시스템을 구현하였다. 이러한 새로운 방식의 태깅 기술은 현존하는 사진공유, 쇼핑, 검색 등의 수많은 웹서비스에 적용이 가능하며, 특히 소셜네트워크서비스에서의 사진 관리나 인물검색 등에서 활용할 때 큰 효과를 보일 것으로 기대된다.

워드넷 신셋에 대한 사건구조 프레임 반자동 태깅 (Semi-automatic Event Structure Frame tagging of WordNet Synset)

  • 임서현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-105
    • /
    • 2018
  • 이 논문은 가장 잘 알려진 어휘부중 하나인 워드넷의 활용 범위 확장을 위해 워드넷 신셋에 "사건구조 프레임(Event Structure Frame)"을 주석하는 연구에 관한 것이다. 워드넷을 비롯하여 현재 사용되고 있는 어휘부는 풍부한 어휘의미정보가 구조화되어 있지만, 사건구조에 관한 정보를 포함하고 있지는 않다. 이 연구의 가장 큰 기여는 워드넷에 사건구조 프레임을 추가함으로써 워드넷과의 연결만으로 핵심적인 어휘의미정보를 모두 추출할 수 있도록 해준다는 점이다. 예를 들어 텍스트 추론, 자연어처리, 멀티 모달 태스크 등은 어휘의미정보와 배경지식(상식)을 이용하여 태스크를 수행한다. 워드넷에 대한 사건구조 주석은 자동사건구조 주석 시스템인 GESL을 이용하여 워드넷 신셋에 있는 예문에 먼저 자동 주석을 하고, 오류에 대해 수동 수정을 하는 반자동 방식이다. 사전 정의된 23개의 사건구조 프레임에 따라 예문에 출현하는 타겟 동사를 분류하고, 해당 프레임과 매핑한다. 현재 이 연구는 시작 단계이며, 이 논문에서는 빈도 순위가 가장 높은 100개의 동사와 각 사건구조 프레임별 대표 동사를 포함하여 총 106개의 동사 레마에 대해 실험을 진행하였다. 그 동사들에 대한 전체 워드넷 신셋의 수는 1337개이다. 예문이 없어서 GESL이 적용될 수 없는 신셋을 제외하면 1112개 신셋이다. 이 신셋들에 대해 GESL을 적용한 결과 F-Measure는 73.5%이다. 향후 연구에서는 워드넷-사건구조 링크를 계속 업데이트하면서 딥러닝을 이용해 GESL 성능을 향상 할 수 있는 방법을 모색할 것이다.

  • PDF

대화 말뭉치 구축을 위한 반자동 의미표지 태깅 시스템 (A Semi-Automatic Semantic Mark Tagging System for Building Dialogue Corpus)

  • 박준혁;이성욱;임윤섭;최종석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권5호
    • /
    • pp.213-222
    • /
    • 2019
  • 지능형 음성 대화 인터페이스 구현에 있어 핵심어의 의미표지는 사용자 의도 파악을 위한 중요한 요소이다. 대화시스템은 사용자 발화의 의도를 파악하기 위해 핵심어와 그 의미표지를 이용하여 발화의 의도를 결정한다. 하나의 핵심어는 여러 개의 의미표지를 가질 수 있는 중의성을 지닌다. 이러한 중의성을 지닌 핵심어를 사용자의 의도와 일치하는 의미표지로 결정하는 것은 단어 의미 분별 문제와 유사하다. 우리는 전사된 대화 말뭉치의 약 23%를 수동으로 의미를 부착하여 핵심어에 대한 의미표지 사전, 유의어 사전, 문맥벡터 사전을 먼저 구축한 후, 나머지 77% 대화 말뭉치에 존재하는 핵심어의 의미를 자동으로 부착한다. 중의성을 가진 핵심어는 문맥벡터 사전으로부터 문맥 벡터 유사도를 계산하여 의미를 결정한다. 핵심어가 미등록어인 경우에는 유의어 사전을 이용하여 가장 유사한 핵심어를 찾아 그 핵심어의 의미를 부착한다. 중의성을 가진 고빈도 핵심어 3개와 저빈도 핵심어 3개를 말뭉치에서 선정하여 제안 시스템의 성능을 평가하였다. 실험결과, 수동으로 구축한 말뭉치를 사용하였을 때 약 54.4%의 정확도를 얻었고, 반자동으로 확장한 말뭉치를 사용하였을 때 약 50.0%의 정확도를 얻었다.

의미처리 기반의 한글-한자 변환 시스템 (korean-Hanja Translation System based on Semantic Processing)

  • 김홍순;신준철;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.398-401
    • /
    • 2011
  • 워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.