• 제목/요약/키워드: 자동태깅

검색결과 108건 처리시간 0.028초

SVM 기계학습을 이용한 웹문서의 자동 의미 태깅 (Automatic semantic annotation of web documents by SVM machine learning)

  • 황운호;강신재
    • 한국산업정보학회논문지
    • /
    • 제12권2호
    • /
    • pp.49-59
    • /
    • 2007
  • 본 논문은 시맨틱 웹의 실현을 위해서는 필수적인 작업인 웹문서의 의미를 자동으로 태깅할 수 있는 시스템에 관한 것이다. 웹상의 방대한 자원을 일일이 사람이 수작업으로 의미를 태깅한다는 것은 사실상 불가능하기 때문에 한국어 웹문서를 대상으로 대량의 학습 데이터를 수집하고 자연어처리 기법과 시소러스를 이용하여 특징을 추출한 후 SVM 기계학습을 통하여 개념분류기를 구축하였다. 한국어의 특징을 파악하여 의미 태깅에 필요한 특징 정보를 추출하기 위해서 형태소 분석과 구문 분석을 하였다. 추출된 특징정보는 가도카와 시소러스의 의미코드를 이용하여 학습벡터로 구성되는데, 이는 유사한 단어나 구를 하나의 개념코드로 매핑하여 시스템의 재현율을 높이는 역할을 하게 된다. 실험결과 자동 의미 태깅 분야에서 본 접근방법의 가능성을 확인할 수 있었다.

  • PDF

웹을 이용한 개체명 부착 말뭉치의 자동생성과 정제 (Automatic Generation of Named Entity Tagged Corpus using Web Search Engine)

  • 안주희;이승우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-91
    • /
    • 2002
  • 최근 정보 추출, 질의응답 시스템 등의 고정밀 자연어처리 어플리케이션이 부각됨에 따라 개체명 인식의 중요성이 더욱 커지고 있다. 이러한 개체명 인식을 위한 학습에는 대용량의 어휘자료를 필요로 하기 때문에 충분한 학습 데이터, 즉 개체명 태그가 부착된 충분한 코퍼스가 제공되지 못하는 경우 자료희귀문제(data sparseness problem)로 인하여 목적한 효과를 내지 못하는 경우가 않다. 그러나 태그가 부착된 코퍼스를 생성하는 일은 시간과 인력이 많이 드는 힘든 작업이다. 최근 인터넷의 발전으로 웹 데이터는 그 양이 매우 많으며, 습득 또한 웹 검색 엔진을 사용해서 자동으로 모음으로써 다량의 말뭉치를 모으는 것이 매우 용이하다. 따라서 최근에는 웹을 무한한 언어자원으로 보고 웹에서 필요한 언어자원을 자동으로 뽑는 연구가 활발히 진행되고 있다. 본 연구는 이러한 연구의 첫 시도로 웹으로부터 다량의 원시(raw) 코퍼스를 얻어 개체명 태깅 학습을 위한 태그 부착 코퍼스를 자동으로 생성하고 이렇게 생성된 말뭉치를 개체면 태깅 학습에 적용하는 비교 실험을 통해 수집된 말뭉치의 유효성을 검증하고자 한다. 향후에는 자동으로 웹으로부터 개체 명 태깅 규칙과 패턴을 뽑아내어 실제 개체명 태거를 빨리 개발하여 유용하게 사용할 수 있다.

  • PDF

다중 얼굴 태깅 자동화 (Automatic Tagging Scheme for Plural Faces)

  • 이충연;이재동;진성아
    • 전자공학회논문지CI
    • /
    • 제47권3호
    • /
    • pp.11-21
    • /
    • 2010
  • 최근 웹페이지의 생성 및 웹이 가진 정보량이 기하급수적으로 늘면서 사용자의 검색 목적을 파악하여 효율을 높이기 위한 다양한 방법이 연구되고 있으며, 태깅 시스템이 하나의 대안으로 떠오르고 있다. 태깅 시스템은 인터넷 사용자로 하여금 태그라고 불리는 메타데이터를 글, 사진, 동영상 등에 부여하도록 함으로써 콘텐츠의 검색 및 브라우징을 편리하게 하는 시스템이다. 이처럼 태그는 해당 페이지의 대표 키워드를 의미하므로 콘텐츠 분류의 기준을 마련할 수 있으나, 사용자에 의해 직접 입력되어야 하는 수고가 필요하고, 또한 무분별한 태깅으로 인해 오히려 분류에 방해가 되는 등의 문제점들이 있다. 본 논문에서는 이러한 태깅의 문제를 해결하기 위한 방법으로 얼굴인식 알고리즘을 활용한 영상콘텐츠 내에서의 다중 얼굴 태깅 자동화 방법을 제시한다. 이를 위해 먼저 여러 얼굴검출 방법 중 Haar-like features와 AdaBoost 알고리즘을 이용하여 빠른 속도와 높은 정확도로 영상콘텐츠 내에서 얼굴 영역을 검출한다. 이후 PCA와 고유얼굴을 이용하여, 검출해 낸 얼굴을 데이터베이스에 미리 저장해 놓은 프로필 사진과 비교, 인식해냄으로써 해당 인물에 대한 정보를 불러와서 자동으로 태깅하는 시스템을 구현하였다. 이러한 새로운 방식의 태깅 기술은 현존하는 사진공유, 쇼핑, 검색 등의 수많은 웹서비스에 적용이 가능하며, 특히 소셜네트워크서비스에서의 사진 관리나 인물검색 등에서 활용할 때 큰 효과를 보일 것으로 기대된다.

잡지기사 관련 상품 연계 추천 서비스를 위한 하이퍼네트워크 기반의 상품이미지 자동 태깅 기법 (Auto-tagging Method for Unlabeled Item Images with Hypernetworks for Article-related Item Recommender Systems)

  • 하정우;김병희;이바도;장병탁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.1010-1014
    • /
    • 2010
  • 잡지기사 관련 상품 연계 추천 서비스는 온라인 상에서 잡지 가사의 컨텍스트를 반영하여 상품을 추천하는 서비스이다. 현재 이러한 서비스는 잡지기사와 상품에 부여되어 있는 태그 간의 유사성을 기준으로 한 추천 기술에 의존하고 있으나, 태그 부여 비용과 추천의 정확도가 높지 않은 단점이 있다. 본 논문에서는 잡지 기사 컨텍스트 관련 상품연계 추천 기술의 한 요소로서 상품이미지 정보로부터 상품의 종류를 자동으로 분류하고 이를 상품의 태그로 활용하는 방법을 제안한다. 이미지에서 추출한 시각단어(visual word)와 상품 종류 간의 고차 연관관계를 하이퍼네트워크 기법을 통해 학습하고, 학습된 하이퍼네트워크를 이용하여 상품 이미지에 한 개 이상의 태그를 자동으로 부여한다. 실제 온라인 쇼핑몰에서 사용되는 10 가지 종류의 상품 1,251개의 이미지 데이터를 기반으로, 하이퍼네트워크 이용한 상품이미지 자동 태깅 기법이 다른 기계학습 방법과 비교하여 경쟁력 있는 성능을 보여줌과 동시에, 복수개의 태그 부여를 통해 상품 이미지 태깅의 정확성이 향상됨을 보인다.

띄어쓰기 비종속 품사 태깅 시스템 개발 (Development of POS Tagging System Independent to Word Spacing)

  • 이경일;안태성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-72
    • /
    • 2003
  • 본 논문에서는 입력된 한국어 문자열로부터 형태소를 분석하고, 품사를 태깅하는 방법에 있어 개선된 통계적 모델을 제안하고, 이에 기반한 띄어쓰기 비종속 형태소 분석 및 태깅 시스템의 개발과 성능 평가에 대한 결과를 소개하고 있다. 제안된 통계 기반품사 태깅 시스템은 입력된 문자열로부터 음절의 띄어쓰기 확률값을 계산하여 유사어절을 생성하고, 유사어절 단위로 사용자 띄어쓰기와 상관없이 형태소 후보 리스트를 생성하며, 인접한 후보 형태소들의 접속 확률 계산에 있어 어절 간 접속 확률과 어절 내 접속 확률을 모두 사용함으로, 최적의 형태소 리스트를 결정하는 모델을 사용하고 있다. 특히, 형태소들의 접속 확률 계산 시 어절 간 접속 확률과 어절 내 접속 확률의 결합 비율이 음절의 띄어쓰기 확률 값과 사용자의 띄어쓰기 여부에 따라 자동으로 조절되는 특징을 가지고 있으며, 이를 통해 극단적으로 띄어 쓰거나 붙여 쓴 문장에 대해서도 평균 90%수준의 품사 태깅 성능을 달성할 수 있었다.

  • PDF

기술 지식 자동 추출을 위한 테스트 컬렉션 구축 (Construction of Test Collection for Automatically Extracting Technological Knowledge)

  • 신성호;최윤수;송사광;최성필;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권7호
    • /
    • pp.463-472
    • /
    • 2012
  • 지난 10년간 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 페이스북이나 트위터와 같은 소셜 네트워크의 출현 등으로 정보량은 급속도로 늘어나고 있다. 대용량의 데이터와 이로 인해 파생되는 방대한 정보는 그것을 얻고자 하는 사람들에게 한계를 느끼게 한다. 따라서 방대한 정보 속에서 의미있는 지식을 추출하기 위한 시스템 기반의 연구가 활발히 시도되고 있다. 이로 인해 지식 추출 시스템의 중요성이 날로 강조되고 있지만, 정확성과 효율성 측면에서 여전히 많은 과제가 있다. 지식 추출 시스템의 성능을 향상시키기 위해서는 시스템을 평가하기 위한 테스트 컬렉션이 중요하다. 본 논문에서는 기술 지식의 자동 추출을 위해 개발된 시스템을 평가하기 위한 테스트 컬렉션을 소개한다. KEEC/KREC(KISTI Entity Extraction Collection/KISTI Relation Extraction Collection)라 명명된 테스트 컬렉션에 대한 구축 절차 및 기준과 구축된 테스트 컬렉션의 특징을 제시한다. 특히 테스트 컬렉션의 주요한 평가 기준이 되는 정확도를 높이기 위해 태깅 지원 도구를 활용한 전문가 태깅 방식을 사용하는 것이 주요 특징이다. 태깅 지원 도구를 활용한 전문가 태깅은 시스템에 의한 자동 태깅 도구들 또는 사람이 태깅을 하되, 지원 도구 없이 태깅하는 방법보다 태깅의 정확도를 높여준다. 구축된 KEEC/KREC은 실제로 과학기술 문헌에 존재하는 PLOT(Person, Location, Organization, Technology) 간 연관관계 추출 성능 평가를 위해서 사용되었고, 의미있는 연구결과를 도출하는데 기여하였다.

일반화된 미등록어 처리와 오류 수정규칙을 이용한 혼합형 품사태깅 (Hybrid POS Tagging with generalized unknown word handling and post error-correction rules)

  • 차정원;이원일;이근배;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.88-93
    • /
    • 1997
  • 본 논문에서는 품사 태깅을 위해 여러 통계 모델을 실험을 통하여 비교하였으며 이를 토대로 통계적 모델을 구성하였다. 형태소 패턴 사전을 이용하여 미등록어의 위치와 개수에 관계없는 일반적인 방법의 미등록어 처리 방법을 개발하고 통계모델이 가지는 단점을 보완할 수 있는 오류 수정 규칙을 함께 이용하여 혼합형 품사 태깅 시스템인 $POSTAG^{i}$를 개발하였다. 미등록어를 추정하는 형태소 패턴 사전은 한국어 음절 정보와 용언의 불규칙 정보를 이용하여 구성하고 다어절어 사전을 이용하여 여러 어절에 걸쳐 나타나는 연어를 효과적으로 처리하면서 전체적인 태깅 정확도를 개선할 수 있다. 또 오류 수정 규칙은 Brill이 제안한 학습을 통하여 자동으로 얻어진다. 오류 수정 규칙의 자동 추출시에 몇 가지의 휴리스틱을 사용하여 보다 우수하고 일반적인 규clr을 추출할 수 있게 하였다. 10만의 형태소 품사 말뭉치로 학습하고 학습에 참여하지 않은 2만 5천여 형태소로 실험하여 97.28%의 정확도를 보였다.

  • PDF

은닉 마르코프 모델을 이용한 음차표기된 외래어의 자동인식 및 추출 기법 (Automatic Detection and Extraction of Transliterated Foreign Words Using Hidden Markov Model)

  • 오종훈;최기선
    • 인지과학
    • /
    • 제12권3호
    • /
    • pp.19-28
    • /
    • 2001
  • 본 논문에서는 한국어문서에서 음차표기된 외래어를 자동적으로 인식 및 추출하는 알고리즘을 제안한다. 제안된 방법에서는 음차표기된 외래어 인식 및 추출 문제를 음절태깅문제로 변환한다. 음절태깅문제는 주어진 단어 내의 음절들에 대하여 순수 한국어를 구성하는 음절인지 또는 음차표기된 외래어를 구성하는 음절인지를 태깅하는 작업으로 정의된다. 이를 위하여. 주어진 어절 내의 음절의 나열을 순수 한국어 음절을 표현하는 상태와 외래어 음절을 표현하는 상태의 이진 상태(binary state)로 모델링한 은닉 마르코프 모델을 이용한다. 제안된 방법은 기존 연구에 비하여 높은 재현율과 정확률로 음차표기된 외래어를 인식 및 추출하였다.

  • PDF

육상 수조식 양식장에서 개선된 태깅 방법에 의한 RFID 급이 이력 시스템 구현 (An Implementation of RFID Feeding History System with Improved Tagging Methods in land-based Aquaculture Farms)

  • 예성빈;정성주;정희택;한순희
    • 한국정보통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.745-753
    • /
    • 2010
  • RFID를 활용한 객체의 이동분석 및 활용에 관한 연구가 활발히 이루어지고 있다. 본 연구에서는 육상수조 양식장에서 비정형 사료의 수조별 정확한 급이 투여 현황을 파악할 수 있도록 개선된 태깅 방법을 제안하고, 자동 급이 이력을 수행할 수 있는 RFID 급이 시스템을 설계하였다. 또한 무게 측정 디바이스, 리더, 컨트롤모듈, 디스플레이 장치 등을 장착한 RFID 급이 카트를 제작하고 자동 식별 및 자동 기록이 가능한 개발프로그램을 탑재하여 프로토 타입 시스템을 구현했다.

웨어러블 센서를 이용한 라이프로그 데이터 자동 감정 태깅 (Automated Emotional Tagging of Lifelog Data with Wearable Sensors)

  • 박경화;김병희;김은솔;조휘열;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권6호
    • /
    • pp.386-391
    • /
    • 2017
  • 본 논문에서는 실생활에서 수집한 웨어러블 센서 데이터에서 사용자의 체험 기반 감정 태그정보를 자동으로 부여하는 시스템을 제안한다. 사용자 본인의 감정과 사용자가 보고 듣는 정보를 종합적으로 고려하여 네 가지의 감정 태그를 정의한다. 직접 수집한 웨어러블 센서 데이터를 중심으로 기존 감성컴퓨팅 연구를 통해 알려진 보조 정보를 결합하여, 다중 센서 데이터를 입력으로 하고 감정 태그를 구분하는 머신러닝 기반 분류 시스템을 학습하였다. 다중 모달리티 기반 감정 태깅 시스템의 유용성을 보이기 위해, 기존의 단일 모달리티 기반의 감정 인식 접근법과의 정량적, 정성적 비교를 한다.