• 제목/요약/키워드: 내용기반 매칭

검색결과 83건 처리시간 0.032초

강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법 (A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews)

  • 신준수;김학수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권12호
    • /
    • pp.946-950
    • /
    • 2010
  • 기계 학습 기반의 많은 감정 분류 시스템들은 문장으로부터 언어적 자질을 추출하기 위하여 형태소 분석기를 사용한다. 그러나 온라인 상품평에는 많은 띄어쓰기 오류 및 철자 오류가 포함되어 있어서 일반적으로 형태소 분석기가 좋은 성능을 내기 어려우며, 기반 시스템의 낮은 성능은 감정 분류 시스템의 성능하락을 초래한다. 이러한 문제를 해결하기 위하여 본 논문에서는 어절 패턴과 음운 패턴의 최장 일치 매칭(matching)에 기반한 자질 추출 방법을 제안한다. 두 종류의 패턴은 대용량의 품사 부착 말뭉치로부터 자동으로 구축된다. 어절 패턴은 영사, 동사와 같은 내용어를 포함하는 어절들로 구성되며, 음운 패턴은 동사나 형용사와 같은 용언의 초성과 중성의 쌍으로 구성된다. 음운 패턴에 초성과 중성만을 사용한 이유는 철자 오류에 영향을 덜 받기 때문이다. 제안 방법을 평가하기 위하여 SVM(Support Vector Machine)을 기계 학습기로 사용하는 감정 분류 시스템을 구현하였다. 한국어 상품평에 대한 실험에서 제안 방법을 자질 추출 모듈로 사용하는 감정 분류 시스템이 형태소 분석기를 사용하는 것보다 우수한 성능을 보였다.

세그먼트 기반의 XML 문서 필터링 (XML Document Filtering based on Segments)

  • 권준호;;문봉기;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권4호
    • /
    • pp.368-378
    • /
    • 2008
  • 최근 XML 문서 필터링에 기반한 출판-구독(publish-subscribe) 시스템이 많은 관심을 받고 있다. 전형적인 출판-구독 시스템에서, 구독자들은 XPath 언어로 명세된 프로파일로 자신들의 관심을 표현하고, 새로운 내용들은 사용자 프로파일에 대하여 매칭 여부를 판단하여 관심을 가지고 있는 사용자들에게만 배달된다. 구독자의 수와 그들의 프로파일이 증가할수록, 시스템의 확장성이 출판-구독 시스템의 중요한 성공 요소가 된다. 이 논문에서는 FiST 시스템을 확장한 세그먼트 기반의 XML 문서 필터링 시스템인 SFiST 시스템을 제안한다. SFiST 시스템은 XML 문서 필터링에서 중복된 처리를 없애기 위해서 가지형 패턴의 사용자 프로파일에서 세그먼트를 추출하여 해시 기반의 세그먼트 테이블에 저장하고 유지한다. 이 세그먼트는 사용자 프로파일을 터스 시퀀스 형태로 표현하는데 이용되고, 효율적인 필터링을 위한 컴팩트 시퀀스 인덱스에도 사용된다. 실험을 통하여 세그먼트 기반의 SFiST 시스템이 이전의 연구인 FiST 시스템보다 좋은 성능을 가지고 있음을 보였다.

홍수 감지를 위한 무인기 획득 영상의 매칭 및 기하보정 기법 (Image matching and geometric correction scheme for flood detection with UAV images)

  • 신원재;이민섭;권은정;이현우;이용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.1029-1030
    • /
    • 2017
  • 본 논문에서는 기존의 재난 감시 및 관리 서비스가 사람에 의한 단순 모니터링 기반의 대응을 제공하는 데 비해, 무인기를 활용해 사람의 사각에서 발생하는 재난 상황을 촬영하여 감시 및 분석을 하며, 무인기에 탑재된 다중 복합 센서 데이터의 실시간 처리 분석을 통해 국지적 홍수 재난의 감지 예측 및 상황대응을 지원하고, 통합경보 시스템과 연동하여 대국민 재난 정보 전달 서비스 제공하는 서비스이다. 현재 본 서비스를 제공할 수 있는 Front to End 시스템이 개발 완료되어 실험실 테스트를 진행하였으며, 이와 더불어 실제 필드에서의 재난 감시 및 예측 성능을 검증하기 위한 필드 테스트를 준비 중에 있다. 이에 본 논문에서는 현재 구축하고 있는 홍수 재난 관리 스마트아이 플랫폼에 대한 내용을 간단히 소개하고, 중요한 기능중 하나인 무인기 촬영 영상의 기하보정에 대해서 논한다.

사용자 질의 패턴을 이용한 효율적인 오디오 색인기법 (An Efficient Audio Indexing Scheme based on User Query Patterns)

  • 노승민;박동문;황인준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권4호
    • /
    • pp.341-351
    • /
    • 2004
  • 디지털 오디오 컨텐츠의 활용이 보편화되면서 오디오 데이타베이스에 대해 컨텐츠를 효과적으로 질의하고 검색하는 기능이 절실해졌다. 본 논문에서는 사용자들이 자주 질의하는 멜로디 부분을 이용하여 오디오 검색을 효과적으로 수행할 수 있는 새로운 인덱스 기법을 제안한다. 이 기법은 어떤 오디오에 대해 사용자가 기억하고 질의하는 내용이 대개 오디오의 특정 부분에 한정되어 있다는 사실에 기반하고 있다. 사용자의 이러한 질의 패턴을 이용하여 자주 질의되는 부분을 감지하고 인덱스로 사용함으로써 사용자가 원하는 곡을 빠르게 찾아낼 수 있게 해준다. 이러한 방법은 데이타베이스의 모든 컨텐츠를 순차적으로 검색하는 기존의 방법에 비해 적은 비용으로 검색 속도를 크게 향상시키며 특히 기존의 검색 시스템 상위 모듈로 사용이 가능하다. 프로토타입 시스템을 구현하고 다양한 실험을 통하여 논문에서 제안하는 기법의 우수성을 보인다.

피치 히스토그램과 MFCC-VQ 동적 패턴을 사용한 음악 검색 (Music Identification Using Pitch Histogram and MFCC-VQ Dynamic Pattern)

  • 박철의;박만수;김성탁;김회린
    • 한국음향학회지
    • /
    • 제24권3호
    • /
    • pp.178-185
    • /
    • 2005
  • 본 논문에서는 내용기반 음악 정보 검색 방법으로써 멜로디의 시간 변화 특성과 통계적 특성을 모두 이용할 수 있는 hybrid 방법에 대해 제안하였다. 실제 방송 환경에의 적용을 위해 드라마 OST의 좁은 검색 범위뿐만 아니라 가요 1,005곡의 넓은 검색 범위에서도 제안한 방법을 이용하여 실험하였다. 제안된 방법은 특징 벡터로써 pitch와 MFCC(Mel Frequency Cepstral Coefficient)를 사용하여 음의 특성을 나타내었으며 멜로디를 표현하기 위해 피치 히스토그램과 VQ (Vector Quantization) 코드화한 MFCC의 템포럴 시퀀스를 이용함으로써 음악 검색 방법에 멜로디의 시간 변화 특성과 통계적 특성을 함께 적용할 수 있었다. 또한 pitch 히스토그램과 MFCC-VQ 템포럴 방법을 모두 사용한 hybrid 방식에 적절한 패턴 매칭 방법을 제안함으로써 기존의 각 단일 방식을 이용한 성능 결과 (MFCC-VQ 템포럴)와 비교하여 볼 때 드라마 OST 검색 범위에서는 평균 $9.9\%$, 가요 1,005곡의 검색 범위에서는 $10.2\%$의 오류 감소율을 나타내었다.

내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색 (A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images)

  • 정규식;권희웅
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

YIN 피치 정보를 이용한 음악 정보 검색 시스템 구현 (Implementation of Music Information Retrieval System using YIN Pitch Information)

  • 석수영;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제10권11호
    • /
    • pp.1398-1406
    • /
    • 2007
  • 최근 급격히 증대되고 있는 멀티미디어 데이터를 사용자에게 편하고 효과적으로 제공하는 것은 내용 기반 정보 시스템의 핵심적인 요소이다. 허밍을 이용한 음악 검색 시스템은 사용자가 찾고자 하는 음악의 선율 중 일부분을 직접 허밍으로 입력하여 데이터베이스로부터 음악을 검색할 수 있는 편리한 방법이다. 일반적인 음악 정보 검색 시스템은 고정도의 피치 검출 방법을 필요로 하고 있으나 허밍의 입력으로부터 정확한 피치 정보를 검출하기에는 어려움이 있다. 본 논문에서는 시스템의 성능 향상을 위해 기본적인 고정도 피치 정보 추출을 위해 신뢰도가 적용된 YIN 파라미터의 이용을 제안하고, 이를 적응하여 개발한 허밍을 이용한 음악 정보 검색 시스템에 대해 소개한다. 개발된 시스템은 음고, 음장 정보 및 에너지에 가중치를 두어 연속 DP 매칭을 수행하여 시스템의 성능을 향상시켰다. 성능평가를 위해 실시한 검색 실험결과 기존의 음고 정보 추출방법 중 캡스트럼 기반 다중 피치 검출 방법에 비해 본 논문에서 제안한 신뢰도를 적용한 YIN 피치 검출방법이 1위 결과에서 9.1%, 10위 결과에서는 7.2% 성능 향상을 나타내어 제안한 방법의 유효성을 확인할 수 있었다. 또한 전체 시스템의 성능은 155곡을 대상으로 10위까지의 결과에서 92.8%의 성능을 나타내었다.

  • PDF

기획자를 위한 객체지향적 게임시스템 기획 방법 (An Object-oriented Design Method of Game System for Game Designers)

  • 장희동
    • 한국게임학회 논문지
    • /
    • 제16권3호
    • /
    • pp.17-26
    • /
    • 2016
  • 국내 게임산업현장에서 게임시스템 기획은 기획자가 게임컨셉을 만족하는 게임플레이가 이루어지는 게임메카닉스 시스템을 데이터구조적 설계방법으로 creative design 작업관점에서 초기적으로 설계하는 작업이다. 그러나 프로그래머는 구현을 위해 기획내용을 바탕으로 게임시스템을 객체지향적 방법으로 engineering design 작업관점에서 설계한다. 이러한 작업방식은 기획자와 프로그래머 사이에 의사소통 과정에서 다양한 오류들과 작업결과물의 미스매칭 오류들의 발생가능성이 높다. 이 문제를 해결하기 위해, 본 논문에서는 기획자가 객체지향적 설계방법으로 게임시스템을 기획하는 방법을 제안하였다. 제안하는 방법은 객체지향적 SW 개발 가이드라인인 GRAPPLE을 기반으로 기획자의 게임시스템 기획에 적합하도록 커스터마이징한 것이다. 본 논문에서 제안한 게임시스템 기획방법의 효용성을 조사하기 위해 국내 게임산업체에 근무하는 게임시스템 기획자 10명을 대상으로 설문조사하였다. 설문 조사결과는 거의 모든 대상자들이 제안한 방법의 효용성이 '조금 이상' 있음으로 나타났다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

초점거리 정보를 이용한 디지털 사진 분류 알고리즘 (A Smart Image Classification Algorithm for Digital Camera by Exploiting Focal Length Information)

  • 주영호;조환규
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제12권4호
    • /
    • pp.23-32
    • /
    • 2006
  • 최근 들어 디지털 카메라의 대중화로 인하여 많은 사람들이 손쉽게 다량의 사진을 촬영할 수 있게 되었다. 수백 장의 사진을 수작업으로 분류, 관리하는 것은 매우 힘든 일이며, 따라서 이를 자동으로 수행해주는 시스템의 필요성이 증대되었다. 디지털 이미지를 분류하는 이전 연구들은 대부분 일반적인 사진에 중점을 두고 있기 때문에 디지털 사진을 분류하기 위해서는 사용하기 힘들다. 최근에는 특정 조건 내에서 디지털 이미지를 분류하는 연구들이 많이 진행되고 있다. 이 알고리즘들은 대부분 시간차를 이용하여 사진을 분류하며 대부분 좋은 결과를 보이고 있지만 개선해야할 여지가 많이 남아있다. 예를 들면 초점거리와 같은 정보들은 사진을 분류할 때 전혀 사용하지 않는다. 따라서 본 논문에서는 EXIF의 초점거리 정보를 이용한 사진 분류 알고리즘을 제안한다. 본 논문에서는 매칭 벡터 분석방법을 이용하여 사진을 분류한다. 제안한 방법으로 실험한 결과, 95%의 사진 분류 성공률을 보였다.

  • PDF