• 제목/요약/키워드: 키워드 추출 방법

검색결과 355건 처리시간 0.031초

칼라 지정을 이용한 내용기반 화상검색 시스템 구현 (Implementation of a Content-Based Image Retrieval System with Color Assignments)

  • 김철원;최기호
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.933-943
    • /
    • 1997
  • 본 논문에서는 화상의 칼라 지정을 이용한 내용기반 화상검색 시스템 구현에 관하여 연구 하였다. 화상의 칼라는 사람이 느끼는 칼라에 적합하도록 RGB칼라 공간을 HSC(hue, saturation, value) 칼라공간으로 변환시켜 그 특징을 추출하였다. 칼라특징 추출시 화상을 9개의 영역으로 나누어 각 영역의 대표칼라 3개를 칼라 히스토 그램을 사용 하여 선택하였다. 키워드로 화상의 종류를 선택가능하도록 했으며, 검색은 화상 입력 에 의한 검색과,칼라지정을 이용한 키워드에 의한 검색, 칼라지정을 이용한 키워드와 화상 입력을 결합한 화상검색, 화상내의 특징 객체를 선택하여 검색하는 4가지 질의방법을 사용하여 실험하였다. 실험결과, 각각의 방법에서 Pre-cision/Recall이 0.55/0.37, 0.57/0.43, 0.59/0.45, 0.63/0.61의 결과를 얻었으며, 칼라지정을 사용함으로써 우수한 검색효율을 보였다.

  • PDF

코너 형태와 그레이스케일 히스토그램을 정제를 이용한 영상검색 (Image Retrieval using Gray Scale Histogram Refinement and Corner Shape)

  • 정일회;;박종안
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.380-383
    • /
    • 2008
  • 본 논문은 단순한 키워드 검색에서 발생하는 오차를 줄이기 위해 이미지의 코너정보와 그레이스케일 히스토그램 정제를 이용한 영상 검색 시스템을 구현하고자 한다. 먼저 원하는 이미지의 특정을 추출하는 단계와 추출된 특징을 분석하는 단계, 확보된 정보를 데이터베이스로부터 검색하는 단계, 그 결과 안에서의 그레이스케일 히스토그램 정제 방법으로 다시 재검색하는 단계, 마지막으로 정확한 정보 추출단계를 거치게 된다. 구현 알고리즘은 검색 단계에 있어서 크게 2단계로 나눠진다. 먼저 이미지를 에지로 변환 코너정보를 추출하는 단계, 코너 점의 픽셀을 3*3으로 나누어 RGB중의 픽셀의 합을 하는 단계, 그 코너 값을 데이터베이스와 비교하는 단계, 최대 500개까지의 추출된 이미지를 데이터베이스에 저장되는 단계로 이루어지며 다음 단계는 원 이미지를 그레이스케일로 변환 등질화하는 단계, 히스토그램 정보 획득하는 단계, 8*8 개의 빈으로 나누어 최대 색상정보 값을 추출하는 단계, 그리고 최대 색상정보 영역을 1단계 결과 값과 비교하여 정확한 검색을 얻는 단계로 구성되며 시뮬레이션 결과는 우수한 정확도를 보여 주고 있다.

  • PDF

개념 기반 질의-응답 시스템에서 개념 규칙을 이용한 해답 추출 (Answer Extraction using Concept Rules in Concept-based Question-Answering System)

  • 강유환;안영민;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-188
    • /
    • 2005
  • 본 논문에서는 개념 기반 질의-응답 시스템에서 개념 규칙을 이용하여 해답을 추출하는 방법에 대하여 기술한다. 개념 기반 질의-응답 시스템은 질의문의 각 유형별 개념 정보를 이용하여 질의문을 분석하고 해답을 추출하는 시스템이다. 질의문의 키워드들을 개념에 따라 분류하고, 질의 유형별로 공통적으로 나타나는 개념들을 이용하여 개념 프레임을 정의한다. 또한, 개념 정보와 해답이 들어 있는 문장과 문단에서 공통적으로 나타나는 구문 특성을 이용하여 해답 추출을 위한 규칙을 작성한다. 개념 규칙은 형태 정보와 구문 정보를 포함하며, 질의 유형별로 따로 작성한다. 작성된 규칙을 이용하여 문서로부터 해답이 들어 있는 문장과 문단을 추출한 후 질의문의 해답 유형에 해당하는 개체를 해답 후보로 제시한다. 실험 결과 개념 규칙을 이용한 해답 추출의 정확도가 매우 높게 나타났다.

  • PDF

텍스트 마이닝을 활용한 2017년 한국 대선 분석 (An Analysis of the 2017 Korean Presidential Election Using Text Mining)

  • 안은희;안정국
    • 한국융합학회논문지
    • /
    • 제11권5호
    • /
    • pp.199-207
    • /
    • 2020
  • 최근 빅데이터 분석은 대량의 데이터로부터 미래를 예측하여 가치를 창출할 수 있어 다양한 분야에서 주목받고 있으며, 정치 캠페인 운영이나 결과 예측에도 활용되고 있다. 하지만 기존의 연구는 특정 SNS 데이터만을 분석하여 후보자들에 대한 정보를 취합하는데 한계가 있었다. 이에 본 연구는 2017년 한국 대선 후보별 뉴스와 댓글을 수집하여 뉴스 생성 추이, 토픽 추출, 감성 분석, 키워드 분석, 키워드 감성 분석을 하였다. 분석 결과, 대선 후보 간 다양한 토픽들이 생성되는 것을 확인하였으며, 후보별 이슈가 되는 중점 키워드와 이에 대한 유권자들의 호응도가 추출되었다. 본 연구는 포털 뉴스에서 생성되는 대선 캠페인에 대한 동향을 마이닝 할 수 있게 했다는 점과 감성 분석을 통해 대권주자들에 대한 유권자들의 관심과 의견들을 정량화하여 수치화한 것에 의의가 있다. 본 연구가 여론 수렴의 도구적 방법을 제시함으로써 이를 바탕으로 전략적인 행동 방안을 도출할 수 있을 것을 기대한다.

키워드 추출과 군집화 기반의 논문 분류 시스템의 설계 및 구현 (Design and Implementation of Paper Classification Systems based on Keyword Extraction and Clustering)

  • 이윤수;테이퍼악떠라;이종혁;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.48-51
    • /
    • 2018
  • 컴퓨터 및 기술의 발전으로 힘입어 수많은 논문이 오프라인뿐 아니라 온라인으로 발행되고 있고, 새로운 분야들도 계속 생기면서 사용자들은 방대한 논문들 중 자신이 필요로 하는 논문을 검색하거나 분류하기에 많은 어려움을 겪고 있다. 이러한 한계를 극복하기 위해 본 논문에서는 유사 내용의 논문을 분류하고 이를 군집화하는 방법을 제안한다. 제안하는 방법은 TF-IDF를 이용하여 각 논문의 초록으로 부터 대표 주제어를 추출하고, K-means 클러스터링 알고리즘을 이용하여 추출한 TF-IDF 값을 근거로 논문들을 유사 내용의 논문으로 군집화한다.

미디엄 숏 검출에 관한 연구 (A Study of Medium Shot Detection)

  • 이형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.93-95
    • /
    • 2023
  • 본 논문에서는 장편의 드라마나 영화에서 스토리 기반의 축약된 요약본을 자동으로 제작하기 위해 미디엄 숏(medium shot) 크기의 숏(shot)들을 추출하기 위한 방법을 고려한다. 미디엄 숏 정도의 크기는 보통 인물에 중심을 둔 숏들로 인물들 간의 관계에서 특히 대사나 표정으로 내용을 전달하기 위한 목적으로 적극 권장된다. 비디오 검색을 위한 인덱싱에서 신(scene) 전환 검출 및 숏 경계 검출, 그리고 이미지에서 심도와 초점기반의 화질 및 피사체 추출 등을 위해 전통적인 신호/영상처리 기법의 활용에서부터 최근의 기계학습 접목 등 다양한 연구들이 진행되고 있다. 영상문법에 근거하여 편집된 영상물에서 미디엄 숏 정도 크기의 숏들을 추출하여 배열한다면 어느 정도 원본 내용을 충실히 전달할 수 있는 축약된 요약본을 제작할 수 있다는 가정하에 해당 샷들을 블러(blur) 기반으로 검출하기 위해 이와 관련된 키워드들을 기반으로 기존 연구들을 살펴보고 적용 방법을 모색한다.

  • PDF

퍼지 추론을 이용한 소수 문서의 대표 키워드 추출에 대한 유용성 평가 (Evaluation on the usefulness of Representative Keyword Extraction from Few Documents through Fuzzy Inference)

  • 노순억;김병만;신윤식;임은기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.247-249
    • /
    • 2002
  • 본 논문은 퍼지 추론을 이용하여 소수문서로부터의 대표 용어들을 추출하고 가중치를 부여한 기존 방법의 유용성을 평가하고자 GIS (Generalized Instance Set) 알고리즘에 이를 적용시켜 보았다. GIS 는 학습 문서 집합에 대한 플러스터링 과정을 통해 문서 그룹들을 생성하고 이들에 대한 선형 분류기들을 유도한 뒤 k-NN 알고리즘을 적용하는 방법이다. GIS의 일반화(generalization) 과정에 Rocchio, Widrow-Hoff 및 퍼지 추론을 이용한 방법을 적용시켜 문서 분류 성능을 비교하였다. 긍정적 문서 집합에 대한 실험에서 비교적 우수한 성능 향상을 보여줌으로써 퍼지 추론을 이용한 방법의 유용성을 확인 할 수 있었다.

  • PDF

하이퍼링크를 활용한 2단계 스팸 메일 필터링 시스템 (Two-phase Spam-mail Filtering System Applying Hyper]links)

  • 강신재;이새봄;김종완
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2004년도 춘계학술대회 21세기 IT산업의 발전 전망
    • /
    • pp.20-25
    • /
    • 2004
  • 본 논문은 하이퍼링크를 활용한 2 단계 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹 페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 토로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메일만 사용한 방법보다 F-measure 값이 평균 2.8%의 성능향상을 보였다.

  • PDF

표절검사를 위한 프로그램 추적기법 (The Tracing Method of Program for Plagiarism Detection)

  • 지정훈;우균;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.709-712
    • /
    • 2006
  • 표절을 검사하는 방법으로는 문서 내의 특정 정보들을 추출하여 비교하는 지문법(fingerprint)과 파스트리(parse tree)와 같이 프로그램의 특정한 구조를 이용하여 문서의 구조적 유사성을 검사하는 구조적(structure metrics) 검사방법들이 있다. 본 논문에서는 표절검사를 위한 프로그램 추적 기법을 제안한다. 프로그램 추적 기법은 프로그램을 구문단계에서 정적으로 수행을 하여 그 수행되는 함수들의 순서에 따라 주요 키워드를 추출하여 새롭게 정렬하는 방법이다. 실험결과 사용하지 않는 코드 삽입, 함수 위치 변경 및 합성 등과 같은 표절 스펙트럼에서 정의한 표절 방법에 대하여 효과적으로 검출할 수 있었다.

  • PDF

언어 네트워크 분석 방법을 활용한 학술논문의 내용분석 (A Content Analysis of Journal Articles Using the Language Network Analysis Methods)

  • 이수상
    • 정보관리학회지
    • /
    • 제31권4호
    • /
    • pp.49-68
    • /
    • 2014
  • 본 연구의 목적은 국내 학술논문 데이터베이스에서 검색한 언어 네트워크 분석 관련 53편의 국내 학술논문들을 대상으로 하는 내용분석을 통해, 언어 네트워크 분석 방법의 기초적인 체계를 파악하기 위한 것이다. 내용분석의 범주는 분석대상의 언어 텍스트 유형, 키워드 선정 방법, 동시출현관계의 파악 방법, 네트워크의 구성 방법, 네트워크 분석도구와 분석지표의 유형이다. 분석결과로 나타난 주요 특성은 다음과 같다. 첫째, 학술논문과 인터뷰 자료를 분석대상의 언어 텍스트로 많이 사용하고 있다. 둘째, 키워드는 주로 텍스트의 본문에서 추출한 단어의 출현빈도를 사용하여 선정하고 있다. 셋째, 키워드 간 관계의 파악은 거의 동시출현빈도를 사용하고 있다. 넷째, 언어 네트워크는 단수의 네트워크보다 복수의 네트워크를 구성하고 있다. 다섯째, 네트워크 분석을 위해 NetMiner, UCINET/NetDraw, NodeXL, Pajek 등을 사용하고 있다. 여섯째, 밀도, 중심성, 하위 네트워크 등 다양한 분석지표들을 사용하고 있다. 이러한 특성들은 언어 네트워크 분석 방법의 기초적인 체계를 구성하는 데 활용할 수 있을 것이다.