• 제목/요약/키워드: Information filtering

검색결과 3,011건 처리시간 0.028초

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

움직임과 영상 패턴 서술자를 이용한 중복 동영상 검출 (Detecting near-duplication Video Using Motion and Image Pattern Descriptor)

  • 진주경;나상일;정동석
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.107-115
    • /
    • 2011
  • 본 논문은 대용량 동영상을 관리하기 위한 빠르고 효율적인 내용기반 중복 동영상 검출 알고리즘을 제안한다. 효율적인 중복 동영상 검출을 위해 대용량의 동영상을 처리하기 쉬운 작은 단위로 나누는 동영상 장면 전환 기반 분할 기술을 적용하였다. 동영상 서비스 및 저작권 보호 관련 사업모델의 경우, 필요한 기술은 아주 작은 구간의 동영상이나 한 장의 영상 을 검색하기보다는 상당한 길이 이상 일치하는 동영상을 파악하는 기술이 필요하다. 이러한 중복 동영상 검출을 위해 본 논문에서 동영상을 장면 전환을 기준으로 분할하여, 나누어진 장면 내에서 움직임 분포 서술자와 대표 프레임을 선택하여 프레임 서술자를 추출한다. 움직임 분포 서술자는 동영상 디코딩 과정에서 얻어지는 매크로 블록의 움직임 벡터를 이용한 장면 내 움직임 분포 히스토그램을 구성하였다. 움직임 분포 서술자는 정합시 고속 정합이 가능하도록 필터링 역할을 한다. 반면 움직임 정보만는 낮은 변별력을 가진다. 이를 높이기 위해 움직임 분포 서술자를 이용하여 정합된 장면간에 선택된 대표 프레임의 패턴 서술자를 이용하여 동영상의 중복 여부를 최종 판단한다. 제안된 방법은 실제 동영상 서비스 환경에서 우수한 인식률과 낮은 오인식률을 가질 뿐만아니라 실제 적용이 가능할 정도의 빠른 정합 속도를 얻을 수 있었다.

수돗물 이용에 대한 국내 연구동향과 사회적 인식 (The Research Trend and Social Perceptions Related with the Tap Water in South Korea)

  • 김지윤;도윤호;주기재;김은희;박은영;이상협;백명수
    • 생태와환경
    • /
    • 제49권3호
    • /
    • pp.208-214
    • /
    • 2016
  • 본 연구에서는 국내 수돗물 관련 연구 동향을 파악하기 위해 805건의 연구문헌 정보를 수집하여 텍스트 마이닝 기법으로 주제어 관계 분석을 시행하고 수돗물 이용에 대한 설문조사를 진행하여 사회적 인식을 조사하였다. 수돗물에 연관된 연구는 1990년대부터 수가 크게 증가한 것으로 파악되었으나 정확한 수돗물 불신의 원인파악과 대국민 소통에 대한 전문적인 연구는 매우 미흡하였다. 그동안 진행된 주요 연구분야는 크게 상수도 수질, 불소농도조정사업, 수돗물 잔류물 영향, 미생물 관리의 4개 주제군으로 구분할 수 있었다. 수돗물 음용에 대한 대국민 설문조사결과 응답자의 22.4%만이 수돗물을 주 음용수로 이용하고 있었으며 그대로 마시는 비율은 4.5%로 매우 낮게 나타났다. 수돗물의 주 음용수 사용에 미치는 주요한 영향요인으로는 수돗물 품질보고서 인지 여부, 수돗물 관리 정책에 대한 신뢰도 등의 영향력이 큰 것으로 나타났다. 지속적인 수돗물 음용 확대를 위해서는 수돗물 관리 정책 소통의 전환과 연구정보 공유 확산을 통해 이용자의 사회적 관심과 기관의 신뢰를 높여야 한다. 이를 위해 철저하게 관리되고 있는 수돗물 수질에 대한 객관적인 정보전달 체계를 확대하여 사회공공서비스의 모범을 제시해야 할 것으로 생각된다. 또한, 수돗물 불신에 대한 이용자 인식과 행동 원인에 대한 연구와 이를 해결하기 위한 실험적 접근들이 동시에 이루어져야 할 것으로 판단된다.

광디스크 디지털 서보의 저전력 구현 아키텍쳐 (Low Power Digital Servo Architecture for Optical Disc)

  • 허준호;김수원
    • 전자공학회논문지SC
    • /
    • 제38권2호
    • /
    • pp.31-37
    • /
    • 2001
  • 광디스크 재생기에서 사용되는 디지털 서보는 주변 블록과의 집적화가 유리하고, 온도변화에 따른 열화가 적으며, 각종 픽업에 대한 유연한 대응이 가능한 장점 때문에 이용도가 점점 높아지고 있는 추세이다.[6] 그러나 디지털 시그널 프로세서를 내장한 디지털 서보는 전력 소비량이 매우 큰 단점을 가지고 있다. 본 논문에서는 광디스크 재생기의 특성 상 초기화 시간에 대부분의 기능이 몰려 있으므로 DSP의 사이클 수는 많이 차지 하나, 실제로 전력 소비에 주된 영향을 끼치는 시간은 초기화 시간이 아닌 재생 모드 시간 임에 착안하여 디지털 서보의 소비 전류를 획기적으로 줄일 수 있는 방안을 제시하였다. 재생 모드에서의 필터 처리 사이클 수를 최대한 줄일 수 있도록 아키텍쳐를 변환함과 동시에 디지털 서보의 재생 모드를 병렬 처리함으로써, 전체 시스템의 소비 전력을 크게 줄이는 효과를 얻을 수 있도록 하였다. 즉, 광디스크 재생기의 디지털 서보에 포함되는 DSP 코아의 리소스 공유를 통해DSP의 동작 속도와 부하를 크게 줄임으로써 소비 전류를 획기적으로 줄이는 효과를 얻어낸 것이다. 이러한 개념은 DSP-코아 뿐만 아니라, ROM, RAM에도 모두 적용되어 기존 아키텍쳐의 디지털 서보에 비해 소비 전류를 83% 가까이 줄일 수 있는 효과를 얻을 수 있었다.

  • PDF

차원 인체 스캔 데이터를 활용한 한국 중년여성 토르소 원형 설계 (Torso Pattern Design for Korean Middle-Aged Women using 3D Human Body Scan Data)

  • 김혜진;박순지
    • 한국의류산업학회지
    • /
    • 제13권4호
    • /
    • pp.600-613
    • /
    • 2011
  • The purpose of this study is to provide Torso pattern for Korean middle-aged women using 3D human body scan data. 155 women in their 40's or 50's were measured by Martin's anthropometry. Merging the data of 914 middle aged women provided by Korean agency for technology and standards, total of 1,069 subjects' data were analyzed. For data analysis, ANOVA, factor analysis and cluster analysis were done using SPSS PC+. And representative subject of each cluster was selected and they participated in 3D scanning and Torso pattern suggested for middle-aged women Torso pattern which investing the amount of ease according to each group for diffuse front interscye 30%, armscye circumference 30%, back interscye 40% using 3D human body scan data. The results of this study are as follows. Firstly, as a result of the factor analysis, the first factor was 'obesity index of body', The second factor was 'verticality size of body', The third factor was 'verticality length of upper bodice', The fourth factor was 'drop value to represent silhouette', and the fifth factor was 'physique of upper bodice'. And, middle-aged women type were classified 3 types according to the cluster analysis. Type 1(Y-type) was the long upper Torso with wide shoulder. Type 2(H-type) was flat-body type with comparatively thin upper bodice and thin lower bodice. And type 3(A-type) was the obese type with comparatively thin upper bodice and fat lower bodice. Secondly, using CAD program, point filtering was performed and approximated surface model was made. It used that generated surface smoothing corrected for abnormally extruded points and scattered points based on the curvature information. And 3D surfaces were flatted onto the plane by the internal tools of CAD program. Difference ratios of outline length and area between 3D curves and 2D plane were 0.42% and 0.54%, respectively. Third, wearing test by the sensory evaluation showed that distinct difference almost every category. The movement functionality test shows that, in all the tests which reveal significant differences, especially, 'comparison pattern A' experienced inconvenience to neck width and neck depth.

필터링에 기반한 고차원 색인구조의 동시성 제어기법의 설계 및 구현 (Design and Implementation of High-dimensional Index Structure for the support of Concurrency Control)

  • 이용주;장재우;김학영;김명준
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.1-12
    • /
    • 2003
  • 최근 이미지, 비디오와 같은 멀티미디어 데이터에 대한 효율적인 검색을 위해 많은 다차원 및 고차원 색인 구조들에 대한 연구가 활발히 진행되고 있다. 하지만 기존의 색인 구조의 연구 방향은 검색의 효율을 극대화 하는데 초점을 맞추어 왔으며 최근의 멀티미디어 데이터베이스나 데이터 마이닝 분야와 같은 다수 사용자 환경을 요구하는 환경에서는 부적합한 실정이다. 이에 본 논문에서는 기존의 제시된 차원이 증가하면서 급속하게 성능이 저하되는 문제를 특징 벡터의 시그니쳐를 구성하여 완화시킨 필터링에 기반한 고차원 색인 구조에 동시성 제어기법을 설계 및 구현하여 위스콘신 대학에서 개발한 지속성 객체 저장 시스템인 SHORE 하부저장 시스템과 밀결합 방식으로 통합하였다. 확장된 SHORE 하부저장 시스템은 고차원 데이터에 대한 효율적인 검색 뿐만 아니라 레코드 레벨의 색인 데이터에 대한 동시성 제어를 지원하며 시그니쳐 파일을 모두 메모리에 로딩하는 구조를 개선하여 페이지 레벨의 관리가 가능하다. 아울러 본 논문에서 제시한 확장된 SHOE 하부저장 시스템을 실제 응용 시스템에 적용하기 위해 플랫폼 독립적인 환경을 지원하는 자바 언어를 사용하여 미들웨어 구축 방안을 제시한다. 또한 구축된 미들웨어를 통해 쓰레드 별로 대표적인 내용기반 질의 형태인 포인트질의, 범위질의, k-최근접 질의에 대한 다수 사용자 환경에서의 성능 평가를 수행하였다.

내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색 (A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images)

  • 정규식;권희웅
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

RFID 태그 데이타의 연속질의 처리를 위한 질의 색인 (A Query Index for Processing Continuous Queries over RFID Tag Data)

  • 석수욱;박재관;홍봉희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권2호
    • /
    • pp.166-178
    • /
    • 2007
  • RFID 기술 표준화를 추진하고 있는 EPCglobal의 ALE(Application Level Event)는 응용 애플리케이션과 RFID 미들웨어 사이의 인터페이스로서 ECSpec(Event Cycle Specification)과 ECReports(Event Cycle Reports)를 정의하고 있다. ECSpec은 애플리케이션이 원하는 태그 데이타에 대한 명세이며, ECReports는 ECSpec이 제시한 조건에 적합한 결과를 보고하기 위한 것이다. ECSpec은 애플리케이션이 미들웨어에 등록하는 이벤트 여과를 위한 명세로서 일정 시간 동안 반복적으로 수행되는 연속질의(continuous query)와 유사한 특성을 가진다. ECSpec을 연속질의로 변환할 때 해당 질의가 가지는 술어(Predicate)는 매우 긴 길이를 가지는 간격이 된다. 기존 질의색인들은 긴 간격 데이타에 의해 삽입과 검색 성능이 저하되는 문제점이 있다. 이 논문에서는 ECSpec을 연속질의의 형태로 변환하고 해당 질의가 가지는 술어인 2차원 간격의 특성을 반영한 새로운 질의 색인 구조로써 TLC-Index를 제안한다. 색인 구조는 그리드 방식의 큰 크기를 가지는 셀 분할 구조와 선분 모양의 가상 분할 구조를 병행하는 하이브리드 구조이다. TLC-index는 긴 간격을 큰 크기를 가지는 셀 분할 구조로 분할 삽입함으로써 저장 공간의 소모를 줄이고 삽입 성능을 향상 시킨다. 또한 짧은 간격들을 짧은 길이를 가지는 가상 분할 구조들로 분할 삽입함으로써 그리드 방식이 가질 수 있는 부분적 겹침을 제거하여 검색 성능을 향상시킨다.

새로운 객체 외곽선 연결 방법을 사용한 비디오 객체 분할 (Video object segmentation using a novel object boundary linking)

  • 이호석
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.255-274
    • /
    • 2006
  • 비디오에서 움직이는 객체의 외곽선은 객체를 정확하게 분할하기 위하여 매우 중요하다. 그러나 움직이는 객체의 외곽선에는 단락된 외곽선들이 존재하게 된다. 우리는 단락된 외곽선을 연결할 수 있는 새로운 외곽선 연결 알고리즘을 개발하였다. 외곽선 연결 알고리즘은 단락된 외곽선의 말단 픽셀에 사분면을 형성하고 동심원을 구성하면서 반지름 내에서 다른 말단 픽셀을 찾는 탐색을 전진하면서 수행한다. 외곽선 연결 알고리즘은 객체의 외곽선에서 가장 짧게 외곽선을 연결한다. 그리고 시스템은 비디오로부터 배경을 구하여 저장한다. 시스템은 외곽선 연결로부터 객체 마스크를 생성하고, 배경된 저장으로부터 또 하나의 객체 마스크를 생성하여 이 두 개의 객체 마스크를 보완적으로 사용하여 움직이는 객체를 분할한다. 논문의 주요 장점은 정확한 객체 분할을 위한 새로운 객체 외곽선 연결 알고리즘의 개발이다. 제안된 알고리즘은 개발된 새로운 객체 외곽선 연결 알고리즘과 배경 저장을 이용하여 정확한 객체 분할, 다중 객체 분할, 내부에 구멍이 존재하는 객체의 분할, 가느다란 객체의 분할, 그리고 복잡한 배경을 가진 객체를 자동으로 분할하여 보여주었다. 우리는 알고리즘들을 표준 MPEG-4 실험 영상과 카메라로 입력된 실제 영상을 가지고 실험하였다. 제안된 알고리즘들은 매우 효율이 좋으며 펜티엄-IV 3.4GHz CPU에서 평균적으로 QCIF 영상을 1초당 70.20 프레임 그리고 CIF 영상을 1초당 19.7 프레임을 실시간 객체 응용을 위하여 처리할 수 있다.

페로몬 트랩 영상에서 해충 검출을 위한 객체 분할 (Object Segmentation for Detection of Moths in the Pheromone Trap Images)

  • 김태우;조태경
    • 한국산학기술학회논문지
    • /
    • 제18권12호
    • /
    • pp.157-163
    • /
    • 2017
  • 객체 분할 방식은 객체를 먼저 분할한 후, 검출된 객체에 대해 해충 검출 알고리즘을 적용하므로 해충 개체를 검출하는 데 필요한 처리 비용이 줄어드는 장점이 있다. 본 논문에서는 페로몬 트랩 영상에서 해충 검출을 위한 객체 분할 방법을 제안한다. 제안한 방법은 전처리, 문턱치 처리, 형태학적 필터링, 레이블링 처리로 구성된다. 이들 과정 중 문턱치 처리는 객체 분할의 성능을 좌우하는 매우 중요한 처리 과정이다. 제안한 방법은 문턱치 처리 과정에서 해충 영상의 국소적 특성을 반영하므로 매우 정교한 문턱치 처리를 할 수 있다. 과수원에 설치된 페로몬 트랩에서 수집된 복숭아심식나방 영상에 대해 Otsu의 방법의 전역적 방식과 국소적 방식, 그리고 제안한 방법으로 처리한 결과, 제안한 방법이 조명과 배경의 특성을 잘 반영함을 알 수 있었다. 페로몬 트랩에 수집된 복숭아심식나방 영상에 대해 객체 분할과 개체 분류를 수행하였다. 개체 분류는 SVM 분류기로 학습하여 사용하였다. 실험에서 제안한 방법으로 10개의 해충 영상에 대해 복숭아심식나방 검출 결과 95%의 평균 검출율을 보임으로써 과수원의 복숭아심식나방의 개체 모니터링 방법으로서 효과적임을 보였다.