• 제목/요약/키워드: 형태 검색

검색결과 1,631건 처리시간 0.023초

시맨틱 주석을 이용한 내용 기반 데이터 검색 (Content based data search using semantic annotation)

  • 김병곤;오성균
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권4호
    • /
    • pp.429-436
    • /
    • 2011
  • 인터넷검색의 대상이 되는 각종 문서, 이미지, 동영상 등의 자료가 늘어날수록 이에 대한 효율적인 검색의 문제가 중요시되고 있다. 효율적인 검색의 관점은 초기의 키워드 중심의 검색에서 자료가 지니는 의미적인 요소들을 종합적으로 판단하여 이들의 연관성을 찾아 검색하는 의미적 검색의 방향으로 진행되고 있다. 이에 따라, 각종 자료에 대한 의미적 검색을 위하여 메타데이터 처리를 위한 시맨틱 주석을 생성, 운영하는 시스템들이 연구되어 왔다. 그러나, 동일한 종류의 자료에 대한 주석 위주로 진행되었고, 각기 다른 방법과 형태로 생성된 주석 데이터 간에는 호환적인 검색이나 처리가 어렵다. 본 연구에서는 이 문제를 해결하기 위하여 다양한 주석문서를 내용분석에 따라 단계별 형태로 분류하고, 상이한 종류의 자료 간에도 검색이 가능하도록 문서간의 유사도를 측정하는 방법을 제시하였다. 주석문서간의 유사도 측정은 소스문서와 유사도가 높은 주석문서를 검색하여 결과적으로 자료의 종류나 형태에 상관없이 가장 유사한 내용을 지니는 문서나 이미지, 동영상 등을 검색하는데 사용할 수 있다.

RGB와 HSV 칼라 형태를 조합하여 사용한 칼라 코렐로그램 영상 검색 (Color Correlogram using Combined RGB and HSV Color Spaces for Image Retrieval)

  • 안영은;박종안
    • 한국통신학회논문지
    • /
    • 제32권5C호
    • /
    • pp.513-519
    • /
    • 2007
  • 칼라 코렐로그램은 칼라 히스토그램처럼 픽셀의 칼라 정보만을 고려하지 않고 영상의 픽셀의 공간 정보까지 고려하기 때문에 콘텐츠 기반 영상 검색(CBIR)에서 널리 사용되어 왔다. 칼라 코렐로그램은 하나의 칼라 형태를 사용한다. 그래서 칼라 코렐로그램은 영상 검색 시 같은 영상이라도 크기가 다를 경우 다른 영상으로 인식하는 등 영상의 특징을 구별해내는데 강건하지 않다. 본 논문에서는 RGB와 HSV의 두 가지 칼라 형태를 사용하여 코렐로그램을 함으로써 기존의 알고리즘보다 영상의 특징을 더 잘 구별해내는 알고리즘을 제안하였다. 이 제안된 알고리즘은 대규모 영상 데이터베이스에서 테스트하였고 그 결과 하나의 칼라 형태를 사용한 코렐로그램 알고리즘과 비교하여 검색된 영상의 평균 순위가 5.63 낮아져 제안한 알고리즘이 더 나은 검색 성능을 나타낸다는 것을 보여준다.

문헌검색(文獻檢索)에 있어서 Chemical Abstracts와 CA Condensates의 비교(比較)

  • Robert, B.E.
    • 정보관리연구
    • /
    • 제9권1호
    • /
    • pp.21-25
    • /
    • 1976
  • 1975년(年) 3월(月), 4년반(年半) 동안의 Chemical Abstracts 색인(索引)과 온-라인이 가능(可能)한 CA Condensates를 비교(比較)하였다. 두가지 데이터 베이스를 함께 이용(利用)하여 검색(檢索)하는 방법(方法)이 가장 효율적(效率的)이지만 실예(實例)에서 보는 바와 같이 CA Condensates를 검색(檢索)하는 것이 보다 실용적(實用的)이다. System Development Corp 사(社) (SDC)에 설치(設置)되어 있는 온-라인 형태(形態)인 CHEMCON과 CHEM7071을 Chemical Abstracts 색인(索引)과 비교(比較)하였다. 대부분(大部分)의 Chemical Abstracts 이용자(理容者)들은 Chemical Abstracts 책자나 우가색인(累加索引)에는 친숙(親熟)하지만 CA Condensates는 아마도 그리 친숙(親熟)하지 못할 것이다. CA Condensates는 서지적 사항을 기계(機械)로 읽을 수 있는 형태(形態)로 되어 있고 Chemical Abstracts에 따라서 색인(索引)되므로 매주 발행되는 Chemical Abstracts 책자의 뒷 부분이 있는 색인(索引)과 같이 우리에게 가장 친숙(親熟)한 형태(形態)로 되어 있다. Chemical Abstracts가 현재(現在) 사용(使用)하고 있는 데이터 데이스이지만 본고(本稿)에서는 Index와 Condensates를 둘 다 데이터 베이스로 정의(定義)한다. Condensates가 미국(美國)의 Chemical Abstracts Service 기관으로부터 상업적(商業的)으로 이용(利用)할 수 있게 되자 여러 정보(情報)센터에서는 이용자(利用者)들의 프로 파일을 뱃취방식(方式)으로 처리(處理)하여 매주 나오는 자기(磁氣)테이프에서 최신정보(最新情報)를 검색(檢索)하여 제공(提供)하는 서어비스 (SDI)를 시작하였다. 어떤 정보(情報)센터들은 지나간 자기(磁氣)테이프들을 모아서 역시 뱃취방식(方式)으로 소급(遡及) 문헌검색(文獻檢索) 서어비스를 한다. 자기(磁氣)테이프를 직접 취급(取扱)하는 사람들을 제외(除外)하고는 대부분(大部分) Condensates를 아직 잘 모르고 있다. 소급(遡及) 문헌검색(文獻檢索)은 비용이 다소 비싸고 두서없이 이것 저것 문헌(文獻)을 검색(檢索)하는 방법(方法)은 실용적(實用的)이 못된다. 매주 나오는 색인(索引)에 대해서 두 개나 그 이상의 개념(槪念)이나 물질(物質)을 조합(組合)하여 검색(檢索)하는 방법(方法)은 어렵고 실용적(實用的)이 못된다. 오히려 주어진 용어(用語) 아래에 있는 모든 인용어(引用語)들을 보고 초록(抄錄)과의 관련성(關連性)을 결정(決定)하는 것이 때때로 더 쉽다. 상호(相互) 작용(作用)하는 온-라인 검색(檢索)을 위한 Condensates의 유용성(有用性)은 많은 변화를 가져 왔다. 필요(必要)한 문헌(文獻)만을 검색(檢索)해 보는 것이 이제 가능(可能)하고 어떤 항목(項目)에 대해서도 완전(完全)히 색인(索引)할 수 있게 되었다. 뱃취 시스팀으로는 검색(檢索)을 시작해서 그 결과(結果)를 받아 볼 때 까지 수시간(數時間)에서 며칠까지 걸리는 번거로운 시간차(時間差)를 이제는 보통 단 몇 분으로 줄일 수 있다. 그리고 뱃취 시스팀과는 달리 부정확하거나 불충분한 검색방법(檢索方法)은 즉시 고칠 수가 있다. 연속적인 뱃취 형태의 검색방법(檢索方法)에 비해서 순서(順序)없이 온-라인으로 검색(檢索)하는 방법(方法)이 분명(分明)하고 정확(正確)한 장점(長點)이 있다. CA Condensates를 자주 이용(移用)하게 되자 그의 진정한 가치(價値)에, 대해 논의(論義)가 있었다. CA Condensates의 색인방법(索引方法)은 CA Abstract 책자나 우가색인(累加索引)의 방법(方法)보다 확실히 덜 체계적(體系的)이고 철저(徹底)하지 못하다. 더우기 두 데이터 베이스는 중복(重複)것이 많으므로, 중복(重複)해서 검색(檢索)할 가치(價値)가 없는지를 결정(決定)해야 한다. 다른 몇 개의 데이터 베이스와 CA Condensates를 비교(比較)한 논문(論文)들이 여러 번 발표(發表)되어 왔는데 일반적(一般的)으로 CA Condensates는 하위(下位)의 데이터 베이스로 나타났다. Buckley는 Chemical Abstracts의 색인(索引)이 CA Condensates 보다 더 좋은 문헌 (데라마이신의 제법에 관해서)을 제공(提供)한 실례(實例)를 인용(引用)하였다. 죠오지대학(大學)의 Search Center는 CA Condensates가 CA Integrated Subject File 보다 기능(機能)이 못하다는 것을 알았다. CA Condensates의 다른 여러 가지 형태(形態)들을 또한 비교(比較)하였다. Michaels은 CA Condensates를 온-라인으로 검색(檢索)한 것과 매주 나오는 Chemical Abstracts 책자의 색인(索引)은 수작업(手作業)으로 검색(檢索)한 것을 비교(比較)한 논문(論文)을 발표(發表)하였다. 그리고 Prewitt는 온-라인으로 축적(蓄積)한 두 개의 상업용(商業用) CA Condensates를 비교(比較)하였다. Amoco Research Center에서도 CA Condensates와 Chemical Abstracts 색인(索引)의 검색결과(檢索結果)를 비교(比較)하고 CA Condensates의 장점(長點)과 색인(索引)의 장점(長點), 그리고 사실상(事實上) 서로 동등(同等)하다는 실례(實例)를 발견(發見)하였다. 1975년(年) 3월(月), 적어도 4년분(年分)의 CA Condensates와 색인(索引)(Vols 72-79, 1970-1973)을 비교(比較)하였다. 저자(著者)와 일반(一般) 주제(主題) 대한 검색(檢索)은 Vol 80 (Jan-June, 1974)을 사용(使用)하여 비교(比較)하였다. CA Condensates는 보통 세분화(細分化)된 복합물(複合物)을 검색(檢索)하는 데 불편(不便)하다. Buckly가 제시(提示)한 실례(實例)가 그 대표적(代表的)인 예(例)이다. 그러나, 다른 형태(形態)의 검색실예(檢索實例)(단체저자(團?著者), 특허수탁저(特許受託著), 개인저자(個人著者), 일반적(一般的)인/세분화(細分化)된 화합물(化合物) 그리고 반응종류(反應種類)로 실제적(實際的)인 검색(檢索)을 위한 CA Condensates의 이점(利點)을 예시(例示)하였다. 다음 실례(實例)에서 CHEMCON과 CHEM7071은 CA Condensates를 온-라인으로 입력(入力)시킨 것이다.

  • PDF

영상 형태 특징을 이용한 내용 기반 검색 시스템 (Content-based Retrieval System using Image Shape Features)

  • 황병곤;정성호;이상열
    • 한국산업정보학회논문지
    • /
    • 제6권1호
    • /
    • pp.33-38
    • /
    • 2001
  • 본 논문에서는 영상의 형태 특징을 이용한 영상 검색 시스템을 제안한다. 형태특징을 얻기 위해서 먼저 체인코드를 이용하여 경계선 추출을 추출하였다. 형태특징으로 객체의 경계선과 무게중심까지의 합, 표준편차 그리고 객체의 장축과 단축 비율 등을 추출하였다. 이러한 형태특징 정보를 이용하여 데이터 베이스에 저장된 영상과 질의 영상을 비교하여 유사도 순위에 따라 후보 영상들을 검색하였다. 본 실험의 결과 크기, 회전 이동 등의 변화에 둔감하였다. 약 170개의 폐곡선을 이루는 영상에 대한 검색 실험을 통하여 모양 정보에 대한 정확도를 측정하였다. 실험 결과 평균 Recall/Precision이 0.72/0.83를 보임으로써 제안된 방법이 유용함을 보였다.

  • PDF

형태 정보와 방향 정보를 이용한 2단계 상표 영상 검색 (Two-Stage Trademark Image Retrieval using Shape Feature and Direction Feature)

  • 김유선;고병철;이해성;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권8호
    • /
    • pp.570-581
    • /
    • 2001
  • 본 논문에서는 윤곽선(edge) 기반의 형태 정보와 웨이브렛 변환(wavelet transform)에 의한 방향(direction) 정보를 사요하는데 2단계 상표 영상 검색 시스템을 제안한다. 1 단계에서는 후보 상표 영상을 추출하기 위해 영상의 전반적인 정보로 원 상표 영상(original trademark image)을 웨이브렛 변환하여 얻은 X, Y 방향 고주파(high frequency) 성분으로부터 구한 방향 정보와 영상의 윤곽선에 대해 모멘트를 구하는 향상된 불변 모멘트(improved invariant moment)를 이용한다. 2단계에서는 후부 영상들에 대해 영상의 세부 정보인 윤곽선 각도(edge angle)와 윤곽선 반지름(edge radius) 정보를 추출하여 유사도 측정 알고리즘을 통해 결과 영상을 산출하게 된다. 본 상표 영상 검색 시스템은 문자 색인으로는 색인이 용이 하지 않은 기하학적도형 상표 영상만을 사용하였다. 본 시스템에서는 색상과는 상관없는 특징인 형태 정보와 방향 정보만을 이용하므로 같은 색상 구성을 가진 유사 영상뿐만 아니라, 유사하지만 바탕이 반전된 영상이나 색상이 다른 유사 영상에 대해서도 바르게 검색할 수 있으며, 각 특징을 일반화해줌으로 이동.회전.크기 변화에도 불변하는 견고성을 가진다. 또한 효율적인 검색을 위해 2단계의 구조를 사용하였으며, 각 단계마다 계산량을 줄여 검색 시간을 감소시키도록 설계되었다.

  • PDF

단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측 (Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity)

  • 이상아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

단어 임베딩과 음성적 유사도를 이용한 트위터 '서치 방지 단어'의 자동 예측 (Automatic Prediction of 'Anti-Search Variants' of Twitter based on Word Embeddings and Phonetic Similarity)

  • 이상아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.190-193
    • /
    • 2017
  • '서치 방지 단어'는 SNS 상에서 사용자들이 작성한 문서의 검색 및 수집을 피하기 위하여 사용하는 변이형을 뜻한다. 하나의 검색 키워드가 있다면 그와 같은 대상을 나타내는 변이형이 여러 형태로 존재할 수 있으며, 이들 변이형에 대한 검색 결과를 함께 수집할 수 있다면 데이터 확보가 중요하게 작용하는 다양한 연구에 큰 도움이 될 것이다. 본 연구에서는 특정 단어가 주어진 키워드로부터 의미 벡터 상의 거리가 가까울수록, 그리고 주어진 키워드와 비슷한 음성적 형태 즉 발음을 가질수록, 해당 키워드의 변이형일 가능성이 높을 것이라고 가정하였다. 이에 따라 단어 임베딩을 이용한 의미 유사도와 최소 편집 거리를 응용한 음성적 유사도를 이용하여 주어진 검색 키워드와 유사한 변이형들을 제안하고자 하였다. 그 결과 구성된 변이형 후보의 목록에는 다양한 형태의 단어들이 포함되었으며, 이들 중 다수가 실제 SNS 상에서 같은 의미로 사용되고 있음이 확인되었다.

  • PDF

내용기반 영상검색을 위한 형태정보추출 (Shape Feature Extraction for Content-Based Image Retrieval)

  • 곽성희;김호성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.503-505
    • /
    • 1998
  • 효율적인 영상 검색 시스템을 구축하기 위하여 칼라, 형태, 질감등과 같은 특징을 추출하여 검색하는 방법들이 연구되어 지고 있다. 이 중 기존의 형태 정보를 이용한 방법은 적용 대상을 국한하여 연구되거나 특징 추출을 위한 계산의 복잡성에 비해 좋은 효과를 보이지 않고 있다. 본 논문에서는 이러한 문제점을 해결하고 다양한 영상에 적용할 수 있는 특징을 추출하고자 통계적인 방법중의 하나인 히스토그램을 이용하고자 한다. 히스토그램을 이용한 방법은 계산이 용이할 뿐 아니라 검색 결과면에서도 높은 효율을 보이고 있다. 영상으로부터 추출한 선분을 각도에 따라 18개의 빈으로 양자화 하여 각 빈에 속한 선분들의 길이의 합을 이용하여 비교하는 각도 히스토그램(angular histogram), 그리고 선분들이 공간 분포에 대한 정보를 얻기 위하여 각도 히스토그램에서 각 빈에 속한 선분들의 대표 좌표들의 1차, 2차, 3차 모멘트를 구하여 사용하는 방법과 특정 각도를 가진 선분들 사이의 거리를 이용한 각도 Correlogram을 제안한다.

  • PDF