• 제목/요약/키워드: Automatic Retrieval

검색결과 250건 처리시간 0.023초

논문 원문을 이용한 동명 저자 자동 군집화 (Automatic Clustering of Same-Name Authors Using Full-text of Articles)

  • 강인수;정한민;이승우;김평;구희관;이미경;구남앙;성원경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.652-656
    • /
    • 2006
  • 대용량 과학 기술 문헌의 탐색 및 검색에 있어서 저자, 저자 소속 기관, 게재지 등에 대해 고유 식별자에 기반한 표현의 필요성이 증가하고 있다. 특히, 과학 기술 문헌의 저자가 단순히 이름으로 표현될 경우, 동일명을 가진 서로 다른 저자들에 대한 구분은 사용자의 검색 부담을 가중시키게 된다. 이러한 동명이인의 문제를 해결하기 위한 기존의 접근법들은 공저자 정보, 논문 제목 등의 서지 정보에 의존하는 공통점을 지닌다. 그러나, 기존의 방법들은 공저자가 없거나 논문 제목 간의 공통 어휘가 발견되지 않을 경우 어려움을 겪게 된다. 본 연구에서는, 동명저자 문제 해소를 위한 기존의 접근법을 보완하기 위해, 동명저자들의 논문 원문의 내용에 기반한 문서 군집화 방법을 사용한다. 국내 학술대회 발표 논문집을 대상으로 한 실험에서 제안한 방법이 기존의 서지정보에 기반한 해법의 단점을 보완할 수 있다는 가능성을 보였다.

  • PDF

교육용 비디오의 ToC 자동 생성 방법 (A Method of Generating Table-of-Contents for Educational Video)

  • 이광국;강정원;김재곤;김회율
    • 방송공학회논문지
    • /
    • 제11권1호
    • /
    • pp.28-41
    • /
    • 2006
  • 양방향 맞춤형 방송의 실현으로 인해 비디오의 내용을 자동으로 분석하여 그 구조를 기술하거나 요약을 생성하는 등의 내용 기반 비디오 분석 기술의 필요성이 요구되고 있다. 본 논문에서는 온라인에서 수요가 높고 특히 맞춤형 방송에 적합한 방송 콘텐츠인 교육용 비디오의 ToC를 자동으로 생성하기 위한 방법을 제안한다. 제안한 ToC 생성 방법은 씬 분할과 씬 서술의 두 단계로 이루어져 있다. 씬 분할 단계에서는 삿 분할을 수행한 후 샷 간의 연결관계 분석을 통해 입력 영상을 씬 단위로 분할하게 된다. 씬 서술 단계에서는 분할된 각 씬이 장면 분류, 자막 검출, 화자 인식 등에 의해 그 내용이 자동으로 서술된다. 제안된 방법을 통해 생성된 ToC는 씬과 샷의 계층 구조를 통해 비디오의 구성을 표현하고, 검출된 여러 특정을 이용해 각 씬과 샷의 내용을 서술함으로써 사용자가 비디오의 내용을 한눈에 알아볼 수 있고 원하는 내용에 손쉽게 접근할 수 있도록 도와줄 수 있다. 또 보다 상세한 ToC가 요구되는 경우에는 유용한 정보들이 포함되어 있는 초기 형태의 ToC로써 이용되어 수작업에 의한 ToC 생성에 필요한 시간을 효과적으로 줄이는 것이 가능하다. 실험을 통해 제안한 방법으로 여러 개의 교육용 비디오에서 ToC를 효과적으로 생성될 수 있음을 확인하였다.

문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화 (Automatic Text Categorization Using Passage-based Weight Function and Passage Type)

  • 주원균;김진숙;최기석
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.703-714
    • /
    • 2005
  • 문서 범주화 분야에 대한 연구들은 전체 문서 단위에 한정되어 왔으나, 오늘날 대부분의 전문들이 주요 주제를을 표현하기 위해서 조직화 된 특정 구조로 기술되고 있어, 텍스트 범주화에 대한 새로운 인식이 필요하게 되었다. 이러한 구조는 부주제(Sub-topic)의 텍스트 블록이나 문단(Passage) 단위의 나열로서 표현되는데, 이러한 구조 문서에 대한 부주제 구조를 반영하기 위해서 문단 단위(Passage-based) 문서 범주화 모델을 제안한다. 제안한 모델에서는 문서를 문단들로 분리하여 각각의 문단에 범주(Category)를 할당하고, 각 문단의 범주를 전체 문서의 범주로 병합하는 방법을 사용한다. 전형적인 문서 범주화와 비교할 때, 두 가지 부가적인 절차가 필요한데, 문단 분리와 문단 병합이 그것이다. 로이터(Reuter)의 4가지 하위 집합과 수십에서 수백 KB에 이르는 전문 테스트 컬렉션(KISTl-Theses)을 이용하여 실험하였는데, 다양한 문단 타입들의 효과와 범주 병합 과정에서의 문단 위치의 중요성에 초점을 맞추었다 실험한 결과 산술적(Window) 문단이 모든 테스트 컬렉션에 대해서 가장 좋은 성능을 보였다. 또한 문단은 문서 안의 위치에 따라 주요 주제에 기여하는 바가 다른 것으로 나타났다.

국내 GNSS 관측 자료를 이용한 전리권 총전자밀도 산출 시스템 구축 (Construction of Ionospheric TEC Retrieval System Using Korean GNSS Network)

  • 이정덕;신대윤;김도형;오승준
    • 한국위성정보통신학회논문지
    • /
    • 제7권3호
    • /
    • pp.30-34
    • /
    • 2012
  • 기상청 국가기상위성센터에서는 우주기상 업무의 일환으로 국내 GNSS 관측자료를 이용한 기상 및 우주기상 활용체계를 구축하였다. 본 연구에서는 국내 GNSS 관측망 자료를 이용한 준실시간 전리권 총전자밀도(TEC) 산출 시스템을 소개하고 산출된 결과를 제시하고자 한다. 국가기상위성센터의 준실시간 전리권 총전자밀도 산출 시스템에서는 국가지리정보원, 한국천문연구원, 위성항법 중앙사무소 및 기상청, 총 80여개의 GNSS 관측자료를 수집하고, 수집된 자료에 대하여 24시간 시간 창 기법(Time Windowing Method)을 적용하여 각 지점별 전리권 TEC 자료를 매시간 산출하고, 산출된 각 지점별 IPP(Ionospheric Pierce Point)에서의 TEC 값을 반스 내삽(Barnes Interpolation)을 사용하여 한반도 상공의 전리권 총전자밀도 격자자료를 생성하였다. 생성된 TEC 격자값을 IGS(International GNSS Service)에서 제공하는 전지구 전리권 총전자밀도 지도와 비교한 결과 한반도 상공의 전리권 상태를 더 잘 기술할 수 있음을 보였다.

고등학생의 DLS 검색행태 분석을 통한 학교도서관 자료 접근성 향상 방안 고찰 (A Study on Improving of Access to School Library Collection through High School Students' DLS Search Behavior Analysis)

  • 정영미;강봉숙
    • 한국도서관정보학회지
    • /
    • 제51권2호
    • /
    • pp.355-379
    • /
    • 2020
  • 학교도서관업무지원시스템(DLS)은 학교도서관 자료에 대한 핵심적 접근 도구이다. 본 연구의 목적은 DLS에서의 학생들의 정보검색행태 분석을 통해 학교도서관 자료 접근성 향상 방안을 탐색적으로 고찰하는 데 있다. 이에 학교도서관에서 DLS 검색을 시도하는 학생 42명을 대상으로 DLS 검색과정을 녹화하고 정보요구 전반에 대한 검색-전 질문지와 검색과정과 결과에 대한 검색-후 질문지를 통해 자료를 수집하였다. 분석결과, 평소 DLS 이용의 주목적이 단순 여가 독서인 경우, 정보요구가 상대적으로 모호한 경우, 그리고 검색과정에서 복잡한 상황을 겪는 경우 등에서 검색 성공률과 검색 만족도가 낮게 나타났다. 검색 만족도는 검색시간 충분성에 대한 만족도가 가장 높게, 검색 결과 만족도가 가장 낮게 나타났다. 기타 의견으로 정보 통합 검색, 관련 자료추천, 소장 위치 출력, 모바일 앱을 통한 음성 인식, 검색 실수 자동 교정 기능 등 요구가 있었다. 이를 통해 다음과 같이 제언할 수 있다. 첫째, 진학 및 진로정보 제공에 대한 교육 수요자의 요구를 반영하여 DLS 역시 진학 및 진로정보를 제공하는 기능을 보완해야 한다. 둘째, 일반적 정보 검색 시스템 수준으로의 DLS 기능 개선이 필수적이다. 셋째, 학교도서관 현장 인력과 DLS 관리 당국 간 긴밀한 협력을 위한 인프라가 구축되어야 한다.

라이프로그 관리 시스템에서 블루투스 장치를 이용한 효과적인 사진 검색 방법 (Effective Picture Search in Lifelog Management Systems using Bluetooth Devices)

  • 정은호;이기용;김명호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.383-391
    • /
    • 2010
  • 라이프로그 관리 시스템이란 개인의 일상 생활에 관련된 모든 정보를 저장하고, 이에 대한 관리 및 검색 기능을 제공하는 시스템이다. 본 논문은 라이프로그를 검색하는 방법 중, 현실 세상에서 발생한 사용자와 다른 사람들과의 사회적 접촉에 대한 정보를 키워드로 하여 관련된 라이프로그를 검색할 수 있도록 하는 방법을 제안한다. 이를 위하여 휴대폰의 근거리 무선 통신 장치를 이용하여 현실 세상에서 발생한 사용자의 사회적 접촉 정보를 자동으로 수집하는 방법과, 수집된 사회적 접촉 정보를 이용하여 주어진 인물과 관계된 사진을 검색할 수 있도록 하는 방법을 제안한다. 블루투스 장치와 인물의 관계를 추론하기 위하여 인물 정보가 기록된 기존 라이프로그를 이용, 인물과 블루투스 장치가 동시에 관찰되는 빈도수를 계산하여 사람-블루투스 매트릭스를 만든다. 실험 결과, 실제 사용자의 오프라인 만남 정보 중에서, 빈도수 계산 시각에 발생한 모든 오프라인 만남 정보의 20%의 정보만으로도 블루투스 장치와 그 소유주의 관계를 90% 이상의 정확도로 알아 낼 수 있었다. 또한 매트릭스에서 인물에 해당하는 벡터와 라이프로그가 생성된 시점에 스캔된 블루투스 장치들을 벡터 정보 검색 방법으로 비교하여 주어진 인물과 관련된 라이프로그를 검색함으로써, 제안하는 검색 방법은 기존의 검색 방법에 비하여 더 많은 사진을 반환할 뿐만 아니라 기존에는 불가능했던 검색어와의 유사도에 따른 정렬을 가능하게 한다.

전자 카탈로그에 대한 효율적인 색인어 통계 정보 관리 방법 (Efficient Management of Statistical Information of Keywords on E-Catalogs)

  • 이동주;황인범;이상구
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.1-17
    • /
    • 2009
  • 전자 카탈로그는 상품이나 서비스 정보를 저장하고 있는 전자 문서로, 전자 상거래에서 가장 중요한 자료 중 하나이다. 전자 카탈로그는 지속적으로 추가, 수정 혹은 삭제되면서 최신의 상태로 유지되게 되는데, 전자 카탈로그의 양이 많아지면서 중복이 발생하고, 부적합한 분류에 할당되는 등, 품질 유지 문제가 발생한다. 검색, 중복확인, 자동분류는 카탈로그 품질 관리를 위해 중요한 기능들인데, 이 기능을 구현하기 위해서 카탈로그에서 추출된 색인어들의 통계 정보를 활용한 확률 모델들이 제시되었다. 그러나 이들은 서로 독립적으로 다루어 졌기에, 카탈로그 관리 시스템이라 는 하나의 시스템에서 구현될 수 있음에도 불구하고, 각 모델들이 공유하는 데이터와 이를 관리하기 위한 데이터 관리 기법에 관한 연구는 미흡하였다. 따라서 본 논문에서는 세 기능을 위한 확률모델을 정리하고, 이를 관계형 데이터베이스 상에서 구현하고, 통계 정보를 효율적으로 관리하는 방법을 제시한다. 특히, 실체화 뷰를 이용하여 불필요한 응용의 개발 비용과 데이터 무결성 저해요인을 제거하였다. 다량의 실제 전자 카탈로그 데이터베이스에 대한 실험을 통해 관계형 데이터 베이스를 이용한 구현이 속도와 정확성에 있어 실용성이 있음을 보였고, 응용을 통한 통계 정보갱신 방법과의 비교를 통해 실체화 뷰를 활용한 통계 정보 관리 기법의 효용성을 보였다.

  • PDF

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

멀티모달 방법론과 텍스트 마이닝 기반의 뉴스 비디오 마이닝 (A News Video Mining based on Multi-modal Approach and Text Mining)

  • 이한성;임영희;유재학;오승근;박대희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권3호
    • /
    • pp.127-136
    • /
    • 2010
  • 정보 통신기술이 발전함에 따라 멀티미디어 데이터를 포함하는 디지털 기록물의 양은 기하급수적으로 증가하고 있다. 특히 뉴스 비디오는 시대상을 반영하는 풍부한 정보를 내포하고 있으므로, 이를 효과적으로 관리하고 분석하기 위한 뉴스 비디오 데이터베이스 및 뉴스 비디오 마이닝은 광범위하게 연구되어왔다. 그러나 현재까지의 뉴스 비디오 관련 연구들은 뉴스 기사에 대한 브라우징, 검색, 요약에 치중되어 있으며, 뉴스 비디오에 내재되어 있는 풍부한 잠재적 지식을 탐사하는 고수준의 의미 분석 단계에는 이르지 못하고 있다. 본 논문에서는 뉴스 비디오 클립과 스크립트를 동시에 이용하는, 멀티모달 방법론과 텍스트 마이닝 기반의 뉴스 비디오 마이닝 시스템을 제안한다. 제안된 시스템은 텍스트 마이닝의 군집분석을 통해 뉴스 기사들을 자동 분류하고, 분류 결과에 대해 기간별 군집 추이그래프, 군집성장도 분석 및 네트워크 분석을 수행함으로써, 뉴스 비디오의 기사별 주제와 관련한 다각적 분석을 수행한다. 제안된 시스템의 타당성 검증을 위하여 "2007년 제2차 남북 정상회담" 관련 뉴스 비디오를 대상으로 뉴스 비디오 분석을 수행하였다.

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

  • 서이안;신경식
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.1-19
    • /
    • 2018
  • 최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.