• 제목/요약/키워드: automatic indexing

검색결과 138건 처리시간 0.04초

게임 정보검색을 위한 자동색인 및 신조어 처리 시스템 구현 (Implementation of the Automatic Indexing and New Term Processing System for Game Information Retrieval)

  • 이상준;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.51-54
    • /
    • 2001
  • 오늘날 국내외에 인터넷 보급의 대중화가 점차 확대되고 네트워크을 이용하는 게임의 증가에 따라 게임에 관련된 웹 문서에 대한 사용자의 요구가 증가되고 있다. 기존의 수작업에 의한 색인 방식은 많은 전문인력, 시간, 경비등을 필요로 하기 때문에, 기하급수적으로 증가하는 웹 상의 정보를 처리하기에는 이미 그 한계에 이른 실정이다. 이러한 문제점의 해결을 위해 컴퓨터를 이용한 자동색인 시스템의 개발은 매우 중요하고 시급하다. 더구나 게임 분야에서 있어 신조어는 너무나 급속히 생성되고 있다. 따라서 이러한 신조어 처리는 효과적인 자동색인을 위한 중요한 요소이다. 이 논문에서는 사용자들에게 보다 적합하고 안정적인 게임 정보를 제공하기 위해 게임 용어 사전을 이용한 자동색인과 신조어 처리 시스템을 설계, 구현한다. 자동색인 및 신조어 처리를 위해 게임용어사전, TF-IDF, n-gram 추출법을 이용한다.

  • PDF

자동색인을 위한 학습기반 주요 단어(핵심어) 추출에 관한 연구 (Learning-based Automatic Keyphrase Indexing from Korean Scientific LIS Articles)

  • 김혜진;정유경
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2017년도 제24회 학술대회 논문집
    • /
    • pp.15-18
    • /
    • 2017
  • 학술 데이터베이스를 통해 방대한 양의 텍스트 데이터에 대한 접근이 가능해지면서, 많은 데이터로부터 중요한 정보를 자동으로 추출하는 것에 대한 필요성 또한 증가하였다. 특히, 텍스트 데이터로부터 중요한 단어나 단어구를 선별하여 자동으로 추출하는 기법은 자료의 효과적인 관리와 정보검색 등 다양한 응용분야에 적용될 수 있는 핵심적인 기술임에도, 한글 텍스트를 대상으로 한 연구는 많이 이루어지지 않고 있다. 기존의 한글 텍스트를 대상으로 한 핵심어 또는 핵심어구 추출 연구들은 단어의 빈도나 동시출현 빈도, 이를 변형한 단어 가중치 등에 근거하여 핵심어(구)를 식별하는 수준에 그쳐있다. 이에 본 연구는 한글 학술논문의 초록으로부터 추출한 다양한 자질 요소들을 학습하여 핵심어(구)를 추출하는 모델을 제안하였고 그 성능을 평가하였다.

  • PDF

모바일 이미지 기반의 문자인식 시스템 (The Character Recognition System of Mobile Camera Based Image)

  • 박영현;이형진;백중환
    • 한국산학기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.1677-1684
    • /
    • 2010
  • 최근 모마일 폰의 발달과 스마트 폰의 보급으로 인해서 많은 콘텐츠들이 개발되어지고 있다. 특히, 모바일 휴대장치에 소형 카메라가 탑재되면서부터 카메라로부터 입력되어지는 영상 기반 콘텐츠 개발은 사람들의 흥미뿐만 아니라 활용 면에서도 중요한 부분을 차지하고 있다. 그중 문자인식 시스템은 시각 장애인 보행 보조 시스템, 로봇 자동 주행 시스템, 비디오 자동 검색 및 색인 시스템, 텍스트 자동 번역 시스템 등과 같은 활용영역에서 매우 광범위하게 쓰일 수 있다. 따라서 본 논문에서는 스마트 폰 카메라로 입력되는 자연 영상에 포함되어 있는 텍스트를 추출 및 인식하고 음성으로 출력해주는 시스템을 제안하였다. 텍스트 영역을 추출하기 위해 Adaboost 알고리즘을 이용하고 추출된 개별 텍스트 후보영역의 문자 인식에는 오류 역전파 신경망을 이용하였다.

국내(國內) 문헌정보(文獻情報) 검색(檢索)을 위한 키워드 자동추출(自動抽出) 시스템 개발(開發) (Automatic Keyword Extraction System for Korean Documents Information Retrieval)

  • 예용희
    • 정보관리연구
    • /
    • 제23권1호
    • /
    • pp.39-62
    • /
    • 1992
  • 본(本) 연구(硏究)는 실제의 데이터 분석(分析)을 통하여 60여개의 조사(助詞)와 출현빈도는 높지만 검색(檢率)에 불필요한 320여개의 불용어(不用語)를 선정하여 좌우절단을 적용한 네 가지 유형으로 분류하고 조사(助詞)와 불용어 테이블을 구성하는 방법(方法)을 제시한다. 한글문헌에서 단어(單語)가 추출되면 조사의 효율적인 절단이 이러우지고, 한자어(漢字語)일 경우 한글로 변환되며, 2단계로 불용어제거(不用語除去) 과정을 거쳐 키워드를 선정하는 시스템을 개발한다. 여기서 추출된 키워드는 정보전문가(情報專門家)에 의해 추출된 색인어(索引語)와는 92.2%의 일치율을 보였다. 그리고 $4{\sim}6$글자로 구성된 복합어(複合語)의 경우 본(本) 연구(硏究)에서 제시한 분리방법에 의해 약 2배의 새로운 단어(單語)를 추가할 수 있었으며 그 중 58.8%가 키워드로 적합했다.

  • PDF

의료 정보 검사코드 표준화를 위한 LOINC 자동 매핑 프레임웍 (An Automatic LOINC Mapping Framework for Standardization of Laboratory Codes in Medical Informatics)

  • 안후영;박영호
    • 한국멀티미디어학회논문지
    • /
    • 제12권8호
    • /
    • pp.1172-1181
    • /
    • 2009
  • 전자의무기록(Electronic Medical Record, EMR)은 모든 검사 과정이 텍스트 기반의 데이터 형태로 저장되는 의료 분야의 의무기록 시스템을 의미한다. 그러나 국내의 전자의무기록 시스템은 각 의료기관마다 고유한 의료정보검사코드 형태를 이용하여 기록하는 방식으로 정보를 저장하기 때문에 병원 간의 의료검사 기록 형태들의 공유, 해석, 분석에 많은 문제점들을 가진다. 위의 문제들을 해결하기 위하여 표준화 되어 있지 않은 병원들의 검사코드들을 LOINC (Logical Observation Identifiers Names and Code)로 표준화하려는 연구들이 많다. 현재까지의 연구들은 로컬 의료정보검사코드를 수동으로 LOINC로 변환하는 방법이 연구되었다. 또한 대용량 의학 정보들을 다루기에 적절하지 않은 파일 기반에서 코드들을 관리하는 연구들이 이루어져왔다. 기존의 문제점을 해결하기 위하여 본 논문에서는 의료 용어 표준화 알고리즘을 제안하고, 구현하여 해결하였다. 또한, 대표적인 상용시스템이 가졌던 문제점인 검색어를 의사가 직접 생성해야 했던 부분을 LOINC 의 여섯 가지 자동 속성 추출 및 검색어 자동 생성 기능을 구현하여 해결하였다. 또한, 기존의 시스템들이 고려하지 않았던 대용량 데이터의 매핑 부분을 파일 시스템 기반이 아닌 데이터베이스 기반 검색 프레임웍을 구축하였다.

  • PDF

현금 인출기 사용자의 선글라스 및 마스크 인식 시스템 (A System for Recognizing Sunglasses and a Mask of an ATM User)

  • 임동악;고재필
    • 한국멀티미디어학회논문지
    • /
    • 제11권1호
    • /
    • pp.34-43
    • /
    • 2008
  • 본 논문에서는 현금인출기 사용자의 선글라스 및 마스크를 인식하는 시스템을 설명한다. 제안하는 시스템은 얼굴윤곽을 먼저 추출하고 이로부터 눈과 입의 위치를 추정한다. 마지막으로, 눈과 입 영역에 대해 각각 히스토그램 인덱싱 기법을 적용하여 선글라스 및 마스크를 인식한다. 눈이나 입 영역이 가려진 상태에서 얼굴윤곽 추출과 눈 및 입의 위치 추정을 위해 얼굴모양모델을 도입한다. 얼굴모양모델의 정합성능을 향상시키기 위해 2단계에 걸친 얼굴후보영역 검출을 도입하고 모델의 초기위치를 다변화하여 반복 정합을 실시한다. 배경모델에 기반한 얼굴후보영역 검출 방법의 성능을 보장하기 위해서 배경모델을 자동으로 갱신할 수 있도록 시스템을 구성한다. 실험에서는 연구실에서 획득한 영상에 대하여 시스템의 설정에 관한 실험을 제시하고 마스크 및 선글라스 인식 결과를 보인다.

  • PDF

의미기반 비디오 검색을 위한 인덱싱 에이전트의 설계 (Design of Indexing Agent for Semantic-based Video Retrieval)

  • 이종희;오해석
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.687-694
    • /
    • 2003
  • 최근 멀티미디어 정보의 양이 매우 빠른 속도로 증가함에 따라 비디오 데이터에 대한 다양한 검색은 더욱 중요한 의미를 가지게 되었다. 비디오 데이터를 효율적으로 처리하기 위해서는 비디오 데이터가 가지고 있는 내용에 대한 정보를 데이터베이스에 저장하고 사용자들의 다양한 질의를 처리할 수 있는 의미기반 검색 기법이 요구된다. 기존의 내용기반 비디오 검색 시스템들은 주석기반 검색 또는 특징기반 검색과 같은 단일 방식으로만 검색을 하므로 검색 효율이 낮을 뿐 아니라 완전한 자동 처리가 되지 않아 시스템 관리자나 주석자의 많은 노력을 요구한다. 본 논문에서는 주석기반 검색과 특징기반 검색을 이용하여 대용량의 비디오 데이터에 대한 사용자의 다양한 의미검색을 지원하는 에이전트 기반에서의 자동화되고 통합된 비디오 의미기반 검색 시스템을 제안한다. 사용자의 기본적인 질의와 질의에 의해 추출된 키 프레임의 이미지를 선택함으로써 에이전트는 추출된 키 프레임의 주석에 대한 의미를 더욱 구체화시킨다. 또한, 사용자에 의해 선택된 키 프레임은 질의 이미지가 되어 제안하는 특징기반 검색기법을 통해 가장 유사한 키 프레임을 검색한다. 따라서 의미기반 검색을 통해 비디오 데이터의 검색의 효율을 높일 수 있도록 시스템을 설계한다.

효율적인 브라우징 환경을 위한 비디오 색인 (Video Indexing for Efficient Browsing Environment)

  • 고병철;이해성;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권1호
    • /
    • pp.74-83
    • /
    • 2000
  • 최근 멀티미디어에 대한 관심이 증가하면서 그에 따른 기술 또한 매우 빠른 속도로 증가하고 있다. 특히 비디오 영상 검색 기능에 대한 사용자들의 욕구는 비디오에 대한 수동적인 접근 방식에서, 자신이 원하는 부분만을 선택적으로 검색할 수 있는 보다 편리한 환경을 요구하고 있다. 이를 위해서는 대용량의 비디오 데이타를 의미 있는 단위로 나누기 위한 비디오 파싱(Parsing)과 클러스터링(Clustering), 브라우징(Browsing)등을 포함하는 비디오 인덱싱 시스템의 구현이 필요하다. 본 논문에서는 우선 비디오 시퀀스를 히스토그램과 화소단위 비교법을 혼합한 하이브리드 방법을 통해서 자동 인덱싱을 위한 기본 단위인 샷(shot)으로 나눈다. 비디오 분할 후에 각 샷들로부터 대표 프레임을 검출한다. 대표 프레임은 사용자로 하여금 비디오의 전체적인 내용을 이해할 수 있도록 도와줌으로써 그 중요성이 크다고 할 수 있다. 따라서 본 논문에서는 웨이블릿 변환을 이용하여 우선적으로 샷 내에 포함된 카메라의 움직임을 분석하고, 각 프레임들의 변화량을 측정하여 샷의 복잡성에 따라 각기 다른 수의 대표 프레임을 선출하도록 하였다. 마지막으로 카메라 움직임중 패닝, 혹은 틸팅이 포함된 샷에 대해서 파노라마 영상을 합성함으로써 사용자에게 보다 편리하고 이해하기 쉬운 브라우징 환경을 제공할 수 있도록 하였다.

  • PDF

비정형 문서의 정보추출을 통한 OWL 온톨로지 구축 시스템의 설계 및 구현 (The Design and Implementation of OWL Ontology Construction System through Information Extraction of Unstructured Documents)

  • 조대웅;최지웅;김명호
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.23-33
    • /
    • 2014
  • 정보검색 분야의 발전은 많은 양의 정보를 빠르게 찾아주는 것에서 사람이 원하는 정보를 정확하게 찾아주는 연구 분야로 넓혀가고 있다. 핵심 기술로는 개인화 및 시맨틱 웹 기술을 활용하고 있다. 웹 문서에 대한 자동색인 기술과 처리능력은 연구단계를 넘어 실용 서비스로 나타나고 있다. 하지만 웹 문서 이외의 첨부된 문서 형태에 대한 문서정보검색에 관한 연구는 미진한 상황이다. 본 논문에서는 텍스트, 워드, 한글과 같은 형식으로 작성된 비정형 문서의 본문 내용을 분석하여 OWL 온톨로지로 구축하는 방법에 대해 설명한다. 문서 온톨로지의 TBox를 구축하고, 문서로부터 얻을 수 있는 자원을 선정하여, 구축된 문서 온톨로지의 인스턴스로 활용할 수 있도록 시스템으로 구현한다. 이와 같은 비정형 문서의 온톨로지 자동 구축으로 해당 문서의 시맨틱 기술을 이용한 정보검색 및 문서관리 시스템에서 효과적으로 활용 가능하다.

자동 주석 및 히스토그램 기법을 이용한 환경 교육 컨텐츠 검색 시스템 (A Retrieval System of Environment Education Contents using Method of Automatic Annotation and Histogram)

  • 이근왕;김진형
    • 한국산학기술학회논문지
    • /
    • 제9권1호
    • /
    • pp.114-121
    • /
    • 2008
  • 비디오 데이터를 효율적으로 처리하기 위해서는 비디오 데이터가 가지고 있는 내용에 대한 정보를 데이터베이스에 저장하고 사용자들의 다양한 질의를 처리할 수 있는 의미기반 검색 기법이 요구된다. 본 논문에서는 주석기반 검색과 특징기반 검색을 이용하여 대용량의 비디오 데이터에 대한 사용자의 다양한 의미검색을 지원하는 에이전트 기반에서의 자동화되고 통합된 환경 교육 컨텐츠 검색을 위한 비디오 의미기반 검색 시스템을 제안한다. 사용자의 기본적인 질의와 질의에 의해 추출된 키 프레임의 이미지를 선택함으로써 에이전트는 추출된 키 프레임의 주석에 대한 의미를 더욱 구체화시킨다. 또한, 사용자에 의해 선택된 키 프레임은 질의 이미지가 되어 제안하는 특징기반 검색기법을 통해 가장 유사한 키 프레임을 검색한다. 설계하고 구현한 시스템은 실험을 통한 성능평가에서 90% 이상의 높은 정확도를 보였다.