• 제목/요약/키워드: 검색어 추출

검색결과 328건 처리시간 0.028초

워드넷 의미정보로 선별된 우선 태그와 이를 이용한 웹 이미지의 검색 (Web Image Retrieval using Prior Tags based on WordNet Semantic Information)

  • 권대현;홍준혁;조수선
    • 한국멀티미디어학회논문지
    • /
    • 제12권7호
    • /
    • pp.1032-1042
    • /
    • 2009
  • 본 연구는 태깅된 웹 이미지의 검색에서 태그들의 의미정보를 미리 추출하여 검색 시에 이용하고자 하는 것이다. 일반적으로 웹 이미지의 태그들은 사용자들에 의해 순서 구분 없이 무작위로 매겨지며 많게는 그 수가 100여개에 이른다. 본 논문에서는 이 태그들 간에 의미정보가 많이 공유된 것일수록 해당 이미지를 설명하는 중요 태그가 될 것임에 착안하여 이미지와 태그 정보가 업 로드되는 시점에 중요도에 따른 우선 태그를 결정하고 이를 검색에 활용하는 방법을 소개한다 제안된 방법은 워드넷에 기반하여 태그의 연관성점수를 계산하고 이를 이용하여 다단계 검색으로 태징된 웹 이미지를 검색한다. 평가를 위하여 제안된 방법으로 검색된 결과와 검색어와 태그의 단순 비교방식인 기존의 검색을 비교하였으며 실험 결과, 정확도와 재현율에서 본 시스템의 우수함을 확인할 수 있었다.

  • PDF

러프셋에 기반한 정보필터링 웹에이전트 모듈 설계 (Design of Web Agents Module for Information Filtering Based on Rough Sets)

  • 김형수;이상부
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 춘계종합학술대회
    • /
    • pp.552-556
    • /
    • 2004
  • 본 논문은 대용량의 데이터베이스 내에서 유용한 정보를 검색하기 위해 웹 기반하에 적응형 정보추출 에이전트 모듈 설계이다. 인터넷을 통한 정보 검색이 일반화됨에 따라 검색시간의 최소화를 기하면서 사용자의 요구조건에 맞는 유용한 정보 제공이 필요하다. 구축되는 지식베이스 시스템의 스키마 구성요소의 도메인이 이진 검색이 가능한 필드 도메인이 있는 가하면 그렇지 않은 불확실한 도메인도 존재한다. 최초의 대용량 지식베이스에서 사용자의 자연어 질의어에 대해 러프셋의 리턱트롤 통해 최소지식베이스를 생성한 후, 축소된 스키마의 도메인의 불확실성찬 값에 대한 연산을 처리는 퍼지합성 연산처리 모듈에 의해 소프팅 컴퓨팅이 수행토록 설계하였다.

  • PDF

대용량 자원 기반 과학기술 핵심개체 탐지를 위한 정보추출기술 통합에 관한 연구 (A Study on the Integration of Information Extraction Technology for Detecting Scientific Core Entities based on Large Resources)

  • 최윤수;정창후;최성필;류범종;김재훈
    • 정보관리연구
    • /
    • 제40권4호
    • /
    • pp.1-22
    • /
    • 2009
  • 대용량 문서에서 정보를 추출하는 작업은 정보검색 분야 뿐 아니라 질의응답과 요약분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로써, 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 생의학 분야 과학기술 문헌을 분석하여 전문용어 및 개체명 등을 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다. 전체 플랫폼의 성능을 체계적으로 평가하기 위해서, KEEC 2009를 비롯한 다양한 말뭉치를 기반으로 세부 요수 모듈에 대한 성능 평가를 수행하였으며, 비교적 높은 수준의 성능을 확보하였다. 본 논문에서 개발된 핵심개체자동인식 플랫폼은 정보검색, 질의응답, 문서색인, 사전구축 등 다양한 정보서비스 분야에 활용될 수 있다.

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구 (A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research)

  • 박동진;최기석;이명선;이상태
    • 한국콘텐츠학회논문지
    • /
    • 제9권11호
    • /
    • pp.54-62
    • /
    • 2009
  • 국가적으로 그리고 각 연구기관에서는 투자의 효율성을 기하기 위하여 연구사업 선정과정에서 데이터베이스로부터 중복과제 혹은 유사과제를 검색하는 과정을 거친다. 최근 부얼리언 기반의 키워드 매칭 검색알고리즘의 발전 및 이를 채택한 검색엔진의 개발로 인하여 검색의 정확도가 많이 향상되었지만, 사용자가 입력하는 제한된 수의 키워드들에 의한 검색은 유사과제 파악과 우선순위의 결정에 어려움이 있다. 본 연구에서는 제안된 과제의 문서를 분석하여 다수의 색인어들을 추출하고, 이들에게 가중치를 부여한 후, 기존의 문서들과 비교하여 유사과제를 찾아내는 문서단위의 검색 알고리즘을 제안한다. 구체적으로 벡터공간검색(Vector-Space Retrieval)모델의 한 종류인 TFIDF(Term Frequency Inverse document Frequency)를 기본 구조로 채택한다. 또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치(feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서(KNN: K-Nearest Neighbors) 기법도 반영한 알고리즘을 제시한다. 실험을 위하여 실제 연구제안 문서와 구조가 동일한 기존의 보고서를 사용하였는데, KISTI에서 운영하는 과학기술정보포털서비스인 NDSL에서 이미 분류해 놓은 4분야의 1,000 개 연구 보고서 문서를 발췌하여 실험을 하였다.

학위논문의 전문색인시스템 설계 (A Study on the Design of a Full-Text Indexing System for Thesis)

  • 추윤미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1996년도 제3회 학술대회 논문집
    • /
    • pp.57-60
    • /
    • 1996
  • 전문데이터베이스는 원문의 접근가능성과 전문탐색의 장점으로 인해 최근 급속하게 발전하고 있다. 그러나 이제까지 대부분의 전문데이터베이스는 문헌의 구조를 고려하지 않고 본문의 문자열에서 자동추출한 색인어를 대상으로 비통제탐색방법을 사용하여 왔으므로 효율적이고 다양한 검색방법을 적용하기 어려웠다. 본 연구에서는 SGML을 이용하여 문헌을 구조화하고 이를 이용한 색인시스템을 설계함으로써, 문헌구조를 이용한 다양한 검색이 가능하도록 하였다. 이를 위해 논문을 대상으로 하여 문헌의 구조를 분석하고, 주요 문헌요소인 초록, 목차, 본문, 참고문헌의 특성을 색인에 반영하였다. 색인시스템은 문헌요소를 태그와 텍스트데이터로 분석하여 색인하는 일차색인과, 일차색인에 의해 만들어진 문헌요소테이블과 내용데이터파일을 이용하여 주요 문헌요소를 색인한 이차색인으로 구성된다.

  • PDF

날짜 정보를 이용한 가중치 계산 방법을 적용한 자동 문서분류 (Term Weighting Using Date Information and Its Appliance in Automatic Text Classification)

  • 심보준;박진우;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.169-173
    • /
    • 2007
  • 문장을 구성하는 단어들은 문장의 의미를 표출하는 데에 있어서 모두 같은 크기의 중요도를 갖지는 않는다. 따라서, 정보검색 분야에서는 오랫동안 단어에 부여할 서로 다른 가중치를 구하는 다양한 전략을 연구해 왔다. 매우 일반적인 기능어들은 불용어로 분류하여 고려 대상에서 제외하기도 하고, 개체명 추출기를 이용하여 고유명사에 높은 가중치를 부여하거나, TF-IDF와 같이 단어가 문서 집합에 출현하는 양상과 빈도를 고려하여 가중치를 구하는 전략을 사용하기도 한다. 이와 같은 연구들에서는 같은 단어라면 어떤 상황에서도 변하지 않는 가중치를 가지게 된다. 본 논문에서는 같은 단어라 할지라도 날짜에 따라서, 어떤 날짜에는 중요한 단어이므로 높은 가중치를 받지만, 다른 날짜에는 낮은 가중치를 부여하는 전략을 제안하고 있다. 이 방법은 모든 정보검색 작업에서 사용할 수 있는 범용적인 전략이다. 본 연구에서는 특히, 문서분류 작업에 제안 방법을 적용했을 때, 제안 방법을 적용하지 않은 기본 시스템보다 분류 정확성이 더 향상되는 것을 실험을 통해서 확인하였다.

  • PDF

사용자 참여에 의한 실시간 지혜 획득 시스템 (Realtime Wisdom Acquisition System by using User Participation)

  • 류기곤;임희석;유원희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2007년도 추계학술발표논문집
    • /
    • pp.102-105
    • /
    • 2007
  • 우리가 현재 사용하고 있는 정보검색 시스템은 사용자의 질의와 연관있는 문서 집합만을 제공하므로 사용자가 원하는 정답을 찾기 위해서 사용자는 문서 집합을 재탐색하는 수고를 하여야 하며, 이러한 수고를 덜어주기 위해 개발되는 자동 질의응답시스템은 의미 분석 및 지식 추출 등의 기술적 한계로 사용자에게 만족할 만한 서비스를 제공하고 있지 못한 실정이다. 본 논문은 인터넷에 연결되어 있는 사람 중에 질의어에 대한 응답을 할 수 있는 지혜 제공자를 자동으로 검색 분류하여, 질의자와 실시간으로 연결하여 사용자와 지혜 제공자가 실시간 상호커뮤니케이션을 이용하여 지혜를 교류할 수 있는 사용자 참여에 의한 실시간 지혜 획득 시스템인 위크 시스템을 제안한다.

  • PDF

아토피성 피부염의 한약치료 효과에 관한 고찰 (An overview of herbal medicine for atopic dermatitis)

  • 이향숙
    • 대한한의학방제학회지
    • /
    • 제17권2호
    • /
    • pp.99-110
    • /
    • 2009
  • 목 적 : 한약 또는 한약제제의 아토피성 피부염에 대한 치료효과를 조사하고 향후 연구방향을 제시하기 위하여 고찰연구를 시행하였다. 방 법 : PubMed에 한약과 아토피성 피부염과 관련된 검색어의 조합을 넣어 포함기준에 맞는 무작위배정 대조군 임상연구만 포함하였다. 연구설계, 치료방법, 대조군, 평가지표, 결과, 부작용 관련 정보를 미리 정해놓은 자료 추출 형식에 맞추어 추출하고 방법론적 질 평가는 옥스포드 질 평가 척도와 그룹 할당 은닉(allocation concealment) 여부를 평가하였다. 연구들이 임상적 및 통계적으로 상이하여 메타분석은 이루어지지 않고 기술적 고찰만 실시하였다. 결 과 : 모두 8편의 연구가 고찰기준을 만족시켰다. 다양한 복합한약제제와 한약이 포함된 외용제가 평가되었는데 8편 가운데 5편에서 아토피성 피부염의 증상을 호전시키는 것으로 나타났다. 방법론적 질은 대체로 양호한 것으로 나타났으며 일부 효과적인 것으로 나타난 한약복합제제에서 간손상 등의 부작용도 보고되었다. 결 론 : 한약 또는 한약제제를 이용한 치료는 아토피성 피부염의 증상개선에 도움이 되는 것으로 보이나 현재 근거는 부족하다. 우리나라에서 많이 쓰이는 한약제제들 역시 엄정한 임상연구를 거쳐 그 효과를 평가하고 근거를 구축해야 할 것이다.

  • PDF

영상의 전역 특징과 이동객체의 지역 특징을 융합한 동영상 검색 디스크립터 설계 (A Descriptor Design for the Video Retrieval Combining the Global Feature of an Image and the Local of a Moving Object)

  • 정병만;이규원
    • 한국정보통신학회논문지
    • /
    • 제18권1호
    • /
    • pp.142-148
    • /
    • 2014
  • 실시간으로 입력되는 영상으로부터 이동객체의 움직임 특징을 이용하여 움직임 분석에 적합한 디스크립터를 제안한다. 배경과 이동객체를 분리하기 위하여 배경학습을 행한다. 연속적으로 추출된 이동객체의 1차 모멘트를 이용하여 각 객체별로 이동 궤적을 추출한다. 연결 리스트를 이용하여 객체별로 추출된 1차 모멘트를 관리한다. 디스크립터는 격자 형태로 미리 지정된 9개의 지점 근방에 포함되는 이동객체의 1차 모멘트 좌표와 객체가 화면에 출현하는 시작 프레임 번호, 화면에서 사라지는 마지막 프레임 번호로 구성된다. 제안하는 전역 및 지역 특징 융합 디스크립터에 의한 비디오 검색은 둘 중 하나의 특징을 사용하는 기존의 방법에 비하여 효과적임을 확인하였다.

2차 법률정보 전문데이터베이스 구축을 위한 기초 연구 (A Primary Study on Building the Secondary Legal Information Full-Text Databases)

  • 권기원;노정란
    • 한국문헌정보학회지
    • /
    • 제32권3호
    • /
    • pp.281-296
    • /
    • 1998
  • 최근 주제별 데이터베이스의 구축이 활발해지고 있다. 현재까지 이루어진 연구결과를 보면 자연어 색인시스템의 검색효율이 통제어 색인시스템의 검색효율보다 일반적으로 높은 것으로 나타나고 있어 각 주제 부문에서는 데이터베이스의 구축시 이러한 결과를 수용하여 자연어 색인시스템을 채택하는 경향이 높다. 본 연구는 전문데이터베이스로는 그 수요가 매우 높은 2차 법률정보 전문데이터베이스를 대상으로 법률정보의 내재적 특성에 근거한 통제어 색인시스템의 이론적 가능성을 제안하려는 것이다. 본 연구를 통해 색인어의 자동적 추출 가능성이 추론된다면, 그 결과는 2차 법률정보시스템의 설계자들에게 주제배경이 없이도 특정의 원리에 의하여 자동색인을 가능케 하고, 다른 주제분야의 정보시스템 설계자들에게는 해당 주제분야의 고유한 지식베이스를 활용하는데 있어서의 시사점을 제공하게 될 것이다.

  • PDF