• 제목/요약/키워드: Text Retrieval

검색결과 342건 처리시간 0.025초

해외 데이터베이스의 통제키워드에 기초한 국내 학술지 논문의 자동분류 성능 향상에 관한 실험적 연구 (An Experimental Study on the Performance Improvement of Automatic Classification for the Articles of Korean Journals Based on Controlled Keywords in International Database)

  • 김판준;이재윤
    • 한국문헌정보학회지
    • /
    • 제48권3호
    • /
    • pp.491-510
    • /
    • 2014
  • 학술지 논문의 효율적인 관리 및 검색을 위한 주요 요소인 키워드는 통제키워드와 비통제키워드로 구분할 수 있다. 그러나 현재 국내 데이터베이스에서 대부분의 학술지 논문에는 비통제키워드인 저자키워드만이 부여되어 있을 뿐, 망라적인 탐색을 돕는 통제키워드로서 디스크립터는 제공되지 않고 있다. 이 연구에서는 해외 데이터베이스의 학술지 논문에 부여된 통제키워드를 학습한 분류기를 사용하여, 국내 학술지 논문에 디스크립터를 자동 할당하는 실험을 수행하였다. 그 결과, 국외 데이터베이스의 디스크립터 학습을 통해 영문 초록이 있는 국내 학술지 논문에 통제키워드를 자동 할당할 수 있는 가능성을 확인하였다. 또한, 다양한 분류기 및 분류기 결합을 통하여 이러한 디스크립터 자동 할당의 성능 향상을 모색하였다.

위키피디아 링크를 이용한 랭크 기반 개념 계층구조의 자동 구축 (Automated Development of Rank-Based Concept Hierarchical Structures using Wikipedia Links)

  • 이가희;김한준
    • 한국전자거래학회지
    • /
    • 제20권4호
    • /
    • pp.61-76
    • /
    • 2015
  • 흔히 대용량 텍스트 데이터의 분류를 위한 인덱싱 데이터 구조로서 계층 개념 트리가 활용된다. 본 논문은 개념 계층구조를 자동적으로 구축하기 위해 위키피디아를 이용한 일반성 랭크 기반 기법을 제안한다. 이것의 목적은 위키피디아 문서를 하나의 개념으로 정의하여 이들 간의 계층적 위상관계를 생성하는 것이다. 이를 위해 위키피디아 문서들 간의 링크 개수를 주요 인자로 하여 개념 일반성을 가늠하는 랭킹함수를 고안하였으며, 이를 활용하여 개념 간 확률적 포함관계를 산출함으로써 안정적인 개념 간 계층 구조를 생성한다. 결과적으로 계층적 관계를 담은 개념쌍은 DAG 구조로 시각화 된다. Open Directory Project 계층구조를 사용한 성능 분석을 통해 제안 기법이 기준 기법에 비해 성능이 우수하며 고품질 계층 관계를 안정적으로 추출할 수 있음을 확인하였다.

반 전역 정렬을 이용한 온라인 게임 변형 욕설 필터링 시스템 (The Online Game Coined Profanity Filtering System by using Semi-Global Alignment)

  • 윤태진;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.113-120
    • /
    • 2009
  • 온라인 게임에서의 언어폭력 문제는 매우 심각하지만 그에 대한 효과적인 정책이나 기술적인 방법은 부족한 상황이다. 온라인 게임 서비스 업체에서는 금칙어 리스트를 작성하여 Swear Filter를 이용한 고정된 형식의 문자열 검색 방식을 통해 문제를 해결하려고 하고 있으나 사용자들은 다양한 방법으로 욕설을 조합 또는 변형시켜 기존의 필터링을 회피하고 있다. 특히 한글은 욕설의 변형이 매우 쉬운 특성을 가지고 있다. 본 논문에는 한글에 기초한 변형 욕설을 효율적으로 탐색하여 걸러내는 알고리즘을 제시한다. 이 알고리즘의 주된 특징은 변형 욕설의 표준형 변환과 자소단위의 반 전체 정렬(semi-global alignment), 이다. 실험 결과 저자들이 다양한 인터넷 게임 환경에서 직접 수집한 다종의 욕설 단어들에 대하여 약 90%의 우수한 필터링 성능을 보였다.

개인화 웹 검색 시스템 기반의 문서 요약 시스템 (A Document Summary System based on Personalized Web Search Systems)

  • 김동욱;강수용;김한준;이병정;장재영
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권3호
    • /
    • pp.357-365
    • /
    • 2010
  • 개인화 웹 검색 시스템은 사용자의 검색의도에 따라 질의어 확장, 검색 결과의 재순위화 등의 방법을 통하여 사용자에게 개인화된 검색 결과를 제공한다. 이를 위해 검색 시스템은 질의어와 사용자의 프로파일 정보를 활용하여 사용자의 검색 의도를 파악하고 분석하여, 검색 결과 페이지에 반영하여 보여주게 된다. 이때 검색 결과 페이지는 문서의 URL과 문서의 제목, 작은 텍스트 조각을 표시한다. 여기서 작은 텍스트 조각은 검색 질의어가 포함된 문서의 요약이며, 스니펫이라고 알려져 있다. 사용자는 이러한 문서의 요약을 통하여 웹 문서가 자신이 원하는 정보를 가진 문서인지를 판단하거나, 해당 URL에 직접 접속하지 않고도 원하는 정보를 얻을 수 있게 된다. 따라서 문서 요약은 사용자가 문서를 볼 것인지 아닌지에 대한 중요한 판단 기준이 되며, 만약 문서 요약 시스템이 개인화된 요약 결과를 제공한다면 사용자의 만족도는 더욱 증가할 것이다. 본 논문은 전체 웹 검색 시스템에서 검색 속도의 큰 하락없이 사용자의 만족도를 증가시킬 수 있는 개인화 문서 요약 시스템을 제안한다.

해양환경 포탈서비스시스템 구축과 운영 (Development and Operation of Marine Environmental Portal Service System)

  • 최현우;권순철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 춘계종합학술대회
    • /
    • pp.338-341
    • /
    • 2003
  • MEPS는 해양환경 컨텐츠의 효율적인 운영을 위해 체계적인 시스템 설계를 거천 Oracle RDBMS를 구축하였으며, Web 기반의 사이트 구성은 다양한 컨텐츠의 기획 개발을 통해 뉴스(국내, 국외, 기관 소식, 취업정보), 커뮤니티(포럼, 게시판), 행사일정, POLL, 관련사이트 등과 국내 관련사이트의 웹페이지별 내용을 분류하여 정리한 해양환경정보검색 둥 포탈로써 갖춰야 할 기본 메뉴와 MEPS DB(전문자료, 법규, 국제기구활동), 멀티미디어 DB(온라인세미나, 해양상징이미지), 해양환경퀴즈 DB 등 컨텐츠 개발을 통한 DB체계로 이루어졌다. 또한, 지리적으로 분산된 지역DB로써 해양조사자료를 저장, 관리하는 관련기관들의 정보시스템을 통합연계한 분산DB 해양자료(해양수질, 해양생태)를 통합 검색하여 정점도, 통계치 및 그래프 등으로 출력되는 인터페이스를 개발하여 정보공동 활용을 위한 기반체계를 구현하였다. 사이트 오픈 후 지속적인 컨텐츠 갱신과 국내 검색엔진사이트 등록, 리플렛 제작ㆍ배포, web-mail 서비스 등의 능동적인 홍보활동을 수행함은 물론, 향후 컨텐츠 개발을 위한 기획과 운영체제 유지관리에 활용키 위한 사용자 행동패턴을 모니터링이 수반되어야 할 것이다.

  • PDF

공간 웹 객체의 효율적인 검색 기법 (An Efficient Retrieval Technique for Spatial Web Objects)

  • 양평우;남광우
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.390-398
    • /
    • 2015
  • 공간 웹 객체는 웹 문서에 지리정보를 포함하고 있는 문서들을 말한다. 최근 스마트폰과 같은 장치의 발달로 인하여 공간 웹 객체를 생성하는 서비스가 많이 늘어났다. 트위터나 페이스북 같은 서비스에서는 사용자가 게시한 간단한 글이 게시한 위치정보와 함께 저장된다. 이러한 공간 웹 객체의 검색을 위해서는 공간 정보와 문자 정보를 동시에 이용하는 검색이 필요하다. 기존의 공간 웹 객체 검색 방식은 R트리와 역색인 파일(inverted file) 방법을 많이 사용했다. 하지만 이 방법은 인덱스를 구축하는데 많은 공간을 필요로 한다는 단점이 있다. 또한 검색하는 키워드가 많을 때는 효율적이지만, 검색하는 키워드가 적을 때는 비효율적이다. 본 논문에서는 쿼드 트리(quad-tree)와 패트리샤 트라이(patricia trie)를 이용하는 공간 웹 객체 검색 방식을 제안한다. 제안하는 기법은 검색하는 키워드가 적을 때 기존의 기법보다 좋다는 것을 보여준다. 또한 인덱스를 저장하는 공간이 기존의 기법보다 훨씬 적게 사용된다는 것을 실험을 통하여 증명하였다.

RDBMS를 이용하여 XML 문서 관리를 위한 경로 저장과 숫자 매칭 기법 (A Path Storing and Number Matching Method for Management of XML Documents using RDBMS)

  • 봉하익;황병연
    • 한국멀티미디어학회논문지
    • /
    • 제10권7호
    • /
    • pp.807-816
    • /
    • 2007
  • 1996년 W3C에서 XML을 제안한 이래, 다량의 XML(eXtensible Markup Language) 문서들이 인터넷에 확산되고 있다. 이런 이유로, XML과 관련된 연구의 필요성이 증가하고 있는 실정이다. 특히, XML 문서들을 저장, 검색, 그리고 관리하기 위한 XML 관리 시스템에 대한 연구가 활발히 진행되고 있다. 이런 연구들 중에서 XRel은 XML 문서 관리를 위한 대표적인 연구로써 인정되고 있으며, 비교 대상의 연구로서 사용되고 있다. 본 논문에서는 관계형 데이터베이스 시스템을 기반으로 한 XML문서에 대한 관리 기법을 제시한다. 이는 XRel처럼 모든 가능 경로를 저장하는 것이 아니라, 노드의 텍스트 값이나 속성 값이 존재하는 경로만을 저장하는 방식이다. 또, 노드 표현에 따라 고유 노드명 식별자(Node Expression Identifier)를 부여함으로써 부여된 노드 식별자를 매칭하는 숫자 매칭(Number Matching)기법을 제안한다. 마지막으로 제안 방식의 효율성을 입증하기 위해, 기존 방법과 XPath 질의에 대한 처리 성능을 비교함으로써 제안한 방법의 효율성을 제시한다.

  • PDF

무선 환경에서 사용자 검색 성향을 반영한 웹 방송 정보 재구성 기법 (Reconstructing Web Broadcasting Information based on User Retrieval Pattern)

  • 김원철;이수철;황인준;변광준
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1149-1158
    • /
    • 2004
  • 최근 다양한 무선 단말기의 보급과 네트워크 기술의 발전으로 인하여 무선 단말기를 이용한 인터넷 접속이 보편화되고 있다. 특히 디지털 방송의 도입에 따른 다양한 방송 프로그램과 방송사 뉴스 서비스는 무선 단말기의 제한된 환경에서의 이용률이 높다. 그러나 대부분의 방송사 웹 페이지들은 한 페이지에 많은 내용으로 인한 세분화된 섹션을 담고 있기 때문에 제한된 화면과 입력장치를 가진 무선 단말기를 이용하여 사용자가 원하는 부분에 접근하기까지 반복적인 스크롤링을 해야 하는 불편함이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 방송사 웹페이지 내에서 실시간으로 사용자가 선호하는 방송사 웹 페이지의 섹션을 추출하고, 무선 환경에 적합하도록 각 섹션의 순서를 재구성하여 무선 단말기에 제공해 주는 기법을 제안한다. 제안된 기법을 통해 사용자는 무선 단말기의 단점을 극복함과 동시에 방송사 웹에서 선호하는 섹션의 맞춤형 방송사 웹 서비스를 제공받을 수 있다.

유전 알고리즘 기반의 비정상 행위 탐지를 위한 특징선택 (Feature Selection for Anomaly Detection Based on Genetic Algorithm)

  • 서재현
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.1-7
    • /
    • 2018
  • 데이터 전처리 기법 중 하나인 특징 선택은 대규모 데이터셋을 다루는 다양한 응용분야에서 주요 연구 분야 중 하나로 각광받고 있다. 특징 선택은 패턴 인식, 기계학습 및 데이터 마이닝에서 사용됐고, 최근에는 텍스트 분류, 이미지 검색, 침입 탐지 및 게놈 분석과 같은 다양한 분야에 널리 적용되고 있다. 제안 방법은 메타 휴리스틱 알고리즘 중의 하나인 유전 알고리즘을 기반으로 한다. 특징 부분 집합을 찾는 방법은 크게 필터(filter) 방법과 래퍼(wrapper) 방법이 있는데, 본 연구에서는 최적의 특징 부분 집합을 찾기 위해 실제 분류기를 사용한 평가를 하는 래퍼 방법을 사용한다. 실험에 사용한 훈련 데이터셋은 클래스 불균형이 심하여 희소클래스에 대한 분류 성능을 높이기 어렵다. SMOTE 기법을 적용한 훈련 데이터셋을 사용하여 특징 선택을 하고 다양한 기계학습 알고리즘을 사용하여 선택한 특징들의 성능을 평가한다.

웹기반 어린이 교통 질서 및 안전 교육 시스템의 설계 및 구현 (The Design and Implementation of a Traffic Order and Safety Education System for Kid on Web)

  • 안성옥
    • 공학논문집
    • /
    • 제3권1호
    • /
    • pp.7-20
    • /
    • 1998
  • 우리의 경제성장과 국민소득의 증가와 더불어 자가용승용차가 증가함으로서 자동차 대중화시대에 접어 들었지만 아직까지도 교통안전과 질서에 대한 의식이 성숙하지 못함에 따라 교통안전 사고 등의 문제를 야기시키고 있다. 따라서 웹기반 어린이 교통 질서 및 안전 교육 시스템의 개발은 교통 질서 및 안전 교육의 중요성과 필요성을 홍보하고 교육 함으로서 교통 안전 사고를 예방하는데 목적을 두고 있다. 이 시스템 개발이 이루어진 논문 내용은 다음과 같다. 교통 안전 교육에 필요한 텍스트, 이미지, 동영상 데이터 확보 및 디지타이징과 계층적 관계 확립, 정보간 관계성 분석 및 정보간 하이퍼 링크 구조설계, 시소러스 구축 및 시소러스 기반 정보검색 엔진 설계 및 구현, 교통 질서 및 안전 교육을 위한 데이터베이스 스키마 설계 및 구현과 사용자 중심의 GUI 구축등이다.

  • PDF