• Title/Summary/Keyword: 텍스트 검색

검색결과 679건 처리시간 0.048초

점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 모델 (A Hypertext Categorization Model Exploiting Link and Incrementally Available Category Information)

  • 오효정;임정묵;이만호;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.89-96
    • /
    • 1999
  • 본 논문은 하이퍼텍스트가 갖는 중요한 특성인 링크 정보를 활용한 문서 분류 모델을 제안한다. 하이퍼링크는 문서간의 관계를 나타내는 유용한 정보로서 링크를 통해 연결된 두 문서는 내용적으로 관련이 있어 검색에 도움을 준다는 것은 이미 밝혀진바 있다. 본 논문에서는 이러한 과거 연구를 바탕으로 새로운 문서 분류 모델을 제안하는데, 이 모델의 주안점은 대상 문서와 링크로 연결된 이웃 문서의 내용 및 범주를 분석하여 대상 문서 벡터를 조정하고, 이를 근거로 문서의 범주를 결정한다. 이웃 문서에 포함된 용어를 반영함으로써 대상 문서의 내용을 확장 해석하고, 이웃 문서의 가용 분류 정보가 있는 경우 이를 참조함으로써 정확도 향상을 기한다. 이 모델은 이웃한 문서의 범주가 미리 할당되어 있지 않은 경우 용어 기반 분류 방법으로 가용 범주를 할당하고, 이렇게 할당된 분류 정보가 다시 새로운 문서의 범주를 결정할 때 사용됨으로써, 문서 집합 전체의 분류가 점진적으로 이루어지며 그 정확도를 더해 나가는 효과를 가져올 수 있다. 이러한 접근 방법은 일반 웹 환경에 적용할 수 있는데, 특히 하이퍼텍스트를 주제별로 분류하여 관리하는 검색 엔진의 경우 매일 쏟아져 나오는 새로운 문서와 기존 문서간의 링크를 활용함으로써 전체 시스템의 점진적인 분류에 매우 유용하다. 제안된 모델을 검증하기 위하여 Reuter-21578과 계몽사(ETRI-Kyemong) 자료를 대상으로 실험한 결과 18.5%의 성능 향상을 얻었다.

  • PDF

텍스트 정보와 시각 특징 정보를 이용한 효과적인 웹 이미지 캡션 추출 방법 (An Efficient Web Image Caption Extraction Method based on Textual and Visual Information)

  • 황지익;박주현;낭종호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.346-348
    • /
    • 2006
  • 기존의 웹 이미지 검색 시스템들은 웹 페이지에 포함된 텍스트들의 출현빈도, 태그유형 등을 고려해 각 키워드들의 중요도를 평가하고 이를 이용해 이미지의 캡션을 결정한다. 하지만 텍스트 정보만으로 캡션을 결정할 경우, 키워드와 이미지 사이의 관련성을 평가할 수 없어 부적절한 캡션의 배제가 어렵고, 사람의 인지와 맞지 않는 캡션이 추출되는 문제점이 있다. 본 논문에서는 기존의 웹 이미지 마이닝 방법을 통해 웹 페이지로부터 캡션 후보 키워드를 추출하고, 자동 이미지 주석 방법을 통해 이미지의 개념 부류 키워드를 결정한 후, 두 종류의 키워드를 결할하여 캡션을 선택한다. 가능한 결합 방법으로는 키워드 병합 방법, 공통 키워드 추출 방법, 개념 부류 필터링 방범 캡션 후보 필터링 방법 등이 있다. 실험에 의하면 키워드 병합 방법은 높은 재현율을 가져 이미지에 대한 다양한 주석이 가능하고 공통 키워드 추출 방법과 개넘 부류 키워드 필터링 방법은 정확률이 높아 이미지에 대한 정확한 기술이 가능하다. 특히, 캡션 후보 키워드 필터링 방법은 기존의 방법에 비해 우수한 재현율과 정확률을 가지므로 기존의 방법에 비해 적은 개수의 캡션으로도 이미지를 정확하게 기술할 수 있으며 일반적인 웹 이미지 검색 시스템에 적용할 경우 효과적인 방법이다.

  • PDF

텍스트 마이닝을 이용한 코로나19 전후 청소년과 식생활 관련 키워드 검색 경향 분석 (Analysis of Keyword Search Trends Related to Adolescents and Dietary Habits Before and After COVID-19 Using Text Mining)

  • 오상미;정난희;전은례
    • 한국가정과교육학회지
    • /
    • 제36권1호
    • /
    • pp.39-54
    • /
    • 2024
  • 본 연구는 네이버, 다음, 구글, 유튜브와 트위터 등을 대상으로 2020년 1월 18일 기준으로 2년 전후 4년 동안 텍스톰(TEXTOM)을 사용하여 코로나19 전후 청소년과 식생활 관련 검색 키워드 데이터를 수집하여 빈도와 가중치를 분석하고 시각화하였으며, 얻어진 결과는 다음과 같다. 첫째, 청소년과 식생활 관련 키워드 검색 전체 데이터의 수와 용량은 코로나19 이후가 조금 더 높은 수치를 보여 코로나19로 인해 관심이 증가했음을 볼 수 있었다. 둘째, 코로나19 이전과 이후의 청소년과 식생활 관련 검색된 결과 키워드 중 빈도수를 분석한 결과 코로나19 이전에는 '교육', 코로나19 이후에는 '건강'이 가장 높아 코로나 19로 인하여 건강, 면역 등에 대한 중요성이 커져 건강에 대한 관심이 더 증가함을 알 수 있었다. 셋째, 50개 상위 키워드의 빈도 가중치 분석 결과 코로나19 이전 가장 높은 빈도 가중치를 나타낸 키워드는 '교육'이었고, 코로나19 이후 가장 높은 빈도 가중치를 나타낸 키워드는 '여드름' 이었다. 코로나19로 인한 외출 감소, 활동 감소 등과 식생활의 영향으로 나타날 수 있는 여드름에 대한 관심이 증가함을 볼 수 있었다. 넷째, 코로나19 이전과 이후 청소년과 식생활 관련 검색 키워드 빈도 분석 결과를 워드클라우드로 시각화한 결과는 코로나19 이전에는 '교육', 코로나19 이후에는 '건강' 의 키워드가 가장 크고 굵게 나타나 빈도와 중요성이 가장 높음을 쉽게 알 수 있었다. 위와 같은 결과로 코로나19 전후 청소년과 식생활 관련 검색 키워드 검색 경향을 알아보고 빈도와 중요성이 높은 키워드를 한 눈에 쉽게 볼 수 있게 됨으로써 텍스트 마이닝 방법을 활용해 식생활에 적용한 계기를 마련하였고, 가정 교과의 청소년기의 식생활문제와 균형 잡힌 식사계획과 선택 등의 단원에서 가독성이 뛰어난 워드클라우드로 시각화한 자료를 활용하여 수업의 매체로 활용하는 등 올바른 식생활 교육에 있어 방향성을 제시하였다.

대규모 이미지 데이터베이스에서 고차원 색인 구조를 이용한 효율적인 내용 기반 검색 시스템 (An Efficient Content-based Retrieval System using High-Dimensional Index Structure Image Database)

  • 이동호;박주홍;정진완;김형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권1호
    • /
    • pp.52-65
    • /
    • 1999
  • 이미지나 비디오, 오디오와 같이 멀티미디어 데이터들은 기존의 단순한 텍스트 기반의 데이터에 비하여 대용량적인 특성과 비정형적인 특성을 가지고 있어서 검색시 많은 어려움이 따른다. 본 논문에서는 대규모의 이미지 데이터베이스에서 효율적이고 신속하게 사용자가 원하는 이미지를 검색할수 있는 내용 기반 검색 시스템을 제시한다. 이를 위해서 본 논문에서는 최근 여러 장점으로 인하여 신호 분석이나 이미지 압축 분야에 많이 사용되는 웨이브릿 변환을 이용하여 이미지 데이터로부터 내용 기반 검색에 사용되는 특징 벡터를 효율적으로 추출하는 기법과 유사성 측정 방법을 제안한다. 그리고, 이러한 특징 추출방법과 유사성 측정 방법을 이용하여 내용 기반 질의 및 검색을 수행할 경우, 검색 조건을 만족하는 객체인데 실수로 검색해내지 못하는 경우인 false dismissals 이 발생하지 않음을 보인다. 또한 대규모 이미지 데이터베이스에서 신속한 내용 기반 검색을 지원하기 위하여 고차원 데이터에 대한 효율적인 색인을 제공하는 X-tree를 이용한 이미지 색인 방법을 보이며 이것이 기존의 순차 검색이나 R*-tree를 이용한 색인 방법보다 신속하게 이미지 데이터들을 검색할 수 있다는 것을 다양한 실험을 통해 보인다. 마지막으로 QBIC에서 제안한 검색 적합성 측정 방법을 이용하여 본 논문에서 제안하는 내용 기반 이미지 검색시스템의 검색 적합성을 보인다.

질의 응답 시스템을 위한 가변 길이 단락 검색 (Variable Length Passage Retrieval for Q&A System)

  • 이영신;황영숙;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-266
    • /
    • 2002
  • 질의 응답 시스템에서 보다 정확하게 정답을 판별하기 위해서는 구문분석 혹은 의미분석 등과 같은 복잡도가 높은 분석작업이 요구되며, 이러한 질의 응답 시스템 성능의 상한을 결정하는 검색 시스템은 가급적 적은 양의 검색 결과를 내주어서 질의 응답 시스템이 처리해야 할 작업량에 대한 부담을 덜어주어야 한다. 본 논문에서는 이러한 요구를 만족시키는 검색 시스템으로 가변 길이 단락 검색 시스템(variable length passage retrieval system)을 제안한다. 제안하는 검색 시스템은 질의에 대한 정답을 포함하고 있을 가능성이 있는 텍스트 영역은 질의에 따라 그 크기가 다를 것이라는 가정으로부터 출발한다. 그러므로 문서 전체를 검색하거나 고정 길이 단락으로 나누어져 색인되어 있는 부분 문서들을 검색하는 기존의 검색 방법과 달리, 제안된 시스템은 문서에서 임의의 길이로 이루어진 단락을 대상으로 동적인 단락 검객을 수행한다. TREC QA track의 질의집합 중 1번부터 100번까지의 질의에 대해 실험을 수행한 견과, 문서 검색 시스템이나 고정 길이 단락 검색 시스템은 상위 1000개의 문장까지 검색을 하였을 때 각각 96%, 98%의 재현율을 보인 반면, 가변 길이 단락 검색 시스템은 800개의 문장만으로도 98%의 재현율을 보이고, 900개의 문장을 검색하였을 경우 100%의 재현율을 보였다.

  • PDF

연관법령 검색을 위한 워드 임베딩 기반 Law2Vec 모형 연구 (A Study on the Law2Vec Model for Searching Related Law)

  • 김나리;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권7호
    • /
    • pp.1419-1425
    • /
    • 2017
  • 법률 지식 검색의 궁극적 목적은 법령과 판례를 근거로 최적의 법례정보 획득이라고 할 수 있다. 최근, 대규모 자료에서 효율적으로 검색하여야 하는목적을 달성하기 위하여텍스트 마이닝 연구가 활발히 이루어지고 있다. 대표적인 방법으로 Neural Net 기반 학습방법인 워드 임베딩 알고리즘을 들 수 있다. 본 논문에서는 한국 법령정보를 워드임베딩에 적용하여 연관정보 검색방법을 연구하였다. 우선 판례의 참조법령을 순서대로 추출하여 모형의 입력정보로 활용하였다. 추출한 참조법령들은 중심법령을 기준으로 주변 법령을 학습하고 임베딩하는 Law2Vec 모형을 작성하였다. 이 모형으로 법령에 대하여 학습을 수행하고 법령 간의 관계를 추론하였다. 본 연구의 모형을 평가하기 위하여 연관법령으로 도출된 결과가 키워드와 밀접한 관련이 있는지 정밀도와 재현율을 계산하여 검증하였다. 실험결과, 본 연구의 제안방식이기존의 키워드 검색방법보다 연관된 법령을추론하는데유용함을 알 수 있었다.

공공도서관 모바일 웹 접근성 평가에 관한 연구 (A Study on the Evaluation of the Mobile Web Accessibility of Public Library Services)

  • 박옥남
    • 한국문헌정보학회지
    • /
    • 제48권1호
    • /
    • pp.415-439
    • /
    • 2014
  • 본 연구는 공공도서관 모바일 웹의 접근성 현황을 파악하고 이에 대한 개선방안을 제시하고자 하였다. 이를 위해 모바일 앱과 웹 지침에 따라 접근성 체크리스트를 도출하고, 자동평가와 수동평가를 통해 접근성 현황을 조사하였다. 연구결과, 대체텍스트는 검색결과 도서 이미지 안내, 메인메뉴, 텍스트 대신 이미지 제공에서 가장 많이 미준수 현황을 보였으며, 초점은 검색 및 검색결과에서, 운영체제 접근성은 검색어 입력창 레이블 및 아이디, 패스워드 입력창에서, 색에 무관한 인식은 좌석현황 및 도서관일정, 명도대비는 메인메뉴 및 서지사항에서, 컨트롤 간 충분한 간격은 자료검색 필드 간 간격 및 메인검색창에서 미준수 현황이 주로 나타났다. 이와 함께 연구결과로 모바일 도서관 주요 서비스별로 정리하여, 향후 도서관 모바일 웹 서비스 구축에 활용하고자 하였다.

텍스트마이닝 기반 고정밀 검색시스템

  • 안태성;서형국;이경일
    • 정보처리학회지
    • /
    • 제11권2호
    • /
    • pp.88-97
    • /
    • 2004
  • 지난 10년 동안 인터넷의 대중화 덕분으로 World Wide Web과 e-mail은 이미 정보 전달의 일반적인 수단으로 자리를 잡았다. 인터넷과 이에 기반한 e-Busine器는 기존 산업의 전 부분에 걸쳐 효율성과 생산성 증대를 위한 전략적인 도구로 그 중요성이 지속적으로 증대되고 있으며. 지식 노동자들은 업무 시간의 대부분을 문서로 대표되는 정보와 지식을 생산하고 검색하는데 보내고 있다. 새로운 기업정보 자료들이 끊임없이 등록되고, 지난 자료들이 수정, 갱신되는 등 전 세계에 있는 수 많은 기업에서 다양한 지식 자산(Knowledge Asset)들이 지속적으로 생성, 재활용되고 있다. 그러나 이렇게 기업이 생성, 저장, 재 사용하는 정보 중 20% 만이 활용성이 높은 정형 데이터로 구성되어 있고, 나머지 80%는 워드프로세서, e-mail, 프리젠테이션, 스프레드시트, PDF와 같은 복합문서와 인터넷 페이지 등의 비정형 텍스트 형태로 구성되어 있다[1].(중략)

  • PDF

의미 기반 정보 검색을 제공하는 이미지 게시판 시스템 (An Image Bulletin Board System providing Semantic-based Searching)

  • 정의현;조동찬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.733-735
    • /
    • 2004
  • 게시판 시스템은 양방향으로 정보를 교환하는 정보 시스템으로서의 높은 효용을 지니고 있으며, 웹과 결합하여 다양한 정보 시스템의 핵심 요소로 자리잡고 있다. 또한 이미지 등의 멀티미디어 정보를 게시물에 포함하여 효율적인 정보 공유에 사용되고 있다. 그러나 지금까지의 게시판 시스템은 게시물의 내용에 접근하기 위해, 단순한 텍스트 패턴 매칭에 의존하고 있다. 이러한 접근 방식은 텍스트 중심의 게시판에서는 어느 정도 효용을 갖지만. 멀티미디어를 포함하는 게시판의 경우에는 적용되기 어려운 단점을 갖고 있다. 본 논문에서는 이의 해결을 위해 이미지 데이터를 포함하는 게시물에 대해 시맨틱 태깅을 할 수 있는 게시판 시스템에 관하여 논한다. 제안된 시스템은 사전에 정해진 태깅 정보가 코드에 고착되지 않고, 외부에서 지정한 시맨틱 태깅을 동적으로 수용하는 구조물 갖고 있다. 이러한 구조를 통하여 이미지의 종류나 성격에 가장 적합한 태깅을 동적으로 지정할 수 있게 되며. 의미 기반의 검색을 지원하게 된다.

  • PDF

탐색과 브라우징을 지원하는 하이퍼미디어 시스템의 설계 (Design of a hypermedia system for effective searching and browsing)

  • 고영곤;최윤철
    • 정보관리학회지
    • /
    • 제10권1호
    • /
    • pp.15-30
    • /
    • 1993
  • 하이퍼미디어 시스템은 멀티미디어 정보간의 연상적 관게를 링크, 노드개념에 입각하여 지원함으로써 기존의 데이타베이스 시스템이나 텍스트 검색 시스템의 한계성을 극복해 준다. 본 연구는 텍스트, 그래픽, 영상, 목소리/사운드 등의 멀티미디어 정보를 지원해 주는 하이퍼미디어 시스템을 설계, 구현하였고 시스템의 기능을 보여주기 위하여 성경과 성경 관련 정보에 적용하여 응용시스템을 구축하였다. 특히 본 시스템에서는 탐색과 브라우징 기능을 효율적으로 통합함으로써 하이퍼미디어 시스템의 정보검색 기능과 사용자 인터페이스를 높이도록 설계하였다. 국립중앙도서관에 제안한 고서용 MARC 포멧과 기술규칙을 기초로 그 특징적인 것을 요약 정리한 것이다.

  • PDF