• 제목/요약/키워드: 본문검색

검색결과 74건 처리시간 0.024초

웹 크롤링 이용한 크레페 검색 시스템 설계 (Crepe Search System Design using Web Crawling)

  • 김효종;한군희;신승수
    • 디지털융복합연구
    • /
    • 제15권11호
    • /
    • pp.261-269
    • /
    • 2017
  • 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용한 방식이 아닌 단일 네트워크에서 정보의 최신성을 보장하기 위해 데이터베이스 서버를 사용하지 않고 실시간으로 웹에 접속하여 정보를 불러오는 방식을 사용한 검색 시스템을 설계하는 것이다. 연구의 방법은 크레페 시스템에서 신속하고 정확한 인물과 키워드 검색을 할 수 있는 시스템을 설계하고 분석한다. 크레페 서버는 본문 태그 매칭 변환 과정은 사용자가 정보를 등록할 경우 글자체, 글자 크기, 색상등과 같이 사용자마다 여러 스타일이 적용되어 그 자체가 정보가 되기 때문에 모든 정보를 그대로 저장하게 된다. 크레페 서버는 본문 태그 매칭 문제점이 발생되지 않는다. 그러나 크레페 검색 시스템을 실행할 때에는 사용자들의 스타일 및 특성을 정형화할 수 없다. 이러한 문제점을 html_img_parser 함수와 Go언어의 html 파서 패키지를 사용하면 해결할 수 있다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색, 수집한 빅 데이터를 다양한 응용 분야에 활용될 수 있을 것이다.

시맨틱 웹 환경에서 적합한 문장을 제공하는 이야기 쓰기 도우미에 관한 연구 (A Study of Retrieval Model Providing Relevant Sentences in Storytelling on Semantic Web)

  • 이태영
    • 정보관리학회지
    • /
    • 제26권4호
    • /
    • pp.7-34
    • /
    • 2009
  • 이야기 쓰기를 돕는 본문 및 문장 검색시스템의 구축을 위해서 (1) 이야기와 단락 및 문장의 구조를 분석하고 (2) 색인작성과 탐색 질문에 적용되는 언어 추론을 연구하였다. 이야기 쓰기에 필요한 이야기, 단락, 그리고 문장으로 구성된 사항 데이터베이스와 필요한 추론규칙으로 이루어진 지식베이스와 온톨로 지가 고안되었다. 추론의 기초인 실례(實例) 파일들은 시맨틱 웹 환경에서 작동될 마크업 언어 형식으로 만들어졌다. 시맨틱 웹 환경에서 실용적인 시스템이 되려면 단락과 문장을 정확히 대변하는 색인 방법론과 이를 정밀하게 지식베이스화 할 수 있는 마크업 언어의 창조가 필수적이라 사료된다.

원격교육 학습데이터 가중치에 따른 DID 메타데이터 처리방법 연구 (A study on DID metadata processing method according to distance learning data weight)

  • 민연아
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.567-568
    • /
    • 2023
  • 본 논문에서는 블록체인 기반 DID기술을 이용하여 원격교육에서 발생하는 학습데이터를 효율적으로 관리하기 위한 방법으로, 학습데이터 가중치를 고려한 DID 메타데이터관리방법을 제안하였다. 메타데이터의 식별자에 대하여 특정위치로 데이터 가중치를 검색하도록 하고 해당 가중치에 따라 처리방법을 다양화 할 수 있다. 본문에서는 블록체인의 Zero Knowledge Proof 방식 처리에 차별화를 두어 메타데이터를 처리하였으며 데이터 처리속도 및 데이터관리에 효율성높일 수 있다.

  • PDF

2000년도 국립수의과학검역원 가금질병 검색결과

  • 모인필
    • 월간양계
    • /
    • 제33권2호통권376호
    • /
    • pp.148-153
    • /
    • 2001
  • 국립수의과학검역원에서는 다음의 3가지 목적을 가지고 매년 전국의 양계농가 혹은 양계관련회사, 수의사로부터 질병진단을 위하여 가검물을 의뢰 받고 있다. 이 사업은 1966년에 처음으로 시작하여 2000년 올해까지 35년이 되었다. 가. 가금질병의 국내 발생 동향 및 추세파악으로 방역지침자료 확보 나. 새로운 질병의 조기검색 및 연구자료 제공으로 질병 신속방제 다. 양계농가에 대한 질병 치료, 예방 및 위생기술 지도 지금부터 이야기하고자 하는 2000년도 질병분석은 1월부터 10월까지 국립수의과학검역원에 의뢰된 가검물을 기본으로 하였으며 이 자료에 대한 인용은 양계관련잡지, 업체, 개인 누구나 가능하다. 또한, 이 자료는 작성을 한 후 각 전문잡지에 공통으로 투고를 했기 때문에 본문내용이 모두 똑같은 점을 이해해 주었으면 한다. 2000년도 12월 31일까지 분석한 최종자료는 2001년 3월에 발간되는 국립수의과학검역원 정보지에 실릴 예정이다.

  • PDF

고령자의 사용편의성 향상을 위한 웹 네비게이션 디자인에 관한 연구 (A Study of Web Navigation Design to Improve Usability of Old-aged Users)

  • 배윤선;이현주
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 2부
    • /
    • pp.209-214
    • /
    • 2006
  • 본 연구는 지식과 정보가 경쟁력이 되고 있는 현대 사회에서 고령자들이 웹을 통하여 보다 쉽게 정보를 찾을 수 있는 웹 네비게이션 디자인의 유형을 개발하고자하였다. 예비조사를 통하여 고령자를 위한 웹 네비게이션 디자인의 유형을 제안하였고 30 명의 고령자 그룹을 대상으로 정보 검색 소요 시간, 오류발생 측면, 웹 네비게이션 디자인 요소의 크기와 위치, 레이아웃에 관한 조사를 하였다. 측정된 정보 검색 소요 시간은 반복측정 이원변량분석에 의하여 분석하였고 비디오 분석과 사후 설문조사를 실시하였다. 고령자에게 이상적인 웹 네비게이션 디자인은 페이지의 상단에 가로로 길게 위치한 글로벌 메뉴 아래에 세로로 서브 카테고리 메뉴가 나타나는 유형이며 롤오버 메뉴와 단계적으로 분류된 메뉴, 크게 처리된 본문과 레이블, 움직이지 않는 이미지가 고령자가 정보를 쉽게 찾을 수 있도록 하였다. 이상에서 제시하는 바와 같이 사용편의성을 위한 웹 네비게이션 디자인에서는 고령자가 효율적으로 오류 없이 정보를 쉽고 편하게 찾을 수 있으며 고령자를 위한 웹 네비게이션 디자인의 개발은 고령화 사회에서 노인계층의 인터넷 사용을 활성화 시킬 수 있을 것이다.

  • PDF

웹 뉴스의 기사 추출과 요약 (Text Extraction and Summarization from Web News)

  • 한광록;선복근;유형선
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-10
    • /
    • 2007
  • 뉴스 콘텐츠 등 웹을 통해 제공되는 많은 정보들은 불필요한 클러터를 많이 포함하고 있다. 이러한 클러터들은 문서의 요약, 추출, 검색과 같은 자동화된 정보처리 시스템의 구축을 어렵게 한다. 본 논문에서는 웹 뉴스 콘텐츠를 추출하고 이를 요약하는 시스템을 구축하고자 한다. 추출 시스템은 HTML로 된 뉴스 콘텐츠를 입력받아 DOM 트리와 유사한 요소 트리를 구축하며, 이 요소 트리에서 HTML 태그의 하이퍼링크 속성을 갖는 클러터를 제외하면서 본문을 추출한다. 추출 시스템을 통해 추출된 본문은 요약시스템으로 전달되어 핵심 문장이 추출된다. 요약 시스템은 공기관계 그래프를 이용하여 구성한다. 본 논문에서 구현한 시스템을 통해 추출된 요약 문장은 SMS와 같은 메시지 서비스를 통하여 PDA이나 모바일 폰 등에 전송될 수 있을 것으로 기대된다.

  • PDF

다중색인에 의한 정보검색 시스템 구현 (Implementation of an Information Retrieval System with Multiple Indexing)

  • 이준영;강상배;양장모;박승;박현주;김민정;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-67
    • /
    • 1996
  • 이 논문에서는 대량의 신문기사나 일반 텍스트 문서를 효율적으로 저장 및 검색 할 수 있는 정보검색 시스템을 구현한다. 이 시스템은 문서의 주제, 저자, 날짜, 출판사 또는 사용자 정의에 의한 속성과 본문에 대한 색인어와 색인관련정보를 생성한다. 모든 색인어는 최대 64가지의 속성정보와 문서별 단어빈도(tf)를 가질 수 있다. 색인은 형태소 분석을 이용하는 방법과 N-gram을 이용하는 방법이 동시에 사용되며, 색인어는 가중치를 가진다. 이 논문에서 구현한 시스템을 이용하여 7개월치 신문자료를 색인한 결과, 생성된 데이터베이스의 크기는 원래 문서의 약 22%이며 문서의 개수가 증가함에 따라 점점 그 비율은 감소한다.

  • PDF

학술정보검색을 위한 국내 대학생의 외국어 탐색문 활용에 관한 연구 (A Study on the Korean University Students' Usage of Foreign Language Queries in Scholarly Information Retrieval)

  • 이보은;이지연
    • 정보관리학회지
    • /
    • 제36권1호
    • /
    • pp.95-116
    • /
    • 2019
  • 본 연구에서는 학술정보검색에 있어 국내 대학생과 대학원생들이 외국어 탐색문을 어떻게 활용하는지, 그리고 이용자의 특성에 따라 외국어 탐색문의 활용도에 차이가 나타나는지 파악하고자 하였다. 연구 모형은 Ellis의 정보탐색 과정 모형을 바탕으로 설계되었으며, 실험, 인터뷰, 통계분석 등 양적 질적인 연구방법을 모두 활용하였다. 연구결과, 학술정보검색의 각 단계에서 국문 검색 전략과는 다른 다양한 외국어 검색 전략들이 발견되었고, 이러한 검색 전략들은 특히 이용자의 전공분야와 학력에 따라 차이를 보이는 것으로 파악되었다. 특히 인문 사회과학분야 피실험자들이 과학기술분야 피실험자들에 비해 외국어 탐색문을 선정하는 데 큰 어려움을 겪으며, 이에 따라 외국어를 활용한 검색을 선호하지 않는 점을 확인하였다. 또한 외국어 학술정보검색에서 인용정보나 발행지 정보 등 본문 이외의 정보들에 대한 의존도가 높아지는 모습을 보였다. 결과적으로 이용자의 특성에 따라 학술정보검색 과정에 외국어를 활용하는 비중이나 느끼는 어려움의 정도에 차이가 존재한다는 점을 파악할 수 있었으며, 향후 대학도서관은 이러한 이용자의 특성에 맞추어 이용자교육이나 도서관 서비스를 제공할 수 있을 것이다.

비정형 문서의 정보추출을 통한 OWL 온톨로지 구축 시스템의 설계 및 구현 (The Design and Implementation of OWL Ontology Construction System through Information Extraction of Unstructured Documents)

  • 조대웅;최지웅;김명호
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.23-33
    • /
    • 2014
  • 정보검색 분야의 발전은 많은 양의 정보를 빠르게 찾아주는 것에서 사람이 원하는 정보를 정확하게 찾아주는 연구 분야로 넓혀가고 있다. 핵심 기술로는 개인화 및 시맨틱 웹 기술을 활용하고 있다. 웹 문서에 대한 자동색인 기술과 처리능력은 연구단계를 넘어 실용 서비스로 나타나고 있다. 하지만 웹 문서 이외의 첨부된 문서 형태에 대한 문서정보검색에 관한 연구는 미진한 상황이다. 본 논문에서는 텍스트, 워드, 한글과 같은 형식으로 작성된 비정형 문서의 본문 내용을 분석하여 OWL 온톨로지로 구축하는 방법에 대해 설명한다. 문서 온톨로지의 TBox를 구축하고, 문서로부터 얻을 수 있는 자원을 선정하여, 구축된 문서 온톨로지의 인스턴스로 활용할 수 있도록 시스템으로 구현한다. 이와 같은 비정형 문서의 온톨로지 자동 구축으로 해당 문서의 시맨틱 기술을 이용한 정보검색 및 문서관리 시스템에서 효과적으로 활용 가능하다.

패턴매칭을 이용한 유사도 비교 분석 (A Similarity Valuating System using The Pattern Matching)

  • 고방원;김영철
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.185-192
    • /
    • 2010
  • 본 논문에서는 서로 다른 두 개의 문서에 등장하는 패턴 매칭을 이용하여 유사도를 평가하는 시스템을 제안한다. 기존의 문서들의 유사도를 평가하는 방법에는 지문법과 같은 통계적 방법을 주로 이용하였다. 하지만 이 방법은 관련이 없는 두 문서에서 우연히 유사한 단어가 많이 등장 할 때 유사성이 높게 나오는 정확성의 문제점이 있다. 이러한 문제점은 단순히 두 문서의 통계적인 수치를 비교하기 때문에 발생한다. 하지만 본 논문에서 제시하는 패턴을 이용한 방법은 일치하는 패턴을 검색하여 유사성을 판별하기 때문에 이러한 문제를 해결하였다. 하지만 패턴을 검색하는 시간이 오래 걸리는 단점이 있는데 이를 개선하는 알고리즘 또한 본문에서 소개한다.