• Title/Summary/Keyword: 자원 검색

Search Result 712, Processing Time 0.033 seconds

Multilingual SPLOG classification using language independent features (언어 독립적인 자질을 이용한 다국어 스플로그 분류)

  • Hong, Seong-Hak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.284-287
    • /
    • 2011
  • 블로그는 검색 서비스에 노출되는 주요 사용자 생성 콘텐트 중 하나이며 스팸과 SEO를 위한 주요 대상이 되어왔다. 최근에는 인터넷 보급의 보편화로 비영어권 국가에서의 블로그 사용자가 증가하면서 블로그 검색에서도 여러 언어로 작성된 블로그와 스팸이 노출되고 있다. 일반적인 블로그 검색엔진에서의 스팸 필터의 경우 특정 국가나 언어를 위한 스팸 필터 시스템을 각기 구성하여 이를 별도로 사용하지만이는 자원 소모의 문제와 함께 크롤을 통해 유입되는 다양한 언어로 작성된 블로그 스팸을 미리 감지하기 어렵다. 본 논문에서는 블로그를 크롤하여 서비스하는 국제화를 지원하는 블로그 검색엔진에서 스플로그를 탐지하기 위해 속성 및 단어 기반 자질들을 이용한 다국어 공용 스플로그 감지 모델을 생성 하는 방법과 효과를 확인하기 위해 실험을 수행하였으며 가능성이 있음을 확인하였다.

An Implementation of the Ranking Algorithm for Web Documents based on Link Analysis (링크 분석에 기반한 웹 문서 중요도 평가 알고리즘의 구현)

  • Lim, Sung-Chae
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2010.07a
    • /
    • pp.75-78
    • /
    • 2010
  • 웹 검색에는 기존의 정보검색(Information Retrieval) 시스템에서와 다르게 문서 간 하이퍼링크 정보를 바탕으로 각 웹 문서의 고유 중요도를 추정하는 방식이 자주 이용된다. 링크 분석에 기반한 알고리즘 중 PageRank 알고리즘은 구글의 웹 검색 서비스에 적용된 것으로 알려져 있다. 이런 PageRank 알고리즘에 따라 중요도를 계산하는 경우 색인된 웹 문서수가 증가함에 따라 계산에 필요한 CPU 자원의 사용도 함께 증가하며, 문서 수가 수 억 페이지에 달하면 하나의 서버에서는 계산을 수행할 수 없다는 문제가 있다. 본 논문에서는 이런 문제점을 해소하기 위해 여러 대의 서버를 PageRank 계산 용 클러스터로 사용할 수 있는 방법을 제시한다. 제시된 방법은 고속의 LAN을 이용하여 여러 대의 서버를 연결하고 반복적인 행렬 계산을 병렬로 수행할 수 있어 계산 시간을 단축시킬 수 있다. 이런 서버 클러스터 구현을 위해 멀티 쓰레딩 프로그램이 작성되었으며, PageRank 계산에 사용되는 행렬 데이터를 적은 양의 메모리만으로 표현 가능하도록 하였다.

  • PDF

Design of Semantic Repository for Searching the Semantics (의미 검색을 위한 시맨틱 저장소 설계)

  • Jung, Yeon-Jin;Gu, Tae-Wan;Lee, Kwang-Mo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07a
    • /
    • pp.664-666
    • /
    • 2005
  • 시맨틱 웹은 네트워크에 존재하는 자원에 의미를 부여하고 이를 컴퓨터가 자동으로 처리 할 수 있도록 설계된 차세대 지능형 웹이라 할 수 있다. 그러나 수많은 양의 문서를 대상으로 각각의 의미를 정의하기 어려울 뿐만 아니라 이미 정의된 의미를 바꾸는 데에도 문제가 있다. 또한 여러 종류의 의미를 중첩적으로 갖는 것이 힘들며, 문서 검색을 하는데 있어 전체 네트워크를 대상으로 검색해야 한다는 정에서 소모적인 면을 가지고 있다. 본 논문에서는 문서의 의미 정의에 있어 내재된 문제점과 다의성 문제를 해결하기 위해, 문서와 대응할 수 있는 의미를 구조화된 형식에 따라 분리하여 이를 통합적으로 관리 할 수 있는 SR(Semantic Repository)을 설계 하고자 한다. 여기서 SR은 각 문서에 대응되는 의미와 각 문서들 사이의 독립된 의미관계만을 나타내므로 검색에 따른 부하 감소를 기대할 수 있다.

  • PDF

A Study on Design and Development for Online Search Advertisement Platform using Big Data Analysis System (빅데이터 분석 시스템을 활용한 온라인 검색 광고 플랫폼 설계 및 개발에 관한 연구)

  • Noh, Seon-Taek;Hong, Seung-Hyung;Kim, Kyung-Soo;Song, Young-Ki;Kim, Hwan-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.187-190
    • /
    • 2012
  • 온라인 검색 광고는 인터넷 사용자의 증가, 그리고 온라인 광고 수요의 규모가 커짐에 따라 광고 시장에서 보조적인 역할에서 벗어나 주도적인 위치로 변화하고 있다. 지속적인 규모성장과 수요 증가에도 불구하고 기존의 관계형 데이터베이스에 의존한 온라인 검색 광고 플랫폼은 구조적인 한계로 인해 유연한 자원 확장이나 분석속도의 보장성을 유지할 수 없다. 본 논문에서는 빅데이터 분석 시스템을 이용하여 온라인 검색 광고 플랫폼을 설계 및 구현함으로써, 데이터 저장 공간을 유연하게 확장할 수 있으며, 일정한 시간으로 수렴할 수 있는 안정적인 분석 속도를 유지하는 시스템을 제안한다.

Construction of Domain Ontology-based Framework for an Logistics Integrated Environment (물류 통합 환경을 위한 도메인 온톨로지 기반의 검색 프레임워크)

  • Bae, Si-Yeong;Koh, Jin-Gwang;Choi, Hyun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.1091-1094
    • /
    • 2012
  • 산업 및 무역, 유통 기업들은 수많은 물류자원이 된다. 이러한 기업들은 물류 비용을 절감하기 위해 전문 물류 기업에 물품 운송 부분을 맡긴다. 전문 물류 관리 기업들은 컴퓨터와 인터넷의 발전으로 공급자, 구매자와 타사 기업들간에 인터넷으로 서로 연결된다. 하지만 서로 다른 회사에서 사용하고 관리하는 소프트웨어 때문에 이기종데이터는 타사 기업을 위한 물류 정보시스템에 큰 문제가 된다. 따라서, 본 연구에서는 전문 물류 회사를 위한 도메인 온톨로지 기반의 검색 프레임워크를 제안한다. 제안한 도메인 온톨로지 기반의 검색 프레임워크는 통합 환경에서 전문 물류 회사를 위한 다양한 시스템과 프로세스를 포함한 문서로 제공될 수 있고 여러 다양한 문서의 통합 검색을 지원하며 문서 안의 의미 정보를 고려할 수 있다.

Transformation Method for Publishing DCAT based Metadata in Data Repository on Web (DCAT 기반 메타데이터의 웹 출판을 위한 변환 기법)

  • Park, Jinhyo;Kim, Kihun;Kim, Sung-Hee;Youn, Joosang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.491-493
    • /
    • 2021
  • 최근 데이터 산업 발전과 함께 데이터를 저장, 공유, 거래가 가능한 다양한 데이터 저장소와 거래소가 증가하고 있다. 대부분의 데이터 저장소 및 거래소는 데이터 검색과 공유를 위해 DCAT 기반 메타데이터를 구성하고 있다. 하지만 DCAT 기반 메타데이터는 웹 검색 엔진에서 검색이 잘되지 않는 문제점을 가지고 있다. 이는 웹에서 자원을 출판하기 위한 데이터 모델 기법이 Schema.org 방법을 사용하고 있기 때문이다. 본 논문에서는 이런 문제점을 해결하기 위해 DCAT 기반 메타데이터를 Schema.org 방법으로 변환할 수 있는 새로운 기법을 제안한다. 제안하는 변환 기법은 데이터 저장소와 거래소 내 데이터셋이 웹에서 잘 검색될 수 있는 웹 출판 기능을 지원한다.

Zero-shot Dialogue System Grounded in Multiple Documents (Zero-shot 기반 다중 문서 그라운딩된 대화 시스템)

  • Jun-Bum Park;Beomseok Hong;Wonseok Choi;Youngsub Han;Byoung-Ki Jeon;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.399-403
    • /
    • 2023
  • 본 논문에서는 다중 문서 기반의 대화 시스템을 통한 효율적인 정보 검색과 응답 생성에 중점을 둡니다. 대규모 데이터 집합에서 정확한 문서를 선택하는 데 필요한 검색의 중요성을 강조하며, 현재 검색 방법의 한계와 문제점을 지적합니다. 또한 더 자연스러운 답변을 생성하기 위해 대규모 언어 모델을 사용하게 되면서 fine-tuning 시에 발생하는 제약과 낭비를 모델의 제로샷 생성 능력을 활용하여 개선하려는 방안을 제안하며, 모델의 크기와 자원의 효율성에 대한 고려사항을 논의합니다. 우리의 접근 방식은 대규모 언어 모델을 프롬프트와 함께 다중 문서로 학습 없이 정보를 검색하고 응답을 생성하는 방향으로 접근하여 대화 시스템의 효율성과 유용성을 향상시킬 수 있음을 제시합니다.

  • PDF

A Study of Embedded System S/W Auto-Update Framework on RFID Object Directory Service System (RFID 검색 시스템 기반 임베디드 시스템 S/W 자동 업데이트)

  • Shin Hae-Sang;Kim Jong-Hwa
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.1443-1446
    • /
    • 2006
  • 내장형 컴퓨터 시스템은 한정된 자원 내에서 소프트웨어를 개발하여야 하며 또한 하드웨어 자원을 업그레이드가 어렵다는 고유한 문제점으로 인하여 소프트웨어 측면에서의 관리가 필요하며, 더욱이 유비쿼터스 환경으로의 전환시점에서 시간과 공간의 구애를 받지 않아야 하고 사용자에게 투명한 자동 업데이트 서비스 방법이 필요하다. 본 논문은 임베디드 시스템의 소프트웨어 유지보수를 위한 소프트웨어 업데이트 방법으로 RFID 검색 시스템 기반으로 임베디드 시스템 소프트웨어 자동 업데이트 할 수 있는 프레임워크를 제안하고 설계하였다.

  • PDF

A Synonym Dictionary Construction for Information Retrieval (정보 검색을 위한 동의어/유의어 사전 구축)

  • Lee, Tae-Woo;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.208-213
    • /
    • 2003
  • 본 논문에서는 많은 정보로부터 의미 있는 정보를 추출하기 위해 사용되는 정보 검색 시스템에서 이용이 가능한 동의어/유의어 사전을 구축하고 구축된 정보의 평가를 수행하였다. 사용한 자원으로는 미리 구축된 한-영 사전과 영-한사전을 이용하였다. 이들의 사용으로 다른 동의어사전과 달리 보다 많은 유의어 정보를 포함하는 이익을 얻었다. 본 논문의 시스템은 사전을 구축하기 위해 기본 자원을 이용하여 동의어/유의어 후보 목록들을 획득하고, 획득된 정보를 바탕으로 후보 목록의 빈도수와 사전의 위치 정보, 마지막으로 입력 명사 정보를 이용하여 동의어/유의어를 확정한다. 작성된 동의어/유의어사전은 한-영사전에 수록된 한국어 명사 64,630개를 대상으로 하였다. 작성된 사전을 문서 필터링 시스템에 추가하여 적용 전보다 성능이 향상됨을 확인하였다. 또한 질의 색인어 확장에 이용하여 보다 정답을 추출하는데 추가적으로 확장된 유의어 정보가 정답을 추출하는데 유용하게 사용됨을 확인하였다.

  • PDF

Monopolized Portal Services as Addressing Meida (접근 기능으로서의 포탈 사이트 집중화 요소분석)

  • Han, Young-S.;Kim, Man-H.;Lee, Yong-J.;Jang, Ha-E.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.58-61
    • /
    • 2006
  • 대량으로 존재하는 웹자원에 대한 디렉토리 및 검색서비스를 제공하는 포털서비스로의 집중화 현상이 계속해서 심화되고 있다. 상대적으로 주소를 통한 자원으로의 접근은 약화되고 있다. 포털서비스와 접근수단 그리고 최종 목적지인 콘텐츠사이트 간의 확률적 모델을 통하여 포털사이트로의 집중화 현상이 콘텐츠 접근 모델에 있어서의 구조적인 특징에 기인함을 알 수 있었다. 많은 이용자들이 시작페이지로 포털사이트를 설정하고 있고, 주소를 입력 할 때는 주소창 보다는 포털의 검색창에 입력하고 있음으로 해서 포털서비스가 주소서비스를 대체하고 있다.

  • PDF