• 제목/요약/키워드: Web Contents Selection

검색결과 58건 처리시간 0.032초

Category Factor Based Feature Selection for Document Classification

  • Kang Yun-Hee
    • International Journal of Contents
    • /
    • 제1권2호
    • /
    • pp.26-30
    • /
    • 2005
  • According to the fast growth of information on the Internet, it is becoming increasingly difficult to find and organize useful information. To reduce information overload, it needs to exploit automatic text classification for handling enormous documents. Support Vector Machine (SVM) is a model that is calculated as a weighted sum of kernel function outputs. This paper describes a document classifier for web documents in the fields of Information Technology and uses SVM to learn a model, which is constructed from the training sets and its representative terms. The basic idea is to exploit the representative terms meaning distribution in coherent thematic texts of each category by simple statistics methods. Vector-space model is applied to represent documents in the categories by using feature selection scheme based on TFiDF. We apply a category factor which represents effects in category of any term to the feature selection. Experiments show the results of categorization and the correlation of vector length.

  • PDF

Comparing Feature Selection Methods in Spam Mail Filtering

  • Kim, Jong-Wan;Kang, Sin-Jae
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2005년도 6th 2005 International Conference on Computers, Communications and System
    • /
    • pp.17-20
    • /
    • 2005
  • In this work, we compared several feature selection methods in the field of spam mail filtering. The proposed fuzzy inference method outperforms information gain and chi squared test methods as a feature selection method in terms of error rate. In the case of junk mails, since the mail body has little text information, it provides insufficient hints to distinguish spam mails from legitimate ones. To address this problem, we follow hyperlinks contained in the email body, fetch contents of a remote web page, and extract hints from both original email body and fetched web pages. A two-phase approach is applied to filter spam mails in which definite hint is used first, and then less definite textual information is used. In our experiment, the proposed two-phase method achieved an improvement of recall by 32.4% on the average over the $1^{st}$ phase or the $2^{nd}$ phase only works.

  • PDF

웹 서비스 기반의 비즈니스 모델에 서비스 과학 적용 (Applying Service Sciences to the Web Services Based Business Model)

  • 조광문
    • 한국콘텐츠학회논문지
    • /
    • 제9권10호
    • /
    • pp.268-273
    • /
    • 2009
  • 최근 기업간 비즈니스 로직의 구현에 웹 서비스를 이용하고 응용 간 통신 및 상호 응용의 사례가 일반화 되고 있다. 이를 위한 기업 내의 기반 시스템 구축에도 웹 서비스의 이용이 활발해지고 있다. 이에 따라 효율적인 비즈니스 모델에 대한 요구가 많아지고 있다. 웹 서비스의 사용이 활발해지면서 적정 수준의 품질 및 보안을 보장해 주는 서비스의 선택이 중요하게 되었다. 또한 서비스 산업의 신장과 더불어 기업의 비즈니스에 서비스 과학을 적용하려는 노력이 많아지고 있다. 본 논문에서는 이를 위하여 웹 서비스의 품질 측면을 고려한 비즈니스 모델을 제시하고, 이 모델에 서비스 과학을 적용하는 방안을 제안하였다.

User Perceptions of Uncertainty in the Selection of Information Retrieval System: Implications for System and Service Improvement

  • Kim, Yang-Woo
    • International Journal of Contents
    • /
    • 제5권3호
    • /
    • pp.40-49
    • /
    • 2009
  • While numerous studies have suggested the significance of uncertainty during the process of information-seeking, less research has investigated user uncertainty in the actual search process using a real system. This study investigated user perceptions of uncertainty in the process of the selection of information retrieval system in the real information-seeking process. Considering the role of commercial Web search engines as supplementary tools for traditional bibliographic databases in academic research environments, this study analyzed the selection behavior of scholarly researchers, who use such search tools for their academic study. The researchers were limited to the discipline of science in order to understand user perceptions in this field. The findings revealed various dimensions, types, and incidents of uncertainty. Variations appeared in different incidents of uncertainty relating to the unique characteristics of the subjects' information-seeking context. The identification of three principal origins of uncertainty based on the different types of uncertainty generated implications to improve information systems and services.

태그 동시 출현의 동적인 특징을 이용한 개선된 태그 클라우드의 태그 선택 방법 (Improved Tag Selection for Tag-cloud using the Dynamic Characteristics of Tag Co-occurrence)

  • 김두남;이강표;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권6호
    • /
    • pp.405-413
    • /
    • 2009
  • 태깅 시스템은 인터넷 사용자로 하여금 태그라고 불리는 메타데이터를 글, 사진, 동영상 등에 부여하도록 하여서 컨텐츠의 검색 및 브라우징을 편리하게 하는 시스템이다. 컨텐츠의 브라우징을 위해서 태그 클라우드라는 시각적 인터페이스가 널리 쓰이고 있다. 태그 클라우드는 가장 빈도수가 높은 태그들을 알파벳 순으로 보여주고 폰트의 크기로 그 태그들의 빈도수를 반영한다. 하지만 기존의 태그 선택 방법은 몇 가지 단점들이 알려져 있다. 그래서 이 논문은 참신한 컨텐츠들을 찾을 수 있도록 Freshness라는 태그 클라우드를 위한 새로운 태그 선택 방법을 정의하였다. Freshness는 태그 동시 발생 확률 분포(tag co-occurrence probability distribution)가 동적으로 변화하는 것을 Kullback-Leibler divergence로 평균한 값이다. Allblog, Eolin, Technorati 등 세 개의 웹사이트로부터 실제 태그 데이터를 수집하여 우리의 태그 클라우드를 생성하는 시스템, 'Fresh Tag Cloud'를 구축하였다. 이 태그 클라우드를 Allblog에서 수집한 데이터에서 전통적인 태그 클라우드와 비교했을 때 중복평균이 87.5% 감소하여서 성능이 더 향상된 것을 확인할 수 있다.

저시력자를 위한 모바일 보이스 웹 브라우저 개발 (Mobile Voice Web Browser for the Low Vision)

  • 박주현;이한나;신지은;동서연;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제23권11호
    • /
    • pp.1418-1427
    • /
    • 2020
  • The web has become indispensable in all of our daily lives. We communicate, study and get information with others through the web. This behavior also continues in the smart phone environment. The biggest problem is that the small display screen of a smart phone degrades the accuracy in selecting or manipulating content for people with low vision. To compensate for this, voice guidance services that combine touch and voice, such as VoiceOver and Talkback, are currently provided to smart phone devices. However, restrictions arise in GUI, TTS control problems, and content expansion and selection. In addition, unnecessary content is also output by voice, which causes fatigue for low vision people to use. In this study, we propose a mobile web browser interface that selects and enlarges a desired area from web browsers and contents, or outputs it as a voice so that people with low vision can easily use the mobile web browser. In this paper, we propose a context selective focusing function that enables selection for each element of web content. In addition, we intend to develop a mobile voice web browser that can enlarge the selected content or output it by voice.

안드로이드 기반의 웹 서비스 프로토콜 커스터마이제이션 기법 (Customization Technique of Web Service Protocol based on Android)

  • 김철진
    • 한국콘텐츠학회논문지
    • /
    • 제12권6호
    • /
    • pp.92-99
    • /
    • 2012
  • 모바일 어플리케이션 규모는 급성장하고 있으며, 이에 따라 모바일과 웹 서비스와의 결합도가 높은 어플리케이션들이 증가하고 있다. 이러한 모바일 어플리케이션의 증가는 가변성을 고려한 개발이 이루어져야 함을 의미한다. 현재 웹 서비스와 연동하는 모바일 어플리케이션을 변경할 경우 어플리케이션 전체를 재설치 해야 한다. 그러나 이러한 재설치는 결합도가 큰 어플리케이션인 경우 부작용이 발생할 가능성이 높다. 따라서 본 논문에서는 안드로이드 플랫폼 기반에서 웹 서비스와 연동 시 웹 서비스 프로토콜을 변경하기 위한 커스터마이제이션 기법을 제안한다. 프로토콜 커스터마이제이션 기법은 선택 기법과 플러그인 기법으로 구분한다.

Enhancing Similar Business Group Recommendation through Derivative Criteria and Web Crawling

  • Min Jeong LEE;In Seop NA
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2809-2821
    • /
    • 2023
  • Effective recommendation of similar business groups is a critical factor in obtaining market information for companies. In this study, we propose a novel method for enhancing similar business group recommendation by incorporating derivative criteria and web crawling. We use employment announcements, employment incentives, and corporate vocational training information to derive additional criteria for similar business group selection. Web crawling is employed to collect data related to the derived criteria from 'credit jobs' and 'worknet' sites. We compare the efficiency of different datasets and machine learning methods, including XGBoost, LGBM, Adaboost, Linear Regression, K-NN, and SVM. The proposed model extracts derivatives that reflect the financial and scale characteristics of the company, which are then incorporated into a new set of recommendation criteria. Similar business groups are selected using a Euclidean distance-based model. Our experimental results show that the proposed method improves the accuracy of similar business group recommendation. Overall, this study demonstrates the potential of incorporating derivative criteria and web crawling to enhance similar business group recommendation and obtain market information more efficiently.

리치미디어 컨텐츠 구현에 있어 상호작용 모델 (A Study on the Characteristic of Interaction Model for Implementation of Richmedia Contents)

  • 김민수
    • 디자인학연구
    • /
    • 제17권1호
    • /
    • pp.201-210
    • /
    • 2004
  • 기호 통합 텍스트로서 웹은 "정보"라는 무형의 지식개념을 위한 핵심적 플랫폼으로 전 세계에 걸쳐 유비쿼터스 환경을 기반으로 광범위한 소통모델로 발전하고 있다. 이러한 소통과정의 파악은 정보구조 조직화시 필수불가결한 요소로 늘어만 가는 정보의 양적 팽창과 더불어 컨텐츠 질을 결정 하는데 주요한 기준으로 작용되어질 수 있다. 본 연구는 공학적, 언어학적 모델을 기반으로 웹 사이트내에서 리치미디어 컨텐츠들의 형태, 기능, 감성적 측면을 중심으로 컨텐츠 조직화시 어떠한 방식으로 의미적 소통을 행하는지 그 추이과정을 분석하였다. 이를 토대로 웹 공간에서 이루어지는 사용자들의 접근요소에서 인터페이스 최종 귀착지까지의 과정을 통해 그 변화과정을 소통모델로 재인하고 그 과정 중에 나타나는 정보기능에 중점을 두어 고찰하였다. 방법적인 측면으로 쉐논과 웨버 모델의 기능특성과 야콥슨 모델의 네 가지 기능(교감, 지시, 시적, 메타언어적)을 중심으로 정보 소통 시 웹 컨텐츠에 적용되어질 수 있는지에 관하여 그 가능성의 도출 작업을 수행한다. 웹이라는 신지형의 구조에서 속도, 저장 공간, 압축기술, 정보여과 과정과 같은 새로운 개념들은 의사소통의 채널로 작용하는 웹이 표현되어지는 컨텐츠의 양식 변화에 많은 부분 영향을 미침으로써 컨텐츠 표현에 있어 통합매체의 소통환경을 파악하는 것은 컨텐츠 조직화시 정보를 효율적으로 운용할 수 있는 기틀이 마련될 것이다.

  • PDF

융합시대의 스타콘텐츠 발굴 및 선정에 관한 연구 (A Study on the Decision and Selection of the Star Contents in the Convergence Era)

  • 임명환;박용재;허필선
    • Journal of Information Technology Applications and Management
    • /
    • 제18권2호
    • /
    • pp.1-21
    • /
    • 2011
  • In this era of convergence, which is characterized by the integration and combination of technology and industries, broadcasting and communications, offline and online, and devices and services, the content industry is also experiencing rapid changes including inter-genre exchange, the creation of new industries, and customized demand. Specifically, IT-based digital content industries such as the online game, e-book, mobile contents and web portal industries are no longer restricted to the boundaries of video, music and games but are being expanded into the realms of education, medicine, fashion and sports thanks to CT innovation of 3D, CG, AR/VR, VFX, etc. As such, various countries have come to recognize the convergent content industry as a new growth engine that will pick up where the IT industry left off, and are forming policies for its development accordingly. This research aims to optimize the system of content taxonomy which is currently genre-focused and unable to support technological development and convergence, and to discover and select star contents to be rigorously developed with governmental support. In this paper, 20 star contents in 8 areas were selected, and these are expected to create tremendous cultural and economic value through ongoing technological and industrial development.