• Title/Summary/Keyword: 웹 검색어

Search Result 263, Processing Time 0.022 seconds

Methodology and Implementation of Detecting Tool for New Words Occurring in Korean Document (신조어 자동 추출 방법론과 신어 조사 도구의 개발)

  • Lee, Samuel Sangkon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.271-276
    • /
    • 2009
  • 신조어 조사용 프로그램은 웹에 실시간으로 등록되는 언론 기사를 수집하는 웹 에이전트를 개발하여 텍스트를 추출하고, 간단한 어휘 분석을 통하여 국어사전에 등록된 표제어와 이미 연구자가 발견한 기존의 신조어를 제외하고, 현대의 사회상을 잘 표현하는 새로 생성된 신조어를 추출하는 작업을 하는 도구이다. 인터넷의 언론 사이트에서 규칙적인 URL 패턴을 발견하고 뉴스 기사를 수집한다. HTML 소스 분석을 통하여 언론 기사만을 추출하여 국어 전공자가 신어를 찾아내는 작업을 도와주는 조사 도구를 설계하고 구현하였다.

  • PDF

Comparative Usefulness of Naver and Google Search Information in Predictive Models for Youth Unemployment Rate in Korea (한국 청년실업률 예측 모형에서 네이버와 구글 검색 정보의 유용성 분석)

  • Jung, Jae Un
    • Journal of Digital Convergence
    • /
    • v.16 no.8
    • /
    • pp.169-179
    • /
    • 2018
  • Recently, web search query information has been applied in advanced predictive model research. Google dominates the global web search market in the Korean market; however, Naver possesses a dominant market share. Based on this characteristic, this study intends to compare the utility of the Korean web search query information of Google and Naver using predictive models. Therefore, this study develops three time-series predictive models to estimate the youth unemployment rate in Korea using the ARIMA model. Model 1 only used the youth unemployment rate in Korea, whereas Models 2 and 3 added the Korean web search query information of Naver and Google, respectively, to Model 1. Compared to the predictability of the models during the training period, Models 2 and 3 showed better fit compared with Model 1. Models 2 and 3 correlated different query information. During predictive periods 1 (continuous with the training period) and 2 (discontinuous with the training period), Model 3 showed the best performance. During predictive period 2, only Model 3 exhibited a significant prediction result. This comparative study contributes to a general understanding of the usefulness of Korean web query information using the Naver and Google search engines.

WebDBs : A User oriented Web Search Engine (WebDBs: 사용자 중심의 웹 검색 엔진)

  • 김홍일;임해철
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.24 no.7B
    • /
    • pp.1331-1341
    • /
    • 1999
  • This paper propose WebDBs(Web Database system) which retrieves information registered in web using query language similar to SQL. This proposed system automatically extracts information which is needed to retrieve from HTML documents dispersed in web. Also, it has an ability to process SQL based query intended for the extracted information. Web database system takes the most of query processing time for capturing documents going through network line. And so, the information previously retrieved is reused in similar applications after stored in cache in perceiving that most of the web retrieval depends on web locality. In this case, we propose cache mechanism adapted to user applications by storing cached information associated with retrieved query. And, Web search engine is implemented based on these concepts.

  • PDF

Natural Language Information Retrieval by Fuzzy Inference (퍼지 추론에 의한 자연언어 정보 검색)

  • Park, Hyeon-Gyu;O, Jong-Hun;Kim, Myeong-Ho;Choe, Gi-Seon;Lee, Gwang-Hyeong
    • The KIPS Transactions:PartB
    • /
    • v.8B no.3
    • /
    • pp.243-250
    • /
    • 2001
  • 인터넷 전자 상거래 시스템에서 주로 일어나는 정보 검색은 사용자의 상품정보 요구라고 할 수 있다. 이와 같이 사용자가 원하는 상품 정보를 웹 환경에서 검색하기 위해서는 편리한 검색 환경의 제공뿐만 아니라, 검색 성능의 효율성 또한 우수해야 한다. 인터넷 인구와 온라인 쇼핑몰의 급격한 증가로 인해 다양한 조건 검색에 의한 상품검색 요구가 증대되고 있다. 또한, 이러한 상품의 검색 결과는 사용자의 의도와 의미상으로 밀접한 관계를 가져야 한다. 자연언어 정보검색은 이러한 요구의 중요한 대안으로 대두되고 있으나, 자연언어 자체가 가지는 애매한 의미의 해석 등으로 인하여 상용 시스템에 적용하는데 많은 어려움이 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 퍼지추론을 이용한다. 입력된 자연언어 질의에서 형태소 분석을 통하여 데이터베이스 질의에 사용될 수 있는 의미어(content word)를 추출한 후, 의미어들을 재구성하여 템플릿을 작성한다. 작성된 템플릿은 퍼지 추론을 통하여 의미의 애매성을 해소하고 데이터베이스 질의로 변환하여 사용자의 질의 의도와 부합되는 검색 결과를 제시한다.

  • PDF

A Study on the Social and Cultural Characteristics of Web Queries (웹 검색질의어 분석을 통한 사회·문화적 특성에 관한 연구)

  • Kim, Seong-Hee
    • Journal of Information Management
    • /
    • v.42 no.4
    • /
    • pp.155-174
    • /
    • 2011
  • This study aims to focus on classifying the search engine queries according to web query topic and the different user intents behind web queries. First, we classified 10,000 web query data set by topic. The results showed that there was significant differences in interesting topics across time. Also, we categorized 500 popular queries in web search engine as informational, navigational, or transactional. As a result, 82 percent of web queries are informational in nature, with about 10.8 percent for navigational and 7.2 percent for transactional. This results will help establish the policy to provide internet contents based on user's intent and also find out the social and cultural characteristics.

An XML Tag Search System By Using Thesaurus (시소러스를 이용한 XML 태그 검색 시스템)

  • 양승원;노희영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.145-147
    • /
    • 2000
  • 현재 웹 기술은 HTML에서 정보를 표현하는 외형과 내용을 분리하여 정보를 구조화할 수 있는 XML을 사용하고 있다. 구조적으로 구성된 XML은 새로운 정보 검색의 방법을 제시하였다. 즉, 태그를 이용한 정보검색으로 검색어에 의미를 부여함으로써 정보 검색자에게 좀더 효율적인 검색을 가능하게 하였다. 그러나 이러한 구조화 문서 검색 기법은 정확한 태그를 입력하였을 경우에만 결과를 얻을수 있는 단점을 지니고 있다. 따라서 본 논문에서는 XML문서의 태그 검색에 있어 정확한 태그 검색을 확장한 유사 태그 검색기법을 설계하고 구현하였다. 유사한 태그를 검색하기 위하여 시소러스를 구성하였으며, 작성된 시소러스를 이용하여 유사한 태그에 대한 검색을 수행하였다. 기존의 XML문서 검색 시스템은 정한 태그에 대한 검색만을 수행할 수 있는 반면, 본 시스템은 태그검색에 있어 시소러스를 활용함으로써 질의에 입력되어진 태그와 유사한 태그에 대한 검색 결과를 보여줌으로써 사용자에게 질의어 선정의 불편함을 감소시켰다.

  • PDF

Development of an Exteneded UDDI for Quality based Web Service Retrieval (품질기반의 웹 서비스 검색을 위한 확장 UDDI 개발)

  • Park Sung-Soo;Lee Jong-Keun;Yoon Jee-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06c
    • /
    • pp.79-81
    • /
    • 2006
  • 최근 이질 분산형태를 갖는 정보를 통합하는 방법으로서 웹 서비스 기술을 이용한 바이오 정보 시스템이 개발 구축되고 있다. 이러한 웹 서비스 기반 바이오 정보 시스템으로 Bio-MOBY. DDBJ, MyGrid Project 등을 들 수 있다. 그러나 이들 기존 시스템에서는 선택한 DB에 대한 accession 번호 검색을 지원하거나. 시스템에 등록된 서비스의 선택만이 허용되는 등 이용형태가 매우 제한적이다. 또한 서비스의 품질 평가 기능이 제공되지 않아 서비스의 관련성을 판별하지 못하며, 심지어 링크가 바르게 연결되지 않았거나, 작동하지 않는 서비스의 분별조차 불가능한 실정이다. 본 논문에서는 이러한 문제점을 해결하고자 서비스 검색과정에서 웹 서비스의 품질을 평가하고 평가된 품질을 기반으로 웹 서비스를 순위화해 사용자에게 제공하는 품질기반 UDDI를 제안한다. 이를 위해 우리는 Gene Ontology를 이용한 연관 키워드 검색방식과 키워드 기반의 서비스 품질 평가 방법을 제안하고, 본 방식의 유용성을 보인다.

  • PDF

Predicting changes of realtime search words using time series analysis and artificial neural networks (시계열분석과 인공신경망을 이용한 실시간검색어 변화 예측)

  • Chong, Min-Yeong
    • Journal of Digital Convergence
    • /
    • v.15 no.12
    • /
    • pp.333-340
    • /
    • 2017
  • Since realtime search words are centered on the fact that the search growth rate of an issue is rapidly increasing in a short period of time, it is not possible to express an issue that maintains interest for a certain period of time. In order to overcome these limitations, this paper evaluates the daily and hourly persistence of the realtime words that belong to the top 10 for a certain period of time and extracts the search word that are constantly interested. Then, we present the method of using the time series analysis and the neural network to know how the interest of the upper search word changes, and show the result of forecasting the near future change through the actual example derived through the method. It can be seen that forecasting through time series analysis by date and artificial neural networks learning by time shows good results.

A Plagiarism Detection System for Newspaper Articles by using Web Search (웹 검색을 활용한 기사 표절 탐지 시스템)

  • Cho, Jung-Hyun;Kim, Yu-Seop
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.420-424
    • /
    • 2008
  • 최근 문서 저작권에 대한 관심과 중요도가 높아지고 있고 문서 표절에 관한 연구도 지속적으로 이루어지고 있다. 최근 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있다. 현재까지의 문서 표절 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수 많은 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 자동으로 탐지해 내는 시스템을 제안한다. 제안하는 시스템은 하나의 원본 기사에서 5개의 문장을 랜덤으로 추출하고 각각의 문장을 검색어(query)로 사용해 연동된 OpenAPI를 사용하여 웹에서 기사를 검색한다. 또한 5번의 검색에서 추출되는 URL의 검색 빈도를 계산하여 해당 기사의 표절 가능성을 사용자가 쉽게 예측 할 수 있도록 하였다.

  • PDF

A Study on Natural Language Keyword Indexing for Web-based Information Retrieval (웹기반 정보검색을 위한 자연어 키워드 색인에 관한 연구)

  • 윤성희
    • Journal of the Korea Computer Industry Society
    • /
    • v.4 no.12
    • /
    • pp.1103-1111
    • /
    • 2003
  • Information retrieval system with indexing system matching single keyword is simple and popular. But with single keyword matching it is very hard to represent the exact meaning of documents and the set of documents from retrieval is very large, therefore it can't satisfy the user of the information retrieval systems. This paper proposes a phrase-based indexing system based on the phrase, the larger syntax unit than a single keyword. Web documents include lots of syntactic errors, the natural language parser with high Quality cannot be expected in Web. Partial trees, even not a full tree, from fully bottom-up parsing is still useful for extracting phrases, and they are much more discriminative than single keyword for index. It helps the information retrieval system enhance the efficiency and reduce the processing overhead.

  • PDF