• Title/Summary/Keyword: 웹지식베이스

Search Result 118, Processing Time 0.05 seconds

Analysis of E-biz Site Using Statistics and Data Mining Techniques (통계 및 데이터마이닝 기법을 이용한 웹 사이트 분석)

  • 류창수;서용무
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.369-387
    • /
    • 2001
  • 인터넷 기술의 발달과 인터넷 비즈니스의 발전으로 인해 오늘날 사람들은 더욱 많은 시간을 인터넷 상에서 보내고 있다. 사용자가 기업의 웹 사이트를 방문한 기록은 웹 로그파일이라는 형태로 기업의 서버에 남게 되는데 이러한 로그 파일을 이용해 고객의 행동을 더욱 잘 이해하는 것이 매우 중요한 경쟁력의 요소로 자리 잡게 되었다. 이제까지는 웹 로그를 분석하기 위해 웹 로그 분석 도구를 이용해 왔는데, 경영 의사 결정에 도움이 되는 지식을 발견하기보다는 단순한 기술적인 통계량을 구하는데 그쳤다. 본 연구에서는 통계와 데이터마이닝 기법을 웹 데이터에 적용하여 경영 의사 결정에 도움이 되는 의미 있는 정보를 추출한다. 이를 위해 실제 인터넷 기업의 데이터를 기반으로 하여 대량 데이터를 데이터마이닝을 위해 전처리 하는 과정과 준비된 데이터를 분석하는 과정을 소개한다. 웹 사이트의 분석은 경영 지식을 찾아내기 위한 과정으로 개별 사이트가 처한 상황에 따라 분석과정이 상이해 질 수 있기 때문에 실제 기업의 데이터를 가지고 분석해 나가는 과정을 보이는 것은 의미 있는 연구라 생각된다.

  • PDF

Efficient Ontology Object Model for Semantic Web (시맨틱웹을 위한 효율적인 온톨로지 객체 모델)

  • Yun Bo-Hyun;Seo Chang-Ho
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.2 s.40
    • /
    • pp.7-13
    • /
    • 2006
  • The advent of Semantic Web has generated several methods that can access the data on the web. Thus, it is necessary to handle the data by accessing the current web ontology as well as the existing knowledge base system. Web ontology languages are RDF(Resource Description Framework), DAML-OIL, OWL(Web Ontology Language), and so on. This paper presents the creation and the method of the ontology object model that can access, represent, and process the web ontology and the existing knowledge base. Unlike the existing access approach of web ontology using the model on memory constructed by each parser, we divide the model of web ontology into three layers such as frame-based ontology layer, generic ontology layer, and functional ontology layer. Generic ontology layer represents the common vocabulary among several domains and functional ontology layer contains the dependent vocabulary to each ontology respectively. Our model gets rid of the redundancy of the representation and enhances the reusability. Moreover, it can provide the easy representation of knowledge and the fast access of the model in the application.

  • PDF

MRQUTER : A Parallel Qualitative Temporal Reasoner Using MapReduce Framework (MRQUTER: MapReduce 프레임워크를 이용한 병렬 정성 시간 추론기)

  • Kim, Jonghoon;Kim, Incheol
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.5
    • /
    • pp.231-242
    • /
    • 2016
  • In order to meet rapid changes of Web information, it is necessary to extend the current Web technologies to represent both the valid time and location of each fact and knowledge, and reason their relationships. Until recently, many researches on qualitative temporal reasoning have been conducted in laboratory-scale, dealing with small knowledge bases. However, in this paper, we propose the design and implementation of a parallel qualitative temporal reasoner, MRQUTER, which can make reasoning over Web-scale large knowledge bases. This parallel temporal reasoner was built on a Hadoop cluster system using the MapReduce parallel programming framework. It decomposes the entire qualitative temporal reasoning process into several MapReduce jobs such as the encoding and decoding job, the inverse and equal reasoning job, the transitive reasoning job, the refining job, and applies some optimization techniques into each component reasoning job implemented with a pair of Map and Reduce functions. Through experiments using large benchmarking temporal knowledge bases, MRQUTER shows high reasoning performance and scalability.

Design and Implementation of A Data Mining System for One-to-One Marketing in EC Merchant Systems (전자상거래 머천트 시스템에서의 원투원 마케팅을 위한 데이터마이닝 시스템의 설계 및 구현)

  • 김종달;홍정희;김성민;남도원;이동하;김성훈;이전영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.117-119
    • /
    • 1999
  • 전자상거래에서 판매 실적을 높이기 위한 효과적인 방법의 하나는 사용자에 따라 개별화된 정보의 제공, 즉 원투원 마케팅의 개념을 도입하는 것이다. 이를 위해서는 사용자의 구매 성향이나 사용자의 특성에 대한 지식베이스가 있어야 한다. 이러한 지식베이스로 데이터마이닝 기법중의 하나인 연관규칙을 도입하였다. 본 논문에서는 연관규칙을 기본 연산으로 하는 데이터마이닝 시스템의 설계와 구현을 기술하였다. 사용자와 제품간의 연관규칙을 추출하여 동적으로 제공되는 웹 문서를 생성하는데 필요한 지식베이스를 구축하였다. 또한 구축된 데이터마이닝 시스템은 연관규칙 탐사 엔진과 개념 계층 관리기로 구성되어 있으며, 대용량의 데이터를 다루기 위해 기존의 방법과는 다른 파일을 기반으로 한 빈번항목집합 인덱싱 기법을 제시하였다.

  • PDF

Design and Implementation of RDF Storage and RDQL Query Processor (RDF 문서의 저장소와 RDQL 질의 처리기의 설계 및 구현)

  • Jeong Ho-Young;Kim Jung-Min;Jung Jun-Won;Kim Jong-Nam;Yim Dong-Hyuk;Kim Hyoung-Joo
    • Journal of KIISE:Databases
    • /
    • v.33 no.4
    • /
    • pp.363-371
    • /
    • 2006
  • In spite of computer's development, the present state of a lot of electronic documents overflowed it's going to be more difficult to get appropriate information. Therefore it's more important to get meaningful information than to focus on the speed of processing. Semantic web enables and intelligent processing by adding semantic meta data on your web documents. Also as the semantic web grows, the knowledge resource is more important. In this paper, we propose a RDF storage system using relational database model aimed at intelligent processing by adding semantic meta data on your web documents, also a query processor aimed at query processing through the storage system. By using relational model, we could overcome a weakness of object or memory model.

Linked Data Indexing System for Big Data Processing on the Cloud System (빅데이터 활용을 위한 클라우드 기반의 링크드 데이터 인덱싱 시스템)

  • Lee, Mina;Jung, Jinuk;Kim, Eung-hee;Kim, Hong-gee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1596-1598
    • /
    • 2013
  • 2000년대 초반 등장한 시맨틱 웹 기술은 최근 재조명을 받고 있다. 이는 초기에 구축된 시맨틱 데이터와 최근에 구축하는 시맨틱 데이터의 양적 비교를 통해서도 알 수 있다. 그러나 기존의 시맨틱웹 기술은 대용량 데이터를 처리하는데 어려움이 많아, 이를 처리하기 위한 기술이 중요한 문제로 대두되고 있다. 본 논문에서는 앞에서 말한 바와 같이, 기존 RDF Repository의 대안으로, 다양한 데이터 베이스를 복합적으로 사용하였다. RDF 데이터를 효율적으로 처리하기 위해, NoSQL DB와 메모리 기반 관계형 DB를 활용하여 시스템을 구성하였다. 또한, 사용자가 이에 대한 별도의 지식 없이 기존의 SPARQL 질의를 그대로 사용하여, 원하는 결과를 얻을 수 있는 시스템을 제안한다.

Development of Information Extraction System from Multi Source Unstructured Documents for Knowledge Base Expansion (지식베이스 확장을 위한 멀티소스 비정형 문서에서의 정보 추출 시스템의 개발)

  • Choi, Hyunseung;Kim, Mintae;Kim, Wooju;Shin, Dongwook;Lee, Yong Hun
    • Journal of Intelligence and Information Systems
    • /
    • v.24 no.4
    • /
    • pp.111-136
    • /
    • 2018
  • In this paper, we propose a methodology to extract answer information about queries from various types of unstructured documents collected from multi-sources existing on web in order to expand knowledge base. The proposed methodology is divided into the following steps. 1) Collect relevant documents from Wikipedia, Naver encyclopedia, and Naver news sources for "subject-predicate" separated queries and classify the proper documents. 2) Determine whether the sentence is suitable for extracting information and derive the confidence. 3) Based on the predicate feature, extract the information in the proper sentence and derive the overall confidence of the information extraction result. In order to evaluate the performance of the information extraction system, we selected 400 queries from the artificial intelligence speaker of SK-Telecom. Compared with the baseline model, it is confirmed that it shows higher performance index than the existing model. The contribution of this study is that we develop a sequence tagging model based on bi-directional LSTM-CRF using the predicate feature of the query, with this we developed a robust model that can maintain high recall performance even in various types of unstructured documents collected from multiple sources. The problem of information extraction for knowledge base extension should take into account heterogeneous characteristics of source-specific document types. The proposed methodology proved to extract information effectively from various types of unstructured documents compared to the baseline model. There is a limitation in previous research that the performance is poor when extracting information about the document type that is different from the training data. In addition, this study can prevent unnecessary information extraction attempts from the documents that do not include the answer information through the process for predicting the suitability of information extraction of documents and sentences before the information extraction step. It is meaningful that we provided a method that precision performance can be maintained even in actual web environment. The information extraction problem for the knowledge base expansion has the characteristic that it can not guarantee whether the document includes the correct answer because it is aimed at the unstructured document existing in the real web. When the question answering is performed on a real web, previous machine reading comprehension studies has a limitation that it shows a low level of precision because it frequently attempts to extract an answer even in a document in which there is no correct answer. The policy that predicts the suitability of document and sentence information extraction is meaningful in that it contributes to maintaining the performance of information extraction even in real web environment. The limitations of this study and future research directions are as follows. First, it is a problem related to data preprocessing. In this study, the unit of knowledge extraction is classified through the morphological analysis based on the open source Konlpy python package, and the information extraction result can be improperly performed because morphological analysis is not performed properly. To enhance the performance of information extraction results, it is necessary to develop an advanced morpheme analyzer. Second, it is a problem of entity ambiguity. The information extraction system of this study can not distinguish the same name that has different intention. If several people with the same name appear in the news, the system may not extract information about the intended query. In future research, it is necessary to take measures to identify the person with the same name. Third, it is a problem of evaluation query data. In this study, we selected 400 of user queries collected from SK Telecom 's interactive artificial intelligent speaker to evaluate the performance of the information extraction system. n this study, we developed evaluation data set using 800 documents (400 questions * 7 articles per question (1 Wikipedia, 3 Naver encyclopedia, 3 Naver news) by judging whether a correct answer is included or not. To ensure the external validity of the study, it is desirable to use more queries to determine the performance of the system. This is a costly activity that must be done manually. Future research needs to evaluate the system for more queries. It is also necessary to develop a Korean benchmark data set of information extraction system for queries from multi-source web documents to build an environment that can evaluate the results more objectively.

The Active Server Environment for ASP System develop (ASP System구축을 위한 액티브 서버 환경연구)

  • 최정호;최성
    • Proceedings of the KAIS Fall Conference
    • /
    • 2000.10a
    • /
    • pp.319-323
    • /
    • 2000
  • ASP는 HTML태그와 같이 사용되므로 HTML에 대해서 자세해 알고 있어야 이 부분을 공부하는 데 별 무리가 없을 것이다. 프로그래밍에 대해서 어느 정도 기초적인 지식이 있다고 가정하겠으며 파일 입/출력이나 데이터 베이스의 표준 언어인 SQL 정도는 어느 정도 지식이 필요하다. 또한 HTML 파일 작성에 필요한 자바 스크립트나 비주얼 베이직 스크립트는 물론이고 그 외 HTML 파일의 내용을 요구에 맞게 배치하게 위해 사용하는 CSS1의 기본적인 내용 정도는 알고 있어야 한다고 본다. 뿐만 아니라 CGI 프로그래밍과 웹 서버와 클라이언트의 상호 작용 관계, 그리고 웹 서버 관리하는 방법 등의 내용을 완벽하게 갖추고 있다고는 생각하지는 않는다. 하지만 앞으로 진행해 나가면서 직접 설명을 하지는 않겠지만 이와 같은 기술들이 모두 사용이 될 것이고, ASP는 다른 웹 애플리케이션 언어보다 쉽고, 웹에서의 많은 응용과, 무한한 가능성을 내포하고 있다는 것을 말하고 싶다. 그러므로 ASP에 접근하는 방법에 있어서 운영하는 방법을 연구하였다.

Memorization by Oblivion (망각에 의한 기억)

  • 이중우;손세호;권순학
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2001.12a
    • /
    • pp.208-212
    • /
    • 2001
  • This paper is for the optimized management of the knowledge abstracted from the World-Wide Web(WWW) in which we assume the infinite knowledge-base. Though we can abstract various useful knowledge such as the facts and the rules from the WWW pages, they may include many noisy knowledge. Therefore we have to reasonably reject them from the knowledge-base which is composed of knowledge abstracted from the WWW. To do this, we propose the oblivious memorization concept. This concept is characterized by the memorization based on the oblivion mechanism of human being. We assume the memorization is the function of the concern for any knowledge, oblivion ability and time. That is, the more concern for my knowledge the ore memorizable. And, the more oblivious and the more tine spent the less memorizable by exponentially. Where, tie assume the oblivion is the function of the degree of previous memorization, memorization ability md the number of knowledge stimulation. That is, the more previously memorized, the greater memorizing ability and the more frequently stimulated by any knowledge the less knowledge oblivious.

  • PDF

A Document Collection Method for More Accurate Search Engine (정확도 높은 검색 엔진을 위한 문서 수집 방법)

  • 하은용;최선완
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.471-473
    • /
    • 1999
  • 인터넷상의 정보 검색 엔진들은 웹 로봇을 실행해서 인터넷에 연결되어 있는 수많은 웹 서버들을 방문해서 웹 문서를 획득하고, 인덱싱 기법을 써서 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축한다. 정보 추출을 위해 웹 로봇을 운영할 때 웹 서버에 대한 사전 지식 없이 진행된다면 수많은 불필요한 요구가 전송돼서 인터넷 트래픽을 증가시키는 요인이 된다. 하지만 웹 서버가 사전에 자신이 공개할 문서에 대한 요약 정보를 웹 로봇에게 통보하고, 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 처리한다면 불필요한 인터넷 트래픽을 줄일 수 있을 뿐만 아니라 검색 엔진의 정보의 정확도를 높이고, 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동된 사항들을 종합 정리해서 등록된 각 웹 로봇에게 전송하는 문서 감시 통보 시스템과 통보된 요약 정보를 토대로 웹 서버로부터 해당 문서를 전송받아 필요한 인덱스 정보를 추출하는 효율적인 웹 로봇을 제안한다.

  • PDF