• Title/Summary/Keyword: 내포된 문서

Search Result 55, Processing Time 0.028 seconds

Development of Semantic-Based XML Mining for Intelligent Knowledge Services (지능형 지식서비스를 위한 의미기반 XML 마이닝 시스템 연구)

  • Paik, Juryon;Kim, Jinyeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.59-62
    • /
    • 2018
  • XML을 대상으로 하는 연구가 최근 5~6년 사이에 꾸준한 증가를 보이며 이루어지고 있지만 대다수의 연구들은 XML을 구성하고 있는 엘리먼트 자체에 대한 통계적인 모델을 기반으로 이루어졌다. 이는 XML의 고유 속성인 트리 구조에서의 텍스트, 문장, 문장 구성 성분이 가지고 있는 의미(semantics)가 명시적으로 분석, 표현되어 사용되기 보다는 통계적인 방법으로만 데이터의 발생을 계산하여 사용자가 요구한 질의에 대한 결과, 즉 해당하는 정보 및 지식을 제공하는 형식이다. 지능형 지식서비스 제공을 위한 환경에 부합하기 위한 정보 추출은, 텍스트 및 문장의 구성 요소를 분석하여 문서의 내용을 단순한 단어 집합보다는 풍부한 의미를 내포하는 형식으로 표현함으로써 보다 정교한 지식과 정보의 추출이 수행될 수 있도록 하여야 한다. 본 연구는 범람하는 XML 데이터로부터 사용자 요구의 의미까지 파악하여 정확하고 다양한 지식을 추출할 수 있는 방법을 연구하고자 한다. 레코드 구조가 아닌 트리 구조 데이터로부터 의미 추출이 가능한 효율적인 마이닝 기법을 진일보시킴으로써 다양한 사용자 중심의 서비스 제공을 최종 목적으로 한다.

  • PDF

An Analysi s of Performance Improvement Algorithm for Personalized Recommender System (개인화 추천시스템의 성능 향상 적용 알고리즘 분석)

  • Yun Sujin;Yoon Heebyung
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.04a
    • /
    • pp.181-184
    • /
    • 2005
  • 무수히 많은 정보 중에서 특정 사용자에게 가장 유용할 것으로 판단되는 정보를 추천하여 제공함으로써 특정 사용자의 편의를 돕는 시스템이 추천시스템이다. 이러한 추천시스템에 성공적으로 적용된 알고리즘이 협력적 필터링이며 이것은 다른 사용자로부터 먼저 평가된 웹 문서를 제공받아 이를 축적하고 다시 사용자에게 환원하는 알고리즘이다. 하지만 이 알고리즘은 초기평가, 희소성, 확장성 둥의 문제점을 내포하고 있다. 따라서 본 논문은 이러한 문제점을 해결하고 성능 향상을 하기 위해 적용된 개인화 추천시스템 관련 최신 알고리즘들을 비교하고 분석한 결과를 제시한다. 이를 위해 먼저 최근에 발표된 협력적 필터링과 최근접 이웃 알고리즘, 인공 지능기술을 이용한 알고리즘, 군집화 알고리즘 둥 각각에 대한 기술적 분석 결과를 수행한다. 그런 후 이들 다양한 알고리즘들의 조합을 통한 성능 향상 결과에 대한 비교분석과 각각의 조합에 대한 장단점 분석 결과도 또한 제시한다.

  • PDF

Adaptive Path Index for Efficient U Query Processing (효율적인 XML 질의 처리를 위한 적응형 경로 인덱스)

  • 민준기;심규석;정진완
    • Journal of KIISE:Databases
    • /
    • v.31 no.1
    • /
    • pp.61-71
    • /
    • 2004
  • XML can describe a wide range of data, from regular to irregular and from flat to deeply nested. Thus, XML is rapidly emerging as the do facto standard for the Web document format since XML supports an efficient data exchange and integration. Also, to retrieve the data represented by XML, several XML query languages are proposed. XML query languages such as XPath and XQuery use path expressions to traverse irregularly structured data which comprise B% elements. To evaluate path expressions, various path indexes are proposed. However, traditional path indexes are constructed by utilizing only the XML data structure. Therefore, in this paper, we propose an adaptive path index which utilizes the XML data structure as well as query workloads. To improve the query performance, the adaptive path index proposed by this paper manages the frequently used paths and the structural summary of the XML data using a hash tree and a graph structure. Experimental results show that the adaptive path index improves the query performance typically 2 to 69 times compared with the existing indexes.

Visualization using Emotion Information in Movie Script (영화 스크립트 내 감정 정보를 이용한 시각화)

  • Kim, Jinsu
    • Journal of the Korea Convergence Society
    • /
    • v.9 no.11
    • /
    • pp.69-74
    • /
    • 2018
  • Through the convergence of Internet technology and various information technologies, it is possible to collect and process vast amount of information and to exchange various knowledge according to user's personal preference. Especially, there is a tendency to prefer intimate contents connected with the user's preference through the flow of emotional changes contained in the movie media. Based on the information presented in the script, the user seeks to visualize the flow of the entire emotion, the flow of emotions in a specific scene, or a specific scene in order to understand it more quickly. In this paper, after obtaining the raw data from the movie web page, it transforms it into a standardized scenario format after refining process. After converting the refined data into an XML document to easily obtain various information, various sentences are predicted by inputting each paragraph into the emotion prediction system. We propose a system that can easily understand the change of the emotional state between the characters in the whole or a specific part of the various emotions required by the user by mixing the predicted emotions flow and the amount of information included in the script.

An Efficient CGI Gateway in the UNIX System (유닉스 시스템에서 효율적인 CGI 게이트웨이)

  • 이형봉
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.10 no.1
    • /
    • pp.66-74
    • /
    • 2004
  • To get changing data or retrieved information in a web service environment, we need the CGI method in which we designate an executable file and receive the output of the executable file as a document. But the original CGI method has some performance pitfalls caused by the native condition that a process for the requested executable file should be created every time it is requested. Several approaches that make the process as a daemon wholly or partly have been made to solve those problems and they have exclusive strength and weakness. So, many developers are confused when they have to choose which of the CGI methods. We proposed an efficient CGI gateway design called SendFD that the main part of CGI gateway was separated as a daemon and taken over the communication channel by the other small part forked whenever it was requested. Then we testified the efficiency of SendFD styled CGI gateway in real web service environment and it showed about 3% performance improvement compared to the conventional socket pipe method.

The Korean Part-of-speech Tagging Workbench for Tagged Corpus Construction (품사태그부착 코퍼스 구축을 위한 한국어 품사태깅 워크벤치)

  • Park, Young-C.;Kim, Nam-Il;Huh, Wook;Nam, Ki-Chun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.94-101
    • /
    • 1997
  • 한국어의 언어분석을 위한 가공코퍼스의 하나인 품사부착 코퍼스는 형태소 언어분석의 기초가 되는 자료로서 각종 언어분석 모델의 학습자료와 관측자료 또는 검증자료로서 중요한 역할을 한다. 품사부착 코퍼스의 구축은 많은 노력과 시간이 요구되는 어려운 작업이다. 기존의 구축방법은 자동 태거의 결과를 일일이 사람이 확인해 가면 오류를 발견하고 수정하는 단순 작업이었다. 이러한 단순 작업은 한번 수정된 자동태거의 반복적 오류, 미등록어에 의한 오류 들을 계속적으로 수정해야하는 비효율성을 내포하고 있었다. 본 논문에서는 HMM기반의 자동 태거를 사용하여 1차적으로 한국어 문서를 자동 태깅한다. 자동 태깅 결과로부터 규칙기반의 오류 수정을 추가적으로 행한다. 이렇게 구축된 결과를 사용자에게 제시하여 최종 오류를 수정하고 이를 앞으로의 태깅작업에 반영하는 품사부착 워크벤치에 대해 기술한다.

  • PDF

Automatic Term Recognition using Domain Similarity and Statistical Methods (분야간 유사도와 통계기법을 이용한 전문용어의 자동 추출)

  • Oh, Jong-Hoon;Lee, Kyung-Soon;Choi, Key-Sun
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.4
    • /
    • pp.258-269
    • /
    • 2002
  • There have been many studies of automatic term recognition (ATR) and they have achieved good results. However, there are scopes to improve the performance of extracting terms still further by using the additional technical dictionaries. This paper focuses on the method for extracting terms using the hierarchy among technical dictionaries. Moreover, a statistical method based on frequencies, foreign words, and nested relations assists extracting terms which do not appear in dictionaries. Our method produces relatively good results for this task.

Efficient and Dynamic Authenticated Dictionary Design Using RSA One-way Accumulator (RSA 일방향 어큐뮬레이터를 이용한 효율적이고 동적인 인증 딕셔너리 설계)

  • Kim, Soon-Seok;Lee, Yong-Hee;Lee, Kang-Woo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.12 no.4
    • /
    • pp.651-660
    • /
    • 2008
  • The widespread use of public networks, such as the Internet, for the exchange of sensitive data that need a severe security, like legally valid documents and business transactions. At the same time public-key certificates used for sensitive data interchange form the viewpoint of data integrity and authentication. But there are some weakness of data transfer capacity and security in public key infrastructure(PKI) environment. This paper use the RSA one-way accumulator to realize an efficient and dynamic authenticated dictionary, where untrusted directories provide cryptographically verifiable answers to membership queries on a set maintained by a trusted source.

Contemporary Piracy in Southeast Asia and Somalia An Analysis of Causes, Effects, and Current Counter-Piracy Approaches (동남아시아와 소말리아의 해적 문제에 관한 연구 기원, 영향과 현재의 대해적 대응방안 고찰)

  • Chun, Kwang Ho
    • The Southeast Asian review
    • /
    • v.21 no.2
    • /
    • pp.293-327
    • /
    • 2011
  • 소말리아 해적 문제는 전례가 없는 단계에 다다랐다. 2010년 까지만 해도 445대가 넘는 선박이 해적들로부터 피해를 당했으며 1,181여명의 사람들이 몸값을 위해 인질이 되어야 했다. 그러나 소말리아만이 해적문제가 이슈화 되는 곳은 아니다. 지난 20년간 동남아시아의 해적문제도 큰 이슈가 되어 왔다. 본 논문은 해적 행위의 원인, 영향, 그리고 유형의 분류에 대한 분석을 위해 두 가지의 사례 연구를 통해 이를 살피려 한다. 각각의 해적 관련 사례가 서로 다른 특징들을 가지고 있으나현재 신문이나 인터넷 상의 보도뿐만 아니라 학문, 법률상의, 그리고 공식적 문서들에서 얻어지는 정보들을 이용해 분석한 결과 해적 행위의 원인은 대부분 육지에서 발견된다는 것으로 결론을 낼 수 있다. 본 논문을 통해 제 국가들은 경제, 안보, 지리적인 이유의 이해를 달리 하여 해적 행위를 근절하려 한다는 것을 살펴본다. 또한 현재의 해적 행위에 대한 대응적 접근은 전체론적으로 육지에서의 원인에 근거하여 다루어지는 것이 아니라 바다에서의 해양법 시행에 집중되어 있다. 이는 해적의 소탕을 위한 과정이라기보다는 여전히 문제를 내포하고 있을 수밖에 없다는 점을 지적 하고자 한다.

Measurement of Political Polarization in Korean Language Model by Quantitative Indicator (한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안)

  • Jeongwook Kim;Gyeongmin Kim;Imatitikua Danielle Aiyanyo;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF