• 제목/요약/키워드: textual knowledge

검색결과 36건 처리시간 0.022초

An Ontology-based Knowledge Management System - Integrated System of Web Information Extraction and Structuring Knowledge -

  • Mima, Hideki;Matsushima, Katsumori
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2005년도 e-Biz World Conference 2005
    • /
    • pp.55-61
    • /
    • 2005
  • We will introduce a new web-based knowledge management system in progress, in which XML-based web information extraction and our structuring knowledge technologies are combined using ontology-based natural language processing. Our aim is to provide efficient access to heterogeneous information on the web, enabling users to use a wide range of textual and non textual resources, such as newspapers and databases, effortlessly to accelerate knowledge acquisition from such knowledge sources. In order to achieve the efficient knowledge management, we propose at first an XML-based Web information extraction which contains a sophisticated control language to extract data from Web pages. With using standard XML Technologies in the system, our approach can make extracting information easy because of a) detaching rules from processing, b) restricting target for processing, c) Interactive operations for developing extracting rules. Then we propose a structuring knowledge system which includes, 1) automatic term recognition, 2) domain oriented automatic term clustering, 3) similarity-based document retrieval, 4) real-time document clustering, and 5) visualization. The system supports integrating different types of databases (textual and non textual) and retrieving different types of information simultaneously. Through further explanation to the specification and the implementation technique of the system, we will demonstrate how the system can accelerate knowledge acquisition on the Web even for novice users of the field.

  • PDF

Exploring Simultaneous Presentation in Online Restaurant Reviews: An Analysis of Textual and Visual Content

  • Lin Li;Gang Ren;Taeho Hong;Sung-Byung Yang
    • Asia pacific journal of information systems
    • /
    • 제29권2호
    • /
    • pp.181-202
    • /
    • 2019
  • The purpose of this study is to explore the effect of different types of simultaneous presentation (i.e., reviewer information, textual and visual content, and similarity between textual-visual contents) on review usefulness and review enjoyment in online restaurant reviews (ORRs), as they are interrelated yet have rarely been examined together in previous research. By using Latent Dirichlet Allocation (LDA) topic modeling and state-of-the-art machine learning (ML) methodologies, we found that review readability in textual content and salient objects in images in visual content have a significant impact on both review usefulness and review enjoyment. Moreover, similarity between textual-visual contents was found to be a major factor in determining review usefulness but not review enjoyment. As for reviewer information, reputation, expertise, and location of residence, these were found to be significantly related to review enjoyment. This study contributes to the body of knowledge on ORRs and provides valuable implications for general users and managers in the hospitality and tourism industries.

QualityRank : 소셜 네트워크 분석을 통한 Q&A 커뮤니티에서 답변의 신뢰 수준 측정 (QualityRank : Measuring Authority of Answer in Q&A Community using Social Network Analysis)

  • 김덕주;박건우;이상훈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권6호
    • /
    • pp.343-350
    • /
    • 2010
  • 질문(Question)과 답변(Answer)을 하는 커뮤니티 기반의 지식검색서비스에서는 질의를 통해 원하는 답변을 얻을 수 있지만, 수많은 사용자들이 참여함에 따라 방대한 문서 속에서 신뢰성있는 문서를 찾아내는 것은 점점 더 어려워지고 있다. 지식검색서비스에서 기존 연구는 사용자들이 생성한 데이터 즉 추천수, 조회수 등의 비텍스트 정보를 이용하거나 답변의 길이, 자료첨부, 연결어 등의 텍스트 정보 이용하여 문서의 품질을 평가하고, 이를 검색에 반영하여 검색성능을 향상시키는 데 활용했다. 그러나 비텍스트 정보는 질의/응답의 초기에 사용자들에 의해 충분한 정보를 확보할 수 없는 단점이 있으며, 텍스트 정보는 전체의 문서를 답변의 길이, 연결어등과 같은 일부요인으로 판단해야하기 때문에 품질평가의 한계가 있다고 볼 수 있다. 본 논문에서는 이러한 비텍스트 정보와 텍스트 정보의 문제점을 개선하기 위한 QualityRank 알고리즘을 제안한다. QualityRank는 텍스트/비텍스트 정보와 소셜 네트워크 분석 기반의 사용자 중앙성을 고려하여 질문에 적합하고 신뢰성 있는 답변을 랭킹화 한다 실험결과 제안한 알고리즘을 사용했을 경우 텍스트/비텍스트 모델 보다 랭킹성능에 있어 향상된 결과를 얻을 수 있었다.

텍스트 신뢰도 자질 기반 지식 질의응답 문서 품질 평가 모델 (Text-Confidence Feature Based Quality Evaluation Model for Knowledge Q&A Documents)

  • 이정태;송영인;박소영;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권10호
    • /
    • pp.608-615
    • /
    • 2008
  • 불특정 다수 사용자가 정보를 생성하는 지식 질의응답 서비스에서는 문서의 품질이 검색결과 만족도에 중요한 요소 중 하나이다. 지식 질의응답 문서의 품질 평가에 관한 기존 연구는 조회 수와 추천 수 등의 비텍스트 정보를 이용하여 문서의 품질을 평가하고, 이를 검색 모형에 반영하여 검색 성능을 높이는데 집중하였다. 이러한 비텍스트 정보는 그 유용성이 실험을 통해 증명되었다. 그러나 비텍스트 정보를 이용하여 새로 작성된 문서의 품질을 평가할 경우 심각한 자료 부족 문제가 발생할 수 있다는 단점이 있다. 본 논문에서는 이러한 비텍스트 정보의 자료 부족 문제를 완화할 수 있는 새로운 문서 품질 평가자질로서 문서 내용 자체에 대한 신뢰성을 반영하는 신뢰도 자질을 제안한다. 제안하는 자질은 문서의 내용으로부터 직접 추출되며, 따라서 추천 수나 조회 수 등 서비스 사용자의 참여를 간접적으로 필요로 하는 비텍스트 자질보다 자료 부족 문제에 견고하다는 장점이 있다. 또한 제안하는 신뢰도 자질은 문서 품질 평가에 유용하다고 알려진 비텍스트 자질과 유사하거나 향상된 성능을 실제 지식 질의응답 문서를 대상으로 한 실험에서 보였으며, 추후 효과적인 품질 평가 자질로서 지식 질의응답 서비스의 성능향상에 기여를 할 수 있을 것으로 기대된다.

메타버스의 가상환경과 텍스트 강화기법을 활용한 외국어 학습 효과 (The Effectiveness of Foreign Language Learning in Virtual Environments and with Textual Enhancement Techniques in the Metaverse)

  • 강정현;권슬희;정동훈
    • 지식경영연구
    • /
    • 제25권1호
    • /
    • pp.155-172
    • /
    • 2024
  • 이 연구의 목적은 가상환경에서의 다양한 환경 변화를 통한 외국어 학습 효과를 조사하는 것이다. 이를 위해 가상환경 공간을 교실과 식료품점으로 구분한 후, 여기에 각각 세 종류의 자막으로 구성된 텍스트 강화기법을 적용한 몰입형 가상현실 영어학습 콘텐츠를 직접 제작한 후 학습 효과를 비교했다. 실험은 2 × 3 혼합요인설계로 구성됐으며, 가상환경 공간은 실험자 내 요인으로 실험참여자는 학습 공간에 따라 처치 수준이 다른 두 개의 영상에 노출됐고, 텍스트 강화기법은 실험자 간 요인으로 실험참여자는 텍스트 강화기법에 따라 처치 수준이 다른 세 개의 자막 중 무작위로 한 개의 자막에 노출됐다. 가상환경 공간과 텍스트 강화기법에 따른 상호작용 효과 분석 결과, 프레즌스가 통계적으로 유의미한 차이를 보였다. 공간의 주효과를 살펴본 결과, 플로우와 학습 전-후 가상현실 교육 태도에 대해 통계적으로 유의미한 차이가 있었고, 텍스트 강화기법의 주효과를 분석한 결과, 플로우, 가상현실 학습 이용의도, 학습 만족도와 학습 자신감에서 통계적으로 유의미한 차이가 있었다. 결과적으로 가상현실 공간의 제공 환경에 따라 학습자의 교육에 대한 몰입과 태도 차이를 확인할 수 있었고, 자막 제공 방식에 따라 다양한 교육 효과의 차이가 있음을 확인할 수 있었다. 이는 가상환경에서 외국어 교육의 효과를 긍정적으로 확인한 것인데, 학교와 학원 등에서 가상환경을 활용한 영어학습 서비스의 가능성을 제시하고, 다양한 가상환경의 변화에 따라 교육 효과가 달라질 수 있다는 함의를 제공한다.

Natural language processing techniques for bioinformatics

  • Tsujii, Jun-ichi
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.3-3
    • /
    • 2003
  • With biomedical literature expanding so rapidly, there is an urgent need to discover and organize knowledge extracted from texts. Although factual databases contain crucial information the overwhelming amount of new knowledge remains in textual form (e.g. MEDLINE). In addition, new terms are constantly coined as the relationships linking new genes, drugs, proteins etc. As the size of biomedical literature is expanding, more systems are applying a variety of methods to automate the process of knowledge acquisition and management. In my talk, I focus on the project, GENIA, of our group at the University of Tokyo, the objective of which is to construct an information extraction system of protein - protein interaction from abstracts of MEDLINE. The talk includes (1) Techniques we use fDr named entity recognition (1-a) SOHMM (Self-organized HMM) (1-b) Maximum Entropy Model (1-c) Lexicon-based Recognizer (2) Treatment of term variants and acronym finders (3) Event extraction using a full parser (4) Linguistic resources for text mining (GENIA corpus) (4-a) Semantic Tags (4-b) Structural Annotations (4-c) Co-reference tags (4-d) GENIA ontology I will also talk about possible extension of our work that links the findings of molecular biology with clinical findings, and claim that textual based or conceptual based biology would be a viable alternative to system biology that tends to emphasize the role of simulation models in bioinformatics.

  • PDF

리뷰에서의 고객의견의 다층적 지식표현 (Multilayer Knowledge Representation of Customer's Opinion in Reviews)

  • ;원광복;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.652-657
    • /
    • 2018
  • With the rapid development of e-commerce, many customers can now express their opinion on various kinds of product at discussion groups, merchant sites, social networks, etc. Discerning a consensus opinion about a product sold online is difficult due to more and more reviews become available on the internet. Opinion Mining, also known as Sentiment analysis, is the task of automatically detecting and understanding the sentimental expressions about a product from customer textual reviews. Recently, researchers have proposed various approaches for evaluation in sentiment mining by applying several techniques for document, sentence and aspect level. Aspect-based sentiment analysis is getting widely interesting of researchers; however, more complex algorithms are needed to address this issue precisely with larger corpora. This paper introduces an approach of knowledge representation for the task of analyzing product aspect rating. We focus on how to form the nature of sentiment representation from textual opinion by utilizing the representation learning methods which include word embedding and compositional vector models. Our experiment is performed on a dataset of reviews from electronic domain and the obtained result show that the proposed system achieved outstanding methods in previous studies.

  • PDF

도메인 지식 기반 랩퍼 생성의 추출 성능 향상에 관한 연구 (Study on the Improvement of Extraction Performance for Domain Knowledge based Wrapper Generation)

  • 정창후;최윤수;서정현;윤화묵
    • 인터넷정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.67-77
    • /
    • 2006
  • 기존의 도메인 지식 기반의 랩퍼 학습 방법은 도메인에 대한 정보를 바탕으로 해당 정보 소스에 대한 랩퍼를 생성한다. 용용 분야에 맞게 정의된 도메인 지식을 이용함으로써 정보 소스에서 제공하는 다양한 텍스트의 의미와 형태를 이해할 수 있다. 그러나 정보 소스에서 제공되는 모든 텍스트에 의미 인식의 근거가 되는 레이블이 붙어서 제공되는 것이 아니기 때문에 도메인 지식만을 이용해서 랩퍼를 학습하는 방법은 한계에 부딪힐 수밖에 없다. 이러한 문제를 해결하기 위해서 본 논문은 인터넷에 존재하는 다양한 웹 정보 소스에서 효율적이고 정확하게 랩퍼를 생성하는 도메인 지식 기반의 확률적 랩퍼 생성 시스템을 제안한다. 효율적이고 정확한 랩퍼 생성 시스템을 구축하기 위해서 도메인 지식뿐 아니라 상세 정보로 연결되어 있는 하이퍼링크와 엔티티 인식을 위한 확률 모델을 이용한다. 이와 같은 방법을 적용함으로써 사용자의 개입 없이 다양한 정보 소스에 대해서 보다 추출 성능이 좋은 랩퍼를 생성할 수 있다.

  • PDF

Higher Order Knowledge Processing: Pathway Database and Ontologies

  • Fukuda, Ken Ichiro
    • Genomics & Informatics
    • /
    • 제3권2호
    • /
    • pp.47-51
    • /
    • 2005
  • Molecular mechanisms of biological processes are typically represented as 'pathways' that have a graph­analogical network structure. However, due to the diversity of topics that pathways cover, their constituent biological entities are highly diverse and the semantics is embedded implicitly. The kinds of interactions that connect biological entities are likewise diverse. Consequently, how to model or process pathway data is not a trivial issue. In this review article, we give an overview of the challenges in pathway database development by taking the INOH project as an example.

An intelligent system for automatic data extraction in E-Commerce Applications

  • Cardenosa, Jesus;Iraola, Luis;Tovar, Edmundo
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.202-208
    • /
    • 2001
  • One of the most frequent uses of Internet is data gathering. Data can be about many themes but perhaps one of the most demanded fields is the tourist information. Normally, databases that support these systems are maintained manually. However, there is other approach, that is, to extract data automatically, for instance, from textual public information existing in the Web. This approach consists of extracting data from textual sources(public or not) and to serve them totally or partially to the user in the form that he/she wants. The obtained data can maintain automatically databases that support different systems as WAP mobile telephones, or commercial systems accessed by Natural Language Interfaces and others. This process has three main actors. The first is the information itself that is present in a particular context. The second is the information supplier (extracting data from the existing information) and the third is the user or information searcher. This added value chain reuse and give value to existing data even in the case that these data were not tough for the last use by the use of the described technology. The main advantage of this approach is that it makes independent the information source from the information user. This means that the original information belongs to a particular context, not necessarily the context of the user. This paper will describe the application based on this approach developed by the authors in the FLEX EXPRIT IV n$^{\circ}$EP29158 in the Work-package "Knowledge Extraction & Data mining"where the information captured from digital newspapers is extracted and reused in tourist information context.

  • PDF