• 제목/요약/키워드: Text Index

검색결과 268건 처리시간 0.024초

Research of Adaptive Transformation Method Based on Webpage Semantic Features for Small-Screen Terminals

  • Li, Hao;Liu, Qingtang;Hu, Min;Zhu, Xiaoliang
    • ETRI Journal
    • /
    • 제35권5호
    • /
    • pp.900-910
    • /
    • 2013
  • Small-screen mobile terminals have difficulty accessing existing Web resources designed for large-screen devices. This paper presents an adaptive transformation method based on webpage semantic features to solve this problem. According to the text density and link density features of the webpages, the webpages are divided into two types: index and content. Our method uses an index-based webpage transformation algorithm and a content-based webpage transformation algorithm. Experiment results demonstrate that our adaptive transformation method is not dependent on specific software and webpage templates, and it is capable of enhancing Web content adaptation on small-screen terminals.

텍스트 감정분석을 이용한 IT 서비스 품질요소 분석 (Analysis of IT Service Quality Elements Using Text Sentiment Analysis)

  • 김홍삼;김종수
    • 산업경영시스템학회지
    • /
    • 제43권4호
    • /
    • pp.33-40
    • /
    • 2020
  • In order to satisfy customers, it is important to identify the quality elements that affect customers' satisfaction. The Kano model has been widely used in identifying multi-dimensional quality attributes in this purpose. However, the model suffers from various shortcomings and limitations, especially those related to survey practices such as the data amount, reply attitude and cost. In this research, a model based on the text sentiment analysis is proposed, which aims to substitute the survey-based data gathering process of Kano models with sentiment analysis. In this model, from the set of opinion text, quality elements for the research are extracted using the morpheme analysis. The opinions' polarity attributes are evaluated using text sentiment analysis, and those polarity text items are transformed into equivalent Kano survey questions. Replies for the transformed survey questions are generated based on the total score of the original data. Then, the question-reply set is analyzed using both the original Kano evaluation method and the satisfaction index method. The proposed research model has been tested using a large amount of data of public IT service project evaluations. The result shows that it can replace the existing practice and it promises advantages in terms of quality and cost of data gathering. The authors hope that the proposed model of this research may serve as a new quality analysis model for a wide range of areas.

소셜빅데이터를 이용한 온라인 소비자감성지수(e-CCSI) 개발 (Electronic-Composit Consumer Sentiment Index(CCSI) development by Social Bigdata Analysis)

  • 김유신;홍성관;강희주;정승렬
    • 인터넷정보학회논문지
    • /
    • 제18권4호
    • /
    • pp.121-131
    • /
    • 2017
  • 인터넷, 소셜미디어, 모바일 등의 등장이후 소비자들은 개인의 의견을 온라인을 통해 적극적으로 표명하기 시작했고 이의 확산 또한 실시간으로 이루어지고 있다. 인터넷 기반의 다양한 커뮤니케이션 활동들을 통해 생산되는 텍스트는 인터넷을 사용하는 사용자들이 공유하고 공감하는 자원으로서 단순한 소통의 도구를 넘어 분석의 가치가 있는 새로운 정보의 창고가 되고 있다. 세계 각국의 정부와 기업은 인터넷과 소셜미디어를 통해 생산되는 소셜 빅데이터를 활용하여 사회/경제적 문제의 해결과 정부의 정책을 효과적으로 추진하는데 적극 활용하고 있다. 특히 경제와 관련해서는 경기현황에 대한 경제주체들의 움직임을 보다 빠르고 정확하게 분석하고 예측하여 이에 알맞은 정책을 적기에 실시할 수 있도록 다각적인 활동을 펼치고 있다. 본 연구에서는 소셜 미디어에 내재된 소비자의 직적접이고 즉시성 있는 의견을 경제적 측면에서 활용할 수 있는 온라인 소비자감성지수 모형을 제시하고 구현하였다. 이를 위해 한국은행의 소비자동향조사(CSI)와 소비자심리지수(CCSI)를 온라인으로 수행할 수 있는 어휘분류체계(온톨로지)와 감성사전을 구축하고 감성분석을 실시하여 생활형편, 경제상황, 소비와 수입 4가지 영역의 소셜감성지수를 도출하였다. 또한 이들을 결합한 온라인 소비자감성지수(e-CCSI)를 개발하고 소비자심리지수와 비교를 통해 유용성을 확인하였다.

다중 키워드 검색에 적합한 동등조인 연산 결과의 동적 관리 기법 (Dynamic Management of Equi-Join Results for Multi-Keyword Searches)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.229-236
    • /
    • 2010
  • 인터넷이나 기업체 안에서 생성되는 문서의 수가 빠르게 증가하고 있고 이에 따라 효율적인 문서 검색 서비스의 중요성도 함께 커지고 있다. 이런 검색 환경에서 사용자의 검색 질의를 미리 예측할 수 없기 때문에 문서 내의 키워드를 자동 추출하여 색인어로 사용하는 전문검색(full-text search)이 일반적으로 적용된다. 전문검색을 위해 생성된 색인 파일의 크기는 문서 수 증가로 대용량화 되고, 이런 대용량 색인에 대한 다중 키워드 질의 처리에는 과도한 디스크 비용이 초래될 수 있다. 논문에서는 이런 비용 문제를 해결하기 위해 대용량 문서의 전문검색 시스템에서 다중 키워드 질의를 효율적으로 처리할 수 있게 하는 색인 파일 구조 및 관리 기법을 제안한다. 제안된 방법은 다중 키워드 검색에 적합한 것으로 알려진 역파일을 기본 색인 구조로 하며, 질의 처리의 조인 연산과 랭킹 연산에 적합하도록 색인 파일을 계층화한다. 이를 바탕으로 다중 키워드 질의를 구성할 확률이 높은 키워드 쌍에 대한 조인 연산 결과를 주기억장치 공간에 동적으로 저장함으로써 디스크 사용량을 크게 줄일 수 있다. 논문에서는 제안된 기법의 우수성을 보이기 위해 디스크 비용 모델에 기반한 성능 비교도 수행한다.

DNA 스트링에 대하여 써픽스 배열을 구축하는 빠른 알고리즘 (Fast Construction of Suffix Arrays for DNA Strings)

  • 조준하;김남희;권기룡;김동규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권8호
    • /
    • pp.319-326
    • /
    • 2007
  • DNA 스트링과 같은 대용량의 데이타에 대한 빠른 검색을 수행하기 위해서는 전체 텍스트 인덱스 자료구조를 구축하여 검색하는 방법이 효율적이다. 가장 일반적인 인덱스 자료구조는 써픽스 트리와 써픽스 배열이다. 써픽스 배열은 써픽스 트리보다 적은 공간을 사용하기 때문에 DNA 스트링과 같은 대용량의 데이타에 적합한 자료구조이다. 기존의 써픽스 배열 구축 알고리즘들은 정수 문자집합에 적합한 알고리즘들이어서 DNA 스트링에 적합하지 않았다. 본 논문에서는 DNA 스트링의 문자집합이 4로 고정되어 있는 사실을 이용하여 DNA 스트링에 대한 써픽스 배열을 마르게 구축하는 방법을 제안한다. 고정길이 문자집합에 효율적인 Kim et. al.[1]의 알고리즘의 인코딩 과정과 합병 과정 개선으로 전체 구축 시간을 향상시켰다. 실험 결과 1.3배에서 1.6배 정도 구축 속도가 향상되었으며, 기존의 다른 써픽스 배열 구축 알고리즘들과 비교한 결과에서도 대부분 가장 빠르게 써픽스 배열을 구축하였다.

한국 침구외과 지표기술 및 지표문헌 DB 구축을 위한 범위 설정과 모델링 연구 - 침구기법과 외과적 수기법을 중심으로 - (A Study on Modeling Index Literatures and Index Techniques for Establishing DB of Korean Acupuncture, Moxibustion and Surgical Techniques)

  • 차웅석;김민선;김동율;안상우
    • 한국의사학회지
    • /
    • 제28권2호
    • /
    • pp.73-85
    • /
    • 2015
  • This paper is the result of a research conducted for "Knowledge Resource Development by Excavation and preservation and DB Establishment of Traditional Home Remedy", a part of Korean Medicine knowledge infrastructure establishment and Korean Medicine therapy development project executed by Korea Institute of Oriental Medicine. This paper is a part of the plans to standardize Korean acupuncture and moxibustion and surgical techniques in order to make new techniques derived from Korean traditional medicine patentable, as presented in the Nagoya Protocol. By first reviewing traditional text sources and classifying them into index literature and index techniques, we can see a mutual relationship between these two categories. Based on current research papers, this study has established a total of 121 pieces of index literature as well as extracted 64 types of index techniques in acupuncture and surgery technique. Both index literature and index technique have been concurrently visualized in this paper in the "Korean Acupuncture & Moxibustion Technique and Surgical Manipulation Base Map".

EDGE: An Enticing Deceptive-content GEnerator as Defensive Deception

  • Li, Huanruo;Guo, Yunfei;Huo, Shumin;Ding, Yuehang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권5호
    • /
    • pp.1891-1908
    • /
    • 2021
  • Cyber deception defense mitigates Advanced Persistent Threats (APTs) with deploying deceptive entities, such as the Honeyfile. The Honeyfile distracts attackers from valuable digital documents and attracts unauthorized access by deliberately exposing fake content. The effectiveness of distraction and trap lies in the enticement of fake content. However, existing studies on the Honeyfile focus less on this perspective. In this work, we seek to improve the enticement of fake text content through enhancing its readability, indistinguishability, and believability. Hence, an enticing deceptive-content generator, EDGE, is presented. The EDGE is constructed with three steps: extracting key concepts with a semantics-aware K-means clustering algorithm, searching for candidate deceptive concepts within the Word2Vec model, and generating deceptive text content under the Integrated Readability Index (IR). Furthermore, the readability and believability performance analyses are undertaken. The experimental results show that EDGE generates indistinguishable deceptive text content without decreasing readability. In all, EDGE proves effective to generate enticing deceptive text content as deception defense against APTs.

문헌간 유사도를 이용한 SVM 분류기의 문헌분류성능 향상에 관한 연구 (Improving the Performance of SVM Text Categorization with Inter-document Similarities)

  • 이재윤
    • 정보관리학회지
    • /
    • 제22권3호
    • /
    • pp.261-287
    • /
    • 2005
  • 이 논문의 목적은 SVM(지지벡터기계) 분류기의 성능을 문헌간 유사도를 이용해서 향상시키는 것이다. SVM은 효과적인 기계학습 시스템으로서 최고 수준의 문헌자동분류 기술로 인정받고 있다. 이 연구에서는 문헌 벡터 자질 표현에 기반한 SVM 문헌자동분류를 제안하였다. 제안한 방식은 분류 자질로 색인어 대신 문헌 벡터를, 자질 값으로 가중치 대신 벡터유사도를 사용한다. 제안한 방식에 대한 실험 결과, SVM 분류기의 성능을 향상시킬 수 있었다. 실행 효율 향상을 위해서 문헌 벡터 자질 선정 방안과 범주 센트로이드 벡터를 사용하는 방안을 제안하였다. 실험 결과 소규모의 벡터 자질 집합만으로도 색인어 자질을 사용하는 기존 방식보다 나은 성능을 얻을 수 있었다.

기업가 연설문의 주제와 시청자 댓글 간의 관계 분석: 유튜브 콘텐츠를 중심으로 (Entrepreneur Speech and User Comments: Focusing on YouTube Contents)

  • 김성범;이정환
    • 한국콘텐츠학회논문지
    • /
    • 제20권5호
    • /
    • pp.513-524
    • /
    • 2020
  • 최근 유튜브의 성장이 주목받고 있다. 유튜브는 콘텐츠를 소비하는 채널일 뿐만 아니라 소비자의 의사를 표시하는 공간이 되고 있다. 소비자들은 댓글이라는 형식으로 유튜브 안에서 그들의 의견을 표출한다. 이 연구는 유튜브에 업로드되어 시청되는 글로벌 기업가 연설문과 영상을 시청하고 작성한 댓글의 텍스트를 연구대상으로 한다. 텍스트 마이닝 소프트웨어인 Leximancer를 사용하여 각각의 연설문과 댓글을 대상으로 내용 분석(content analysis)을 시행하였다. 각 기업가 연설문의 주제는 대응분석(correspondence analysis)을 사용하여 분석하였고 기업가 개인의 성향과 특성과 관련 있는 주제를 도출하였다. 댓글에서는 각 연설문의 내용과는 관계없이 공통적으로 money, work, need의 주제를 발견하였다. 텍스트의 길이가 다름을 고려하여 추가로 중요도 지표 (Prominence Index) 분석을 실행하였고 연설문 내용과 시청자 댓글의 공통적인 주제를 구성하는 핵심어로 time, future, better, best, change, life, business, need를 도출하였다. 유튜브 연설문의 시청자는 인생과 시간, 미래, 고객의 니즈, 긍정적 변화에 대한 메시지에 대하여 동일한 주제로 반응하는 것으로 나타났다.