• 제목/요약/키워드: Extracting Keyword

검색결과 77건 처리시간 0.028초

퍼지 추론을 이용한 소수 문서의 대표 키워드 추출 (Representative Keyword Extraction from Few Documents through Fuzzy Inference)

  • 노순억;김병만;허남철
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 추계학술대회 학술발표 논문집
    • /
    • pp.117-120
    • /
    • 2001
  • In this work, we propose a new method of extracting and weighting representative keywords(RKs) from a few documents that might interest a user. In order to extract RKs, we first extract candidate terms and then choose a number of terms called initial representative keywords (IRKS) from them through fuzzy inference. Then, by expanding and reweighting IRKS using term co-occurrence similarity, the final RKs are obtained. Performance of our approach is heavily influenced by effectiveness of selection method of IRKS so that we choose fuzzy inference because it is more effective in handling the uncertainty inherent in selecting representative keywords of documents. The problem addressed in this paper can be viewed as the one of calculating center of document vectors. So, to show the usefulness of our approach, we compare with two famous methods - Rocchio and Widrow-Hoff - on a number of documents collections. The results show that our approach outperforms the other approaches.

  • PDF

프라이버시를 제공하는 저작권 보호 프로토콜 (Copyright Protection Protocol providing Privacy)

  • 유혜정
    • 디지털산업정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.57-66
    • /
    • 2008
  • There have been proposed various copyright protection protocols in network-based digital multimedia distribution framework. However, most of conventional copyright protection protocols are focused on the stability of copyright information embedding/extracting and the access control to data suitable for user's authority but overlooked the privacy of copyright owner and user in authentication process of copyright and access information. In this paper, we propose a solution that builds a privacy-preserving proof of copyright ownership of digital contents in conjunction with keyword search scheme. The appeal of our proposal is three-fold: (1) content providers maintain stable copyright ownership in the distribution of digital contents; (2) the proof process of digital contents ownership is very secure in the view of preserving privacy; (3) the proposed protocol is the copyright protection protocol added by indexing process but is balanced privacy and efficiency concerns for its practical use.

헬스케어 서비스 리뷰를 활용한 서비스 품질 차원 별 중요 단어 파악 방안 (Keyword identifications on dimensions for service quality of Healthcare providers)

  • 이홍주
    • 지식경영연구
    • /
    • 제19권4호
    • /
    • pp.171-185
    • /
    • 2018
  • Studies on online review have carried out analysis of the rating and topic as a whole. However, it is necessary to analyze opinions on various dimensions of service quality. This study classifies reviews of healthcare services into service quality dimensions, and proposes a method to identify words that are mainly referred to in each dimension. Service quality was based on the dimensions provided by SERVQUAL, and patient reviews have collected from NHSChoice. The 2,000 sentences sampled were classified into service quality dimension of SERVQUAL and a method of extracting important keywords from sentences by service quality dimension was suggested. The RAKE algorithm is used to extract key words from a single document and an index is considered to consider frequently used words in various documents. Since we need to identify key words in various reviews, we have considered frequency and discrimination (IDF) at the same time, rather than identifying key words based only on the RAKE score. In SERVQUAL dimension, we identified the words that patients mentioned mainly, and also identified the words that patients mainly refer to by review rating.

색상 기반 회화 감성 추출 방법에 관한 연구 (A Study on Method for Extracting Emotion from Painting Based on Color)

  • 심현오;박성주;윤경현
    • 한국멀티미디어학회논문지
    • /
    • 제19권4호
    • /
    • pp.717-724
    • /
    • 2016
  • Paintings can evoke emotions in viewers. In this paper, we propose a method for extracting emotion from paintings by using the colors that comprise the paintings. For this, we generate color spectrum from input painting and compare the color spectrum and color combination for finding most similarity color combination. The found color combinations are mapped with emotional keywords. Thus, we extract emotional keyword as the emotion evoked by the painting. Also, we vary the form of algorithms for matching color spectrum and color combinations and extract and compare results by using each algorithm.

온톨로지 학습을 이용한 쿨벤더의 미래유망기술 키워드 추출 (Extracting keyword of emerging technology using ontology learning in cool vendor)

  • 이태균;신건철;김수경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2016년도 춘계 종합학술대회 논문집
    • /
    • pp.75-76
    • /
    • 2016
  • 최근 많은 기업 중에서 가트너는 매년 미래유망기술과 쿨벤더를 발표한다. 우리는 쿨벤더에서 제공하는 여러 정보들을 분석하여 미래유망기술에 대한 키워드를 찾고 이것을 실제 기술명과 연관짓고자 한다. 이 모든 과정의 전체적인 그림이 온톨로지 모델에 담긴다. 이 연구는 향후 어떤 집단의 미래를 이끌어갈 핵심 기술을 찾고자 하는 결정권자들에게 도움이 될 것이다.

  • PDF

딥러닝을 통한 의미·주제 연관성 기반의 소셜 토픽 추출 시스템 개발 (Development of Extracting System for Meaning·Subject Related Social Topic using Deep Learning)

  • 조은숙;민소연;김세훈;김봉길
    • 디지털산업정보학회논문지
    • /
    • 제14권4호
    • /
    • pp.35-45
    • /
    • 2018
  • Users are sharing many of contents such as text, image, video, and so on in SNS. There are various information as like as personal interesting, opinion, and relationship in social media contents. Therefore, many of recommendation systems or search systems are being developed through analysis of social media contents. In order to extract subject-related topics of social context being collected from social media channels in developing those system, it is necessary to develop ontologies for semantic analysis. However, it is difficult to develop formal ontology because social media contents have the characteristics of non-formal data. Therefore, we develop a social topic system based on semantic and subject correlation. First of all, an extracting system of social topic based on semantic relationship analyzes semantic correlation and then extracts topics expressing semantic information of corresponding social context. Because the possibility of developing formal ontology expressing fully semantic information of various areas is limited, we develop a self-extensible architecture of ontology for semantic correlation. And then, a classifier of social contents and feed back classifies equivalent subject's social contents and feedbacks for extracting social topics according semantic correlation. The result of analyzing social contents and feedbacks extracts subject keyword, and index by measuring the degree of association based on social topic's semantic correlation. Deep Learning is applied into the process of indexing for improving accuracy and performance of mapping analysis of subject's extracting and semantic correlation. We expect that proposed system provides customized contents for users as well as optimized searching results because of analyzing semantic and subject correlation.

MeSH 시소러스를 이용한 한영 교차언어 키워드 자동 부여 (Automatic Korean to English Cross Language Keyword Assignment Using MeSH Thesaurus)

  • 이재성;김미숙;오영순;이영성
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.155-162
    • /
    • 2006
  • 의학용 시소러스인 MeSH (Medical Subject Heading)는 영어 의학 논문 색인을 위한 통제어 시소러스로서 오랫동안 사용되고 있다. 본 논문에서는 한국어 MeSH를 이용하여 한국어 의학 논문의 요약문에 자동으로 영문 MeSH 색인어를 부여하는 '교차언어 키워드 부여' 방법을 제안하고 색인 전문가 및 저자의 색인 효율과 비교한다. 이 색인어 부여 과정은 우선 한국어 MeSH 용어를 문장에서 인식하여 추출하고, 이 용어를 다시 영어 MeSH 용어로 바꾼 후, 용어의 중요도를 계산하여 상위의 용어를 색인어로 부여한다. 특히, 한국어 MeSH 용어 추출을 위해 효과적으로 띄어쓰기 변이를 처리할 수 있는 방법을 제안한다 실험 결과, 띄어쓰기 변이를 효과적으로 처리하여 한국어 MeSH의 크기를 약 42% 정도 줄였을 뿐만 아니라, 후보 색인어 추출의 효과도 높였다. 또 이 방법을 이용하여 색인어 자동 부여를 한 후, 색인 전문가 및 저자의 색인 결과를 비교한 결과, 이 자동 색인 방법이 전문가의 색인 능력보다는 부족했지만, 저자의 색인 능력과는 별 차이가 없음을 보였다.

빈칸 되묻기 방식 기반 다중 키워드 처리가 가능한 주문용 챗봇 개발 (Development of ordering chatbot that can process multiple keywords based on recursive slot-filling method)

  • 최현준;배승주;정구민
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권4호
    • /
    • pp.440-448
    • /
    • 2019
  • 이 논문에서는 빈칸 되묻기 방식 기반 다중 키워드 처리가 가능한 주문용 챗봇을 제안한다. 일반적으로 챗봇을 이용한 주문 서비스의 경우에는 개발자가 미리 정의한 순서에 따라서만 주문이 진행된다. 그리고 한번의 답변으로 들어올 수 있는 입력 정보가 정해져 있기 때문에 사용자에 따라 다른 입력을 고려하지 못한다. 이 연구에서는 이러한 문제를 해결하기 위해 빈칸 되묻기 방식을 사용하여 다중 키워드 동시 처리를 하고자 한다. 빈칸 되묻기 방식은 다음과 같이 진행된다. 첫번째, 각 주문 단계에서 입력 받아야 하는 정보를 저장할 수 있는 배열을 미리 만들어 둔다. 그리고 각 주문 단계별로 받을 수 있는 정보들을 키워드로 미리 지정한다. 두번째로, 입력된 문장에서 키워드를 추출하는 작업을 진행한다. 그리고 추출된 키워드들을 해당하는 주문 단계의 배열에 채워 넣는다. 마지막으로, 각 주문 단계의 배열을 체크하면서 비어있는 단계에 대한 질문만 진행하여 부족한 정보들을 전부 채운다. 배열이 모두 채워지면 주문이 완료된다. 제안하는 방식은 한 문장에 주문과 관련된 키워드가 여러 개이더라도 처리가 가능하다. 그리고 한 번에 여러 개의 키워드를 처리할 수 있기 때문에 주문 단계를 생략하여 주문 시간을 줄일 수 있다. 안드로이드 스마트폰을 이용해 챗봇을 구현하고 빈칸 되묻기 방식을 이용해 주문 단계의 동적 처리가 되는지 실험을 통해 확인한다.

대화 말뭉치 구축을 위한 반자동 의미표지 태깅 시스템 (A Semi-Automatic Semantic Mark Tagging System for Building Dialogue Corpus)

  • 박준혁;이성욱;임윤섭;최종석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권5호
    • /
    • pp.213-222
    • /
    • 2019
  • 지능형 음성 대화 인터페이스 구현에 있어 핵심어의 의미표지는 사용자 의도 파악을 위한 중요한 요소이다. 대화시스템은 사용자 발화의 의도를 파악하기 위해 핵심어와 그 의미표지를 이용하여 발화의 의도를 결정한다. 하나의 핵심어는 여러 개의 의미표지를 가질 수 있는 중의성을 지닌다. 이러한 중의성을 지닌 핵심어를 사용자의 의도와 일치하는 의미표지로 결정하는 것은 단어 의미 분별 문제와 유사하다. 우리는 전사된 대화 말뭉치의 약 23%를 수동으로 의미를 부착하여 핵심어에 대한 의미표지 사전, 유의어 사전, 문맥벡터 사전을 먼저 구축한 후, 나머지 77% 대화 말뭉치에 존재하는 핵심어의 의미를 자동으로 부착한다. 중의성을 가진 핵심어는 문맥벡터 사전으로부터 문맥 벡터 유사도를 계산하여 의미를 결정한다. 핵심어가 미등록어인 경우에는 유의어 사전을 이용하여 가장 유사한 핵심어를 찾아 그 핵심어의 의미를 부착한다. 중의성을 가진 고빈도 핵심어 3개와 저빈도 핵심어 3개를 말뭉치에서 선정하여 제안 시스템의 성능을 평가하였다. 실험결과, 수동으로 구축한 말뭉치를 사용하였을 때 약 54.4%의 정확도를 얻었고, 반자동으로 확장한 말뭉치를 사용하였을 때 약 50.0%의 정확도를 얻었다.

자연어 처리 기법을 활용한 산업재해 위험요인 구조화 (Structuring Risk Factors of Industrial Incidents Using Natural Language Process)

  • 강성식;장성록;이종빈;서용윤
    • 한국안전학회지
    • /
    • 제36권1호
    • /
    • pp.56-63
    • /
    • 2021
  • The narrative texts of industrial accident reports help to identify accident risk factors. They relate the accident triggers to the sequence of events and the outcomes of an accident. Particularly, a set of related keywords in the context of the narrative can represent how the accident proceeded. Previous studies on text analytics for structuring accident reports have been limited to extracting individual keywords without context. We proposed a context-based analysis using a Natural Language Processing (NLP) algorithm to remedy this shortcoming. This study aims to apply Word2Vec of the NLP algorithm to extract adjacent keywords, known as word embedding, conducted by the neural network algorithm based on supervised learning. During processing, Word2Vec is conducted by adjacent keywords in narrative texts as inputs to achieve its supervised learning; keyword weights emerge as the vectors representing the degree of neighboring among keywords. Similar keyword weights mean that the keywords are closely arranged within sentences in the narrative text. Consequently, a set of keywords that have similar weights presents similar accidents. We extracted ten accident processes containing related keywords and used them to understand the risk factors determining how an accident proceeds. This information helps identify how a checklist for an accident report should be structured.