• Title/Summary/Keyword: Text Similarity

검색결과 280건 처리시간 0.031초

교수-학습지원시스템에서 학습자 질의응답 자동분류를 위한 토픽 모델링 (Topic modeling for automatic classification of learner question and answer in teaching-learning support system)

  • 김경록;송혜진;문남미
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권2호
    • /
    • pp.339-346
    • /
    • 2017
  • 기사와 댓글, 질의응답과 같은 비정형 데이터에 기반한 텍스트 분석에 대한 관심이 증가하고 있다. 이는 사람들의 견해인 비정형 텍스트 데이터로부터 특징을 파악하고, 평가, 예측 및 추천에 활용할 수 있기 때문이다. TEL 분야에서도 MOOC 서비스의 확대로 교수학습지원시스템 기반 토론, 질의응답 서비스를 자동화하기 위한 관심이 증가하고 있다. 시스템에 축적된 질의응답 데이터를 기반으로 질의 토픽을 생성하고, 새로운 질의에 대해 토픽을 자동분류하기 위해서이다. 따라서 본 연구에서는 새로운 질의 토픽을 자동분류 할 수 있도록 LDA기법을 활용한 토픽 모델링을 제안하고자 한다. 이를 바탕으로 질의 토픽 사전을 생성하고 새로운 질의에 대해 토픽을 자동분류 할 수 있다. 일부 질의에서는 0.7 이상의 높은 자동 분류를 보였으며, 새로운 질의가 여러 토픽에 포함될수록 좀 더 좋은 자동분류 결과를 보였다.

이미지와 텍스트 정보의 카테고리 분류에 의한 SNS 팔로잉 추천 방법 (Recommendation Method of SNS Following to Category Classification of Image and Text Information)

  • 홍택은;신주현
    • 스마트미디어저널
    • /
    • 제5권3호
    • /
    • pp.54-61
    • /
    • 2016
  • 다양한 스마트 디바이스의 발전에 따라 거리, 공간의 제약 없이 실시간으로 의사소통, 정보공유 등이 가능한 SNS(Social Network Service)를 즐기는 사용자(User)가 증가하고 있다. 의사소통, 관계 형성에 중점을 두었던 SNS 사용자들이 정보공유의 기능으로 SNS를 활용하는 추세이다. 본 논문에서는 사용자의 SNS 게시글을 이용하여 카테고리를 추출하고 정보제공자(Information provider)를 팔로잉 추천해주는 방법을 기술한다. 게시글의 텍스트에서 단어를 분류하고 빈도수를 측정하며, 머신 러닝 기법 중 하나인 CNN(Convolutional Neural Network)을 바탕으로 구축한 Inception-v3 모델을 이용하여 이미지를 단어로 분류한다. 텍스트와 이미지에서 분류한 단어를 DMOZ 기준으로 카테고리 분류하여 정보제공자 DB를 구축한다. 정보제공자 DB의 카테고리와 게시글에서 분류한 사용자의 카테고리를 비교한다. 카테고리가 일치할 경우 카테고리에 분류되어 있는 정보 제공자들를 대상으로 유사도를 측정하여 가장 비슷한 정보제공자의 계정을 추천해주는 방법에 대해 제안한다.

유사성 구성과 어포던스(affordance)에 대한 사례 연구 -대수 문장제 해결 과정에서- (The Case Study for The Construction of Similarities and Affordance)

  • 박현정
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제46권4호
    • /
    • pp.371-388
    • /
    • 2007
  • This is a case study trying to understand from the view of affordance which certain three middle school students perceive an activation of previous knowledge in the course of problem solving when they solve algebra word problems with a previous knowledge. The results of this study showed that at first, every subjects perceived the text as affordance which explaining superficial similarities, that is, a working(painting)situation rather than problem structure and then activated the related solution knowledge on the ground of the experience of previous problem solving which is similar to current situation. The subject's applying process for solving knowledge could be arranged largely into two types. The first type is a numeral information connected with the described problem situation or a symbolic representation of mathematical meaning which are the transformed solution applied process with a suitable solution formula to the current problem. This process achieved by constructing a virtual mental model that indicating mathematical situation about the problem when the solver read the problem integrating symbolized information from the described text. The second type is a case that those subjects symbolizing a formal mathematical concept which is not connected with the problem situation about the described numeral information from the applied problem or the text of mathematical meaning, which process is the case to perceive superficial phrases or words that described from the problem as affordance and then applied previously used algorithmatical formula as it was. In conclusion, on the ground of the results of this case study, it is guessed that many students put only algorithmatical knowledge in their memories through previous experiences of problem solving, and the memories are connected with the particular phrases described from the problems. And it is also recognizable when the reflection process which is the last step of problem solving carried out in the process of understanding the problem and making a plan showed the most successful in problem solving.

  • PDF

한글 말뭉치를 이용한 한글 표절 탐색 모델 개발 (Developing of Text Plagiarism Detection Model using Korean Corpus Data)

  • 류창건;김형준;조환규
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권2호
    • /
    • pp.231-235
    • /
    • 2008
  • 최근 들어 각종 창작물에 대한 표절 사건이 빈번하게 발생하고 있다. 특히 문서들 간의 표절은 현재 많은 이슈가 되고 있다. 영어에 관한 표절연구는 서양에서 오래전부터 이뤄져 왔지만 한글은 구조적인 어려움으로 인해 아직 많은 연구가 이뤄지지 않고 있다. 한글은 영어와 구조적인 특징이 많이 다르기 때문에 영어기반의 탐색 기법을 한글 문서에 적용하기는 어렵다. 본 논문에서는 한글의 특성에 맞는 새로운 표절 탐색 기법을 소개하고 한글 말뭉치를 이용하여 그 성능을 실험해본다. 제안된 기법은 "k-mer"와 "지역정렬" 방법을 기반으로, 문서들 간의 표절구간을 매우 빠르고 정확하게 찾아낸다. 또한 우리는 천만어절 이상의 크기를 가진 한글 말뭉치를 이용하여 표절이 일어나지 않은 일반적인 문서에서 우연히 나타나게 될 유사 확률에 관한 모형을 만들었다. 시스템을 이용하여 성능을 측정해 본 결과, 표절 문서를 매우 정확하게 찾는 것을 알 수 있었다.

사례기반추론과 텍스트마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템 연구 (An Intelligence Support System Research on KTX Rolling Stock Failure Using Case-based Reasoning and Text Mining)

  • 이형일;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.47-73
    • /
    • 2020
  • KTX 차량은 수많은 기계, 전기 장치 및 부품들로 구성되어 있는 하나의 시스템으로 차량의 유지보수에는 상당히 많은 전문성과 유지보수 작업자들의 경험을 필요로 한다. 차량 고장발생 시 유지보수자의 지식과 경험에 따라 문제 해결의 시간과 작업의 질적 차이가 발생하며 그에 따른 차량의 가용율이 달라진다. 일반적으로 문제해결은 고장 매뉴얼을 기반으로 하지만 경험이 많고 능숙한 전문가의 경우는 이와 더불어 개인의 노하우를 접목하여 신속하게 진단하고 조치를 취한다. 이러한 지식은 암묵지 형태로 존재하기 때문에 후임자에게 완전히 전수되기 어려우며, 이를 위해 사례기반의 철도차량 전문가시스템을 개발하여 데이터화된 지식으로 바꾸려고 하는 연구들이 있어왔다. 하지만, 간선에 가장 많이 투입되고 있는 KTX 차량에 대한 연구나 텍스트의 특징을 추출하여 유사사례를 검색하는 시스템 개발은 아직 미비하다. 따라서, 본 연구에서는 이러한 차량 유지보수 전문가들의 노하우를 통해 수행된 고장들에 대한 진단과 조치 이력을 문제 해결의 사례로 활용하여 새롭게 발생하는 고장에 대한 조치가이드를 제공하는 지능형 조치지원시스템을 제안하고자 한다. 이를 위하여, 2015년부터 2017년동안 생성된 차량고장 데이터를 수집하여 사례베이스를 구축하였고, 차원축소 기법인 비음수 행렬 인수분해(NMF), 잠재의미분석(LSA), Doc2Vec을 통해 고장의 특징을 추출하여 벡터 간의 코사인 거리를 측정하는 방식으로 유사 사례를 검색하였으며, 위의 알고리즘에 의해 제안된 조치내역들 간 성능을 비교하였다. 분석결과, 고장 내역의 키워드가 적은 경우의 유사 사례 검색과 조치 제안은 코사인 유사도를 직접 적용하는 경우에도 좋은 성능을 낸다는 것을 알 수 있었고 차원 축소 기법들의 성능 비교를 통해 문맥적 의미를 보존하는 차원 축소 방식 중 Doc2Vec을 적용하는 것이 가장 좋은 성능을 나타낸다는 것을 알 수 있었다. 텍스트 마이닝 기술은 여러 분야에서 활용을 위한 연구들이 이루어지고 있는 추세이나, 본 연구에서 활용하고자 하는 분야처럼 전문적인 용어들이 다수이고 데이터에 대한 접근이 제한적인 환경에서 이러한 텍스트 데이터를 활용한 연구는 아직 부족한 실정이다. 본 연구는 이러한 관점에서 키워드 기반의 사례 검색을 보완하고자 텍스트 마이닝 기법을 접목하여 고장의 특징을 추출하는 방식으로 사례를 검색해 조치를 제안하는 지능형 진단시스템을 제시하였다는 데에 의의가 있다. 이를 통해 현장에서 바로 사용 가능한 진단시스템을 단계적으로 개발하는데 기초자료로써 시사점을 제공할 수 있을 것으로 기대한다.

Layout Analysis for Calculation of Web Page Similarity as Image

  • Mitsuhashi, Noriaki;Yamaguchi, Toru;Takama, Yasufumi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.142-145
    • /
    • 2003
  • When we search information on the Web using search engines, they only analyze the text information collected from the source files of Web pages. However, there is a limit to analyze the layout of a Web page only from its source file, although Web page design is the most important factor for a user to estimate a page. In particular it often happens on the Web that the pages of similar design ofter similar information. We propose a method to analyze layout for comparing the design of pages by treating the displayed page as image.

  • PDF

A practical application of cluster analysis using SPSS

  • Kim, Dae-Hak
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권6호
    • /
    • pp.1207-1212
    • /
    • 2009
  • Basic objective in cluster analysis is to discover natural groupings of items or variables. In general, clustering is conducted based on some similarity (or dissimilarity) matrix or the original input text data. Various measures of similarities (or dissimilarities) between objects (or variables) are developed. We introduce a real application problem of clustering procedure in SPSS when the distance matrix of the objects (or variables) is only given as an input data. It will be very helpful for the cluster analysis of huge data set which leads the size of the proximity matrix greater than 1000, particularly. Syntax command for matrix input data in SPSS for clustering is given with numerical examples.

  • PDF

User-Created Content Recommendation Using Tag Information and Content Metadata

  • Rhie, Byung-Woon;Kim, Jong-Woo;Lee, Hong-Joo
    • Management Science and Financial Engineering
    • /
    • 제16권2호
    • /
    • pp.29-38
    • /
    • 2010
  • As the Internet is more embedded in people's lives, Internet users draw on new Internet applications to express themselves through "user-created content (UCC)." In addition, there is a noticeable shift from text-centered contents mainly posted on bulletin boards to multimedia contents such as images and videos on UCC web sites. The changes require different way of recommendations comparing to traditional products or contents recommendation on the Internet. This paper aims to design UCC recommendation methods with user behavior data and contents metadata such as tags and titles, and compare performances of the suggested methods. Real web logs data of a major Korean video UCC site was used to empirical experiments. The results of the experiments show that collaborative filtering technique based on similarity of UCC customers' preferences performs better than other content-based recommendation methods based on tag information and content metadata.

자동 질의수정을 통한 통합의학언어 시스템 검색 (The Method of Searching Unified Medical Language System Using Automatic Modified a Query)

  • 김종광;하원식;이정현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.129-132
    • /
    • 2003
  • The metathesaurus(UMLS, 2003AA edition) supports multi language and includes 875, 233 concepts, 2, 146, 897 concept names. It is impossible for PubMed or NLM serve searching of the metatheaurus to retrieval using a query that is not to be text, a fault sentence structure or a part of concept name. That means the user notice correctly suitable medical words in order to get correct answer, otherwise she or he can't find information that they want to find I propose that the method of searching unified medical language system using automatic modified a query for problem that I mentioned. This method use dictionary that is standard for automation of modified query gauge similarity between query and dictionary using string comparison algorithm. And then, the tested term converse the form of metathesaurus for optimized result. For the evaluation of method, I select some query and I contrast NLM method that renewed Aug. 2003.

  • PDF

온톨로지 학습을 위한 Affinity Propagation 기반의 도메인 컨셉 자동 획득 기법에 관한 연구 (Automatic Acquisition of Domain Concepts for Ontology Learning using Affinity Propagation)

  • 이크발카심;정진우;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.168-171
    • /
    • 2011
  • One important issue in semantic web is identification and selection of domain concepts for domain ontology learning when several hundreds or even thousands of terms are extracted and available from relevant text documents shared among the members of a domain. We present a novel domain concept acquisition and selection approach for ontology learning that uses affinity propagation algorithm, which takes as input semantic and structural similarity between pairs of extracted terms called data points. Real-valued messages are passed between data points (terms) until high quality set of exemplars (concepts) and cluster iteratively emerges. All exemplars will be considered as domain concepts for learning domain ontologies. Our empirical results show that our approach achieves high precision and recall in selection of domain concepts using less number of iterations.