• Title/Summary/Keyword: 텍스트 연구

Search Result 3,492, Processing Time 0.032 seconds

Comparative analysis of Biomedical Databases and Text mining Technologies (바이오메디컬 데이터베이스 및 텍스트마이닝 기술의 비교 분석 및 전망)

  • Joh, Taewon;Lee, Kyubum;Kang, Jaewoo
    • Annual Conference of KIPS
    • /
    • 2010.11a
    • /
    • pp.189-192
    • /
    • 2010
  • 분자 생물학을 통한 연구가 심화되면서, 생물학 정보는 기하급수적으로 늘어나고 있다. 그에 따라 바이오메디컬(생물학, 의학) 관련 논문들의 출판 및 등록 건수도 해마다 증가하고 있다. 그러나 바이오메디컬 문서들에서 유용한 정보를 추출하는 기술은 이러한 분야의 전문가 큐레이터(curator)에 의존한 경우가 많아서, 그 작업의 속도와 양적인 면에서 한계를 가지고 있다. 이러한 이유 때문에 바이오메디컬 문서를 기계학습을 통하여 분석하는 기법이 도입되기 시작하였다. 아직까지는 기계학습을 이용하여 구축된 데이터베이스가 소수에 불과하지만, 점차 증가하는 추세에 있다. 이러한 현 추이를 분석하고 향후의 추세를 예측하고자 텍스트마이닝 기술이 생물학과 의학 분야에서 어떻게 사용되며, 그 정보들이 어떻게 관리되는지 연구, 조사 하게 되었다. 현재 바이오메디컬 관련 데이터베이스들이 여러 기관 및 단체에 의해 구축 및 관리되고 있으며, 국가적인 프로젝트로서 이러한 데이터베이스들을 통합하는 과정을 진행하고 있다. 이처럼 국가기관의 주도하에 데이터베이스를 통합하여 관리하고자 하는 노력들이 계속되고 있어, 앞으로는 바이오메디컬 자료들을 검색하기가 보다 용이해질 것으로 생각된다. 텍스트마이닝을 이용하여 바이오메디컬 정보들을 추출하는 기술은 초기에는 공동 발생(co-occurence)과 같이 단순한 통계적 방법을 이용하였지만, 최근에는 다른 문서에서 추출된 정보와 기존의 정보들을 연계하여 새로운 정보를 추출해 내는 기법이 확산되고 있음을 알 수 있었다.

A study of Corpus Annotation for Aspect Based Sentiment Analysis of Korean financial texts (한국어 경제 도메인 텍스트 속성 기반 감성 분석을 위한 말뭉치 주석 요소 연구)

  • Seoyoon Park;Yeonji Jang;Yejee Kang;Hyerin Kang;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.232-237
    • /
    • 2022
  • 본 논문에서는 미세 조정(fine-tuning) 및 비지도 학습 기법을 사용하여 경제 분야 텍스트인 금융 리포트에 대해 속성 기반 감성 분석(aspect-based sentiment analysis) 데이터셋을 반자동적으로 구축할 수 있는 방법론에 대한 연구를 수행하였다. 구축 시에는 속성기반 감성분석 주석 요소 중 극성, 속성 카테고리 정보를 부착하였으며, 미세조정과 비지도 학습 기법인 BERTopic을 통해 주석 요소를 자동적으로 부착하는 한편 이를 수동으로 검수하여 데이터셋의 완성도를 높이고자 하였다. 데이터셋에 대한 실험 결과, 극성 반자동 주석의 경우 기존에 구축된 데이터셋과 비슷한 수준의 성능을 보였다. 한편 정성적 분석을 통해 자동 구축을 동일하게 수행하였더라도 기술의 원리와 발달 정도에 따라 결과가 상이하게 달라짐을 관찰함으로써 경제 도메인의 ABSA 데이터셋 구축에 여전히 발전 여지가 있음을 확인할 수 있었다.

  • PDF

A Study on the Consumer Boycott Participation Experience: Using Text Mining Analysis and In-depth Interview (소비자불매운동 참여 경험에 관한 연구: 텍스트마이닝 분석과 심층면접기법의 활용)

  • Han, Juno;Li, Xu;Hwang, Hyesun
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.2
    • /
    • pp.88-106
    • /
    • 2022
  • This study examined the social discourse on consumer boycott and explored consumer experience using text mining of mass media and social media data and the in-depth interview. The result showed that the topics of online news related to the boycott included the causes of the boycott, the responses of each actor in the process of the boycott, and the effects of the boycott. In the result of the in-depth interviews, it was found that the boycott has been decentralized and the participants had the experience of exploring and verifying information on their own. In the boycott process, there were mixed experiences due to the absence of substitutes and the marketing influence, and positive experiences of expressing one's thoughts and strengthening beliefs through the boycott.

Real-time Text Analysis with Dialogue State Tracking and Summarizing to Assist Emergency Call Reporting (긴급 신고 접수 지원을 위한 대화 상태 추적 및 요약 기반 실시간 텍스트 분석)

  • Oh, Kyo-Joong;Kim, Jinwon;Kim, Ilhoon;Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.16-21
    • /
    • 2021
  • 소방 본부의 119 종합상황실에서는 24시간 국민의 안전을 위해 긴급 신고를 접수한다. 수보사 분들은 24시간 교대 근무를 하며 신고 전화에 접수 및 응대 뿐만 아니라 출동, 지휘, 관제 업무를 함께 수행한다. 이 논문에서는 이 같은 수보사의 업무 지원을 위해 우리가 구축한 음성 인식과 결합된 실시간 텍스트 분석 시스템에 대해서 소개하고, 출동 지령서 자동 작성을 위한 키워드 검출 및 대화 요약 및 개체명 인식에 기반한 대화 상태 추척 방법에 대해 설명하고자 한다. 대화 요약 기술은 음성 인식 결과를 실시간으로 분석하여 중요한 키워드의 검출 및 지령서 자동 작성을 위한 후처리를 수행하며, 문장 수준에서 개체명 인식 및 관계 분석을 통한 목적 대화의 대화 상태 추적을 수행한다. 이 같은 응용 시스템은 딥러닝 및 기계학습 기반의 자연어 처리 시스템이 실시간으로 텍스트 분석을 수행할 수 있는 기술 수준이 되었음을 보여주며, 긴급한 상황에서 많은 신고 전화를 접수하는 수보사의 업무 효율 증진 뿐만 아니라, 정확하고 신속한 위치 파악으로 신고자를 도와주어 국민안전 증진에 도움을 줄 수 있을 것으로 기대된다.

  • PDF

Development of Semantic-Based XML Mining for Intelligent Knowledge Services (지능형 지식서비스를 위한 의미기반 XML 마이닝 시스템 연구)

  • Paik, Juryon;Kim, Jinyeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.59-62
    • /
    • 2018
  • XML을 대상으로 하는 연구가 최근 5~6년 사이에 꾸준한 증가를 보이며 이루어지고 있지만 대다수의 연구들은 XML을 구성하고 있는 엘리먼트 자체에 대한 통계적인 모델을 기반으로 이루어졌다. 이는 XML의 고유 속성인 트리 구조에서의 텍스트, 문장, 문장 구성 성분이 가지고 있는 의미(semantics)가 명시적으로 분석, 표현되어 사용되기 보다는 통계적인 방법으로만 데이터의 발생을 계산하여 사용자가 요구한 질의에 대한 결과, 즉 해당하는 정보 및 지식을 제공하는 형식이다. 지능형 지식서비스 제공을 위한 환경에 부합하기 위한 정보 추출은, 텍스트 및 문장의 구성 요소를 분석하여 문서의 내용을 단순한 단어 집합보다는 풍부한 의미를 내포하는 형식으로 표현함으로써 보다 정교한 지식과 정보의 추출이 수행될 수 있도록 하여야 한다. 본 연구는 범람하는 XML 데이터로부터 사용자 요구의 의미까지 파악하여 정확하고 다양한 지식을 추출할 수 있는 방법을 연구하고자 한다. 레코드 구조가 아닌 트리 구조 데이터로부터 의미 추출이 가능한 효율적인 마이닝 기법을 진일보시킴으로써 다양한 사용자 중심의 서비스 제공을 최종 목적으로 한다.

  • PDF

Keyword Extraction Technique for Attractions using Online Reviews - Topic Modeling and Markov Chain (온라인 리뷰를 활용한 관광지 키워드 추출 기법 - 토픽 모델링과 Markov Chain)

  • Kim, MyeongSeon;Lee, KangWoo;Lim, JiWon;Hong, Soon-Goo
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.521-523
    • /
    • 2021
  • 관광 분야에서 온라인 리뷰의 중요성이 커지고 있다. 온라인 리뷰의 텍스트 데이터는 파악이 어렵다. 이에 본 연구에서는 특정 관광지에 대한 온라인 리뷰 텍스트 데이터가 나타내는 전반적인 의견을 직관적으로 도출하는 방법에 대해 알아보고자, 토픽 모델링과 Markov Chain을 시행했다. '해운대'에 대한 온라인 리뷰를 수집한 후, LDA와 BTM을 활용하여 주제를 도출하고, Markov Chain을 시각화하여 키워드 간의 관계와 전체적인 평가 내용을 확인했다. 사용된 기법은 각자 특징적인 결과를 제시했기 때문에 다양한 기법을 상보적으로 이용하기를 제안하였다.

The Forming Mechanism of Brain Text and Brain Concept in the Theory of Ethical Literary Criticism (뇌텍스트(Brain Text) 및 뇌개념(Brain Concept)의 형성원리와 문학윤리학비평)

  • Nie, Zhenzhao;Yoon, Seokmin
    • Journal of Popular Narrative
    • /
    • v.25 no.1
    • /
    • pp.193-215
    • /
    • 2019
  • According to ethical literary criticism, every type of literature has its text. The original definition of oral literature refers to the literature disseminated orally. Before the dissemination, the text of oral literature is stored in the human brain, which is termed as "brain text". Brain text is the textual form used before the formation of writing symbols and its application to a recording of information, and it still exists after the creation of writing symbols. Other types of texts are written text and electronic text. Brain text consists of brain concepts, which, according to different sources, can be divided into objective concepts and abstractive concepts. Brain concepts are tools for thinking while thought comes from thinking with understanding and an application of brain concepts. Brain text is the carrier of thought. The termination of the synthesis of brain concepts signifies the completion of thinking, which produces thoughts to form brain text. Brain text determines thinking and behavioral patterns that not only communicate and spread information, but also decide our ideas, thoughts, judgments, choices, actions and emotions. Brain text is also a deciding factor for our lifestyle and moral behaviors. The nature of a person's brain text determines his thoughts and actions, and most importantly determines who he is.

A Text Mining Analysis for Research Trend about Information and Communication Technology in Construction Automation (텍스트마이닝 기법을 활용한 정보통신기술 기반 건설자동화 연구동향 분석)

  • Lim, Si Yeong;Kim, Seok
    • Korean Journal of Construction Engineering and Management
    • /
    • v.17 no.6
    • /
    • pp.13-23
    • /
    • 2016
  • Construction automation based on information and communication technology(ICT) has been studied for improving productivity in the construction industry. This study investigates domestic research trends in ICT-based construction automation using text mining techniques. The results show that 'Technology to collect and analyze project progress(26%)' and 'Technology to analyze and apply the automation element of construction machinery(28%)' are the major research area. The word of 'construction information' is showed as important keywords in the area of 'Technology to collect and analyze project progress', and researches focusing on resource management, site management, information management, and real-time information monitoring have been mainly conducted. The word of 'ubiquitous' is shown as important keywords in the area of 'Technology to analyze and apply the automation element of construction machinery', and researches focusing on ubiquitous information management, ubiquitous site management, and measurement system have been mainly conducted.

Component Analysis for Constructing an Emotion Ontology (감정 온톨로지의 구축을 위한 구성요소 분석)

  • Yoon, Ae-Sun;Kwon, Hyuk-Chul
    • Korean Journal of Cognitive Science
    • /
    • v.21 no.1
    • /
    • pp.157-175
    • /
    • 2010
  • Understanding dialogue participant's emotion is important as well as decoding the explicit message in human communication. It is well known that non-verbal elements are more suitable for conveying speaker's emotions than verbal elements. Written texts, however, contain a variety of linguistic units that express emotions. This study aims at analyzing components for constructing an emotion ontology, that provides us with numerous applications in Human Language Technology. A majority of the previous work in text-based emotion processing focused on the classification of emotions, the construction of a dictionary describing emotion, and the retrieval of those lexica in texts through keyword spotting and/or syntactic parsing techniques. The retrieved or computed emotions based on that process did not show good results in terms of accuracy. Thus, more sophisticate components analysis is proposed and the linguistic factors are introduced in this study. (1) 5 linguistic types of emotion expressions are differentiated in terms of target (verbal/non-verbal) and the method (expressive/descriptive/iconic). The correlations among them as well as their correlation with the non-verbal expressive type are also determined. This characteristic is expected to guarantees more adaptability to our ontology in multi-modal environments. (2) As emotion-related components, this study proposes 24 emotion types, the 5-scale intensity (-2~+2), and the 3-scale polarity (positive/negative/neutral) which can describe a variety of emotions in more detail and in standardized way. (3) We introduce verbal expression-related components, such as 'experiencer', 'description target', 'description method' and 'linguistic features', which can classify and tag appropriately verbal expressions of emotions. (4) Adopting the linguistic tag sets proposed by ISO and TEI and providing the mapping table between our classification of emotions and Plutchik's, our ontology can be easily employed for multilingual processing.

  • PDF

Book Genre Visualization based on Genre Identification Algorithm (장르 판별 알고리즘을 이용한 책 장르 시각화)

  • Kim, Hyo-Young;Park, Jin-Wan
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.5
    • /
    • pp.52-61
    • /
    • 2012
  • Text visualization is one of sectors in data visualization. This study is on methods to visually represent text's contents, structure, and form aspects based on various analytic techniques about wide range of text data. In this study -as a text visualization study-, 1) a method to find out the characteristics of a book's genre using words in the text of the book was looked into, 2) elements of visualization of a book's genre based on verification through an experiment were drew, and 3) the ways to intuitionally and efficiently visualize this were explained. According to visualization suggested by this study, first, actual genre of a book can be understood based on words used in the book. Second, with which genre is closed to the book can be found out with one glance through images of visualization. Moreover, the characteristics of complicated genres included in a book can be understood. Furthermore, the level of closeness (similarity) of a genre -which is found to be a representative genre using the number of dots, curvature of a curve, and brightness in the image- can be assumed. Finally, the outcome of this study can be used for a variety of fields including book customizing service such as a book recommendation system that provides images of personal preference books or genres through application of books favored by individual customers.