• 제목/요약/키워드: Text Visualization

검색결과 214건 처리시간 0.035초

전이 학습 및 SHAP 분석을 활용한 트랜스포머 기반 감정 분류 모델 (A Transformer-Based Emotion Classification Model Using Transfer Learning and SHAP Analysis )

  • 임수빈 ;이병천 ;전인수 ;문지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.706-708
    • /
    • 2023
  • In this study, we embark on a journey to uncover the essence of emotions by exploring the depths of transfer learning on three pre-trained transformer models. Our quest to classify five emotions culminates in discovering the KLUE (Korean Language Understanding Evaluation)-BERT (Bidirectional Encoder Representations from Transformers) model, which is the most exceptional among its peers. Our analysis of F1 scores attests to its superior learning and generalization abilities on the experimental data. To delve deeper into the mystery behind its success, we employ the powerful SHAP (Shapley Additive Explanations) method to unravel the intricacies of the KLUE-BERT model. The findings of our investigation are presented with a mesmerizing text plot visualization, which serves as a window into the model's soul. This approach enables us to grasp the impact of individual tokens on emotion classification and provides irrefutable, visually appealing evidence to support the predictions of the KLUE-BERT model.

Using topic modeling-based network visualization and generative AI in online discussions, how learners' perception of usability affects their reflection on feedback

  • Mingyeong JANG;Hyeonwoo LEE
    • Educational Technology International
    • /
    • 제25권1호
    • /
    • pp.1-25
    • /
    • 2024
  • This study aims to analyze the impact of learners' usability perceptions of topic modeling-based visual feedback and generative AI interpretation on reflection levels in online discussions. To achieve this, we asked 17 students in the Department of Korean language education to conduct an online discussion. Text data generated from online discussions were analyzed using LDA topic modeling to extract five clusters of related words, or topics. These topics were then visualized in a network format, and interpretive feedback was constructed through generative AI. The feedback was presented on a website and rated highly for usability, with learners valuing its information usefulness. Furthermore, an analysis using the non-parametric Mann-Whitney U test based on levels of usability perception revealed that the group with higher perceived usability demonstrated higher levels of reflection. This suggests that well-designed and user-friendly visual feedback can significantly promote deeper reflection and engagement in online discussions. The integration of topic modeling and generative AI can enhance visual feedback in online discussions, reinforcing the efficacy of such feedback in learning. The research highlights the educational significance of these design strategies and clears a path for innovation.

상한론(傷寒論)온톨로지 구축 방법론 연구 (Study on a Methodology for Developing Shanghanlun Ontology)

  • 정태영;김희열;박종현
    • 동의생리병리학회지
    • /
    • 제25권5호
    • /
    • pp.765-772
    • /
    • 2011
  • Knowledge which is represented by formal logic are widely used in many domains such like artificial intelligence, information retrieval, e-commerce and so on. And for medical field, medical documentary records retrieval, information systems in hospitals, medical data sharing, remote treatment and expert systems need knowledge representation technology. To retrieve information intellectually and provide advanced information services, systematically controlled mechanism is needed to represent and share knowledge. Importantly, medical expert's knowledge should be represented in a form that is understandable to computers and also to humans to be applied to the medical information system supporting decision making. And it should have a suitable and efficient structure for its own purposes including reasoning, extendability of knowledge, management of data, accuracy of expressions, diversity, and so on. we call it ontology which can be processed with machines. We can use the ontology to represent traditional medicine knowledge in structured and systematic way with visualization, then also it can also be used education materials. Hence, the authors developed an Shanghanlun ontology by way of showing an example, so that we suggested a methodology for ontology development and also a model to structure the traditional medical knowledge. And this result can be used for student to learn Shanghanlun by graphical representation of it's knowledge. We analyzed the text of Shanghanlun to construct relational database including it's original text, symptoms and herb formulars. And then we classified the terms following some criterion, confirmed the structure of the ontology to describe semantic relations between the terms, especially we developed the ontology considering visual representation. The ontology developed in this study provides database showing fomulas, herbs, symptoms, the name of diseases and the text written in Shanghanlun. It's easy to retrieve contents by their semantic relations so that it is convenient to search knowledge of Shanghanlun and to learn it. It can display the related concepts by searching terms and provides expanded information with a simple click. It has some limitations such as standardization problems, short coverage of pattern(證), and error in chinese characters input. But we believe this research can be used for basic foundation to make traditional medicine more structural and systematic, to develop application softwares, and also to applied it in Shanghanlun educations.

AI 키즈폰의 소비자리뷰 분석을 통한 제품개선 전략에 대한 연구 (Formulating Strategies from Consumer Opinion Analysis on AI Kids Phone using Text Mining)

  • 김도훈;차경진
    • 한국전자거래학회지
    • /
    • 제24권2호
    • /
    • pp.71-89
    • /
    • 2019
  • 기업은 소비자가 만족하는 제품을 개발하고 개선하기 위하여 설문조사와 같은 전통적인 마케팅리서치 방법을 이용하여, 소비자의 의견을 듣고, 분석하여 반영하는 노력을 한다. 최근에는 인터넷 사이트, 사회관계망(SNS) 등 소비자 커뮤니케이션 플랫폼에서 관련 자료를 수집하고 분석하는 방법이 주목을 받고 있다. 한편, 급속한 정보통신기술의 발달과 함께 이동통신사들이 아동을 위한 디지털상품을 출시하고 있는데, 특히 유해한 콘텐츠로부터 아동을 보호하고, 부모와 아동들에게 필요한 정보와 기능은 보완된 디지털 디바이스들이 등장하고 있다. 이 가운데 키즈폰은 불필요한 기능은 없애고 아동들에게 기본 안전 기능을 담은 웨어러블 디바이스로서 부모가 쉽게 자녀의 위치를 실시간으로 알게 해주는 유용한 도구이다. 키즈폰은 스마트폰에 비해 저렴하고 간편하지만 고장이 잦고, 안전 이외에 유용한 기능을 기대하기 힘들며, 부가적인 기능들 또한 유용하지 못하다는 점이 지적되고 있다. 본 연구는 국내 이동통신사의 키즈폰(Kids Phone)에 대한 리뷰를 분석하여, 제품들의 특성과 장단점을 파악하고, 디바이스와 서비스에 대한 개선방안을 제안함으로써, SNS 소비자 분석을 통한 제품 서비스 개선 전략수립 방법을 제시하고자 한다. 이를 위해 국내 쇼핑몰의 리뷰 섹션에서 자료를 수집하고, TF/IDF, 감성분석, 네트워크분석 등의 텍스트 마이닝 기법을 활용하여 소비자 감성분석을 실시하였다. 고객 리뷰는 온라인 쇼핑몰과 네이버 블로그에서 크롤링하여 수집 하였으며, 통계/데이터 마이닝 및 그래픽은 'R'과 빅데이터 분석 솔루션 'Textom', 그리고 오픈소스 프로그래밍 언어인 'Python'을 함께 사용하여 분석하고 시각화하였다. 본 연구를 통해 각 이동통신사의 현재 제품(키즈폰)에 대한 소비자가 느끼는 주요이슈와 제품의 장단점을 파악할 수 있었으며, 더 나아가 감성분석을 바탕으로 키즈폰 제품의 서비스 개선전략 방향을 제안할 수 있었다.

통화정책 결정문에 나타난 한미 통화정책 동조화 현상 분석 (Monetary policy synchronization of Korea and United States reflected in the statements)

  • 장영재
    • 응용통계연구
    • /
    • 제34권1호
    • /
    • pp.115-126
    • /
    • 2021
  • 중앙은행은 통화정책을 운용하면서 통화정책 방향에 관한 보고서를 통해 시장과 소통하고 있다. 최근의 Covid-19 팬데믹은 세계적인 경제의 급격한 위축을 초래하였다. 2008년 글로벌 금융위기 시와 비교해 보더라도 불확실성이 적지 않은 상황이다. 그 파급효과가 전 세계적으로 확산되면서 경기침체의 장기화에 관한 우려도 증폭되고 있다. 본 논문에서는 미 연준과 한국은행의 통화정책을 담고 있는 통화정책방향 결정문과 의결문의 특징을 분석하고 세계적인 위기에 어떠한 영향을 받았는지 살펴보았다. 분석을 위해 1999년 10월부터 2020년 9월까지 공표된 양 국가의 통화정책방향 보고서 텍스트 자료를 수집하였으며 워드 클라우드 및 워드 임베딩 등을 이용하여 의미상 특징을 살펴보았다. 조각별 회귀나무 모형을 통해 양국 문서의 비유사성 추이도 분석해 보았다. 분석 결과 한국은행과 미 연준 모두 시장과의 투명하고 효과적인 소통을 위해 명확한 의미를 지닌 단어로 정제된 문서 자료를 작성하고 있는 것으로 나타났다. 또한, 급격한 글로벌 경제환경의 변화가 통화정책에 영향을 미치면서 문서 간 의미상 동조화가 이루진 것으로 나타났다.

한국 전통춤과 K-pop 댄스의 융합 : 2018 MMA 방탄소년단 'IDOL' 유튜브 댓글 분석 (Convergence of Korean Traditional Dance and K-Pop Dance : An Analysis of Comments on 2018 MMA BTS 'IDOL' Videos on YouTube)

  • 유지영;김미경
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권8호
    • /
    • pp.189-198
    • /
    • 2019
  • 이 연구는 2018년 12월 MMA의 인트로 공연 유튜브 댓글의 텍스트 마이닝을 통해 국내 대중의 반응을 의미화 하는것에 목적이 있다. 이를 위해 지난 10개월간 15개의 유튜브 영상에 달린 댓글을 수집하였다. 데이터의 수집은 Python과 BeautifulSoup프로그램을 통해 총 5,135개의 데이터를 크롤링하였고, 총 3차시에 걸쳐 데이터를 정제한 후 최종 5,080의 데이터를 분석자료로 활용하였다. 데이터 분석에는 텍스트 마이닝 기법이 적용되였고, 정제, 분석, 시각화의 모든 과정은 텍스톰(Textom) 프로그램을 이용하였다. 연구결과 키워드 분석에서는 '무대', '한국', '영상', '최고', '멋', '춤', '아이돌', '레전드', '사랑', '감사'등의 키워드 순으로 나타났고, '국뽕'이나 '올림픽'과 같은 키워드도 빈번하게 나타났다. N-gram 분석에서는 '한국의 아이돌 무대 중 전설로 남을법한 최고의 무대', '한국의 전통문화를 보여준 아이돌의 무대'라는 문맥의 댓글이 상위권에 랭킹되었다. 이와같은 키워드 분석결과를 바탕으로 토픽모델링을 적용하여 총 5개의 토픽에서 상위 5개의 키워드를 추출하였다. 토픽의 내용과 분포도를 분석한 결과 이 공연영상에 대한 댓글의 토픽은 크게 '공연무대에 대한 극찬', '한국전통춤을 융합하여 예술적으로 승화시킨 것에 대한 애정', '멋진 춤 영상을 올려준 것에 대한 감사한 마음'으로 크게 3가지의 반응으로 이루진 것을 확인하였다.

A Research Analysis of QR code based on big data in Korea

  • Lee, Eun-ji;Kim, Soo Kyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권9호
    • /
    • pp.189-200
    • /
    • 2021
  • 최근에 정보기술과 스마트폰 기술이 빠르게 발달되고 있다. 데이터가 증가함에 따라 빅데이터 시대에 도달하였다. 최근 언택트 시대가 도래함에 따라 QR코드는 우리 생활에서 밀접하게 운영되고 있다. 본 연구의 목적은 첫째, "QR Code"에 대한 선행연구를 살펴보고 분야별 키워드에 대한 분석을 실시한다. 둘째, 빅데이터 관점에서 데이터시각화를 위해 "QR Code"의 빈출키워드를 대상으로 워드클라우드 분석과 네트워크 분석을 실시한다. 셋째, "QR Code" 관련하여 향후 연구자들에게 연구방향을 제시하고자 한다. 분석결과 첫째, 연구동향을 살펴본 결과 연구가 증가추세에 있으며, 분야가 다양하게 활용되고 있음을 알 수 있었다. 둘째, 빈출 키워드 분석결과 전반적으로 유사한 결과가 도출되었으며, 분야별, 연도별에 따라 일부 차이가 있는 것으로 분석되었다. 셋째, 빈출 키워드에 따른 시각화 결과 역시 빈출 키워드 분석결과와 동일하게 분석되었다는 것을 알 수 있었다. 이론적 연구결과에 따른 실무적 시사점은 다음과 같다. 첫째, 'QR Code'를 기술적인 측면이 아닌 정보전달의 수단으로 연구될 필요가 있다. 둘째, "QR Code"는 사회 경향이나 이슈들을 반영하여 발전하고 있다는 것을 알 수 있다. 이론적 시사점과 실무적 시사점을 통해 우리는 QR 코드에 대한 방향성을 전략적으로 제공해주고자 한다.

Liaohe National Park based on big data visualization Visitor Perception Study

  • Qi-Wei Jing;Zi-Yang Liu;Cheng-Kang Zheng
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.133-142
    • /
    • 2023
  • 국립공원은 세계 자연 보존 연맹(WWF)이 수립한 보호지역 관리 체계의 중요 유형 중 하나이며, 또한 자연 및 문화 유산의 효과적인 보호와 지속적인 이용을 실현하는 세계 각국의 관리 모델이다. 이러한 공원은 보호, 과학 연구, 교육, 레크리에이션 및 지역 개발을 비롯한 중요한 역할을 담당하다. 대용량 데이터의 배경 아래, 본 연구는 전 세계 연안 습지의 대표적인 대상인 중국 랴오하 국립공원을 사례 지역으로 삼아 파이썬 기술을 사용하여 중국의 주요 관광 OTA 사이트 중 하나인 망픈웨이 (Mafengwo), 셰어이(Gonglve), 큐난우(Chujingyou), 메이툰(Meituan) 및 대중점평넷(Dianping)의 관광객 여행기와 댓글을 데이터 소스로 수집하였다. 텍스트 시간 범위는 2015년부터 2022년까지이며, 총 2,998개의 댓글과 166,588개의 단어를 포함하다. ROST 콘텐츠 마이닝 및 Gephi 소프트웨어를 사용하여 랴오하 국립공원 방문객의 만족도, 인지 과정, 공선 네트워크, 감정 성향 등을 시각적 분석하였다. 결과는 다음과 같다. 야생 동물 및 식물 자원, 강과 바다가 결합 된 자연 경관, 습지 생태는 랴오하 국립공원 방문객의 인식에서 충분히 반영되었다. 방문객은 랴오하 국립공원에 대해 강한 긍정적인 감정을 가지고 있지만, 시설 서비스, 대중교육, 방문객 참여 경험 등에서 여전히 개선할 여지가 있다.

인공위성 RGB 영상 기반 중등학교 교과서 태풍 풍속 산출 및 데이터 시각화 프로그램 개발 (Development of a Program for Calculating Typhoon Wind Speed and Data Visualization Based on Satellite RGB Images for Secondary-School Textbooks)

  • 임채영;박경애
    • 한국지구과학회지
    • /
    • 제45권3호
    • /
    • pp.173-191
    • /
    • 2024
  • 태풍은 지구 시스템 내의 해양-대기-육상 상호작용을 일으키는 매우 중요한 현상으로 특히 태풍의 특성 인자 중 하나인 풍속은 중심 기압, 이동 경로, 해수면 온도 등의 매개변수에 의해 복잡하게 변화하여 실제 관측 자료를 기반으로 이해하는 것이 중요하다. 2015 개정 교육과정 기반 중등학교 교과서에서 태풍 풍속은 본문 내용 및 삽화의 형태로 제시되고 있어 풍속에 대한 심층적 이해가 가능한 탐구활동이 무엇보다 필요한 실정이다. 본 연구에서는 교수-학습 과정에서 간단한 조작만으로도 태풍의 풍속을 이해할 수 있도록 그래픽 사용자 인터페이스(GUI)를 기반으로 한 데이터 시각화 프로그램을 개발하였다. 2023년 발생한 태풍 마와르, 구촐, 볼라벤의 천리안 위성 2A호 RGB (Red-Green-Blue)영상 자료를 입력 자료로 활용하였다. 태풍 주변의 구름 이동 좌표를 입력하여 태풍의 풍속을 산출하고 태풍 중심 기압, 폭풍 반경, 최대 풍속 등의 매개 변수를 입력하여 태풍 풍속 분포를 시각화 할 수 있도록 설계하였다. 본 연구에서 개발된 GUI 기반 프로그램은 천리안 위성 2A호로 관측 가능한 태풍에 대해 오류 없이 적용 가능하며 교과서의 시공간적 한계를 벗어난 실제 관측 자료 기반의 과학탐구활동이 가능하다. 학생과 교사는 별도의 유료 프로그램 및 전문적인 코딩 지식이 없어도 실제 관측 자료를 수집, 처리, 분석, 시각화하는 과정을 경험할 수 있으며, 이를 통해 미래 정보화 사회에서의 필수 역량인 디지털 소양을 함양시킬 수 있을 것으로 기대된다.

The Big Data Analytics Regarding the Cadastral Resurvey News Articles

  • Joo, Yong-Jin;Kim, Duck-Ho
    • 한국측량학회지
    • /
    • 제32권6호
    • /
    • pp.651-659
    • /
    • 2014
  • With the popularization of big data environment, big data have been highlighted as a key information strategy to establish national spatial data infrastructure for a scientific land policy and the extension of the creative economy. Especially interesting from our point of view is the cadastral information is a core national information source that forms the basis of spatial information that leads to people's daily life including the production and consumption of information related to real estate. The purpose of our paper is to suggest the scheme of big data analytics with respect to the articles of cadastral resurvey project in order to approach cadastral information in terms of spatial data integration. As specific research method, the TM (Text Mining) package from R was used to read various formats of news reports as texts, and nouns were extracted by using the KoNLP package. That is, we searched the main keywords regarding cadastral resurvey, performing extraction of compound noun and data mining analysis. And visualization of the results was presented. In addition, new reports related to cadastral resurvey between 2012 and 2014 were searched in newspapers, and nouns were extracted from the searched data for the data mining analysis of cadastral information. Furthermore, the approval rating, reliability, and improvement of rules were presented through correlation analyses among the extracted compound nouns. As a result of the correlation analysis among the most frequently used ones of the extracted nouns, five groups of data consisting of 133 keywords were generated. The most frequently appeared words were "cadastral resurvey," "civil complaint," "dispute," "cadastral survey," "lawsuit," "settlement," "mediation," "discrepant land," and "parcel." In Conclusions, the cadastral resurvey performed in some local governments has been proceeding smoothly as positive results. On the other hands, disputes from owner of land have been provoking a stream of complaints from parcel surveying for the cadastral resurvey. Through such keyword analysis, various public opinion and the types of civil complaints related to the cadastral resurvey project can be identified to prevent them through pre-emptive responses for direct call centre on the cadastral surveying, Electronic civil service and customer counseling, and high quality services about cadastral information can be provided. This study, therefore, provides a stepping stones for developing an account of big data analytics which is able to comprehensively examine and visualize a variety of news report and opinions in cadastral resurvey project promotion. Henceforth, this will contribute to establish the foundation for a framework of the information utilization, enabling scientific decision making with speediness and correctness.