• Title/Summary/Keyword: 텍스트 접근법

Search Result 50, Processing Time 0.026 seconds

A Corpus Analysis to the Engineering Academic English (공학학술영어에 대한 코퍼스 분석)

  • Ha, Myung-Jeong;Rhee, Eugene
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2017.05a
    • /
    • pp.139-140
    • /
    • 2017
  • 본 연구는 공과대학 학생들이 배우는 전공영어로서의 특수목적영어(ESP)에 대해 코퍼스 기반 접근법의 유용성을 논하고자 한다. 이에 본 연구에서는 공과대학에서 사용하는 전공텍스트를 코퍼스로 구축하여 컴퓨터에 기반한 분석에서 나온 결과들을 제시하면서 공학영어 코퍼스의 특성을 살펴보고 궁극적으로 영어매개수업을 듣는 공대학생들의 데이터 기반 학습에 일조하고자 한다. 본 연구에서 사용된 목표 코퍼스는 세부전공과 상관없이 공통적으로 적용되는 공학과목을 선정하여 구축되었고 비교대상인 참조 코퍼스는 British National Corpus를 사용하였다. 공학영어 코퍼스는 총 단어 180만개, 단어 유형 만 6천여개로 이루어졌고 코퍼스 분석도구인 AntConc 3.4.4를 이용하여 빈도 분석과 키워드 분석이 수행되었다. 고빈도수 어휘의 분석결과 목표 코퍼스와 참조 코퍼스에서 가장 빈번하게 나타나는 어휘군은 내용어(content words)보다는 기능어(function words) 형태가 많다는 점이 나타났고 내용어군만 분석결과 참조코퍼스에 비해 공학영어 코퍼스에 과학영역의 변이어가 많이 분포하고 있음이 드러났다. 또한 키워드 분석에서는 공학영어 코퍼스의 키워드 동사군이 전문적인 어휘(technical vocabulary)보다는 비전문적인 학술적 어휘(non-technical academic vocabulary)가 상대적으로 많이 분포되어 있음이 드러나 ESP교육을 실시함에 있어서 전공관련 전문영어와 함께 일반적인 학술 영어에 대한 인식을 고양해야 할 필요성이 대두된다.

  • PDF

Subimage Detection of Window Image Using AdaBoost (AdaBoost를 이용한 윈도우 영상의 하위 영상 검출)

  • Gil, Jong In;Kim, Manbae
    • Journal of Broadcast Engineering
    • /
    • v.19 no.5
    • /
    • pp.578-589
    • /
    • 2014
  • Window image is displayed through a monitor screen when we execute the application programs on the computer. This includes webpage, video player and a number of applications. The webpage delivers a variety of information by various types in comparison with other application. Unlike a natural image captured from a camera, the window image like a webpage includes diverse components such as text, logo, icon, subimage and so on. Each component delivers various types of information to users. However, the components with different characteristic need to be divided locally, because text and image are served by various type. In this paper, we divide window images into many sub blocks, and classify each divided region into background, text and subimage. The detected subimages can be applied into 2D-to-3D conversion, image retrieval, image browsing and so forth. There are many subimage classification methods. In this paper, we utilize AdaBoost for verifying that the machine learning-based algorithm can be efficient for subimage detection. In the experiment, we showed that the subimage detection ratio is 93.4 % and false alarm is 13 %.

A Critical Discourse Analysis Through Comparisons Between Editorials of The Global Times, Huánqiú Shíbào on the 2018 United States-China Trade War (미·중 무역 분쟁 관련 환구시보(環球時報) 사설 비교를 통한 비판적 담화분석 - 「용타항미원조적의지타대미무역전(用打抗美援朝的意志打對美貿易戰)」 중심으로 -)

  • Choi, Tae-hoon
    • Cross-Cultural Studies
    • /
    • v.52
    • /
    • pp.165-194
    • /
    • 2018
  • Employing Fairclough's critical discourse analysis (CDA), the purpose of this study was to analyze linguistically significant features, intertextuality, and sociocultural practice focusing on selected editorials of The Global Times, $Hu{\acute{a}}nqi{\acute{u}}$ Shíbào on the 2018 United States-China Trade War. The editorial titled "With the strong will of 'the War to Resist America and Aid Chosun,' let us go through the trade war against America" focused on the use of 'war' related vocabulary in the frame of 'war.' First, "Trade War" and "War to Resist America and Aid Chosun" are examples that reveal metaphors and a war frame. Second, "Strategy" is used positively for China but negatively towards America. Third, various war related words are used. Fourth, cases of allusion illustrate war. Intertextuality in terms of discourse practice pertains to two findings. First, The Global Times, $Hu{\acute{a}}nqi{\acute{u}}$ Shíbào repeatedly uses the phrase 'equivalent revenge.' That is because the expression enables China to justify their counterattack and such war that China may wage can be interpreted as just counterattack much like a self-defense mechanism. Second, the expression, 'the counterattack is not intended but it is not fearful' is repeated in several editorials of the newspaper. The reasons are the following: 1) it is used to appeal to the public, 2) by invoking the feeling of fear, the public should be understand why they should unite, and 3) the expression, "it is not fearful" is used to preserve China's global image and "the counterattack is not intended" is used to signal China's will to America. The whole expression is a good example of intertextuality that repetitively illustrates the intended meaning of China in nine editorials in the newspaper within three months, March 23-June 17, 2018. Finally, sociocultural practice is manipulated through the editorial for disseminating the Chinese government's hegemonic ideology. First, it is clear that the core national project, "China Manufacturing 2025" cannot be abandoned. Second, by calling for "War to Resist America and Aid Chosun" the editorial is manipulated to condemn and intimidate America, avoid dissent of the people, appeal to the people, and empower the government. Third, China somehow wants to open up the possibility of negotiation with the United Sates.

Categorizing Sub-Categories of Mobile Application Services using Network Analysis: A Case of Healthcare Applications (네트워크 분석을 이용한 애플리케이션 서비스 하위 카테고리 분류: 헬스케어 어플리케이션 중심으로)

  • Ha, Sohee;Geum, Youngjung
    • The Journal of Society for e-Business Studies
    • /
    • v.25 no.3
    • /
    • pp.15-40
    • /
    • 2020
  • Due to the explosive growth of mobile application services, categorizing mobile application services is in need in practice from both customers' and developers' perspectives. Despite the fact, however, there have been limited studies regarding systematic categorization of mobile application services. In response, this study proposed a method for categorizing mobile application services, and suggested a service taxonomy based on the network clustering results. Total of 1,607 mobile healthcare services are collected through the Google Play store. The network analysis is conducted based on the similarity of descriptions in each application service. Modularity detection analysis is conducted to detects communities in the network, and service taxonomy is derived based on each cluster. This study is expected to provide a systematic approach to the service categorization, which is helpful to both customers who want to navigate mobile application service in a systematic manner and developers who desire to analyze the trend of mobile application services.

Methodology for Classifying Hierarchical Data Using Autoencoder-based Deeply Supervised Network (오토인코더 기반 심층 지도 네트워크를 활용한 계층형 데이터 분류 방법론)

  • Kim, Younha;Kim, Namgyu
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.3
    • /
    • pp.185-207
    • /
    • 2022
  • Recently, with the development of deep learning technology, researches to apply a deep learning algorithm to analyze unstructured data such as text and images are being actively conducted. Text classification has been studied for a long time in academia and industry, and various attempts are being performed to utilize data characteristics to improve classification performance. In particular, a hierarchical relationship of labels has been utilized for hierarchical classification. However, the top-down approach mainly used for hierarchical classification has a limitation that misclassification at a higher level blocks the opportunity for correct classification at a lower level. Therefore, in this study, we propose a methodology for classifying hierarchical data using the autoencoder-based deeply supervised network that high-level classification does not block the low-level classification while considering the hierarchical relationship of labels. The proposed methodology adds a main classifier that predicts a low-level label to the autoencoder's latent variable and an auxiliary classifier that predicts a high-level label to the hidden layer of the autoencoder. As a result of experiments on 22,512 academic papers to evaluate the performance of the proposed methodology, it was confirmed that the proposed model showed superior classification accuracy and F1-score compared to the traditional supervised autoencoder and DNN model.

Proposal of speaker change detection system considering speaker overlap (화자 겹침을 고려한 화자 전환 검출 시스템 제안)

  • Park, Jisu;Yun, Young-Sun;Cha, Shin;Park, Jeon Gue
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.5
    • /
    • pp.466-472
    • /
    • 2021
  • Speaker Change Detection (SCD) refers to finding the moment when the main speaker changes from one person to the next in a speech conversation. In speaker change detection, difficulties arise due to overlapping speakers, inaccuracy in the information labeling, and data imbalance. To solve these problems, TIMIT corpus widely used in speech recognition have been concatenated artificially to obtain a sufficient amount of training data, and the detection of changing speaker has performed after identifying overlapping speakers. In this paper, we propose an speaker change detection system that considers the speaker overlapping. We evaluated and verified the performance using various approaches. As a result, a detection system similar to the X-Vector structure was proposed to remove the speaker overlapping region, while the Bi-LSTM method was selected to model the speaker change system. The experimental results show a relative performance improvement of 4.6 % and 13.8 % respectively, compared to the baseline system. Additionally, we determined that a robust speaker change detection system can be built by conducting related studies based on the experimental results, taking into consideration text and speaker information.

An Expoloratory Study on Influencing Factors of Film Equity Crowdfunding Success: Based on Chinese Movie Crowdfunding (영화 크라우드펀딩 성공에 영향을 미치는 요인에 관한 탐색적 연구: 중국의 영화 플랫폼 크라우드펀딩을 중심으로)

  • Bao, Tantan;Kim, Hun;Chang, Byeng-Hee
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.2
    • /
    • pp.1-14
    • /
    • 2021
  • Recently, crowdfunding platforms have received attention as one of the content investment platforms for the public. This research attempts to explore the influencing factors on the success of movie euqity crowdfunding project. We use 'number of texts', 'number of images', 'star influence power', 'IP-based movie project', 'movie production stage', 'box office prediction', 'investment capital ratio', 'amount of surplus available investment', 'profit calculation method' and 'minimum investment amount' as independent variables. And we examined how these factors affects the achievement rate of movie crowdfunding. As a result of multiple regression analysis, 'movie production stage', 'investment capital ratio', 'amount of surplus available investment' and 'profit calculation method' have a significant effect on the crowdfunding achievement rate. In addition, the results of this research can be used for reference when planning film crowdfunding projects.

Deep Learning-based Target Masking Scheme for Understanding Meaning of Newly Coined Words (신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 기법)

  • Nam, Gun-Min;Seo, Sumin;Kwahk, Kee-Young;Kim, Namgyu
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.391-394
    • /
    • 2021
  • 최근 딥러닝(Deep Learning)을 활용하여 텍스트로 표현된 단어나 문장의 의미를 파악하기 위한 다양한 연구가 활발하게 수행되고 있다. 하지만, 딥러닝을 통해 특정 도메인에서 사용되는 언어를 이해하기 위해서는 해당 도메인의 충분한 데이터에 대해 오랜 시간 학습이 수행되어야 한다는 어려움이 있다. 이러한 어려움을 극복하고자, 최근에는 방대한 양의 데이터에 대한 학습 결과인 사전 학습 언어 모델(Pre-trained Language Model)을 다른 도메인의 학습에 적용하는 방법이 딥러닝 연구에서 많이 사용되고 있다. 이들 접근법은 사전 학습을 통해 단어의 일반적인 의미를 학습하고, 이후에 단어가 특정 도메인에서 갖는 의미를 파악하기 위해 추가적인 학습을 진행한다. 추가 학습에는 일반적으로 대표적인 사전 학습 언어 모델인 BERT의 MLM(Masked Language Model)이 다시 사용되며, 마스크(Mask) 되지 않은 단어들의 의미로부터 마스크 된 단어의 의미를 추론하는 형태로 학습이 이루어진다. 따라서 사전 학습을 통해 의미가 파악되어 있는 단어들이 마스크 되지 않고, 신조어와 같이 의미가 알려져 있지 않은 단어들이 마스크 되는 비율이 높을수록 단어 의미의 학습이 정확하게 이루어지게 된다. 하지만 기존의 MLM은 무작위로 마스크 대상 단어를 선정하므로, 사전 학습을 통해 의미가 파악된 단어와 사전 학습에 포함되지 않아 의미 파악이 이루어지지 않은 신조어가 별도의 구분 없이 마스크에 포함된다. 따라서 본 연구에서는 사전 학습에 포함되지 않았던 신조어에 대해서만 집중적으로 마스킹(Masking)을 수행하는 방안을 제시한다. 이를 통해 신조어의 의미 학습이 더욱 정확하게 이루어질 수 있고, 궁극적으로 이러한 학습 결과를 활용한 후속 분석의 품질도 향상시킬 수 있을 것으로 기대한다. 영화 정보 제공 사이트인 N사로부터 영화 댓글 12만 건을 수집하여 실험을 수행한 결과, 제안하는 신조어 표적 마스킹(NTM: Newly Coined Words Target Masking)이 기존의 무작위 마스킹에 비해 감성 분석의 정확도 측면에서 우수한 성능을 보임을 확인하였다.

  • PDF

A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT (반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO)

  • Kim, Shin-Woo;Hwang, Chang-Hoe;Yoon, Jeong-Woo;Lee, Seong-Hyeon;Choi, Soo-Won;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF

A Self-Guided Approach to Enhance Korean Text Generation in Writing Assistants (A Self-Guided Approach을 활용한 한국어 텍스트 생성 쓰기 보조 기법의 향상 방법)

  • Donghyeon Jang;Jinsu Kim;Minho Lee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.541-544
    • /
    • 2023
  • LLM(Largescale Language Model)의 성능 향상을 위한 비용 효율적인 방법으로 ChatGPT, GPT-4와 같은 초거대 모델의 output에 대해 SLM(Small Language Model)을 finetune하는 방법이 주목받고 있다. 그러나, 이러한 접근법은 주로 범용적인 지시사항 모델을 위한 학습 방법으로 사용되며, 제한된 특정 도메인에서는 추가적인 성능 개선의 여지가 있다. 본 연구는 특정 도메인(Writing Assistant)에서의 성능 향상을 위한 새로운 방법인 Self-Guided Approach를 제안한다. Self-Guided Approach는 (1) LLM을 활용해 시드 데이터에 대해 도메인 특화된 metric(유용성, 관련성, 정확성, 세부사항의 수준별) 점수를 매기고, (2) 점수가 매겨진 데이터와 점수가 매겨지지 않은 데이터를 모두 활용하여 supervised 방식으로 SLM을 미세 조정한다. Vicuna에서 제안된 평가 방법인, GPT-4를 활용한 자동평가 프레임워크를 사용하여 Self-Guided Approach로 학습된 SLM의 성능을 평가하였다. 평가 결과 Self-Guided Approach가 Self-instruct, alpaca와 같이, 생성된 instruction 데이터에 튜닝하는 기존의 훈련 방법에 비해 성능이 향상됨을 확인했다. 다양한 스케일의 한국어 오픈 소스 LLM(Polyglot1.3B, PolyGlot3.8B, PolyGlot5.8B)에 대해서 Self-Guided Approach를 활용한 성능 개선을 확인했다. 평가는 GPT-4를 활용한 자동 평가를 진행했으며, Korean Novel Generation 도메인의 경우, 테스트 셋에서 4.547점에서 6.286점의 성능 향상이 발생했으며, Korean scenario Genration 도메인의 경우, 테스트 셋에서 4.038점에서 5.795 점의 성능 향상이 발생했으며, 다른 유사 도메인들에서도 비슷한 점수 향상을 확인했다. Self-Guided Approach의 활용을 통해 특정 도메인(Writing Assistant)에서의 SLM의 성능 개선 가능성을 확인했으며 이는 LLM에 비용부담을 크게 줄이면서도 제한된 도메인에서 성능을 유지하며, LLM을 활용한 응용 서비스에 있어 실질적인 도움을 제공할 수 있을 것으로 기대된다.

  • PDF