• 제목/요약/키워드: 텍스트 접근법

검색결과 50건 처리시간 0.031초

공학학술영어에 대한 코퍼스 분석 (A Corpus Analysis to the Engineering Academic English)

  • 하명정;이유진
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.139-140
    • /
    • 2017
  • 본 연구는 공과대학 학생들이 배우는 전공영어로서의 특수목적영어(ESP)에 대해 코퍼스 기반 접근법의 유용성을 논하고자 한다. 이에 본 연구에서는 공과대학에서 사용하는 전공텍스트를 코퍼스로 구축하여 컴퓨터에 기반한 분석에서 나온 결과들을 제시하면서 공학영어 코퍼스의 특성을 살펴보고 궁극적으로 영어매개수업을 듣는 공대학생들의 데이터 기반 학습에 일조하고자 한다. 본 연구에서 사용된 목표 코퍼스는 세부전공과 상관없이 공통적으로 적용되는 공학과목을 선정하여 구축되었고 비교대상인 참조 코퍼스는 British National Corpus를 사용하였다. 공학영어 코퍼스는 총 단어 180만개, 단어 유형 만 6천여개로 이루어졌고 코퍼스 분석도구인 AntConc 3.4.4를 이용하여 빈도 분석과 키워드 분석이 수행되었다. 고빈도수 어휘의 분석결과 목표 코퍼스와 참조 코퍼스에서 가장 빈번하게 나타나는 어휘군은 내용어(content words)보다는 기능어(function words) 형태가 많다는 점이 나타났고 내용어군만 분석결과 참조코퍼스에 비해 공학영어 코퍼스에 과학영역의 변이어가 많이 분포하고 있음이 드러났다. 또한 키워드 분석에서는 공학영어 코퍼스의 키워드 동사군이 전문적인 어휘(technical vocabulary)보다는 비전문적인 학술적 어휘(non-technical academic vocabulary)가 상대적으로 많이 분포되어 있음이 드러나 ESP교육을 실시함에 있어서 전공관련 전문영어와 함께 일반적인 학술 영어에 대한 인식을 고양해야 할 필요성이 대두된다.

  • PDF

AdaBoost를 이용한 윈도우 영상의 하위 영상 검출 (Subimage Detection of Window Image Using AdaBoost)

  • 길종인;김만배
    • 방송공학회논문지
    • /
    • 제19권5호
    • /
    • pp.578-589
    • /
    • 2014
  • 윈도우 영상은 흔히 컴퓨터에서 응용프로그램을 실행하였을 때, 모니터를 통해 출력되는 화면을 의미하여, 웹페이지, 동영상 플레이어 및 여러 가지 응용프로그램을 모두 포함한다. 웹페이지는 다른 어플리케이션에 비해 다양한 종류의 정보를 다양한 형태로 전달한다. 이러한 웹페이지와 같은 윈도우 영상은 카메라로부터 획득할 수 있는 자연영상과 달리 텍스트, 로고, 아이콘 및 하위 영상과 같은 여러 가지 요소들을 포함하고 있고, 각 요소들은 서로 다른 형식의 정보를 사용자에게 전달한다. 그러나 텍스트와 영상은 정보가 다른 형태로 제공되기 때문에, 엄연히 다른 특성을 가지고 있는 요소들을 지역적으로 분리할 필요성이 있다. 본 논문에서는 윈도우 영상을 지역적인 특성에 따라 다수의 블록으로 분할한 후, 분할된 각 영역을 배경, 텍스트, 하위영상으로 분류하였다. 이러한 분류기법을 통해 분류된 하위 영상은 3D입체영상 변환, 영상 검색, 영상 브라우징등과 같은 응용을 가질 수 있다. 영상을 분류하는 방법에는 여러 가지가 존재할 수 있으나, 본 논문에서는 기계학습 기반의 알고리즘이 하위 영상 검출에도 좋은 접근법이 될 수 있음을 증명하기 위해 AdaBoost를 이용하였고, 실험결과로부터 93.4%의 검출률, 13%의 거짓 긍정률을 보임으로서, 이를 입증하였다.

미·중 무역 분쟁 관련 환구시보(環球時報) 사설 비교를 통한 비판적 담화분석 - 「용타항미원조적의지타대미무역전(用打抗美援朝的意志打對美貿易戰)」 중심으로 - (A Critical Discourse Analysis Through Comparisons Between Editorials of The Global Times, Huánqiú Shíbào on the 2018 United States-China Trade War)

  • 최태훈
    • 비교문화연구
    • /
    • 제52권
    • /
    • pp.165-194
    • /
    • 2018
  • 본 연구는 환구시보 4월 7일 "용타항미원조적의지타대미무역전(用打抗美援朝的意志打對美貿易戰)" 사설에 대하여 비판적 담화분석의 접근법을 활용하여 텍스트 기술, 상호텍스트성, 사회문화적 수행 설명으로 구분하여 분석하였다. 본 사설은 '전쟁(戰爭)'과 관련된 어휘와 프레임을 집중적으로 사용하고 있다. 첫째, "무역전(貿易戰)"과 "항미원조(抗美援朝)"는 은유와 전쟁프레임을 보여주는 예이다. 둘째, "전략(戰略)"은 미국과 중국에 각각 부정적, 긍정적으로 사용되고 있다. 셋째, 다양한 전쟁 용어가 사용되었다. 넷째, '인유법(引喩法)'을 살펴보면, 전쟁관련 표현이 보인다. 본 사설의 상호텍스트성에서 두 가지 결과를 얻을 수 있었다. 첫째, 환구시보가 '대등한 보복'을 줄곧 사용하고 있다. 이유는 자신의 반격을 정당화하고, 그런 중국이 하는 전쟁은 '자위적 차원의 반격전(自衛反擊戰)'이 되도록 포장해주기 위함이다. 둘째, '싸우기는 싫은데, 싸움이 두렵지는 않다'라는 표현이 여러 사설에서 반복되었다. 그 이유는 다음과 같다. (1) 인민의 결집을 호소. (2) 공포심을 일으켜, 그들이 결집해야만 하는 이유를 암암리에 부여. (3) "두렵지 않다"를 통해 중국은 체면을 차리고, 미국에게는 "싸우기 싫다"는 '싸인'을 보내기 위함이다. 맥락상 같은 논지가 약 3개월(2018.03.23.-06.17)의 시간차를 두고 9개 사설에서 비슷한 표현으로 보이는 것은 상호텍스트성의 예라 할 것이다. 본 사설의 사회문화적 수행은 중국 정부의 패권 이데올로기를 전파함에 있다. 첫째, 핵심 국책사업 '중국제조(中國製造)2025'는 절대 포기할 수 없음을 분명히 밝힌 것이다. 둘째, 사설은 "항미원조(抗美援朝)"를 소명하여 미국을 비난 협박하고, 민심의 이반을 다독이며 결집을 호소, 시진핑 정부에 힘을 실어 주고자 하는 의도이다. 셋째, 중국은 미국과의 협상의 여지를 열어두고자 하고 있다.

네트워크 분석을 이용한 애플리케이션 서비스 하위 카테고리 분류: 헬스케어 어플리케이션 중심으로 (Categorizing Sub-Categories of Mobile Application Services using Network Analysis: A Case of Healthcare Applications)

  • 하소희;금영정
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.15-40
    • /
    • 2020
  • 모바일 애플리케이션 서비스 시장의 폭발적으로 성장함에 따라 애플리케이션 서비스를 고객과 개발자 관점에서 분류하는 것이 필요한 실정이다. 그러나 모바일 애플리케이션 서비스의 체계적 분류에 관한 연구는 제한적이다. 이에 본 연구에서는 네트워크 모듈성 분석을 통하여 모바일 애플리케이션 서비스의 분류하고 하위 카테고리를 제안하고자 한다. 구글플레이(GooglePlay)를 통해 총 1,607개의 헬스케어 관련 애플리케이션 서비스를 수집한 후 각 애플리케이션 서비스의 설명(description) 텍스트를 활용하여 유사도를 측정하고 이를 바탕으로 네트워크 분석을 수행하였다. 모듈성 분석을 수행하여 전체 네트워크의 커뮤니티를 탐지한 후, 각 클러스터를 기반으로 서비스 분류법을 도출한다. 이번 연구는 모바일 애플리케이션 서비스를 체계적으로 탐색하고자 하는 고객과 모바일 애플리케이션 서비스의 트렌드를 분석하고자 하는 개발자 모두에게 도움이 되는 서비스 분류에 대한 체계적인 접근방식이 될 것으로 기대된다.

오토인코더 기반 심층 지도 네트워크를 활용한 계층형 데이터 분류 방법론 (Methodology for Classifying Hierarchical Data Using Autoencoder-based Deeply Supervised Network)

  • 김윤하;김남규
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.185-207
    • /
    • 2022
  • 최근 딥 러닝 기술의 발전으로 인해, 텍스트, 이미지 등 비정형 데이터 분석에 딥 러닝 알고리즘을 적용하는 연구가 활발히 수행되고 있다. 그중 텍스트 분류는 학계 및 업계에서 오랜 기간 연구되어 온 분야로, 분류의 성능을 향상시키기 위해 계층형 레이블 등 데이터 자체의 특성을 활용하기 위한 다양한 시도가 이루어지고 있다. 하지만 계층적 분류를 위해 주로 사용되는 하향식 접근법은 상위 레벨의 오분류가 하위 레벨의 정분류 기회를 차단한다는 한계가 있다. 따라서, 본 연구에서는 레이블의 계층적인 관계를 고려하면서도 상위 레벨의 분류가 하위 레벨의 분류를 차단하지 않도록 하여 분류 성능을 향상시키기 위해, 오토인코더 기반 심층 지도 네트워크를 활용한 계층형 데이터 분류 방법론을 제안한다. 제안 방법론은 오토인코더의 잠재변수에 하위 레이블을 예측하는 주 분류기를 추가하고, 인코더의 은닉층에 상위 레벨의 레이블 예측하는 보조 분류기를 추가하여 End-to-End 학습을 진행한다. 제안 방법론의 성능을 평가하기 위하여 국내 논문 데이터 총 22,512건에 대한 실험을 수행한 결과, 제안 모델이 기존의 지도 오토인코더 및 DNN 모델에 비해 분류 정확도와 F1-Score에서 우수한 성능을 나타냄을 확인하였다.

화자 겹침을 고려한 화자 전환 검출 시스템 제안 (Proposal of speaker change detection system considering speaker overlap)

  • 박지수;윤영선;차신;박전규
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.466-472
    • /
    • 2021
  • 화자 전환 검출은 대화 중에 발성 화자가 다른 사람으로 바뀌는 시점을 검출하는 것을 의미한다. 이 과정에서 화자 중복, 화자 정보 표기의 부정확성, 데이터 불균형 등으로 화자가 바뀌는 순간을 검출하는 데 어려움이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 음성 인식에 널리 사용되는 TIMIT 데이터를 가공하여 충분한 양의 훈련 데이터를 얻었으며, 화자가 겹치는지를 파악한 후에 화자 전환 여부를 판단하였다. 본 논문에서는 화자 겹침을 고려한 화자 전환 검출 시스템을 구축하기 위하여 다양한 접근법을 사용하여 성능을 평가하고 검증했다. 그 결과 화자 겹칩 영역을 제거하기 위해 X-Vector 구조와 유사한 형태의 검출 시스템과 화자 전환 검출 시스템을 모델링하기 위한 Bi-LSTM 모델을 제안하였다. 실험 결과 기준 시스템보다 상대적으로 각각 4.6 %, 13.8 % 성능 향상을 확인하였다. 또한, 실험 결과를 기반으로 텍스트 정보와 화자 정보 등을 고려한다면 좀 더 강인한 화자 전환 검출 시스템을 구축할 수 있을 것으로 판단한다.

영화 크라우드펀딩 성공에 영향을 미치는 요인에 관한 탐색적 연구: 중국의 영화 플랫폼 크라우드펀딩을 중심으로 (An Expoloratory Study on Influencing Factors of Film Equity Crowdfunding Success: Based on Chinese Movie Crowdfunding)

  • 빠오탄탄;김헌;장병희
    • 한국콘텐츠학회논문지
    • /
    • 제21권2호
    • /
    • pp.1-14
    • /
    • 2021
  • 최근 일반 대중을 대상으로 한 콘텐츠 투자 플랫폼 중 하나로 크라우드펀딩 플랫폼이 주목받고 있다. 본 연구는 영화 크라우드펀딩 프로젝트 요인이 크라우드펀딩 달성률에 미치는 영향을 살펴보고자 하였다. 이를 위해 크라우드펀딩 플랫폼에 게시된 영화 프로젝트의 주요 정보를 변인화하였다. 텍스트 수, 이미지 수, 스타파워, IP 기반 영화 여부, 영화 제작 단계, 박스오피스 예측, 투자 자금 비율, 투자 가능 여분 금액, 수익 정산 방식, 최소 투자 금액 조건을 독립변인으로 설정하였으며, 이들 변인이 크라우드펀딩 달성률에 어떠한 영향을 미치는지 살펴보았다. 다중회귀분석을 실시한 결과, 영화 제작 단계, 투자 자금 비율, 투자 가능 여분 금액, 수익 정산 방식이 종속변인에 유의미한 영향을 미치는 것으로 확인되었다. 본 연구는 탐색적 접근법을 통해 영화 크라우드펀딩 프로젝트의 흥행에 영향을 미치는 변인을 발굴하였다는 점에서 의의가 있다. 또한, 본 연구의 결과는 영화 크라우드펀딩 프로젝트 기획 시 실무적 자료로 활용될 수 있을 것이다.

신조어의 의미 학습을 위한 딥러닝 기반 표적 마스킹 기법 (Deep Learning-based Target Masking Scheme for Understanding Meaning of Newly Coined Words)

  • 남건민;서수민;곽기영;김남규
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.391-394
    • /
    • 2021
  • 최근 딥러닝(Deep Learning)을 활용하여 텍스트로 표현된 단어나 문장의 의미를 파악하기 위한 다양한 연구가 활발하게 수행되고 있다. 하지만, 딥러닝을 통해 특정 도메인에서 사용되는 언어를 이해하기 위해서는 해당 도메인의 충분한 데이터에 대해 오랜 시간 학습이 수행되어야 한다는 어려움이 있다. 이러한 어려움을 극복하고자, 최근에는 방대한 양의 데이터에 대한 학습 결과인 사전 학습 언어 모델(Pre-trained Language Model)을 다른 도메인의 학습에 적용하는 방법이 딥러닝 연구에서 많이 사용되고 있다. 이들 접근법은 사전 학습을 통해 단어의 일반적인 의미를 학습하고, 이후에 단어가 특정 도메인에서 갖는 의미를 파악하기 위해 추가적인 학습을 진행한다. 추가 학습에는 일반적으로 대표적인 사전 학습 언어 모델인 BERT의 MLM(Masked Language Model)이 다시 사용되며, 마스크(Mask) 되지 않은 단어들의 의미로부터 마스크 된 단어의 의미를 추론하는 형태로 학습이 이루어진다. 따라서 사전 학습을 통해 의미가 파악되어 있는 단어들이 마스크 되지 않고, 신조어와 같이 의미가 알려져 있지 않은 단어들이 마스크 되는 비율이 높을수록 단어 의미의 학습이 정확하게 이루어지게 된다. 하지만 기존의 MLM은 무작위로 마스크 대상 단어를 선정하므로, 사전 학습을 통해 의미가 파악된 단어와 사전 학습에 포함되지 않아 의미 파악이 이루어지지 않은 신조어가 별도의 구분 없이 마스크에 포함된다. 따라서 본 연구에서는 사전 학습에 포함되지 않았던 신조어에 대해서만 집중적으로 마스킹(Masking)을 수행하는 방안을 제시한다. 이를 통해 신조어의 의미 학습이 더욱 정확하게 이루어질 수 있고, 궁극적으로 이러한 학습 결과를 활용한 후속 분석의 품질도 향상시킬 수 있을 것으로 기대한다. 영화 정보 제공 사이트인 N사로부터 영화 댓글 12만 건을 수집하여 실험을 수행한 결과, 제안하는 신조어 표적 마스킹(NTM: Newly Coined Words Target Masking)이 기존의 무작위 마스킹에 비해 감성 분석의 정확도 측면에서 우수한 성능을 보임을 확인하였다.

  • PDF

반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO (A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT)

  • 김신우;황창회;윤정우;이성현;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF

A Self-Guided Approach을 활용한 한국어 텍스트 생성 쓰기 보조 기법의 향상 방법 (A Self-Guided Approach to Enhance Korean Text Generation in Writing Assistants)

  • 장동현;김진수;이민호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.541-544
    • /
    • 2023
  • LLM(Largescale Language Model)의 성능 향상을 위한 비용 효율적인 방법으로 ChatGPT, GPT-4와 같은 초거대 모델의 output에 대해 SLM(Small Language Model)을 finetune하는 방법이 주목받고 있다. 그러나, 이러한 접근법은 주로 범용적인 지시사항 모델을 위한 학습 방법으로 사용되며, 제한된 특정 도메인에서는 추가적인 성능 개선의 여지가 있다. 본 연구는 특정 도메인(Writing Assistant)에서의 성능 향상을 위한 새로운 방법인 Self-Guided Approach를 제안한다. Self-Guided Approach는 (1) LLM을 활용해 시드 데이터에 대해 도메인 특화된 metric(유용성, 관련성, 정확성, 세부사항의 수준별) 점수를 매기고, (2) 점수가 매겨진 데이터와 점수가 매겨지지 않은 데이터를 모두 활용하여 supervised 방식으로 SLM을 미세 조정한다. Vicuna에서 제안된 평가 방법인, GPT-4를 활용한 자동평가 프레임워크를 사용하여 Self-Guided Approach로 학습된 SLM의 성능을 평가하였다. 평가 결과 Self-Guided Approach가 Self-instruct, alpaca와 같이, 생성된 instruction 데이터에 튜닝하는 기존의 훈련 방법에 비해 성능이 향상됨을 확인했다. 다양한 스케일의 한국어 오픈 소스 LLM(Polyglot1.3B, PolyGlot3.8B, PolyGlot5.8B)에 대해서 Self-Guided Approach를 활용한 성능 개선을 확인했다. 평가는 GPT-4를 활용한 자동 평가를 진행했으며, Korean Novel Generation 도메인의 경우, 테스트 셋에서 4.547점에서 6.286점의 성능 향상이 발생했으며, Korean scenario Genration 도메인의 경우, 테스트 셋에서 4.038점에서 5.795 점의 성능 향상이 발생했으며, 다른 유사 도메인들에서도 비슷한 점수 향상을 확인했다. Self-Guided Approach의 활용을 통해 특정 도메인(Writing Assistant)에서의 SLM의 성능 개선 가능성을 확인했으며 이는 LLM에 비용부담을 크게 줄이면서도 제한된 도메인에서 성능을 유지하며, LLM을 활용한 응용 서비스에 있어 실질적인 도움을 제공할 수 있을 것으로 기대된다.

  • PDF