통합 검색 | Korea Science

한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구 (A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text)

김종수
- 한국산업정보학회논문지
- /
- 제28권5호
- /
- pp.15-30
- /
- 2023
근래에 트랜스포머(Transformer) 구조를 기초로 하는 ChatGPT와 같은 생성모델이 크게 주목받고 있다. 트랜스포머는 다양한 신경망 모델에 응용되는데, 구글의 BERT(bidirectional encoder representations from Transformers) 문장생성 모델에도 사용된다. 본 논문에서는, 한글로 작성된 영화 리뷰에 대한 댓글이 긍정적인지 부정적인지를 판단하는 텍스트 이진 분류모델을 생성하기 위해서, 사전 학습되어 공개된 BERT 다국어 문장생성 모델을 미세조정(fine tuning)한 후, 새로운 한국어 학습 데이터셋을 사용하여 전이학습(transfer learning) 시키는 방법을 제안한다. 이를 위해서 104 개 언어, 12개 레이어, 768개 hidden과 12개의 집중(attention) 헤드 수, 110M 개의 파라미터를 사용하여 사전 학습된 BERT-Base 다국어 문장생성 모델을 사용했다. 영화 댓글을 긍정 또는 부정 분류하는 모델로 변경하기 위해, 사전 학습된 BERT-Base 모델의 입력 레이어와 출력 레이어를 미세 조정한 결과, 178M개의 파라미터를 가지는 새로운 모델이 생성되었다. 미세 조정된 모델에 입력되는 단어의 최대 개수 128, batch_size 16, 학습 횟수 5회로 설정하고, 10,000건의 학습 데이터셋과 5,000건의 테스트 데이터셋을 사용하여 전이 학습시킨 결과, 정확도 0.9582, 손실 0.1177, F1 점수 0.81인 문장 감정 이진 분류모델이 생성되었다. 데이터셋을 5배 늘려서 전이 학습시킨 결과, 정확도 0.9562, 손실 0.1202, F1 점수 0.86인 모델을 얻었다.
https://doi.org/10.9723/jksiis.2023.28.5.015 인용 PDF

임업생산(林業生産)이 국민소득(國民所得)에 미치는 영향(影響) (The Effect of Forest Production on National Income)

이승윤
- 한국산림과학회지
- /
- 제9권1호
- /
- pp.61-74
- /
- 1969
우리나라의 산림면적(山林面積)은 국토(國土)의 약(約)68%를 차지하고 있으나 그의 생산(生產)은 미미(微微)하여 국민총생산액(國民總生產額)에 대(對)하여 약(約)2%, 제(第)1차산업생산(次產業生產)에서 차지하는 비중(比重) 또한 5%정도(程度)에 불과(不過)하다. 그러나 이는 임업생산중(林業生產中) 직접소득(直接所得)만을 가지고 말한 것이며 임산물(林產物)의 대부분(大部分)은 원재료(原材料)로서 타(他) 관련산업(關聯產業)에 이용(利用)됨으로써 그의 우회적(迂回的) 생산과정(生產過程)을 통(通)해 얻어지는 부가가치(附加價値) 즉(卽) 간접소득(間接所得)이 더욱 중요(重要)하다. 그러나 이때까지 임업생산(林業生產)을 논(論)할때에는 목재생산(木材生產) 즉(卽) 직접생산(直接生產)만 가지고 논급(論及)하였지 이 간접생산(間接生產)에 대(對)하여는 하등(何等) 계산(計算)된 바 없다. 그러므로 한국은행(韓國銀行)에서 조사발표(調査發表)된 1963년도(年度)와 1966년도(年度) 양년분(兩年分)의 산업연관표(產業聯關表)를 가지고 물재구입율법(物財購入率法)을 써서 임업(林業)의 간접소득(間接所得)을 계산(計算)해 보았다. 그결과(結果) 직접소득(直接所得)은 1963년도(年度)가 14,361백만(百萬)원, 1966년도(年度)에는 17,709백만(百萬)원이던 것이, 간접소득(間接所得)은 1963년도(年度)가 42,688백만(百萬)원, 1966년도(年度)는 74,790백만(百萬)원으로서 임업소득합계(林業所得合計)는 1963년도(年度)가 57,049백만(百萬)원 1966년도(年度)는 92,499만(百萬)원이 된다. 따라서 국민총생산액중(國民總生產額中) 임업소득(林業所得)이 차지하는 비율(比率)은 1963년도(年度)가 8.23%, 1966년도(年度)에는 10.12%라는 고율(高率)을 차지하고 있다. 물론(勿論) 여기에는 한수해방지(旱水害防止) 토사유출방지(土砂流出防止)등(等) 국토보전(國土保全)과 풍치(豊致)등(等) 소위(所謂) 산림(山林)의 간접적효용(間接的効用)이 주는 무형적(無形的) 소극(所得)은 계산(計算)에 넣지 않었다. 이와 같이 임업(林業)에서는 그의 생산물(生產物)의 대부분(大部分)이 원재료(原材料)로서 타산업(他產業)에 이용(利用)됨으로써 직접소득(直接所得)보다 간접소득(間接所得)이 차지하는 비중(比重)이 대단(大端)히 높아 관련산업(關聯產業)의 발전(發展) 성장(成長)에 크게 기여(寄與)하고 있다. 그러므로 산업간(產業間)의 중요도판정(重要度判定)에서 임업(林業)은 결(決)코 경시(輕視)되어서는 아니 된다고 본다.
PDF

고준위 방폐장 입지 선정의 공론화 기초 연구 (Laying the Siting of High-Level Radioactive Waste in Public Opinion)

이수장
- 환경정책연구
- /
- 제7권4호
- /
- pp.105-134
- /
- 2008
거의 20년 끌어 오던 중 저준위 방폐장 입지가 우여곡절 끝에 주민투표에 의해 경주로 결정났고, 지난 7월 산업자원부로부터 방사성 폐기시 계획을 득하여 부지 정지에 착수함으로써 본격적인 사업에 착수하였다. 그런데 이제 원자력 발전소 내와 중간저장시설에 임시로 보관하고 있는 고준위 방사성폐기물(사용후연료 포함)을 영구 처분할 수 있는 입지 선정이 시급한 과제로 대두되고 있다. 특히 현재 4개 원자력 발전소 부지 내에 저장하고 있는 방사성폐기물은 올해부터 단계적으로 포화될 것으로 예상되기 때문이다. 이에 지난 6월말 국회에서 이 문제에 대한 세미나가 있었는데 논의의 결론은 공론화를 할 수 있는 법과 제도를 마련하는 것이었다. 문제는 고준위 방폐장 입지 선정은 중 저준위에 비해 그 어려움이 비교가 되지 않을 것으로 예상된다는 것이다. 왜냐하면 미국의 경우 네바다(Nevada) 주 유카(Yucca) 산에 방폐장을 건설하려는 노력이 약 30년간 핵규제위원회(NRC), 에너지부(DOE) 및 환경청(EPA) 등 3개의 국가기관이 약 100억달러를 조사 연구에 쏟아 붓고도 아직 완전히 해결되지 않고 있기 때문이다. 우리나라는 2004년도 12월에 제253차 원자력위원회에서 사용후연료 정책은 충분한 논의를 거쳐 국민적 공감대 하에서 추진하기로 의결한 바 있다. 우리나라에서는 이 문제의 소관부처가 산업자원부인데, 실제로 이를 다룰 법 규정이 거의 전무하다는 것이다. 원자력법에 이에 대한 규정이 있으나 고준위방사성폐기물의 처리 처분의 관리대책은 제외되어 있다(동 법 제84조의 2). 그러나 금년 초부터는 에너지기본법에 따른 국가에너지위원회 산하의 갈등관리전문위원회와 사용후연료공론화 실무위원회(T/F)에서 사용후연료의 공론화와 최종관리방안 등에 대하여 본격적인 검토와 논의를 벌이고 있는 것은 다행이다. 또한 정부에서도 이에 대한 필요성을 인식하여 방사성폐기물 관리와 관련한 불합리한 제도를 개선하고 관리전담기구 운영 등을 명시한 방사성폐기물관리법 제정을 추진하고 있다. 법 제정 원칙은 하향적(top-down)이나 상향적(bottom-up)방식인 아닌 협상을 통한 합의형성식(consensus-building)이 되어야 한다는 것이다. 우호적 또는 협력적 방법으로 결정과정을 진행시켜야 한다는 것이다. 이러한 합의형성식 의사결정과정을 정착시키기 위해서는 다음과 같은 명제가 요청된다. 명제 I : 정부 결정의 하향적 강요를 지양하고, 지역공동체는 자율성 또는 거부권을 가져야 한다. 명제 II : 정부는 지역공동체를 위해서(for)가 아니라 함께(with) 일해야 한다. 명제 III : 지역공동체는 악영향에 대해 보상을 받아야 한다. 명제 IV : 지역공동체는 주어진 여러 기술적 대안과 영향 관리조치 가운데서 그들이 수용할 수 있는 대안을 선택할 권리를 가져야 한다. 명제 V : 시설이 건강상 안전하고 환경적으로 건전하게 입지될 수 있는 것을 보여 줄 수 없다면 어떠한 지역공동체도 시설 수용을 거부할 수 있다. 지역공동체와 정부가 고준위방폐장 입지에 대하여 합의를 형성하기 위해서는 정부의 명령적 하향식이나 거의 억지적인 주민들의 상향식이 합의 형성에 아무런 도움이 되지 않았다는 것을 많이 보아 왔다. 따라서 앞에서 살펴본 여러 방법이나 그 중의 하나를 사용할 수밖에 없을 것이다. 다시 말해 발산적(divergent) 사고가 아닌 수렴적(convergent) 사고가 절대적으로 요청된다는 것이다. 여기서 본 연구자는 공론화는 수렴적 사고를 기반으로 해야 할 당위성을 주장하고자 한다. 수렴적 사고를 통해 공론화의 장에서 합의되어야 할, 즉 공론화에 의해 결정되어야 할 몇 가지 중요한 다음과 같은 사항을 제시하기로 한다. 1. 지역공동체와 협상할 것인가의 결정 2. 입지 선정 시 지역공동체의 역할 결정 3. 정부의 부지 선정 전략의 결정 4. 협상할 유인 창출 5. 협상 당사자 결정 6. 지역공동체의 대표자 결정 7. 협상 의제 선정 8. 협상 기본원칙 설정 9. 정보와 전문가에 대한 지역공동체의 접근성의 담보 10. 신뢰 구축 11. 조정자의 활용 이상의 내용을 담은 가칭 '환경갈등유발시설입지에 관한 절차법'의 제정이 필요할 것이다.
PDF

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

박호연;김경재
- 지능정보연구
- /
- 제25권4호
- /
- pp.141-154
- /
- 2019
인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.
https://doi.org/10.13088/jiis.2019.25.4.141 인용 PDF KSCI

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

양윤석;이현준;오경주
- 지능정보연구
- /
- 제25권2호
- /
- pp.25-38
- /
- 2019
정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.
https://doi.org/10.13088/jiis.2019.25.2.025 인용 PDF KSCI HTML

검색결과 225건 처리시간 0.019초

한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구 (A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text)

임업생산(林業生産)이 국민소득(國民所得)에 미치는 영향(影響) (The Effect of Forest Production on National Income)

고준위 방폐장 입지 선정의 공론화 기초 연구 (Laying the Siting of High-Level Radioactive Waste in Public Opinion)

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)