과제정보
본 연구는 2025년 과학기술정보통신부 및 정보통신기획평가원의 SW중심대학사업 지원을 받아 수행되었음(2023-0-00055)
기업 뉴스의 부정적 보도는 시장과 투자자에게 큰 영향을 미치지만, 장문의 기사 특성으로 인해 자동 감성 분석에는 여전히 한계가 존재한다. 특히 BERT 기반 분류 모델은 입력 길이가 제한되어 있어 정보 손실이 불가피하다. 본 연구는 이러한 제약을 극복하기 위해 다음의 세 가지 전처리 전략을 비교하였다: (1) 기사 서두를 활용하는 전방 토큰 절삭, (2) 기업 관련 키워드가 포함된 문장만을 추출하는 키워드 기반 요약, (3) GPT-4o mini와 Llama, T5 모델을 이용한 LLM 기반 생성 요약. RoBERTa 모델을 활용하여 각 방식으로 실험한 결과, 키워드 기반 요약 방법이 전체 클래스 F1-Score(0.8807)에서 가장 우수한 성능을 나타냈으며, 전방 토큰 절삭 방법이 다음으로 높은 성능을 기록하였다. 반면 LLM 기반 생성 요약은 전반적으로 낮은 성능을 보였다. 이러한 결과는 장문의 금융 뉴스 감성 분석에서 복잡한 생성 기반 접근보다 간단하고 비용 효율적인 전처리 전략이 더 효과적일 수 있음을 시사한다.
본 연구는 2025년 과학기술정보통신부 및 정보통신기획평가원의 SW중심대학사업 지원을 받아 수행되었음(2023-0-00055)