• 제목/요약/키워드: 불균형데이터 처리

검색결과 120건 처리시간 0.028초

한국어 학습 모델별 한국어 쓰기 답안지 점수 구간 예측 성능 비교 (Comparison of Korean Classification Models' Korean Essay Score Range Prediction Performance)

  • 조희련;임현열;이유미;차준우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.133-140
    • /
    • 2022
  • 우리는 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 문제에서 세 개의 딥러닝 기반 한국어 언어모델의 예측 성능을 조사한다. 이를 위해 총 304편의 답안지로 구성된 실험 데이터 세트를 구축하였는데, 답안지의 주제는 직업 선택의 기준('직업'), 행복한 삶의 조건('행복'), 돈과 행복('경제'), 성공의 정의('성공')로 다양하다. 이들 답안지는 네 개의 점수 구간으로 구분되어 평어 레이블(A, B, C, D)이 매겨졌고, 총 11건의 점수 구간 예측 실험이 시행되었다. 구체적으로는 5개의 '직업' 답안지 점수 구간(평어) 예측 실험, 5개의 '행복' 답안지 점수 구간 예측 실험, 1개의 혼합 답안지 점수 구간 예측 실험이 시행되었다. 이들 실험에서 세 개의 딥러닝 기반 한국어 언어모델(KoBERT, KcBERT, KR-BERT)이 다양한 훈련 데이터로 미세조정되었다. 또 두 개의 전통적인 확률적 기계학습 분류기(나이브 베이즈와 로지스틱 회귀)도 그 성능이 분석되었다. 실험 결과 딥러닝 기반 한국어 언어모델이 전통적인 기계학습 분류기보다 우수한 성능을 보였으며, 특히 KR-BERT는 전반적인 평균 예측 정확도가 55.83%로 가장 우수한 성능을 보였다. 그 다음은 KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었다. 나이브 베이즈와 로지스틱 회귀 분류기의 성능은 각각 52.52%와 50.28%였다. 학습된 분류기 모두 훈련 데이터의 부족과 데이터 분포의 불균형 때문에 예측 성능이 별로 높지 않았고, 분류기의 어휘가 글쓰기 답안지의 오류를 제대로 포착하지 못하는 한계가 있었다. 이 두 가지 한계를 극복하면 분류기의 성능이 향상될 것으로 보인다.

물 공급 시설의 신뢰성 있는 운영 계획 수립을 위한 가뭄 유입량 증강 기법의 제안 (Proposal of Augmented Drought Inflow to Search Reliable Operational Policies for Water Supply Infrastructures)

  • 지수광;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.189-189
    • /
    • 2022
  • 물 공급 시설의 효율적이고 안정적인 운영을 위한 운영 계획의 수립 및 검증을 위해서는 장기간의 유입량 자료가 필요하다. 하지만, 현실적으로 얻을 수 있는 실측 자료는 제한적이며, 유입량이 부족하여 댐 운영에 영향을 미치는 자료는 더욱 적을 수밖에 없다. 이를 개선하고자 장기간의 모의 유입량을 생성해 운영 계획을 수립하는 방법이 종종 사용되지만, 실측 자료를 기반으로 모의하기 때문에 이 역시 가뭄의 빈도가 낮아, 장기 가뭄이나 짧은 간격으로 가뭄이 발생할 시 안정적인 운영이 어렵다. 본 연구에서는 장기 가뭄 발생 시에도 안정적인 물 공급이 가능한 운영 계획 수립을 위해 가뭄 빈도를 증가시킨 유입량 모의 기법을 제안하고자 한다. 제안하는 모의 기법은 최근 머신러닝에서 사용되는 SMOTE 알고리즘을 기반으로 한다. SMOTE 알고리즘은 데이터의 불균형을 처리하기 위한 오버 샘플링 기법으로, 소수 그룹을 단순 복제하지 않고 새로운 복제본을 생성해 과적합의 위험이 적으며, 원자료의 정보가 손실되지 않는 장점이 있다. 본 연구에서는 미국 캘리포니아주에 위치한 Folsom 댐을 대상으로 고빈도 가뭄 유입량을 모의했으며, 고빈도 가뭄 유입량을 사용한 운영 계획을 수립하였다. Folsom 댐의 과거 관측 유입량 자료를 기반으로 고빈도 가뭄 유입량을 사용한 운영 계획과 일반적인 가뭄 빈도의 유입량을 사용한 운영 계획을 적용했을 때 발생하는 공급 부족량과 과잉 방류량의 차이를 비교해 고빈도 가뭄 유입량의 사용이 물 공급 시설의 안정적인 운영에 끼치는 영향을 확인하고자 한다.

  • PDF

웹 서버 시스템에서의 자원 정보를 이용한 효율적인 부하분산 기법 (Efficient Load Balancing Scheme using Resource Information in Web Server System)

  • 장태무;명원식;한준탁
    • 정보처리학회논문지A
    • /
    • 제12A권2호
    • /
    • pp.151-160
    • /
    • 2005
  • 웹을 사용하는 사람들의 기하급수적으로 증가하면서 확장이 용이하며 신뢰도가 높은 웹 서버가 절실히 요구된다. 사용자의 급증은 과중한 전송량과 시스템의 부하문제를 야기 시켰으며 이를 해결하기 위한 방안으로 클러스터 시스템이 연구되고 있다. 기존의 클러스터 시스템에서는 웹 서버 간 부하가 균등하더라도 멀티미디어나 CGI 둥으로 요청 데이터 크기가 크면 특정 웹 서버의 부하와 응답 시간이 증가되는 경향이 있다. 본 논문에서는 웹 서버들이 각각 다른 컨텐츠를 갖고 CPU, 메모리 및 디스크 사용율 등의 웹 서버의 자원 정보를 이용하여 효율적으로 부하를 분산하는 기법을 제안한다. 각각 서로 다른 컨텐츠를 가지고 있는 엘 서버들은 컨텐츠들에 대한 수정, 삭제, 추가 둥 자원 정보 변경으로 인하여 깨어질 수도 있는 자원 정보 일관성을 유지하기 위해 네트워크 파일 시스템에 연결되어 운영된다. 컨텐츠를 나누어 저장함으로써 생길 수 있는 각 컨텐츠 그룹 간의 부하의 불균형의 문제는 웹 서버에 대한 재설정으로 해결하였다. 성능 실험을 통해 기존의 RR방식과 LC방식보다 제안한 기법이 최대 $50\%$의 처리율과 응답시간 향상을 보여주었다.

확장성 있는 무선 인터넷 프록시 서버 클러스터를 위한 동적 해싱 기반의 부하분산 (A Dynamic Hashing Based Load Balancing for a Scalable Wireless Internet Proxy Server Cluster)

  • 곽후근;김동승;정규식
    • 정보처리학회논문지A
    • /
    • 제14A권7호
    • /
    • pp.443-450
    • /
    • 2007
  • 대용량 무선 인터넷 프록시 캐시 서버 클러스터에서는 성능 및 저장 공간의 확장성이 중요하게 되었다. 여기에서 성능의 확장성은 캐시 서버를 추가함에 따라 클러스터 성능이 선형적으로 증가함을 의미하고 저장 공간의 확장성은 캐시 데이터가 서버들에게 분할 저장되어 있어서 캐시 서버의 수에 상관없이 캐시 데이터를 저장하는 클러스터안의 공간의 합은 일정함을 의미한다. 대용량 서버 클러스터에서 많이 사용되는 라운드로빈 기반 부하분산 방법은 성능의 확장성은 보장되지만, 요청 URL 데이터가 모든 서버에 저장되어야 하므로 저장 공간의 확장성이 없는 단점을 가진다. 해싱기반 부하분산 방법은 모든 요청 URL 데이터가 서버들에 분할 저장되어 있어서 저장 공간의 확장성을 가진다. 그러나 그 방법은 사용자의 요청 패턴 불균형 또는 특정서버로의 요청 집중(Hot-Spot) 시에 성능 확장성이 없다. 본 논문에서는 성능 및 저장 공간의 확장성을 보장하는 새로운 동적 해싱 부하분산기법을 제안한다. 제안된 기법에서는 주기적으로 과부하 상태의 캐시 서버에 할당된 요청들을 찾아서 다른 캐시서버로 동적으로 재할당한다. 제안된 방법을 16대의 컴퓨터를 사용하여 실험을 수행하였고, 실험 결과를 통해 제안된 방법이 기존 방법과는 달리 성능 및 저장 공간의 확장성을 보장함을 확인하였다.

전이학습 기반 특징융합을 이용한 누출판별 기법 연구 (A Study on Leakage Detection Technique Using Transfer Learning-Based Feature Fusion)

  • 한유진;박태진;이종혁;배지훈
    • 정보처리학회 논문지
    • /
    • 제13권2호
    • /
    • pp.41-47
    • /
    • 2024
  • 시간 및 주파수 영역에서 각각 학습한 모델 간에 성능 차이가 발생할 경우, 앙상블을 수행하더라도 개별 모델 간의 성능 불균형으로 인하여 앙상블의 성능이 오히려 저하되는 현상을 확인할 수 있었다. 따라서, 본 논문은 시간 영역과 주파수 영역에서 특징을 추출하고, 이들을 융합한 단계적 학습 방법을 통해 파이프라인 누출 감지의 정확성을 높이기 위한 누출판별 기법을 제안한다. 이 방법은 두 단계의 학습 과정으로 이루어지며, 먼저, 단계 1에서는 시간 영역과 주파수 영역에서 독립적으로 모델 학습을 수행하여 도메인별로 주어진 데이터로부터 중요한 특징들을 효과적으로 추출하도록 하였다. 단계 2에서는 사전학습 완료된 각 모델로부터 해당 분류기를 제거한 후, 두 도메인의 특징들을 서로 융합하고 새로운 분류기를 추가하여 재학습을 수행하였다. 본 논문에서 제안하는 전이학습 기반 특징융합 기법은 시간 및 주파수 영역에서 추출된 특징들을 융합하여 모델 학습을 수행함으로써, 두 영역의 특징이 상호 보완적으로 작용하여 모델이 다양한 정보를 활용함으로 인해 99.88%의 높은 정확도를 달성하여 파이프 누수 감지에 있어 우수한 성능을 입증하였다.

자원안보 선제대응을 위한 물-에너지-식량 연계 기술 과제 도출 (Deduction of Water-Energy-Food Nexus technology for preemptive response of resource security)

  • 이을래;최병만;박상영;정영훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.109-109
    • /
    • 2017
  • 전 세계적으로 기후변화, 인구증가, 도시화에 따른 물, 에너지, 식량 등 필수 자원의 수요량 증가로 인한 수급 불균형으로 글로벌 자원안보 위기가 대두되고 있다. 특히, 국내의 경우 경제성장로 인한 중산층 증가와 도시 인구 팽창에 따른 물, 에너지, 식량 등 필수 자원에 대한 수요 증가로 인해 유한한 자원에 대한 대응책이 시급한 실정이다. 또한 국내 자원의 대외 의존성이 높아 국제 자원 시장에 크게 영향을 받기 때문에 물-에너지-식량의 연계를 통한 자립적 자원확보가 필요하다. 국내에서도 수자원 자체만의 기존 기술 한계를 극복하기 위한 물-에너지, 물-식량 연계신기술 개발과 지속가능한 활용방안이 필요한 실정으로 현재 미국, 일본, 유럽 등 주요 선진국을 중심으로 물관리와 연계한 에너지의 효율화 및 수자원이 갖는 에너지의 회수와 적극적 활용이 추진되고 있다. 이를 반영하여, 국내의 경우 독립적으로 구분되는 이수, 치수, 물순환 건전화 등 주요 물관리 이슈에 대하여 에너지, 식량 분야를 연계한 통합적이고 효율적인 지속가능 방안제시가 필요하다. 이를 위해 자원안보의 선제적 대응을 위한 구체적이고 실질적인 물-에너지-식량의 연계 기술이 필요하며, 국내 실정에 적합한 기술의 도입이 필요하다. 즉 (1) WEF 데이터공유 및 범정부적 의사결정을 위한 다부처 협업체계 구축을 위한 Bigdata기반 부처간 데이터베이스 구축 및 공유 (2) 기후변화 적응 자원연계 솔루션 개발 및 넥서스 영향평가 툴 개발을 위한 자원 효율성 증대를 위한 연계 기술 고도화 (3) 국내(미래넥서스시티 versus 지자체자립형넥서스마을), 해외 on-demand형의 미래자원관리 패키지기술 실증을 위한 국내외 Testbed구축 및 운영 (4) 기술의 실현을 위한 제도, 정책의 개선 및 국민 공감대 형성을 위한 WEF 넥서스 거버넌스 수립 및 개선으로 구분할 수 있다. 이를 통해, 물-에너지-식량 분야 상호 연계를 통한 분야별 "생산-가공-유통처리" 효율 30% 개선, 20C SOC 시설산업기반에서 21C 사회 인프라 국민 서비스 산업으로 전환을 통한 국가 신산업기반 구축, 4차 산업혁명의 Data Technology 분야에서 세계 최초의 공공기반 WEF 연계 패키지 기술 개발 들이 가능할 것으로 판단된다.

  • PDF

FRM: Foundation-policy Recommendation Model to Improve the Performance of NAND Flash Memory

  • Won Ho Lee;Jun-Hyeong Choi;Jong Wook Kwak
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.1-10
    • /
    • 2023
  • 최근, 낸드 플래시 메모리는 비휘발성, 높은 집적도, 높은 내구성으로 인하여 다양한 컴퓨터 시스템에서 자기 디스크를 대체하고 있지만 연산 처리 속도 불균형 및 수명 제한과 같은 한계를 가진다. 따라서 낸드 플래시 메모리의 단점을 극복하고자 디스크 버퍼 관리정책들이 연구되고 있다. 비록 이러한 관리정책들이 다양한 작업 환경과 응용 프로그램의 실행 특성을 반영하는 것은 명확하나, 이들을 위한 기초 관리 정책 결정 방식에 대한 연구는 그에 비하면 미흡하다. 본 논문에서는 낸드 플래시 메모리를 효율적으로 활용하기 위한 기초 관리정책 제안 모델인 FRM을 소개한다. FRM은 워크로드를 다양한 특성에 따라 분석하고 낸드 플래시 메모리가 가지는 특성들과 조합하는 모델로, 이를 통해 작업 환경에 가장 알맞은 기초 관리 정책을 제시한다. 결과적으로 제안하는 모델은 학습 데이터와 검증 데이터에 대해 Accuracy와 Weighted Average 측면에서 각각 92.85%와 88.97%의 기초 관리정책 예측 정확도를 보여주었다.

부분 구문 분석 결과에 기반한 두 단계 부분 의미 분석 시스템 (Two-Phase Shallow Semantic Parsing based on Partial Syntactic Parsing)

  • 박경미;문영성
    • 정보처리학회논문지B
    • /
    • 제17B권1호
    • /
    • pp.85-92
    • /
    • 2010
  • 부분 의미 분석 시스템은 문장의 구성 요소들이 술어와 갖는 관계를 분석하는 것으로 문장에서 술어의 주체, 객체, 도구 등을 나타내는 의미 논항을 확인하게 된다. 본 논문에서 개발한 부분 의미 분석 시스템은 두 단계로 구성되어 있는데, 먼저 부분 구문 분석 결과로부터 의미 논항의 경계를 찾는 의미 논항 확인 단계를 수행하고 다음으로 확인된 의미 논항에 적절한 의미역을 부착하는 의미역 할당 단계를 수행한다. 순차적인 두 단계 방법을 적용하는 것에 의해서, 학습 성능 저하의 주요한 원인인 클래스 분포의 불균형 문제를 완화할 수 있고, 각 단계에 적합한 자질을 선별하여 사용할 수 있다. 본 논문에서는 PropBank 말뭉치에 기반한 CoNLL-2004 shared task의 데이터 집합 및 평가 프로그램을 사용하여 각 단계가 시스템의 전체 성능에 기여하는 정도를 보인다.

다문화 가정 학부모를 위한 한한변환 기반 학습콘텐츠 관리 시스템 (Korean to Korean Translation Based Learning Contents Management System for Parents of Multi-Cultural Family)

  • 강윤희;강명주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권1호
    • /
    • pp.45-50
    • /
    • 2017
  • 다문화 가정의 정보 격차의 주요 원인인 언어장벽은 다문화 가정 자녀의 낮은 교육수준과 높은 연관성을 가지며, 경제불균형을 높임으로써 추가적인 사회문제화가 될 것으로 예상된다. 다문화가정 학부모는 디지털 기기에 대한 접근성과 자료 활용 능력이 일반국민에 비해 현저하게 떨어지는 정보격차로 인해 기존의 교육 콘텐츠의 효과적 활용은 제약점을 갖고 있다. 이러한 제약점을 해결하기 위해서는 학습자의 이해수준에 적합한 콘텐츠를 제공하는 맞춤형 학습콘텐츠 지원체제의 구축은 필수적이다. 이 논문에서는 다문화가정 학부모의 정보격차 해소를 위한 한한변환 기반 학습콘텐츠 시스템을 설계하고 이를 위한 사용자 맞춤형 학습콘텐츠 지원을 위한 한한변환 시스템의 프로토타입을 결과로 제시한다.

미술품 거래 빅데이터를 이용한 작가 분석 시스템 구현 (Art transaction using big data Artist analysis system implementation)

  • 이승경;임종태
    • 서비스연구
    • /
    • 제11권2호
    • /
    • pp.79-93
    • /
    • 2021
  • 국내 미술시장 규모는 2018년 기준으로 최근 5년간 매년 21.9%씩 증가하는 성장세를 유지하고 있다. 미술품 유통 플랫폼은 화랑과 오프라인 경매 방식, 그리고 온라인 경매로 다양해지고 있다. 미술시장은 작품의 제작(창작), 유통(무역), 소비(매수) 등 3개 분야로 구성되어 있으며, 경제적 가치는 물론 예술적 가치에 대한 인식이 확산되면서 투자 수단으로써 관심도가 높아지고 있다. 작품을 재테크 수단으로 생각하는 소비자는 작품의 객관적 정보에 대한 욕구가 높아지지만, 예술시장 유통 분야의 정보 제공이 폐쇄적이고 불균형해 객관적이고 신뢰할 수 있는 통계를 수집·분석하는 데 한계가 있다. 본 연구는 예술시장 유통 분야에 대한 빅데이터 수집과 정형·비구조적 데이터 분석을 통해 객관적이고 신뢰할 수 있는 미술품 유통 현황을 파악한다. 이를 통해 현재 시장에서 저자의 분석을 객관적으로 제공할 수 있는 시스템을 구현하고자 한다. 본 연구에서는 미술품 유통 사이트에서 저자 정보를 수집하고 일간지 매일경제에서 저자의 기사를 수집·분석해 작가별 연관 단어의 빈도를 산출했다. 이를 통해 본 연구에서는 소비자에게 객관적이고 신뢰할 수 있는 정보를 제공하는 것을 목표로 한다.