• 제목/요약/키워드: 데이터 평가 모델

검색결과 2,458건 처리시간 0.032초

한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안 (Measurement of Political Polarization in Korean Language Model by Quantitative Indicator)

  • 김정욱;김경민;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

DID 기반 전기차 전과정평가를 위한 차량부품 데이터수집 모델 (A Data Collection Model of Vehicle Parts for the Evaluation of Electric Vehicle Process Based on DID)

  • 권준우;김제인;이수진;서승현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.237-239
    • /
    • 2022
  • 최근, 여러 국가에서 전과정평가를 바탕으로 한 차량 온실가스 배출규제에 대한 검토를 진행중이다. 차량 전과정평가를 수행하기 위해서는 각 부품에 대한 데이터들이 수집되어야 하며, 해당 데이터에 대한 무결성과 유효성 검증이 필요하다. 본 논문에서는 전과정평가를 위한 데이터수집 시 데이터 제공자에 대한 검증과 데이터의 유효성, 무결성을 검증하기 위한 DID 기반 전기차 전과정평가를 위한 데이터수집 모델을 제안한다.

기하학적 모델링과 시뮬레이션을 통한 모의 라이다 데이터 생성 (Generation of Simulated LIDAR Data via Geometric Sensor Modeling and Simulation)

  • 김성준;민성홍;이임평;오소정
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2008년도 공동춘계학술대회
    • /
    • pp.400-404
    • /
    • 2008
  • 라이다는 데이터 획득의 신속성과 처리의 자동화라는 장점을 가지고 있어서 도시 모델의 생성, 변화탐지(Change Detection), 삼림지역의 DTM(Digital Terrain Model)의 생성, 등고선 추출, 나무의 높이 결정을 통한 산림관리, 해안 지형의 관리 등 다양한 분야에서 활용이 되고 있다. 이와 같이 라이다데이터 활용에 대한 많은 연구가 이루어지면서 다양한 처리 알고리즘이 개발되고 있다. 알고리즘을 개발하고 그 성능을 정확하게 평가를 위해서는 알고리즘을 다양한 형태의 시험데이터에 적용해 보아야 하지만, 성능평가를 위해 다양한 실측 데이터를 획득하기는 어려운 실정이다. 본 연구에서는 개발된 알고리즘의 성능평가를 위한 다양한 모의데이터를 실제 DEM으로부터 시뮬레이션을 통해 생성하는 방법을 제안한다 라이다 시스템에 대한 기하학적 모델링하여 센서방정식을 유도하고, 이를 기반으로 DEM상에서 플랫폼의 이동경로에 따라 취득되는 모의 라이다데이터를 생성한다. 본 연구에서 제안하는 시뮬레이션을 이용하면 라이터데이터를 이용하는 다양한 활용 알고리즘 개발과 경제적이고 정확한 성능평가에 도움이 될 것이다.

  • PDF

철자 기반과 음절 기반 속도가 한국인 영어 학습자의 발음 평가에 미치는 영향 비교 (Comparing the effects of letter-based and syllable-based speaking rates on the pronunciation assessment of Korean speakers of English)

  • 정현성
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.1-10
    • /
    • 2023
  • 본 연구에서는 AI Hub에 구축된 '교육용 한국인의 영어 음성 데이터'에 있는 발음 평가 데이터를 활용하여 철자 기반 발화 속도 및 조음 속도와 음절 기반 발화 속도 및 조음 속도 중 발음 정확성 및 운율 유창성, 합산 점수를 예측하는 모델에 어떤 요소가 더 유의미한 영향을 미치는지 분석하였다. 이를 위해 13세, 19세, 26세 연령별, 성별, 수준별로 이 코퍼스의 훈련 데이터에서 총 900개 발화를 추출하여 데이터에 포함된 다양한 요소를 활용해 평가 점수를 예측하는 선형효과분석을 실행하였다. 선형효과분석에서 최적의 세 개 모델을 통해 예측된 평가 점수를 검증 데이터에서 추출한 총 180개 발화의 평가 점수와 얼마나 상관관계가 있는지도 분석하였다. 분석 결과 발음의 정확성과 운율의 유창성, 합산 점수 예측 모델 모두 철자 기반 발화 속도와 조음 속도보다 음절 기반 발화 속도와 조음 속도가 평가 점수를 예측하는데 더 큰 영향을 주는 것으로 밝혀졌다. 모델에서 예측한 점수와 검정 데이터의 실제 점수와의 상관계수는 .65에서 .68 사이로 각 모델의 평가 점수 예측력이 나쁘지 않았다. 발화 속도와 조음 속도 간에 어떤 요소가 더 큰 영향을 미치는지는 본 연구를 통해 밝혀내지 못하였다.

Transformer를 이용한 유해남조 발생 예측 모델 구축 (Building of cyanobacteria forecasting model using transformer)

  • 이한규;김진휘;변서현;신재기;박용은
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.515-515
    • /
    • 2023
  • 팔당호는 북한강과 남한강이 합류하여 생성된 호소로 수도인 서울과 수도권인 경기도 동부지역의 물 공급을 담당하는 중요한 상수원이다. 이러한 팔당호에서 유해남조 발생은 상수원수 활용과 직접적으로 연관되어 있어 신속하고 정확한 관리 및 예측이 필요하다. 본 연구에서는 안전한 상수원 활용을 위해, 딥러닝 기법을 이용하여 유해남조 사전 예측 모델을 구축하고자 하였다. 모델 입력 변수는 2012년부터 2021년까지 10년 동안의 주간 팔당호 수질(수온, DO, BOD, COD, Chl-a, TN, TP, pH, 전기전도도, TDN, NH4N, NO3N, TDP, PO4P, 부유물질)과 수문(유입량, 총방류량), 기상 정보(평균기온, 최저기온, 최고기온, 일 강수량, 평균풍속, 평균 상대습도, 합계일조량), 그리고 북한강과 남한강 유입지점의 남조 세포 수를 사용하였다. 모델 출력 변수는 수질, 수문, 기상 요인으로 인한 남조의 성장 발현 시기를 고려하여 1주 후의 댐앞 남조 세포수를 사용하였다. 사용한 딥러닝 기법은 최근 주목받고 있는 Temporal Fusion Transformer (TFT)를 사용하였다. 모델 훈련용 데이터와 테스트용 데이터는 각각 8:2의 비율로 나누었으며, 검증용 데이터는 훈련용 데이터 내에서 훈련 데이터와 검증 데이터를 6:4 비율로 분배하였다. Lookback은 5로 설정하였고, 이는 주단위 데이터로 구성된 데이터세트의 특성을 반영한 것이다. 모델의 성능은 실측값과 예측값을 토대로 R-square와 Root Mean Squared Error (RMSE)를 계산하여 평가하였다. 모델학습은 총 154번 반복 진행되었으며, 이 중 성능이 가장 준수한 시점은 54번째 반복 시점으로 훈련손실 대비 검증손실이 가장 양호한 값을 나타냈다(훈련손실:0.443, 검증손실 0.380). R-square는 훈련단계에서 0.681, 검증단계에서 0.654였고, 테스트 단계에서 0.606으로 산출되었다. RMSE는 훈련단계에서 0.614(㎍/L), 검증단계에서 0.617(㎍/L), 테스트 단계에서 0.773(㎍/L)였다. 모델에 사용한 데이터세트가 주간 데이터라는 특성을 고려하면, 소규모 데이터를 사용하였음에도 본 연구에서 구축한 모델의 성능은 양호하다고 평가할 수 있다. 향후 연구에서 데이터세트를 보강하고 모델을 업데이트한다면, 모델의 성능을 더욱더 개선할 수 있을 것으로 기대된다.

  • PDF

공공데이터 품질관리를 위한 조직 성숙도 평가 모델 (An Organizational Maturity Assessment Model for Public Data Quality Management)

  • 김선호;이창수;정승호;김학철;이창수
    • 정보화정책
    • /
    • 제22권1호
    • /
    • pp.28-46
    • /
    • 2015
  • 정부 3.0의 확산으로 공공 데이터의 활용요구가 증대되고 있으나, 정부가 보유하고 있는 공공데이터의 품질 및 관리체계는 아직 성숙화되어 있지 않아 데이터 개방 및 활용의 저해 요소로 부각되고 있다. 데이터 관리 및 연계 활용의 효과와 효율성을 향상시키기 위해서는 데이터 품질관리에 관한 표준 마련과 이를 평가할 수 있는 평가기준의 마련이 필요하며, 지속적인 품질관리가 이루어질 수 있도록 수준을 측정할 수 있는 체계의 마련이 필요하다. 본 연구는 공공데이터 품질관리 수준을 평가하고, 품질관리 수준을 지속적으로 판단할 수 있는 데이터 품질관리 성숙도 모델을 제시한다. 성숙도 모델은 프로세스 참조 모델과 측정 프레임워크로 구성하였다. 프로세스 참조 모델은 PDCA 기반의 15개 프로세스를 정립하였으며 이를 토대로 프로세스의 능력 수준과 데이터 품질관리 조직의 성숙도 수준을 평가하는 프레임워크를 마련하였다. 본 연구에서 제시한 성숙도 모델은 향후 공공기관이 보유하고 있는 데이터의 품질관리 현 수준을 진단하고 문제점을 개선하는 등 보유 공공데이터의 지속적인 품질향상을 위한 단계별 목표와 방향성을 수립하는 데 활용할 수 있으며, 궁극적으로는 공공데이터의 품질 신뢰도 향상을 통한 안정적인 공공데이터의 민간 개방을 촉진하고 이용을 활성화하는 데 적극 기여할 것으로 판단된다.

그린데이터센터의 수준진단 프레임워크 개발 (Developing the framework of level diagnosis for green data center)

  • 나종회;이상학
    • 디지털융복합연구
    • /
    • 제9권2호
    • /
    • pp.141-152
    • /
    • 2011
  • 오늘날 데이터센터는 비즈니스에서 핵심영역으로 인식되고 있으며, 이들에 대한 많은 서비스 요구는 보다 많은 에너지 소비를 낳고 있다. 따라서 데이터센터의 높은 수준의 에너지 효율성은 구축, 운영, 폐기 등 그들의 생명주기에 있어서 핵심이슈로 등장하였다. 본 연구에서는 이러한 생명기상에서 데이터센터의 그린화 수준을 진단할 수 있도록 성숙도모델에 기초한 그린데이터센터 수준진단모델을 제시한다. 본 연구에서 제시한 수준진단 모델은 엑션추어 GMM, DCEEF 등 기존 에너지평가모델 및 그린데이터센터 성숙도평가 모델을 참조하였으며, 최종적으로 건축, 공조, 전기, IT, 조직 등 데이터센터의 5개 핵심영역에 대한 진단지표를 제안하였다.

소프트웨어 프로젝트 평가모델을 통한 소프트 웨어 메트릭스 분석 (An Analysis of Software Metrics Using the SPEM(Software Project Estimation Model))

  • 이재기;신상권;남상식;박권철
    • 전자통신동향분석
    • /
    • 제17권5호통권77호
    • /
    • pp.107-118
    • /
    • 2002
  • 본 논문은 대형 프로젝트를 수행하는 데 있어서 필요한 리소스, 인력, 개발비용 및 소프트웨어 소스에 대한 데이터를 추정하여 프로젝트의 효율성을 평가하는 모델인 소프트웨어 프로젝트 평가모델을 이용하여 기 수행된 프로젝트의 경험데이터와 수행되고 있는 프로젝트의 소프트웨어 메트릭스(metrics) 데이터를 활용하여 생산성, 품질, 자원투입 효과, 개발될 소프트웨어 소스 규모 등을 추정해 보고 이를 경험적인 모델(empirical model)에 적용하여 프로젝트 별로 평가, 비교 분석해 본다. 또 향후 유사 프로젝트 관리(similar project management)에 필요한 사항들을 제안한다.

신뢰수준평가에 기반한 고농도 오존 예측모델의 성능평가 (Performance Evaluation of High-Level Ozone Prediction Model Based on the Confidence Level Test)

  • 정재룡;안항배;송치권;배현;전병희;김성신
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.195-198
    • /
    • 2002
  • 고농도오존이 발생되는 원인과 환경적 요인의 상호관계를 모델링하기 위해 신경회로 망과 같은 지능제어 기법들이 많이 적용되어 왔다 분석과 모델링을 위해 유전자 알고리즘과 같은 최적화 방법을 적용하기도 하지만, 고농도 오존이 발생되는 메커니즘이 매우 복잡하고, 비선형적이며, 패턴파악이 어렵기 때문에 고농도 오존의 예측 모델링에는 여전히 문제점이 있다 따라서 본 논문에서는 신뢰수준과 신뢰구간을 이용하여 초농도 오존을 예측할 수 있는 모델링 방법을 서술하였다 예측값의 신뢰수준의 평가는 예측에 대한 실측값을 구하여 신뢰구간내의 데이터의 개수를 파악함으로써 신뢰성을 평가할 수 있다. 또한 이 테스트는 우리가 가지고 있지 않은 데이터에 대한 유효성을 평가하는데 적용될 수 있다 그리고 본 논문에서는 GMDH(Group Method of data handling)의 전형적인 알고리즘에 바탕을 두고 있는 DPNN(Dynamic Polynomial Neural Network)를 이용하여 예측 모델을 구성하였다. DPNN은 데이터 해석이 용이하고 비선형적인 동적 시스템 예측에 유용하게 적용될 수 있는 장점을 가지고 있다.

CNN 모델 평가를 위한 이미지 데이터 증강 도구 개발 (Development of an Image Data Augmentation Apparatus to Evaluate CNN Model)

  • 최영원;이영우;채흥석
    • 소프트웨어공학소사이어티 논문지
    • /
    • 제29권1호
    • /
    • pp.13-21
    • /
    • 2020
  • CNN 모델이 이미지 분류와 객체 탐지 등 여러 분야에 활용됨에 따라, 자율주행자동차와 같이 안전필수시스템에 사용되는 CNN 모델의 성능은 신뢰할 수 있어야 한다. 이에 CNN 모델이 다양한 환경에서도 성능을 유지하는지 평가하기 위해 배경을 변경한 이미지를 생성하는 이미지 데이터 증강 도구를 개발한다. 이미지 데이터 증강 도구에 객체가 존재하는 이미지를 입력하면, 해당 이미지로부터 객체 이미지를 추출한 후 수집한 배경 이미지 내에 객체 이미지를 합성하여 새로운 이미지를 생성한다. CNN 모델 성능 평가 방법으로 개발한 도구를 사용하여 기존 테스트 이미지로부터 새로운 테스트 이미지를 생성하고, 생성한 새로운 테스트 이미지로 CNN 모델을 평가한다. 사례 연구로 Pascal VOC2007 테스트 데이터로부터 새로운 테스트 이미지를 생성하고, 새로운 테스트 이미지로 YOLOv3 모델을 평가하였다. 그 결과 기존 테스트 이미지의 mAP 보다 새로운 테스트 이미지의 mAP가 약 0.11 더 낮아지는 것을 확인하였다.