• 제목/요약/키워드: Machine Learning

검색결과 5,394건 처리시간 0.03초

POI(Practical Openness Index)를 활용한 문헌정보학 연구자 국제학술논문의 개방성 연구 (Study on the Openness of International Academic Papers by Researchers in Library and Information Science Using POI (Practical Openness Index))

  • 조재인
    • 한국도서관정보학회지
    • /
    • 제52권2호
    • /
    • pp.25-44
    • /
    • 2021
  • OA 논문이 증가하는 상황에서 개별 연구자의 연구 성과 유통이 얼마나 개방적인지를 지수화하는 POI(Practical Openness Index)가 등장하였다. 본 연구는 국내 문헌정보학 연구자들이 국제학술지에 출판한 논문을 대상으로 OA 여부와 방식을 조사하고 연구자 단위의 POI를 도출해 지수의 분포를 살펴보았다. 또한 연구자의 세부 연구 분야나 국제협력 활동이 개방성에 관련성을 보이는지 분석하였다. 그 결과 Unpaywall을 통해 정상적으로 OA 여부와 방식이 식별된 논문은 82명 연구자의 492건으로 나타났으며, 20.7%의 논문만이 공개되어 있는 것으로 분석되었다. 두 번째, 골드 OA 방식의 공개 논문은 의학 분야 저널에 수록된 텍스트마이닝 분야 논문이 많았으며, 그린 OA방식으로 공개된 논문은 외국인 공동저자 소속 기관의 리포지터리나 PMC와 같은 초국가적 주제 리포지터리에서 공개되고 있는 것으로 확인되었다. 세 번째, POI 지수는 절반 가량의 연구자가 0으로 나타났으나, 계량정보학, 기계학습 및 지식처리 영역의 연구자들에게서 상대적으로 높게 나타났다. 또한 연구자의 해외공동연구 활동이 논문 공개와 관련성이 있는 것으로 분석되었다.

용담댐 기존운영에 대한 의사결정중심 기후변화 영향 평가 (A decision-centric impact assessment of operational performance of the Yongdam Dam, South Korea)

  • 김대하;김은희;이승철;김은지;신준
    • 한국수자원학회논문집
    • /
    • 제55권3호
    • /
    • pp.205-215
    • /
    • 2022
  • 대기온실가스 증가로 인해 전지구 평균기온은 이미 1.0℃ 이상 상승했고 폭염, 가뭄, 홍수 등 극한 기상현상의 빈도는 점점 더 높아질 것으로 전망되고 있다. 본 연구에서는 전북·충청지역의 이·치수안전도 확보에 큰 역할을 하고 있는 용담댐의 기존 운영방식이 기후변화에 얼마나 취약한 지 의사결정 지표를 중심으로 평가하였다. 현실적인 기후 스트레스 테스트를 위해 GR6J 강우-유출 모형, Random Forests 댐운영 모형을 관측자료에 적합시켰고 추계학적 기법으로 생성된 294개의 기후스트레스 시계열을 모형에 입력해 연최대일방류량, 저수량신뢰도, 공급신뢰도의 변화를 분석하였다. 그 결과 2021~2040년 기간 용담댐 저수량신뢰도는 과도한 수준으로 증가할 것으로 전망되었고 이에 반해 공급신뢰도의 증가는 저수량 신뢰도에 미치지 못할 것으로 나타났다. 평균강수량과 강수변동성의 증가로 20년 빈도 연최대방류량은 50%의 확률로 43% 증가할 것으로 나타났다. 용담댐의 기존운영방식은 저수량 확보에 과도하게 치중되어 있는 것으로 판단되며 이 운영이 지속될 경우 용담댐 하류지역의 홍수위험은 더 가중될 것으로 예상된다.

이관 기록물 분류 자동화를 위한 목록 기반 이상치 판별 학습데이터 구축 (Building the Outlier Candidate Discrimination Training Data based on Inventory for Automatic Classification of Transferred Records)

  • 정지혜;이젬마;왕호성;오효정
    • 한국기록관리학회지
    • /
    • 제22권1호
    • /
    • pp.43-59
    • /
    • 2022
  • 전자적으로 생산된 공공기록물은 생산과 동시에 편철되고 보존기간이 부여되며 일정기간이 지나면 영구기록물관리기관으로 이관되어 보존된다. 이관 시 기록물관리 담당자가 기록물 분류정보를 확인하고 품질을 일정 수준으로 유지토록 해야 하지만, 이관된 기록물의 분류는 기록물 정리/기술 업무로 편성되어 있고, 대부분의 정리/기술 업무는 수작업에 의존하고 있어 당해 연도에 처리해야 할 기록물 수량을 맞추기 어려운 실정이다. 이에 본 연구는 이관 기록물 분류 업무의 효율화와 일관된 기준을 유지하기 위한 방안을 제안하고자 한다. 이를 위해 먼저 국가기록원에서 수행하고 있는 현행의 기록분류 업무 프로세스를 분석하고 개선 요구사항을 수렴하여 분류 업무의 수작업을 최소화하기 위한 방안으로 이관된 기록물의 편철 정보, 즉 목록에 기반한 분류 이상치 후보를 판별하는 과정을 도출·체계화하였다. 나아가 제안한 이상치 판별 프로세스를 실제 국가기록원으로 이관된 기록물을 대상으로 적용하고, 그 결과를 규격화하여 추후 기계학습에 활용 가능한 학습데이터 형식으로 구축하였다. 본 연구의 궁극적인 목적은 지능형 전자기록 관리 환경 구축을 위한 사전 단계로, 기록관리 업무 내 기계학습 기법이 적용 가능한 문제 유형을 선별하고 자동화하는 방안을 모색하고자 한다.

Back TranScription(BTS)기반 데이터 구축 검증 연구 (A Study on Verification of Back TranScription(BTS)-based Data Construction)

  • 박찬준;서재형;이설화;문현석;어수경;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.109-117
    • /
    • 2021
  • 최근 인간과 컴퓨터의 상호작용(HCI)을 위한 수단으로 음성기반 인터페이스의 사용률이 높아지고 있다. 이에 음성인식 결과에 오류를 교정하기 위한 후처리기에 대한 관심 또한 높아지고 있다. 그러나 sequence to sequence(S2S)기반의 음성인식 후처리기를 제작하기 위해서는 데이터 구축을 위해 human-labor가 많이 소요된다. 최근 기존의 구축 방법론의 한계를 완화하기 위하여 음성인식 후처리기를 위한 새로운 데이터 구축 방법론인 Back TranScription(BTS)이 제안되었다. BTS란 TTS와 STT 기술을 결합하여 pseudo parallel corpus를 생성하는 기술을 의미한다. 해당 방법론은 전사자(phonetic transcriptor)의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축할 수 있다. 본 논문은 기존의 BTS 연구를 확장하여 어떠한 기준 없이 데이터를 구축하는 것보다 어투와 도메인을 고려하여 데이터 구축을 해야함을 실험을 통해 검증을 진행하였다.

부도예측모형에서 도메인 지식을 통합한 반사실적 예시 기반 설명력 증진 방법 (Domain Knowledge Incorporated Counterfactual Example-Based Explanation for Bankruptcy Prediction Model)

  • 조수현;신경식
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.307-332
    • /
    • 2022
  • 부도예측모형은 여러 금융기관의 신용평가모형의 지식기반(knowledge base)로 이용되고 있으며 최근 머신러닝 기법의 발전으로 이를 도입하여 고도화하려는 다양한 시도가 진행 중이다. 그러나 실제 이러한 모형이 도입되기 위해서는 모형을 이용하는 사용자와 설명제공 대상인 고객의 이해와 수용이 전제되어야 한다. 그러나 사용자에게 제공되는 설명이 현실적 타당성(feasibility)이 결여되어 있다면 모형의 신뢰성과 수용도에 부정적인 영향을 미친다. 이에 따라 본 연구는 도메인 지식을 설명 생성 알고리즘에 통합하여 현실적으로 타당한 설명을 사용자에게 제공하고자 한다. 본 연구에서는 머신러닝 기반의 부도예측 모형에 설명력을 더하는 방법으로 반사실적 예시(counterfactual example) 기반의 로컬영역에서의 설명을 제공하는 모델을 제안한다. 제안 모델은 모형에 이용된 재무변수의 특성을 설명력 생성 알고리즘에 통합하여 설명의 현실적 가능성을 확보하고 이를 통해 사용자의 이해와 수용을 도모하고자 한다. 또한 본 연구에서는 반사실적 예시기반 설명을 위해 유전알고리즘(GA)를 이용하며 다목적함수를 목적함수로 설정하여 반사실적 예시의 주요 기준이 되는 항목을 반영하고 있다. 본 연구는 대표적인 머신러닝 기법인 인공신경망을 이용해 부도예측모형을 학습시킨 뒤, 사후적 방법(post-hoc)으로 설명을 위한 알고리즘을 도입하여 기존의 모형 설명 알고리즘인 LIME과 현실적 가능성이 결여된 반사실적 예시 기반 알고리즘과 비교하였다. 더 나아가 제안방법의 금융/회계 분야의 종사자를 대상으로 서베이를 진행하여 제안 방법의 설명의 질을 정성적으로 평가하였다.

미국 정보 대학의 데이터사이언스 학위 현황 연구 (Degree Programs in Data Science at the School of Information in the States)

  • 박형주
    • 한국도서관정보학회지
    • /
    • 제53권2호
    • /
    • pp.305-332
    • /
    • 2022
  • 본 연구의 목적은 문헌정보학 프로그램이 있는 정보 대학에서 수여하는 데이터사이언스 학위의 현황을 알아보는 것이다. 데이터 수집의 대상은, 2022년 미국도서관협회의 인가를 받은 문헌정보학 프로그램이 있는 64개의 대학에서 수여하는 데이터사이언스 학위였다. 분석의 대상은 각 대학의 데이터사이언스 학위 과정, 부전공, 세부 전공, 수료증, 취업 후 예상 진로, 취업률 등이었다. 교과 분석을 위해 미국 정보 대학에서 제시한 교과목 명, 교과 설명, 중점 교육 분야를 분석했다. 데이터사이언스를 학위 명으로 개설한 대학은 총 8개 정보 대학의 12개 학위였으며, 학사 학위 5개, 석사 학위 6개, 박사 학위 1개였다. 개설된 교과의 주제는 데이터사이언스 입문, 정보검색, 데이터마이닝, 데이터베이스, 데이터와 인문학, 머신 러닝, 메타데이터, 연구 방법론, 데이터 분석 및 시각화, 실습/캡스톤, 윤리 및 보안, 이용자, 정책, 큐레이션 및 관리였다. 대부분의 대학은 전통적인 문헌정보학 교과를 개설하지 않고 있었다. 정보 대학이 제시한 졸업 후 예상 취업 진로는 데이터사이언티스트, 데이터 엔지니어, 데이터 분석가 등이었다. 본 연구의 결과는 정보학의 관점에서 데이터사이언스 학위 과정, 세부 전공, 수료증 또는 교과과정 개발 및 개정을 위한 논의에 활용될 수 있는 기초 자료로 활용되기를 기대한다.

식물공장 기류해석을 위한 디지털트윈 개발 및 실증 (Development and Validation of Digital Twin for Analysis of Plant Factory Airflow)

  • 정진립;원보영;유호동;김탁곤;강대현;홍경진
    • 한국시뮬레이션학회논문지
    • /
    • 제31권1호
    • /
    • pp.29-41
    • /
    • 2022
  • 이상기후로 인한 불안정한 식량 수급을 해결하기 위한 대안 중 하나로 식물공장의 필요성이 증대되고 있다. 식물공장 내 기류는 재배작물의 증산작용과 열교환에 중요한 인자 중 하나로 인식되고 있다. 한편, 디지털트윈(Digital Twin: DT)은 실체계를 가상세계에 복제한 것으로 실체계만으로 불가능한 다양한 서비스를 제공하는 수단으로 주목받고 있다. 본 연구에서는 디지털트윈 개념을 실제 운용중인 식물공장 기류해석에 적용하여 다양한 상황에 기류를 예측할 수 있는 기류 예측 DT 모델 개발을 목표로 하였다. 이를 위해 먼저 기류 해석용 디지털트윈 수학적 형식론을 제시하고, 이를 기반으로 실제 운용중인 식물공장의 기류예측 모델링에 필요한 정보들을 명세한다. 이어서 식물공장 내 형상을 CAD로 구현하고 유동해석을 위한 전산유체역학(CFD) 구성요소들을 결합하여 DT 모델을 개발하였다. 마지막으로 DT 모델의 시뮬레이션 해석 결과를 식물공장에서 수집한 실제 기류값과 비교하는 모델의 실증 및 기계학습 기반 보정을 통해 정확도가 높은 기류 예측용 DT 모델을 완성하였다.

케이슨식 안벽 항만시설의 성능저하패턴 연구 (A Study on the Performance Degradation Pattern of Caisson-type Quay Wall Port Facilities)

  • 나용현;박미연;장신우
    • 한국재난정보학회 논문집
    • /
    • 제18권1호
    • /
    • pp.146-153
    • /
    • 2022
  • 연구목적: 국내 항만시설의 경우 사용년수가 오래된 항만구조물은 선박의 대형화 및 사용빈도 증가, 기후변화에 따른 자연재해의 영향 등으로 안전과 기능적 측면에서 상당히 많은 문제가 있다. 항만시설의 유지관리 이력 데이터를 기반으로 시설 노후화 패턴을 예측 할 수 있는 근사모델 개발을 위하여 빅데이터 분석 방법을 연구하였다. 연구방법: 본 연구에서는 케이슨식 안벽에 유지관리 데이터 수집하여 빅데이터를 바탕으로 시설물의 노후화 패턴 및 성능저하를 확인하기 위한 예측모델을 도출하였다. 가우시안 프로세스(GP)과 선형보간(SLPT) 기법을 통하여 생성된 상태기반 노후도 패턴 예측모델을 제안하고 유효성 검토를 통해 빅데이터 적용에 적합한 모델을 비교하고 제안하였다. 연구결과: 제안된 기법을 검토한 결과 SLPT기법은 RMSE 및 는 0.9215와 0.0648로 SLPT기법의 예측모델이 보다 더 적합한 것으로 검토 되었다. 결론: 이러한 연구를 통해 빅데이터 기반 시설물 성능저하 예측 연구는 유지관리를 위환 의사결정에서 중요한 체계가 될 것으로 기대된다.

머신러닝 기반 시설재배 딸기 생산량 예측 연구 (A Study on the Prediction of Strawberry Production in Machine Learning Infrastructure)

  • 오한별;임종현;양승원;조용윤;신창선
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.9-16
    • /
    • 2022
  • 최근 농업 현장에서는 빅데이터와 IoT(Internet of Things) 등 기술을 적용하여 디지털농업 스마트팜으로 자동화를 하고 있다. 이러한 스마트팜은 작물의 환경을 측정하고 데이터를 조사하고 가공하여 생산량의 증대와 작물의 품질을 향상하고자 한다. 생산량 예측은 첨단 농업인 스마트팜 디지털 농업에서 중요한 연구로 빅데이터를 활용하여 환경데이터를 분석하고 나아가 생육정보 데이터 품질 관리를 위한 표준화 연구가 필요하다. 본 논문에서는 스마트팜 딸기 농장에서 수집된 환경 및 생산량 데이터를 분석하여 연구하였다. 회귀분석을 기반으로 릿지회귀(Ridge Regression), LightGBM, XGBoost를 사용하여 작물 생산량 예측 모델을 분석하였다. 3가지 모델 중 최적의 모델은 XGBoost로 R2는 82.5%의 설명력을 보였다. 연구 결과 양액흡수량과 환경데이터간의 상관관계를 확인할 수 있었고, 생산량 예측 연구에 대한 유의미한 결과를 얻을 수 있었다. 향후 작물의 생육환경 정보 및 양액의 성분 등 양액흡수량을 연구하여 양액관리를 통해 환경오염 예방 및 양액 절감에 기여할 것으로 기대된다.

Design and Implementation of Memory-Centric Computing System for Big Data Analysis

  • Jung, Byung-Kwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권7호
    • /
    • pp.1-7
    • /
    • 2022
  • 최근 대용량 데이터를 프로그램 자체에서 생성시키면서 구동되는 빅데이터 프로그램, 머신 러닝 프로그램 같은 응용 프로그램의 사용이 일상화됨에 따라 기존의 메인 메모리만으로는 메모리가 부족하여 프로그램의 빠른 실행이 어려운 경우가 발생하고 있다. 특히, 코로나 변이 바이러스 발생으로 염기서열 전체의 유전 변이 여부를 분석해야 하는 상황에는 더욱 빠르게 결과를 도출해야 하는 필요성이 대두되었다. 대용량 데이터를 병렬실행으로 빠른 결과를 필요로 하는 전장유전체(WGS; Whole Genome Sequencing) 분석 방법에 기존 SSD에서 대용량 데이터를 처리하는 것이 아닌 자체 개발한 메모리풀 MOCA host adapter가 장착된 컴퓨팅 시스템에 적용하여 성능을 측정한 결과 기존 SSD 시스템에 비해 16%의 성능 향상이 있었다. 그리고, 그 외의 다양한 벤치마크 시험에서도 워크플로우의 task별 SortSampleBam, ApplyBQSR, GatherBamFiles등 메모리풀 MOCA host adapter가 장착된 컴퓨팅 시스템에서도 SSD를 사용한 경우보다 IO 성능이 각각 92.8%, 80.6%, 32.8% 실행시간 단축을 보였다. 전장유전체파이프라인 분석같이 대용량 데이터 분석시 본 연구에서 개발한 메모리풀 MOCA host adapter가 장착된 컴퓨팅 시스템에서 분석할 경우 런타임(run time)시 발생하는 측정 지연을 줄일 수 있을 것으로 판단된다.