• Title/Summary/Keyword: 과학기술 데이터

Search Result 2,538, Processing Time 0.041 seconds

Natural Language Processing Trends For Science & Technology Data (과학기술데이터를 위한 자연어처리 기술 동향)

  • Jeong, Hyun Ji;Jang, Gwangseon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.666-669
    • /
    • 2021
  • 연구수행과정에서 발생하는 논문, 특허, 연구보고서 등의 과학기술데이터는 다양한 과학기술지식을 포함한다. 연구자들의 효과적인 연구를 지원하기 위해서는 과학기술데이터 분석을 통한 지식 발견이 필수적이다. 과학기술데이터는 일반 텍스트와는 다르게 다수의 전문용어를 포함하고 있으며, 고유의 양식이 정해져 있고, 텍스트 길이가 대체로 길다는 특징이 있다. 본 고에서는 이러한 과학기술데이터만의 고유한 특징을 반영한 인공지능 기반 자연어처리 기술들을 소개함으로써 과학기술데이터 분석에 대한 이해를 돕고자 한다.

Dataset construction and Automatic classification of Department information appearing in Domestic journals (국내 학술지 출현 학과정보 데이터셋 구축 및 자동분류)

  • Byungkyu Kim;Beom-Jong You;Hyoung-Seop Shim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.343-344
    • /
    • 2023
  • 과학기술 문헌을 활용한 계량정보분석에서 학과정보의 활용은 매유 유용하다. 본 논문에서는 한국과학기술인용색인데이터베이스에 등재된 국내 학술지 논문에 출현하는 대학기관 소속 저자의 학과정보를 추출하고 데이터 정제 및 학과유형 분류 처리를 통해 학과정보 데이터셋을 구축하였다. 학과정보 데이터셋을 학습데이터와 검증데이터로 이용하여 딥러닝 기반의 자동분류 모델을 구현하였으며, 모델 성능 평가 결과는 한글 학과정보 기준 98.6%와 영문 학과정보 기준 97.6%의 정확률로 측정되었다. 향후 과학기술 분야별 지적관계 분석 및 논문 주제분류 등에 학과정보 자동분류 처리기의 활용이 기대된다.

  • PDF

과학기술데이터 신뢰성 평가를 통한 참조표준 확립에 관한 연구

  • Chae, Gyun-Sik
    • STIMA Bulletin
    • /
    • s.5
    • /
    • pp.24-37
    • /
    • 2006
  • 과학기술테이터는 엄격한 평가기준에 의해 신뢰성과 정확성이 보장된 참조표준(standard reference data)값을 지닐 수 있어야 한다. 참조표준은 측정표준을 바탕으로 구하여진 결과 값을 표준화시키는 작업으로서 테잍의 생산조건, 실험환경, 측정방법, 데이터 처리 등이 검토되어 참조데이터(reference data)와 구분된다. 참조표준은 '공인된 수치데이터'로 표현되고 이는 측정결과의 신뢰도를 정량적으로 나타내는 불확도(uncertainty)로 표기된다.본고에서는 참조표준에 대한 의미를 이해하고,평가되지 않은 과학기술 데이터가 어떤 평가 과정을 거쳐 참조표준으로 분류되는지를 알아보기 위해 소재물성분야를 예로 살펴보았다.

  • PDF

A Study on Wired and Wireless Networking for Science Big Data Transfer (과학빅데이터 고속전송을 위한 유무선 네트워킹 적용방안 연구)

  • Seok, Woojin;Kim, Kiwook;Kwak, Jaiseung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.181-183
    • /
    • 2022
  • 본 논문에서는 과학빅데이터를 전송하는 방법으로 과학실험장비 에서 발생하는 빅데이터를 유선네트워크에서의 고속전송하는 기술 방안과 과학실험장비 내부에서의 데이터를 송수신하기 위한 근거리 고속 무선네트워크 기술에 대한 적용기술을 살펴보고자 한다. 이러한 유무선 네트워킹 기술이 해결하고자 하는 기술적 요소 등을 살펴보고 적용가능한 기술방안을 제안하고자 한다.

A Study on Energy Data Exchange Guide in Energy Data Platform (에너지 데이터 플랫폼에서의 거래 가이드에 관한 연구)

  • Kim, Woo-Je;Jeong, Beomjin;Kim, Hayoon;Jeon, JongHyeon;Park, Subin
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.731-734
    • /
    • 2021
  • 본 논문에서는 에너지 데이터 플랫폼에서의 데이터 거래 가이드라인을 연구 및 제안한다. 타 산업에서의 데이터 플랫폼들의 현황과 에너지 데이터 플랫폼 구조를 분석하여 에너지 데이터 거래에서의 이해관계자를 정의한다. 또한, 타 산업에서의 데이터 거래가이드를 분석하여 에너지 거래 가이드 구성요소와 거래 계약 거래 원칙을 정의한다. 에너지 데이터 거래 가이드의 구성 요소로는 데이터 거래 이해관계자 정의, 데이터 거래 유형, 데이터 거래 유형별 거래 계약 원칙, 데이터 구매 및 판매비용 산정 방안, 데이터 플랫폼 이용료 산정 방안, 데이터 거래시 법적 쟁점으로 구성된다. 본 연구에서는 데이터 거래 이해관계자 정의, 데이터 거래 유형, 데이터 거래 유형별 거래 계약 원칙에 대해 정의하였다.

  • PDF

A Design of Metadata Conversion Tool for Research Paper (학술논문 메타데이터 변환 도구의 설계)

  • Lee, Min-Ho;Lee, Won-Goo;Yoon, Hwa-Mook;Sung, Won-Kyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1222-1225
    • /
    • 2011
  • 대량의 데이터를 분석하여 보다 차원 높은 정보서비스를 제공하기 위해서는 다양한 데이터의 통합관리가 필수적이다. 특히 과학기술 분야에서는 논문 메타데이터를 분석하여 연구동향 파악, 선도 연구자 파악 등을 하기 위한 연구가 진행 중이다. 논문 메타 데이터의 통합 관리를 위해서는 메타데이터 스키마의 매핑과 데이터 변환이 필요한데, 본 논문에서는 논문 메타데이터 변환에서의 문제를 분석하여 보고, 해결하기 위한 방법을 제시하였다. 또한 다양한 구문을 지원하면서 스키마에 유연하여 시스템 수정이 필요없는 도구를 설계하였다.

KorSciQA: A Dataset for Machine Comprehension of Korean Scientific Paper (KorSciQA: 한국어 논문의 기계독해 데이터셋)

  • Hahm, Younggyun;Jeong, Youngbin;Jeong, Heeseok;Hwang, Hyekyong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.207-212
    • /
    • 2019
  • 본 논문에서는 한국어로 쓰여진 과학기술 논문에 대한 기계독해 과제(일명 KorSciQA)를 제안하고자 하며, 그와 수반하는 데이터 구축 및 평가를 보고한다. 다양한 제약조건이 부가된 크라우드소싱 디자인을 통하여, 498개의 논문 초록에 대해 일관성 있는 품질의 2,490개의 질의응답으로 구성된 기계독해 데이터셋을 구축하였다. 이 데이터셋은 어느 논문에서나 나타나는 논박 요소들인 논의하는 문제, 푸는 방법, 관련 데이터, 모델 등과 밀접한 질문으로 구성되고, 각 논박 요소의 의미, 목적, 이유 파악 및 다양한 추론을 하여 답을 할 수 있는 것이다. 구축된 KorSciQA 데이터셋은 실험을 통하여 기존의 기계독해 모델의 독해력으로는 풀기 어려운 도전과제로 평가되었다.

  • PDF

Analysis and Forecast of Technology Trends from S&T Big Data (과학기술 빅 데이터 기반 기술 동향 분석 및 예측)

  • Jung, Hanmin
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2012.05a
    • /
    • pp.169.1-169.1
    • /
    • 2012
  • 최근 높은 관심과 기술적 이슈를 끌어내고 있는 빅 데이터는 과학기술 분야에도 무수히 존재한다. 위성사진, 동영상을 비롯하여 링크드 데이터 (Linked Data)에 이르기까지 데이터 유형과 무관하게 처리해야 할 대상은 계속 늘어가고 있는 실정이다. 최근 몇 년동안 과학기술 문헌을 대상으로 시맨틱 기술과 자연어처리 기술을 이용하여 기술 동향을 분석하고 예측하는 연구를 수행해 온 KISTI는 빅 데이터 환경에 맞추어 분석 플랫폼을 분산/병렬화하는 동시에 모바일 서비스 플랫폼을 통해 신속한 의사 결정을 지원하는 전략을 취하고 있다. 또한, 법무부, 국방기술품질원, 관세청에 적용한 분석 기술을 더욱 고도화하여 사용자 적응형 가이드 서비스를 개발하고 이를 통해 연구 개발 전략 수립을 실제적으로 지원할 수 있도록 노력하고 있다.

  • PDF

An Inference System for Deep Learning Model Based on Real-time Big Data (실시간 빅데이터 기반 딥러닝 모델 추론 시스템)

  • Park, Kyongseok;Yu, Chan Hee;Kim, Yuseon;Um, Jung-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.736-737
    • /
    • 2021
  • 최근의 빅데이터 처리 환경은 실시간 빅데이터를 기반으로 하고 있다. 실시간 빅데이터 처리를 위해서는 기존의 배치처리 방식의 빅데이터 기술에서 발생하는 기술적 요구를 포함하여 추가적으로 요구되는 다양한 문제들을 고려해야 한다. 기계학습 모형을 활용한 의사결정 지원 시스템의 경우 모형 개발을 위한 배치처리 기술과 함께 모형의 배포와 최적화 등도 고려되어야 하며 발전 설비나 제조, 공정, 배송 등의 분야에서 발생하는 대규모 실시간 데이터를 이용하여 추론을 수행해야 한다. 본 연구에서는 센서 데이터를 활용한 예측 모형 개발과 실시간 데이터 처리 그리고 추론을 위한 모델 배포와 최적화 과정을 지원하는 시스템 환경을 제공하여 실제 현장에서 발생하고 있는 데이터를 활용하여 실증을 수행하였다.

Performance Enhancement of A Massive Scientific Data Visualization System on Virtual Reality Environment by Using Data Locality (Data Locality를 활용한 VR환경에서의 대용량 데이터 가시화 시스템의 성능 개선)

  • Lee, Se-Hoon;Kim, Min-Ah;Lee, Joong-Yeon;Hur, Young-Ju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.284-287
    • /
    • 2012
  • GLOVE(GLObal Virtual reality visualization Environment for scientific simulation)는 컴퓨팅 자원의 성능 향상으로 데이터 양이 급속히 증가한 응용 과학과 전산 시뮬레이션 분야의 대용량 과학 데이터를 효율적으로 가시화하여 분석하기 위한 도구이다. GLOVE의 데이터 관리자인 GDM(GLOVE Data Manager)은 대용량 데이터의 분산 병렬 가시화를 위해 분산 공유 메모리를 제공하는 GA(Global Array)를 이용해 테라 바이트 단위의 데이터를 실시간으로 처리한다. 그러나 대용량 과학 데이터를 가시화 하는 과정에서 기존의 Data Locality를 고려하지 않은 데이터 접근 방식으로 인한 성능 저하를 확인했다. 본 논문은 기존 GLOVE에서 발견한 성능 저하 현상을 밝히고, 이에 대한 해결 방법을 제시한다.