• Title/Summary/Keyword: 자동 데이터 구축

Search Result 716, Processing Time 0.028 seconds

Study on the development of automatic translation service system for Korean astronomical classics by artificial intelligence - Focused on system analysis and design step (천문 고문헌 특화 인공지능 자동번역 서비스 시스템 개발 연구 - 시스템 요구사항 분석 및 설계 위주)

  • Seo, Yoon Kyung;Kim, Sang Hyuk;Ahn, Young Sook;Choi, Go-Eun;Choi, Young Sil;Baik, Hangi;Sun, Bo Min;Kim, Hyun Jin;Lee, Sahng Woon
    • The Bulletin of The Korean Astronomical Society
    • /
    • v.44 no.2
    • /
    • pp.62.2-62.2
    • /
    • 2019
  • 한국의 고천문 자료는 삼국시대 이후 근대 조선까지 다수가 존재하여 세계적으로 드문 기록 문화를 보유하고 있으나, 한문 번역이 많이 이루어지지 않아 학술적 활용이 활발하지 못한 상태이다. 고문헌의 한문 문장 번역은 전문인력의 수작업에 의존하는 만큼 소요 시간이 길기에 투자대비 효율성이 떨어지는 편이다. 이에 최근 여러 분야에서 응용되는 인공지능의 적용을 대안으로 삼을 수 있으며, 초벌 번역 수준일지라도 자동번역기의 개발은 유용한 학술도구가 될 수 있다. 한국천문연구원은 한국정보화진흥원이 주관하는 2019년도 Information and Communication Technology 기반 공공서비스 촉진사업에 한국고전번역원과 공동 참여하여 인공신경망 기계학습이 적용된 고문헌 자동번역모델을 개발하고자 한다. 이 연구는 고천문 도메인에 특화된 인공지능 기계학습 기법으로 자동번역모델을 개발하여 이를 서비스하는 것을 목적으로 한다. 연구 방법은 크게 4가지 개발을 진행하는 것으로 나누어 볼 수 있다. 첫째, 인공지능의 학습 데이터에 해당되는 '코퍼스'를 구축하는 것이다. 이는 고문헌의 한자 원문과 한글 번역문이 쌍을 이루도록 만들어 줌으로써 학습에 최적화한 데이터를 최소 6만 개 이상 추출하는 것이다. 둘째, 추출된 학습 데이터 코퍼스를 다양한 인공지능 기계학습 기법에 적용하여 천문 분야 특수고전 도메인에 특화된 자동번역 모델을 생성하는 것이다. 셋째, 클라우드 기반에서 참여 기관별로 소장한 고문헌을 자동 번역 모델에 기반하여 도메인 특화된 모델로 도출 및 활용할 수 있는 대기관 서비스 플랫폼 구축이다. 넷째, 개발된 자동 번역기의 대국민 개방을 위해 웹과 모바일 메신저를 통해 자동 번역 서비스를 클라우드 기반으로 구축하는 것이다. 이 연구는 시스템 요구사항 분석과 정의를 바탕으로 설계가 진행 또는 일부 완료되어 구현 중에 있다. 추후 이 연구의 성능 평가는 자동번역모델 평가와 응용시스템 시험으로 나누어 진행된다. 자동번역모델은 평가용 테스트셋에 의한 자동 평가와 전문가에 의한 휴먼 평가에 따라 모델의 품질을 수치로 측정할 수 있다. 또한 응용시스템 시험은 소프트웨어 방법론의 개발 단계별 테스트를 적용한다. 이 연구를 통해 고천문 분야가 인공지능 자동번역 확산 플랫폼 시범의 첫 케이스라는 점에서 의의가 있다. 즉, 클라우드 기반으로 시스템을 구축함으로써 상대적으로 적은 초기 비용을 투자하여 활용성이 높은 한문 문장 자동 번역기라는 연구 인프라를 확보하는 첫 적용 학문 분야이다. 향후 이를 활용한 고천문 분야 학술 활동이 더욱 활발해질 것을 기대해 볼 수 있다.

  • PDF

GIS 데이터구축 감리와 검수 프로그램

  • 조윤숙;박인만;정필구
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2002.03b
    • /
    • pp.11-24
    • /
    • 2002
  • Many GIS systems are not to be trusted becuase many GIS project managers often fail to notice importance of GIS data Construction. With this reason, it is a lively discussion on GIS administration system's adaption. The definition of GIS administration system is not clear, but GIS administration system generally is devided information system administration, audit guideline for the data construction of GIS. Audit guideline for the data construction of GIS. GIS data construction's goals are logical and reasonable action policy of GIS data construction in widespread filed, the other goal is creation of product to the purpose exactly. Audit guideline for the data construction of GIS is composed of optimum of GIS data construction's planning, optimum of GIS data construction's activity, optimum of GIS data quality management, optimum of consultations of GIS data construction, GIS data audit. GIS data audit is the phase of detection product's potential error in each level. GIS data audit is composed of filed examination or filed verification, examination with the naked eye, screen verification, program verification, auto verification. GIS information system's efficiency is linked with auto verification system's function variety, accuracy. this paper offer introduction of Audit guideline for the data construction of GIS, efficient auto verification program

  • PDF

Big Data based Classroom Assignment Algorithm and its Application to the Academics System (데이터에 근거한 강의실 자동 배정 알고리즘 설계와 학사관리 시스템 적용사례)

  • Chin, Sang-Kyu;Kim, Seung-Hwan;Lee, Soon-Kyo;Cheong, Taesu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.348-351
    • /
    • 2016
  • 대학에서는 매학기 개설된 수업에 대해 강의실 배정작업을 진행하고 있으며 대부분의 대학에서는 년4회(1 2학기, 여름, 겨울 계절학기) 수작업으로 반복적인 강의실 배정 작업을 수행하고 있다. 강의실 배정작업은 교수가 선호하는 강의실 또는 교과목특성(실험과목 및 대형 강의)이 반영된 강의실 등 다양한 조건에 의해 강의실을 배정하고 있으며 수작업으로 일일이 강의실을 배정 하는 데에는 상당한 시간이 소요되고 있다. 몇몇 대학에서는 강의실 배정작업을 개선하기 위해 교수 및 강의실의 특성을 고려한 강의실 자동 배정 시스템을 구축을 시도 하였으나, 많은 변수로 인해 여전히 수작업으로 강의실을 배정하고 있다. 이에 본 연구에서는 강의실 자동 배정 시스템을 구축하기 위한 방법으로 최근 3년간 기 배정된 강의실 빅 데이터 자료를 기반으로 작성된 강의실 자동 배정 알고리즘을 제시하고 실적용한 고려대학교 시스템 구축 사례를 살펴보고자 한다.

Automatic Ontology Generation for Item Recommendation to Customer (고객 상품 추천을 위한 온톨로지 자동 생성)

  • 구미숙;황정희;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.235-237
    • /
    • 2004
  • 최근 인터넷 기술의 발전으로 인해 정보량이 급증함으로써 이들 정보자원을 효과적으로 검색하기 위한 방법으로 메타데이터를 이용하여 필요한 정보 자원에 정확하게 접근하는 방법이 다양한 분야에서 제안되고 있다. 메타데이터는 정보자원을 효과적으로 검색하고 데이터를 재가공하여 다양한 각종 정보자원에 대한 정보 및 기록 관리를 할 수 있다. 이 논문에서는 정보를 효율적으로 검색하기 위하여 XML을 이용한 온톨로지 기반의 메타데이터를 이용한다. 홈쇼핑 사이트의 고객인 소비자를 대상으로 효율적인 정보 추천 및 검색을 위해, 상품 토픽맵 온톨로지를 구축하고 소비자에게 알맞은 쇼핑 정보를 전달하기 위한 정보검색 시스템을 설계 구축한다. 온톨로지의 자동적 구축은 데이터 마이닝 기법인 COBWEB의 개념 계층적 클러스터링 알고리즘을 이용하였다. 기존의 전문가에 의한 수동적인 온톨로지 구축을 자동화 시키므로써, 대량의 온톤로지를 구축하여 정보검색에 효율을 기할 수 있다.

  • PDF

Building of an Integrated Navigation Guiding System Based on ENC (ENC기반 통합형 항해가이딩시스템의 구축)

  • Hong Tae-ho;Seo Ki-yeol;Park Gyei-Kark
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.04a
    • /
    • pp.394-399
    • /
    • 2005
  • 현재 선박에서 항해사에게 항로정보를 제공하는 장비는 ECDIS와 GPS 플로터가 많이 사용되고 있으나 자동항로생성 및 항로설명기능이 없어 숙련된. 항해사만 사용할 구 있는 문제가 있으며, 특히 종이해도의 대체 시스템인 ECDIS에 사용되는 ENC를 이용한 자동항로생성 및 항로 설명에 관한 연구는 없는 실정이다. ENC는 IHO에서 정의한 S-52, S-57 표준포멧을 기반으로 제작된다. 본 논문에서는 ENC의 해도데이터와 GPS의 위치데이터, Anemometer의 풍향$\cdot$풍속데이터, 조류데이터를 이용하여 현 위치에서 목적지까지의 최적항로를 설계하여 안내해주는 통합형 항해가이딩시스템(INGS)을 구축하여 그 유효성을 확인하였다.

  • PDF

A study on the implementation of XML-based Digital Library : MARC to XMLMARC (XML기반 디지털도서관 구현에 관한 연구 : XMLMARC시스템 구축을 중심으로)

  • 조윤희
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2000.08a
    • /
    • pp.79-82
    • /
    • 2000
  • 본 연구는 XML기반 디지털도서관 구현을 위한 선행연구로서, 디지털도서관의 출현과 MARC 포맷의 이용현황에 관한 이론적인 검토와 MARC에서 XMLMARC로의 변환 사례를 검토하였다. 또한 XML기반 디지털도서관 통합서비스를 실천하려면, MARC 데이터의 표준 서지 생성, 웹 자원을 포함한 데이터의 자동생성, 벤더와의 데이터 교환, ILS에서 ILS로의 데이터 교환 환경의 구축이 선행되어야 함을 제안하였다.

  • PDF

A Study on the Automatic Extraction of Fomulation and Properties in Chemical Field Patent Document by Using Machine Learning Technology (기계학습 기술을 활용한 화학분야 특허문서의 조성/물성 정보 자동추출 방법 연구)

  • Kim, Hongki;Lee, Hayoung;Park, Jinwoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.277-280
    • /
    • 2019
  • 본 논문에서는 화학분야 특허 문서에 존재하는 도표(TABLE) 데이터를 인공지능 기술을 활용하여 자동으로 추출하고 정형화된 형태로 가공하는 방법을 제안한다. 특허 문서에서 도표 데이터는 실시예에서 실험결과나 비교결과를 간결하고 가시적으로 표현하기 위하여 주로 사용되나, 셀의 속성을 정의하는 헤더부분과 수치가 표현되는 값 부분의 경계가 모호하여 구조화하는데 어려움이 있다. 본 논문에서 제안하는 방법은 소량의 학습데이터를 구축하고 기계학습을 통해 도표에 존재하는 셀의 속성을 예측하고, 예측된 속성을 토대로 조성과 물성 정보를 자동으로 구분하여 추출하는 방법을 제시한다. 제시된 방법을 활용하여 화학 분야 조성물 특허의 도표데이터에 시뮬레이션 결과 각 항목별 98.17%의 속성 예측 정확도를 나타내었으며 기존 규칙기반 연구보다 작업난이도, 예측정확도에서 우수한 성과를 보인다.

  • PDF

Generating Premise-Hypothesis-Label Triplet Using Chain-of-Thought and Program-aided Language Models (Chain-of-Thought와 Program-aided Language Models을 이용한 전제-가설-라벨 삼중항 자동 생성)

  • Hee-jin Cho;Changki Lee;Kyoungman Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.352-357
    • /
    • 2023
  • 자연어 추론은 두 문장(전제, 가설)간의 관계를 이해하고 추론하여 함의, 모순, 중립 세 가지 범주로 분류하며, 전제-가설-라벨(PHL) 데이터셋을 활용하여 자연어 추론 모델을 학습한다. 그러나, 새로운 도메인에 자연어 추론을 적용할 경우 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자원이 필요하다는 문제가 있다. 본 논문에서는 자연어 추론을 위한 학습 데이터인 전제-가설-라벨 삼중항을 자동 생성하기 위해 [1]에서 제안한 문장 변환 규칙 대신에 거대 언어 모델과 Chain-of-Thought(CoT), Program-aided Language Models(PaL) 등의 프롬프팅(Prompting) 방법을 이용하여 전제-가설-라벨 삼중항을 자동으로 생성하는 방법을 제안한다. 실험 결과, CoT와 PaL 프롬프팅 방법으로 자동 생성된 데이터의 품질이 기존 규칙이나 기본 프롬프팅 방법보다 더 우수하였다.

  • PDF

Extracting English-Korean Named-Entity Word-pairs using Wikipedia (위키피디아를 이용한 영-한 개체명 대역어 쌍 구축)

  • Kim, Eun-Kyung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.101-105
    • /
    • 2009
  • 본 논문은 공통적으로 이용할 수 있는 웹 환경에서의 한국어 정보로 획득할 수 있는 정보의 양이 영어권 정보의 양보다 상대적으로 적다는 것을 토대로, 웹정보 이용의 불균형을 해소하고자 하는 목적으로부터 출발하였다. 최근에는 지식 정보의 세계화, 국제화에 따라 동일한 정보를 각국 언어로 제공하고자하는 연구가 꾸준히 증가하고 있다. 온라인 백과사전인 위키피디아 역시 현재 다국어로 제공이 되고 있지만 한국어로 작성된 문서는 영어로 작성된 문서의 5% 미만인 것으로 조사되었다. 본 논문에서는 위키피디아 내에서 제공하는 다국어간의 링크 정보와 인포박스 데이터를 활용하여 위키피디아 문서 내에서 개체명을 인식하고, 자동으로 개체명의 영-한 대역어 쌍을 추출하는 것을 목표로 한다. 개체명은 일반 사전에 등재 되지 않은 경우가 많기 때문에, 기계번역에서 사전 데이터 등을 활용하여 개체명을 처리하는 것은 쉽지 않으며 일반적으로 음차표기 방식을 함께 사용하여 해결하고 있다. 본 논문을 통해 위키피디아 데이터를 활용해 만들어진 영-한 개체명 대역어 사전을 구축하기 위해 사용된 기술은 추후 위키피디아 문서를 기계번역하는데 있어 동일한 방법으로 사용이 가능하며, 구축된 사전 데이터는 추후 영-한 자동 음차표기 연구의 사전 데이터로도 활용이 가능하다.

  • PDF

Designand Implementation of Web-Based Blood-Cell Analysis System for Pathology Diagnosis (병리진단을 위한 웹기반 혈액영상 분석시스템의 설계 및 구현)

  • 김경수;이영신;김용국;이윤배;김판구
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.10a
    • /
    • pp.333-337
    • /
    • 1998
  • 의학분야에서 컴퓨터 활용은 단순히 처리할 데이터의 자동화뿐만 아니라 각종 의학영상들을 자동으로 처리함으로서 의사의 진단을 도와주는 형태로 발전되어 가고 있다. 본 논문에서는 병원의 임상병리과에서 번번히 수행하는 혈액검사를 자동화하기 위한 것으로 혈액을 자동 분석하는 웹 기반 분석시스템을 구축하였다. 이를 위해 본 논문에서는 혈액 영상으로부터 특징을 추출하기 위한 단계를 서술하고 세포분류를 위한 다층 신경망을 이용해 구현한 내용을 보인다. 또한 본 연구의 결과로 신경망의 학습 효율을 높이기 위한 전처리로서 학습 데이터에 대해 러프 집합 이론을 적용하여 학습 데이터의 차원을 효과적으로 줄일 수 있었다.

  • PDF