• 제목/요약/키워드: 자동 데이터 구축

검색결과 716건 처리시간 0.026초

천문 고문헌 특화 인공지능 자동번역 서비스 시스템 개발 연구 - 시스템 요구사항 분석 및 설계 위주 (Study on the development of automatic translation service system for Korean astronomical classics by artificial intelligence - Focused on system analysis and design step)

  • Seo, Yoon Kyung;Kim, Sang Hyuk;Ahn, Young Sook;Choi, Go-Eun;Choi, Young Sil;Baik, Hangi;Sun, Bo Min;Kim, Hyun Jin;Lee, Sahng Woon
    • 천문학회보
    • /
    • 제44권2호
    • /
    • pp.62.2-62.2
    • /
    • 2019
  • 한국의 고천문 자료는 삼국시대 이후 근대 조선까지 다수가 존재하여 세계적으로 드문 기록 문화를 보유하고 있으나, 한문 번역이 많이 이루어지지 않아 학술적 활용이 활발하지 못한 상태이다. 고문헌의 한문 문장 번역은 전문인력의 수작업에 의존하는 만큼 소요 시간이 길기에 투자대비 효율성이 떨어지는 편이다. 이에 최근 여러 분야에서 응용되는 인공지능의 적용을 대안으로 삼을 수 있으며, 초벌 번역 수준일지라도 자동번역기의 개발은 유용한 학술도구가 될 수 있다. 한국천문연구원은 한국정보화진흥원이 주관하는 2019년도 Information and Communication Technology 기반 공공서비스 촉진사업에 한국고전번역원과 공동 참여하여 인공신경망 기계학습이 적용된 고문헌 자동번역모델을 개발하고자 한다. 이 연구는 고천문 도메인에 특화된 인공지능 기계학습 기법으로 자동번역모델을 개발하여 이를 서비스하는 것을 목적으로 한다. 연구 방법은 크게 4가지 개발을 진행하는 것으로 나누어 볼 수 있다. 첫째, 인공지능의 학습 데이터에 해당되는 '코퍼스'를 구축하는 것이다. 이는 고문헌의 한자 원문과 한글 번역문이 쌍을 이루도록 만들어 줌으로써 학습에 최적화한 데이터를 최소 6만 개 이상 추출하는 것이다. 둘째, 추출된 학습 데이터 코퍼스를 다양한 인공지능 기계학습 기법에 적용하여 천문 분야 특수고전 도메인에 특화된 자동번역 모델을 생성하는 것이다. 셋째, 클라우드 기반에서 참여 기관별로 소장한 고문헌을 자동 번역 모델에 기반하여 도메인 특화된 모델로 도출 및 활용할 수 있는 대기관 서비스 플랫폼 구축이다. 넷째, 개발된 자동 번역기의 대국민 개방을 위해 웹과 모바일 메신저를 통해 자동 번역 서비스를 클라우드 기반으로 구축하는 것이다. 이 연구는 시스템 요구사항 분석과 정의를 바탕으로 설계가 진행 또는 일부 완료되어 구현 중에 있다. 추후 이 연구의 성능 평가는 자동번역모델 평가와 응용시스템 시험으로 나누어 진행된다. 자동번역모델은 평가용 테스트셋에 의한 자동 평가와 전문가에 의한 휴먼 평가에 따라 모델의 품질을 수치로 측정할 수 있다. 또한 응용시스템 시험은 소프트웨어 방법론의 개발 단계별 테스트를 적용한다. 이 연구를 통해 고천문 분야가 인공지능 자동번역 확산 플랫폼 시범의 첫 케이스라는 점에서 의의가 있다. 즉, 클라우드 기반으로 시스템을 구축함으로써 상대적으로 적은 초기 비용을 투자하여 활용성이 높은 한문 문장 자동 번역기라는 연구 인프라를 확보하는 첫 적용 학문 분야이다. 향후 이를 활용한 고천문 분야 학술 활동이 더욱 활발해질 것을 기대해 볼 수 있다.

  • PDF

GIS 데이터구축 감리와 검수 프로그램

  • 조윤숙;박인만;정필구
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2002년도 춘계학술대회논문집
    • /
    • pp.11-24
    • /
    • 2002
  • GIS 사업의 특성상 데이터구축 부문은 전체 사업의 성패를 좌우할 만큼 중요한 부문임에도 불구하고 지금까지의 GIS 사업은 데이터구축 부문의 중요성을 간과하고 넘어간 사업이 많은 것이 사실이며 이를 계기로 사용자는 사업성과물인 전체 정보 시스템에 대한 신뢰성을 갖지 못하는 경우도 발생했다. 이런 계기로 GIS감리제도의 필요성에 대한 활발한 논의가 이루어지게 되었다. GIS감리에 대해서 아직은 명확히 정의된 것은 없지만 크게 전산기술 감리(구 정보시스템 관리)와 GIS Data구축감리의 두가지 큰 내용으로 나뉘어지는게 일반적이다. GIS Data구축감리의 목적은 데이터구축 활동의 합리적이고 전반적인 활동체계를 갖는 것과 사업목적에 맞는 올바르고 정확한 산출물 생성에 있다. 그리고, GIS Data구축감리의 목적을 이루기 위한 내용은 크게 데이터 구축 계획수립의 적정성, 데이터 구축 활동의 적정성, 데이터 품질관리 활동의 적정성, 데이터 구축부문에 관한 컨설팅, 데이터 검수의 5가지로 나눌수 있다. CIS Data구축감리의 내용 중 데이터 검수는 실제적으로 구축되는 단계별 산출물에 대해서 내재되는 오류를 찾아내는 단계로써 현장검수, 육안검수, 화면검수, 전산검수, 자동검수 5가지의 내용으로 이루어진다. 정보화 시스템에 사용되는 CIS 데이터는 자동검수 기능의 다양함과 정밀함에 따라 정보화 시스템의 성능이 결정된다고 해도 과언이 아니다. 본 논문은 Data CIS Data구축 감리에 대한 전반적인 내용에 대한 소개와 전산검수에 사용되는 효과적인 검수 프로그램을 제안한다.

  • PDF

데이터에 근거한 강의실 자동 배정 알고리즘 설계와 학사관리 시스템 적용사례 (Big Data based Classroom Assignment Algorithm and its Application to the Academics System)

  • 진상규;김승환;이순교;정태수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.348-351
    • /
    • 2016
  • 대학에서는 매학기 개설된 수업에 대해 강의실 배정작업을 진행하고 있으며 대부분의 대학에서는 년4회(1 2학기, 여름, 겨울 계절학기) 수작업으로 반복적인 강의실 배정 작업을 수행하고 있다. 강의실 배정작업은 교수가 선호하는 강의실 또는 교과목특성(실험과목 및 대형 강의)이 반영된 강의실 등 다양한 조건에 의해 강의실을 배정하고 있으며 수작업으로 일일이 강의실을 배정 하는 데에는 상당한 시간이 소요되고 있다. 몇몇 대학에서는 강의실 배정작업을 개선하기 위해 교수 및 강의실의 특성을 고려한 강의실 자동 배정 시스템을 구축을 시도 하였으나, 많은 변수로 인해 여전히 수작업으로 강의실을 배정하고 있다. 이에 본 연구에서는 강의실 자동 배정 시스템을 구축하기 위한 방법으로 최근 3년간 기 배정된 강의실 빅 데이터 자료를 기반으로 작성된 강의실 자동 배정 알고리즘을 제시하고 실적용한 고려대학교 시스템 구축 사례를 살펴보고자 한다.

고객 상품 추천을 위한 온톨로지 자동 생성 (Automatic Ontology Generation for Item Recommendation to Customer)

  • 구미숙;황정희;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.235-237
    • /
    • 2004
  • 최근 인터넷 기술의 발전으로 인해 정보량이 급증함으로써 이들 정보자원을 효과적으로 검색하기 위한 방법으로 메타데이터를 이용하여 필요한 정보 자원에 정확하게 접근하는 방법이 다양한 분야에서 제안되고 있다. 메타데이터는 정보자원을 효과적으로 검색하고 데이터를 재가공하여 다양한 각종 정보자원에 대한 정보 및 기록 관리를 할 수 있다. 이 논문에서는 정보를 효율적으로 검색하기 위하여 XML을 이용한 온톨로지 기반의 메타데이터를 이용한다. 홈쇼핑 사이트의 고객인 소비자를 대상으로 효율적인 정보 추천 및 검색을 위해, 상품 토픽맵 온톨로지를 구축하고 소비자에게 알맞은 쇼핑 정보를 전달하기 위한 정보검색 시스템을 설계 구축한다. 온톨로지의 자동적 구축은 데이터 마이닝 기법인 COBWEB의 개념 계층적 클러스터링 알고리즘을 이용하였다. 기존의 전문가에 의한 수동적인 온톨로지 구축을 자동화 시키므로써, 대량의 온톤로지를 구축하여 정보검색에 효율을 기할 수 있다.

  • PDF

ENC기반 통합형 항해가이딩시스템의 구축 (Building of an Integrated Navigation Guiding System Based on ENC)

  • 홍태호;서기열;박계각
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.394-399
    • /
    • 2005
  • 현재 선박에서 항해사에게 항로정보를 제공하는 장비는 ECDIS와 GPS 플로터가 많이 사용되고 있으나 자동항로생성 및 항로설명기능이 없어 숙련된. 항해사만 사용할 구 있는 문제가 있으며, 특히 종이해도의 대체 시스템인 ECDIS에 사용되는 ENC를 이용한 자동항로생성 및 항로 설명에 관한 연구는 없는 실정이다. ENC는 IHO에서 정의한 S-52, S-57 표준포멧을 기반으로 제작된다. 본 논문에서는 ENC의 해도데이터와 GPS의 위치데이터, Anemometer의 풍향$\cdot$풍속데이터, 조류데이터를 이용하여 현 위치에서 목적지까지의 최적항로를 설계하여 안내해주는 통합형 항해가이딩시스템(INGS)을 구축하여 그 유효성을 확인하였다.

  • PDF

XML기반 디지털도서관 구현에 관한 연구 : XMLMARC시스템 구축을 중심으로 (A study on the implementation of XML-based Digital Library : MARC to XMLMARC)

  • 조윤희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2000년도 제7회 학술대회 논문집
    • /
    • pp.79-82
    • /
    • 2000
  • 본 연구는 XML기반 디지털도서관 구현을 위한 선행연구로서, 디지털도서관의 출현과 MARC 포맷의 이용현황에 관한 이론적인 검토와 MARC에서 XMLMARC로의 변환 사례를 검토하였다. 또한 XML기반 디지털도서관 통합서비스를 실천하려면, MARC 데이터의 표준 서지 생성, 웹 자원을 포함한 데이터의 자동생성, 벤더와의 데이터 교환, ILS에서 ILS로의 데이터 교환 환경의 구축이 선행되어야 함을 제안하였다.

  • PDF

기계학습 기술을 활용한 화학분야 특허문서의 조성/물성 정보 자동추출 방법 연구 (A Study on the Automatic Extraction of Fomulation and Properties in Chemical Field Patent Document by Using Machine Learning Technology)

  • 김홍기;이하영;박진우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.277-280
    • /
    • 2019
  • 본 논문에서는 화학분야 특허 문서에 존재하는 도표(TABLE) 데이터를 인공지능 기술을 활용하여 자동으로 추출하고 정형화된 형태로 가공하는 방법을 제안한다. 특허 문서에서 도표 데이터는 실시예에서 실험결과나 비교결과를 간결하고 가시적으로 표현하기 위하여 주로 사용되나, 셀의 속성을 정의하는 헤더부분과 수치가 표현되는 값 부분의 경계가 모호하여 구조화하는데 어려움이 있다. 본 논문에서 제안하는 방법은 소량의 학습데이터를 구축하고 기계학습을 통해 도표에 존재하는 셀의 속성을 예측하고, 예측된 속성을 토대로 조성과 물성 정보를 자동으로 구분하여 추출하는 방법을 제시한다. 제시된 방법을 활용하여 화학 분야 조성물 특허의 도표데이터에 시뮬레이션 결과 각 항목별 98.17%의 속성 예측 정확도를 나타내었으며 기존 규칙기반 연구보다 작업난이도, 예측정확도에서 우수한 성과를 보인다.

  • PDF

Chain-of-Thought와 Program-aided Language Models을 이용한 전제-가설-라벨 삼중항 자동 생성 (Generating Premise-Hypothesis-Label Triplet Using Chain-of-Thought and Program-aided Language Models)

  • 조희진;이창기;배경만
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.352-357
    • /
    • 2023
  • 자연어 추론은 두 문장(전제, 가설)간의 관계를 이해하고 추론하여 함의, 모순, 중립 세 가지 범주로 분류하며, 전제-가설-라벨(PHL) 데이터셋을 활용하여 자연어 추론 모델을 학습한다. 그러나, 새로운 도메인에 자연어 추론을 적용할 경우 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자원이 필요하다는 문제가 있다. 본 논문에서는 자연어 추론을 위한 학습 데이터인 전제-가설-라벨 삼중항을 자동 생성하기 위해 [1]에서 제안한 문장 변환 규칙 대신에 거대 언어 모델과 Chain-of-Thought(CoT), Program-aided Language Models(PaL) 등의 프롬프팅(Prompting) 방법을 이용하여 전제-가설-라벨 삼중항을 자동으로 생성하는 방법을 제안한다. 실험 결과, CoT와 PaL 프롬프팅 방법으로 자동 생성된 데이터의 품질이 기존 규칙이나 기본 프롬프팅 방법보다 더 우수하였다.

  • PDF

위키피디아를 이용한 영-한 개체명 대역어 쌍 구축 (Extracting English-Korean Named-Entity Word-pairs using Wikipedia)

  • 김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-105
    • /
    • 2009
  • 본 논문은 공통적으로 이용할 수 있는 웹 환경에서의 한국어 정보로 획득할 수 있는 정보의 양이 영어권 정보의 양보다 상대적으로 적다는 것을 토대로, 웹정보 이용의 불균형을 해소하고자 하는 목적으로부터 출발하였다. 최근에는 지식 정보의 세계화, 국제화에 따라 동일한 정보를 각국 언어로 제공하고자하는 연구가 꾸준히 증가하고 있다. 온라인 백과사전인 위키피디아 역시 현재 다국어로 제공이 되고 있지만 한국어로 작성된 문서는 영어로 작성된 문서의 5% 미만인 것으로 조사되었다. 본 논문에서는 위키피디아 내에서 제공하는 다국어간의 링크 정보와 인포박스 데이터를 활용하여 위키피디아 문서 내에서 개체명을 인식하고, 자동으로 개체명의 영-한 대역어 쌍을 추출하는 것을 목표로 한다. 개체명은 일반 사전에 등재 되지 않은 경우가 많기 때문에, 기계번역에서 사전 데이터 등을 활용하여 개체명을 처리하는 것은 쉽지 않으며 일반적으로 음차표기 방식을 함께 사용하여 해결하고 있다. 본 논문을 통해 위키피디아 데이터를 활용해 만들어진 영-한 개체명 대역어 사전을 구축하기 위해 사용된 기술은 추후 위키피디아 문서를 기계번역하는데 있어 동일한 방법으로 사용이 가능하며, 구축된 사전 데이터는 추후 영-한 자동 음차표기 연구의 사전 데이터로도 활용이 가능하다.

  • PDF

병리진단을 위한 웹기반 혈액영상 분석시스템의 설계 및 구현 (Designand Implementation of Web-Based Blood-Cell Analysis System for Pathology Diagnosis)

  • 김경수;이영신;김용국;이윤배;김판구
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 추계학술발표논문집
    • /
    • pp.333-337
    • /
    • 1998
  • 의학분야에서 컴퓨터 활용은 단순히 처리할 데이터의 자동화뿐만 아니라 각종 의학영상들을 자동으로 처리함으로서 의사의 진단을 도와주는 형태로 발전되어 가고 있다. 본 논문에서는 병원의 임상병리과에서 번번히 수행하는 혈액검사를 자동화하기 위한 것으로 혈액을 자동 분석하는 웹 기반 분석시스템을 구축하였다. 이를 위해 본 논문에서는 혈액 영상으로부터 특징을 추출하기 위한 단계를 서술하고 세포분류를 위한 다층 신경망을 이용해 구현한 내용을 보인다. 또한 본 연구의 결과로 신경망의 학습 효율을 높이기 위한 전처리로서 학습 데이터에 대해 러프 집합 이론을 적용하여 학습 데이터의 차원을 효과적으로 줄일 수 있었다.

  • PDF