• Title/Summary/Keyword: 오픈 데이터

Search Result 737, Processing Time 0.028 seconds

Building Open Domain Chatbot based Language Model (언어모델 기반 오픈 도메인 챗봇 구현)

  • Kim, Seung-Tae;Koo, Jahwan;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.931-933
    • /
    • 2020
  • 자연어 처리는 인공지능의 핵심기술 중 하나이다. 그 중 오픈 도메인 챗봇 구현은 NLP 에서 어려운 태스크로 꼽힌다. 명확한 목표, FAQ 가 존재하는 기능형 챗봇과 달리 오픈 도메인 챗봇은 연속적 대화, 방대한 양의 상식 등 구현에 어려움이 많았다. 짧은 질문과 대답으로 이루어진 데이터로 학습한 모델을 대화 데이터로 학습시켜 좀더 자연스러운 챗봇을 구현해보고자 한다.

R3 : Open Domain Question Answering System Using Structure Information of Tables (R3 : 테이블의 구조 정보를 활용한 오픈 도메인 질의응답 시스템)

  • Deokhyung Kang;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.455-460
    • /
    • 2022
  • 오픈 도메인 질의 응답에서 질의에 대한 답변은 질의에 대한 관련 문서를 검색한 다음 질의에 대한 답변을 포함할 수 있는 검색된 문서를 분석함으로써 얻어진다. 문서내의 테이블이 질의와 관련이 있을 수 있음에도 불구하고, 기존의 연구는 주로 문서의 텍스트 부분만을 검색하는 데 초점을 맞추고 있었다. 이에 테이블과 텍스트를 모두 고려하는 질의응답과 관련된 연구가 진행되었으나 테이블의 구조적 정보가 손실되는 등의 한계가 있었다. 본 연구에서는 테이블의 구조적 정보를 모델의 추가적인 임베딩을 통해 활용한 오픈 도메인 질의응답 시스템인 R3를 제안한다. R3는 오픈 도메인 질의 응답 데이터셋인 NQ에 기반한 새로운 데이터셋인 NQ-Open-Multi를 이용해 학습 및 평가하였으며, 테이블의 구조적 정보를 활용하지 않은 시스템에 비해 더 좋은 성능을 보임을 확인할 수 있었다.

  • PDF

Korean Open Domain Question Answering System Using KorQuAD (KorQuAD를 활용한 한국어 오픈도메인 질의응답 시스템)

  • Cho, Sanghyun;Kim, Minho;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.321-325
    • /
    • 2019
  • 오픈 도메인 질의응답이란, 질문을 줬을 때 그 질문과 연관성이 높은 문서를 검색하고 검색된 문서에서 정답을 추출하는 태스크이다. 본 논문은 기계 독해 데이터인 KorQuAD를 활용한 오픈도메인 질의응답 시스템을 제안한다. 문서 검색기를 이용하여 질문과 관련 있는 위키피디아 문서들을 검색하고 검색된 문서에 단락 선택 모델을 통해서 문서 질문과 연관성이 높은 단락들을 선별하여 기계 독해 모델에서 처리해야 할 입력의 수를 줄였다. 문서 선별모델에서 선별된 여러 단락에서 추출된 정답 후보에서 여러 가지 정답 모형을 적용하여 성능을 비교하는 실험을 하였다. 본 논문에서 제안한 오픈도메인 질의응답 시스템을 KorQuAD에 적용했을 때, 개발 데이터에서 EM 40.42%, F1 55.34%의 성능을 보였다.

  • PDF

Domain-robust End-to-end Task-oriented Dialogue Model based on Dialogue Data Augmentation (대화 데이터 증강에 기반한 도메인에 강건한 종단형 목적지향 대화모델)

  • Kiyoung Lee;Ohwoog Kwon;Younggil Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.531-534
    • /
    • 2022
  • 신경망 기반 심층학습 기술은 대화처리 분야에서 대폭적인 성능 개선을 가져왔다. 특히 GPT-2와 같은 대규모 사전학습 언어모델을 백본 네트워크로 하고 특정 도메인 타스크 대화 데이터에 대해서 미세조정 방식으로 생성되는 종단형 대화모델의 경우, 해당 도메인 타스크에 대해서 높은 성능을 내고 있다. 하지만 이런 연구들은 대부분 하나의 도메인에 대해서만 초점을 맞출 뿐 싱글 모델로 두 개 이상의 도메인을 고려하고 있지는 않다. 특히 순차적인 미세 조정은 이전에 학습된 도메인에 대해서는 catastrophic forgetting 문제를 발생시킴으로써 해당 도메인 타스크에 대한 성능 하락이 불가피하다. 본 논문에서는 이러한 문제를 해결하기 위하여 MultiWoz 목적지향 대화 데이터에 오픈 도메인 칫챗 대화턴을 유사도에 기반하여 추가하는 데이터 증강 방식을 통해 사용자 입력 및 문맥에 따라 MultiWoz 목적지향 대화와 오픈 도메인 칫챗 대화를 함께 생성할 수 있도록 하였다. 또한 목적지향 대화와 오픈 도메인 칫챗 대화가 혼합된 대화에서의 시스템 응답 생성 성능을 평가하기 위하여 오픈 도메인 칫챗 대화턴을 수작업으로 추가한 확장된 MultiWoz 평가셋을 구축하였다.

  • PDF

Suggestion of New Parameter Request Method for Open API (오픈 API에서의 새로운 파라미터 요청 방식 제안)

  • Park, Jae-Hoon;Seo, Hwa-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.622-625
    • /
    • 2020
  • 오픈 API에서는 사용자로부터 조회할 데이터를 요청을 통해 조건에 해당하는 데이터들을 선별하여 리턴하게 되는데, 현재 통용되는 방식은 다양한 조건을 설정하는 것에 있어 상당한 불편함이 따른다. 이에 따라 오픈 API에서 다양한 조건을 검색할 수 있는 방식을 제안한다. POST 메소드를 통해 숫자의 경우 원하는 검색 범위에 대한 설정을, 문자열의 경우 조건에 따라서 포함 혹은 일치하는 데이터를 검색한다. 이렇게 파라마터의 종류가 다양해짐에 따라 SQL 인젝션과 같은 보안에 대한 위험성도 커지며, 그것을 원천적으로 차단하기 위해 쿼리에 사용자로부터 받은 변수를 넣는 것이 아닌, 데이터베이스에서 얻은 데이터로부터 특정 알고리즘을 통해 사용자의 원하는 조건에 해당하는 데이터를 추출해내는 방법 또한 제안한다. 이를 통해 생산성 극대화를 기대한다.

3차원 웹 가시화 서비스를 활용한 S-10X 데이터 서비스 구현 및 활용에 관한 연구

  • Kim, Lee-Seul;Kim, Jae-Myeong;Kim, Ji-Yun;Choe, Yun-Su
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2018.05a
    • /
    • pp.106-107
    • /
    • 2018
  • WEBGL 등 실시간 3차원 웹 서비스를 S-10X 데이터 서비스 구현에 활용함으로써 보다 폭넓은 항해정보의 공유방안을 생각하고 실제 플랫폼에 데이터를 시각화함으로써 S-10X 데이터에 활용서비스 모델을 구축하고자 한다. 이를 위하여 CESUIM 같은 오픈소스 프로젝트를 이용함으로써 데이터 시각화 및 구축 이용에 도움을 주고자 한다.

  • PDF

Research Data Management of Science and Technology Research Institutes in Korea (국내 과학기술분야 연구기관의 과학데이터 관리 현황)

  • Choi, Myung-Seok;Lee, Seung-Bock;Lee, Sanghwan
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.12
    • /
    • pp.117-126
    • /
    • 2017
  • As the recent research environment and research paradigm have become data-driven, Open Science, based on openness and sharing of public research results, has emerged as a global agenda for scientific research. National policies for sharing and re-use of research data from publicly-funded research are in effect globally. Therefore, in Korea, it is urgent to build policies and infrastructure for sharing and re-use of research data. In this paper, we investigate the current status of research data management of science and technology research institutes in Korea. We conducted in-depth interviews with researchers from 22 research institutes belonging to the National Research Council of Science & Technology, and 20 universities in Korea, asking about terms of creation management utilization of research data, willingness to share data, and needs for sharing and re-use of research data. From these interviews, we drew implications for open research data and future directions.

Developing an Assessment Model of Library Open Data Quality (도서관의 오픈 데이터 품질측정모델 개발)

  • Park, Jin Ho
    • Journal of the Korean Society for information Management
    • /
    • v.35 no.1
    • /
    • pp.33-59
    • /
    • 2018
  • This study draws on the current momentum to diversify open government data research through multidimensional scaling and model development. It formulates a quality assessment model applicable to library open data, taking into consideration the paucity of such research in the field. The model was developed using the Delphi method and verified for validity and reliability on the basis of a survey administered to library open data users. The results of the fourth round exhibited an average of 4.00 for all measured elements and a minimum validity of .75, rendering the model appropriate for use in quality assessments of library open data. The convergence and stability results provided by the expert panel fell below .50, confirming that there was no need to conduct further surveys in order to establish the validity of the Delphi method. The model's reliability likewise garnered results of .60 and above in all three dimensions. This Model completed with the input of the Delphi panel was put through a verification process in which library open data users such as domestic and international librarians, developers, and open data activists reviewed the model for validity and reliability. The model scored low on validity on account of its failure to load all measure factors and elements pertaining to the three dimensions. Reliability results, on the other hand, were at 0.6 and above for all dimensions and measured elements.

A Web Application for Open Data Visualization Using R (R 이용 오픈데이터 시각화 웹 응용)

  • Kim, Kwang-Seob;Lee, Ki-Won
    • Journal of the Korean Association of Geographic Information Studies
    • /
    • v.17 no.2
    • /
    • pp.72-81
    • /
    • 2014
  • As big data are one of main issues in the recent days, the interests on their technologies are also increasing. Among several technological bases, this study focuses on data visualization and R based on open source. In general, the term of data visualization can be summarized as the web technologies for constructing, manipulating and displaying various types of graphic objects in the interactive mode. R is an operating environment or a language for statistical data analysis from basic to advanced level. In this study, a web application with these technological aspects and components is newly implemented and exemplified with data visualization for geo-based open data provided by public organizations or government agencies. This application model does not need users' data building or proprietary software installation. Futhermore it is designed for users in the geo-spatial application field with less experiences and little knowledges about R. The results of data visualization by this application can support decision making process of web users accessible to this service. It is expected that the more practical and various applications with R-based geo-statistical analysis functions and complex operations linked to big data contribute to expanding the scope and the range of the geo-spatial application.

Telemetering Service in OpenStack (오픈스택 텔레메터링 서비스(Ceilometer))

  • Baek, D.M.;Lee, B.C.
    • Electronics and Telecommunications Trends
    • /
    • v.29 no.6
    • /
    • pp.102-112
    • /
    • 2014
  • 최근 빌링(billing, 과금), 벤치마킹, 확장성(scalability), 통계적 목적을 위해 오픈스택 클라우드의 개별 컴포넌트를 모니터링하고 메터링하는 텔레메터링 서비스가 Ceilometer라는 코드명으로 정식 프로젝트로 추가되었다. 초기의 빌링만을 위해 필수 요소만 모니터링하는 것에서, 상태를 감시하여 클라우드 자원의 오토스케일링 등의 오케스트레이션 기능을 위한 다목적성으로 발전하고 있다. 특히 이것은 빅데이터 등의 데이터 분석에 있어서 중요한 힌트를 제공해 준다. 본고는 소스분석을 통한 Ceilometer의 데이터 수집 구조, Ceilometer 모니터링의 핵심 키워드, 비정형 데이터 DB인 MongoDB, 외부인터페이스로써 API(Application Interface) 혹은 CLI(Command Line Interface) 명령어를 소개하고자 한다. 결론에서는 ceilometer의 전반적 구조에 대한 나름대로의 평가를 기술하였다.

  • PDF