• Title/Summary/Keyword: Korean Language Model

Search Result 1,570, Processing Time 0.031 seconds

BERT를 이용한 한국어 특허상담 기계독해 (Korean Machine Reading Comprehension for Patent Consultation Using BERT)

  • 민재옥;박진우;조유정;이봉건
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권4호
    • /
    • pp.145-152
    • /
    • 2020
  • 기계독해는(Machine reading comprehension) 사용자 질의와 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 자연어처리 태스크를 말하며, 이러한 기계독해는 챗봇과 같은 자동상담 서비스에 활용될 수 있다. 최근 자연어처리 분야에서 가장 높은 성능을 보이고 있는 BERT 언어모델은 대용량의 데이터를 pre-training 한 후에 각 자연어처리 태스크에 대해 fine-tuning하여 학습된 모델로 추론함으로써 문제를 해결하는 방식이다. 본 논문에서는 BERT기반 특허상담 기계독해 태스크를 위해 특허상담 데이터 셋을 구축하고 그 구축 방법을 소개하며, patent 코퍼스를 pre-training한 Patent-BERT 모델과 특허상담 모델학습에 적합한 언어처리 알고리즘을 추가함으로써 특허상담 기계독해 태스크의 성능을 향상시킬 수 있는 방안을 제안한다. 본 논문에서 제안한 방법을 사용하여 특허상담 질의에 대한 정답 결정에서 성능이 향상됨을 보였다.

대등관계 복제객체 모델을 지원하는 분산 객체 프로그래밍 언어의 설계 및 구현 (Design and Implementation of a Distributed Object Programming Language supporting Peer Replicated Object Model)

  • 신범주;이동현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권4호
    • /
    • pp.449-456
    • /
    • 1999
  • 본 논문은 C++에 분산 객체 프로그래밍 기능을 추가한 D++ 언어를 제안한다. 대등관계 복제객체 모델을 지원하는 D++는 분산 클래스의 정의, 멤버 함수의 일치성 제어 정의 기능, 그리고 영구 객체 이름에 기반한 분산 객체를 정의할 수 있는 언어 구조를 제공한다. D++ 프로그램에서 새로이 생성되는 분산 객체는 생성 시에 제공되는 객체의 영구 이름과 동일한 영구 이름을 갖는 분산 객체가 존재할 경우 해당 객체들과 복제 관계를 유지함으로써 정보를 공유한다. 각 복제 객체들은 서로 간에 대등한 관계를 가지며, 멤버 함수 정의 시에 기술되는 특성에 따라 일치성이 유지된다. 이 같은 D++의 분산 객체 모델은 실시간 그룹웨어의 기본 요구 사항인 분산 환경에서의 정보 공유 및 사건 공지 기능을 자연스럽게 해결해 주기 때문에 실시간 그룹웨어의 개발을 효율적으로 지원할 수 있을 것으로 기대한다. Abstract This paper proposes D++ programming language that is an extension of C++ for distributed object oriented programming. The D++, which supports peer-to-peer object model, provides new language constructs for the definition of distributed classes, the definition of the consistency control of the member function and the definition of distributed object variables with the persistent name. In D++, when the persistent name of a newly created distributed object is same as that of an existing distributed object, the new distributed object replicates object state of the existing distributed object and thus they share the object state. The replicas have peer relation and the consistency among them is maintained according to the characteristic described on the definition of designated member functions. It is expected that D++ language increases efficiency in development of real-time groupware because the distributed object model of D++ naturally supports the information sharing and event notification that are the basic functions required when building real-time groupware.

MAMI: 의료 정보 제공을 위한 멀티 에이전트 시스템에서의 에이전트 플랫폼 (MAMI: Agent Platform in a Multi-Agent System Providing Medical information)

  • 최원기;김일곤
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권5호
    • /
    • pp.489-497
    • /
    • 2001
  • 본 논문에서는 지능형 의료 정보 제공을 위한 멀티 에이전트 시스템인 MAMI(Multi-Agent system for Medical Image)의 에이전트 플랫폼의 설계 및 구현에 대해 기술한다. MAMI는 여러 의료 정보 중 의료 영상을 위한 멀티 에이전트 시스템이다. MAMI의 가장 중요한 구성 요소는 에이전트 플랫폼이고, 각 에이전트들이 동작할 수 있는 물리적 기반을 제공해 준다. MAMI는 FIPA(Foundation for Intelligent Physical Agent)가 제안하는 관리 모델을 따르고 있다. MAM는 FIPA(Foundation for Intelligent Physical Agent)가 제안하는 관리 모델을 따르고 있다. MAMI에서는 COM(Common Object Model)과 XML(eXtensible Markup Language)로 인코딩된 ACL(Agent Communication Language)을 메시지 교환에 이용하고 있다. 의료 인력을 하나의 에이전트로 개념화하여 시스템에 연결함으로써 소프트웨어 에이전트와 휴먼 에이전트가 지식을 공유하기에 적합한 물리적 기반을 제공해 주며 지능형 의료 정보 서비스를 용이하게 해준다.

  • PDF

Language-Independent Word Acquisition Method Using a State-Transition Model

  • Xu, Bin;Yamagishi, Naohide;Suzuki, Makoto;Goto, Masayuki
    • Industrial Engineering and Management Systems
    • /
    • 제15권3호
    • /
    • pp.224-230
    • /
    • 2016
  • The use of new words, numerous spoken languages, and abbreviations on the Internet is extensive. As such, automatically acquiring words for the purpose of analyzing Internet content is very difficult. In a previous study, we proposed a method for Japanese word segmentation using character N-grams. The previously proposed method is based on a simple state-transition model that is established under the assumption that the input document is described based on four states (denoted as A, B, C, and D) specified beforehand: state A represents words (nouns, verbs, etc.); state B represents statement separators (punctuation marks, conjunctions, etc.); state C represents postpositions (namely, words that follow nouns); and state D represents prepositions (namely, words that precede nouns). According to this state-transition model, based on the states applied to each pseudo-word, we search the document from beginning to end for an accessible pattern. In other words, the process of this transition detects some words during the search. In the present paper, we perform experiments based on the proposed word acquisition algorithm using Japanese and Chinese newspaper articles. These articles were obtained from Japan's Kyoto University and the Chinese People's Daily. The proposed method does not depend on the language structure. If text documents are expressed in Unicode the proposed method can, using the same algorithm, obtain words in Japanese and Chinese, which do not contain spaces between words. Hence, we demonstrate that the proposed method is language independent.

MLOps workflow language and platform for time series data anomaly detection

  • Sohn, Jung-Mo;Kim, Su-Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.19-27
    • /
    • 2022
  • 본 연구에서는 시계열 데이터 이상 탐지 수행을 위한 MLOps(Machine Learning Operations) 워크플로를 기술하고 관리할 수 있는 언어와 플랫폼을 제안한다. 시계열 데이터는 IoT 센서, 시스템 성능 지표, 사용자 접속량 등 많은 분야에서 수집되고 있다. 또한, 시스템 모니터링 및 이상 탐지 등 많은 응용 분야에 활용 중이다. 시계열 데이터의 예측 및 이상 탐지를 수행하기 위해서는 분석된 모델을 빠르고 유연하게 운영 환경에 적용할 수 있는 MLOps 플랫폼이 필요하다. 이에, 최근 데이터 분석에 많이 활용되고 있는 Python 기반의 AMML(AI/ML Modeling Language)을 개발하여 손쉽게 MLOps 워크플로를 구성하고 실행할 수 있도록 제안한다. 제안하는 AI MLOps 플랫폼은 AMML을 이용하여 다양한 데이터 소스(R-DB, NoSql DB, Log File 등)에서 시계열 데이터를 추출, 전처리 및 예측을 수행할 수 있다. AMML의 적용 가능성을 검증하기 위해, 변압기 오일 온도 예측 딥러닝 모델을 생성하는 워크플로를 AMML로 구성하고 학습이 정상적으로 수행됨을 확인하였다.

Ambiguity Resolution in Chinese Word Segmentation

  • Maosong, Sun;T'sou, Benjamin-K.
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 1995년도 Language, Information and Computation = Proceedings of the 10th Pacific Asia Conference, Hong Kong
    • /
    • pp.121-126
    • /
    • 1995
  • A new method for Chinese word segmentation named Conditional F'||'&'||'BMM (Forward and Backward Maximal Matching) which incorporates both bigram statistics (ie., mutual infonllation and difference of t-test between Chinese characters) and linguistic rules for ambiguity resolution is proposed in this paper The key characteristics of this model are the use of: (i) statistics which can be automatically derived from any raw corpus, (ii) a rule base for disambiguation with consistency and controlled size to be built up in a systematic way.

  • PDF

국제어로서의 영어 발음교육 : 과제와 방향 (Teaching Pronunciation for English as an International Language)

  • Park, Joo-Kyung
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2000년도 3월 학술대회지
    • /
    • pp.103-104
    • /
    • 2000
  • As the role and status of English as an international language(EIL) have been widely discussed, studies need to be done to find out new issues and concerns related to teaching EIL In Korea. This presentation will review the changes in teaching English in Korea, teaching pronunciation, in particular, focusing on its goal and major instructional approaches. Suggestions will be made on developing a learner-centered communicative model for teaching English pronunciation and on training both Korean and foreign teachers of English to teach English pronunciation.

  • PDF

DC Micro-Grid Operational Analysis with a Detailed Simulation Model for Distributed Generation

  • Lee, Ji-Heon;Kim, Hyun-Jun;Han, Byung-Moon;Jeong, Yu-Seok;Yang, Hyo-Sik;Cha, Han-Ju
    • Journal of Power Electronics
    • /
    • 제11권3호
    • /
    • pp.350-359
    • /
    • 2011
  • This paper describes the operational analysis results of a DC micro-grid using a detailed model of distributed generation. A detailed model of wind power generation, photo-voltaic generation and fuel cell generation was implemented with an userdefined model created with PSCAD/EMTDC software and coded in C-language. The operational analysis was carried out using PSCAD/EMTDC software, in which the power circuit is implemented by a built-in model and the controller is modeled by an user-defined model that is also coded in C-language. Various simulation results confirm that a DC micro-grid can operate without any problems in both the grid-tied mode and in the islanded mode. The operational analysis results confirm that the DC micro-grid makes it feasible to provide power to the load stably. It can also be utilized to develop an actual system design.

Three Dimensional Target Volume Reconstruction from Multiple Projection Images

  • Cheong, Kwang-Ho;Suh, Tae-Suk;Lee, Hyoung-Koo;Choe, Bo-Young
    • 한국의학물리학회:학술대회논문집
    • /
    • 한국의학물리학회 2002년도 Proceedings
    • /
    • pp.439-441
    • /
    • 2002
  • The aim of this study is to reconstruct the 3D target volume from multiple projection images. It was assumed that we were already aware of the target position exactly, and all processes were performed in Target Coordinates whose origin was the center of the target. We used six projections: two projections were used to make a Reconstruction Box and four projections were for image acquisition. Reconstruction Box was made up of voxels of 3D matrix. Projection images were transformed into 3D volume in this virtual box using geometrical based back-projection method. Algorithm was applied to an ellipsoid model and horse-shoe shaped model. Projection images were created using C program language by geometrical method and reconstruction was also accomplished using C program language and Matlab(The Mathwork Inc., USA). For ellipsoid model, reconstructed volume was slightly overestimated but target shape and position was proved to be correct. For horse-shoe shaped model, reconstructed volume was somewhat different from original target model but there was a considerable improvement in target volume determination.

  • PDF

한글 워드임베딩과 아프리오리를 이용한 검색 시스템의 질의어 확장 (Query Extension of Retrieve System Using Hangul Word Embedding and Apriori)

  • 신동하;김창복
    • 한국항행학회논문지
    • /
    • 제20권6호
    • /
    • pp.617-624
    • /
    • 2016
  • 한글 워드임베딩은 명사 추출과정을 거치지 않으면, 학습에 필요하지 않은 단어까지 학습하게 되어 효율적인 임베딩 결과를 도출할 수 없다. 본 연구는 한글 워드임베딩, 아프리오리, 텍스트 마이닝을 이용하여, 특정 도메인에서 질의어 확장에 의해 보다 효율적으로 답변을 검색할 수 있는 모델을 제안하였다. 워드임베딩과 아프리오리는 질의어에 대해서 의미와 맥락에 따라 연관 단어를 추출하여, 질의어를 확장하는 단계이다. 한글 텍스트 마이닝은 명사 추출, TF-IDF, 코사인 유사도를 이용하여, 유사답변 추출과 사용자에게 답변하는 단계이다. 제안모델은 특정 도메인의 답변을 학습하고, 연관성 높은 질의어를 확장함으로서 답변의 정확성을 높일 수 있다. 향후 연구과제로서, 데이터베이스에 저장된 사용자 질의를 분석하고, 보다 연관성 높은 질의어를 추출하는 연구가 필요하다.