• Title/Summary/Keyword: 언어 식별

Search Result 162, Processing Time 0.026 seconds

Continuous Korean Named Entity Recognition Using Knowledge Distillation (지식증류를 활용한 지속적 한국어 개체명 인식 )

  • Junseo Jang;Seongsik Park;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.505-509
    • /
    • 2023
  • 개체명 인식은 주어진 텍스트에서 특정 유형의 개체들을 식별하고 추출하는 작업이다. 일반적인 딥러닝 기반 개체명 인식은 사전에 개체명들을 모두 정의한 뒤 모델을 학습한다. 하지만 실제 학습 환경에서는 지속적으로 새로운 개체명이 등장할 수 있을뿐더러 기존 개체명을 학습한 데이터가 접근이 불가할 수 있다. 또한, 새로 모델을 학습하기 위해 새로운 데이터에 기존 개체명을 수동 태깅하기엔 많은 시간과 비용이 든다. 해결 방안으로 여러 방법론이 제시되었지만 새로운 개체명을 학습하는 과정에서 기존 개체명 지식에 대한 망각 현상이 나타났다. 본 논문에서는 지식증류를 활용한 지속학습이 한국어 개체명 인식에서 기존 지식에 대한 망각을 줄이고 새로운 지식을 학습하는데 효과적임을 보인다. 국립국어원에서 제공한 개체명 인식 데이터로 실험과 평가를 진행하여 성능의 우수성을 보인다.

  • PDF

Morpheme-Based Few-Shot Learning with Large Language Models for Korean Healthcare Named Entity Recognition (한국어 헬스케어 개체명 인식을 위한 거대 언어 모델에서의 형태소 기반 Few-Shot 학습 기법)

  • Su-Yeon Kang;Gun-Woo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.428-429
    • /
    • 2023
  • 개체명 인식은 자연어 처리의 핵심적인 작업으로, 특정 범주의 명칭을 문장에서 식별하고 분류한다. 이러한 기술은 헬스케어 분야에서 진단 지원 및 데이터 관리에 필수적이다. 그러나 기존의 사전 학습된 모델을 특정 도메인에 대해 전이학습하는 방법은 대량의 데이터에 크게 의존하는 한계를 가지고 있다. 본 연구는 방대한 데이터로 학습된 거대 언어 모델(LLM) 활용을 중심으로, 한국어의 교착어 특성을 반영하여 형태소 정보를 활용한 Few-Shot 프롬프트를 통해 한국어 헬스케어 도메인에서의 개체명 인식 방법을 제안한다.

The Design and Implementation of XML Editor with UML (UML을 이용한 XML Editor의 설계 및 구현)

  • 신명섭;김진한
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.11a
    • /
    • pp.514-519
    • /
    • 2001
  • 웹 문서의 표현 언어로 XML이 대두되면서부터 신속히 애플리케이션을 위한 문서를 제작하는 것이 중요해졌다. 본 논문에서는 UML 쓰임새 중심 방법을 적용하여 XML 문서 편집기를 제작하였다. 쓰임새 방법의 단계는 해당 문제의 범위에서 객체를 찾아내는 도메인 모델링 단계, 시스템의 행동을 식별해내는 쓰임새 모델링 단계, 쓰임새의 정재와 새로운 객체를 찾아내는 계층 모델링 단계, 그리고 실제로 어떻게 구현할 것인가를 설계하는 교류 모델링으로 나누어 DTD 편집기와 XML 편집기를 설계하고 구현하였다.

  • PDF

EJB Mapping using Object of the Information Structure Modeling (정보구조 모델링의 객체를 이용한 EJB의 매핑)

  • 문혜경;고병선;박재년
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.97-99
    • /
    • 2002
  • 컴포넌트 시장의 확산으로 소프트웨어 개발 형태가 컴포넌트 기반의 소프트웨어로 새롭게 변형되었다. COM, CORBA, EJB등은 컴포넌트 아키덱쳐들이다. 그 중에서 선의 EJB를 이용하여 만들어진 애플리케이션은 확장성 있고, 트랜잭션을 보장하며 멀티유저 환경에서도 안전하다. UB 설계의 기렬 모델링 언어인 UML을 이용한 EJB 추출방법은 UML 자체가 객체의 식별을 위한 자세한 가이드 라인을 제시하지 않으므로 EJB 추출에 어려움이 있고, 직관적인 경험에 의한 추출방법은 EJB 기반의 프로젝트를 처음으로 개발하고자 하는 개발자에게는 어려움이 있다. 본 논문에서는 정보구조 모델링의 방법[1]을 이용하여 구체적인 객체 추출방법을 제시하며 추출된 객체에서 쉽게 EJB의 빈들로 매핑시킬 수 있다.

  • PDF

데이터베이스 표준분류 및 정보검색 표준안을 위한 기초연구

  • Korea Database Promotion Center
    • Digital Contents
    • /
    • no.3 s.10
    • /
    • pp.84-94
    • /
    • 1994
  • 센터내 DB표준화분과위원회 DB표준분류 실무작업반은 지난 93년도 하반기에 데이터베이스 표준분류를 위한 연구를 수행했다. 그간 실무작업반에서는 데이터베이스 분류에 관한 자료의 수집 및 비교분석, 데이터베이스의 제작기관, 주제분야별, 가공형태별, 표현형태별, 언어별, 가공완성도 및 갱신주기별, 검색방식별, 제공매체별, 용도별체계화 등 데이터베이스 표준분류안을 마련했는데 본지에서는 연구결과를 중심으로 그 내용을 정리, 요약한다.

  • PDF

A Study on Considerations in the Authority Control to Accommodate LRM Nomen (LRM 노멘을 수용하기 위한 전거제어시 고려사항에 관한 연구)

  • Lee, Mihwa
    • Journal of Korean Library and Information Science Society
    • /
    • v.52 no.1
    • /
    • pp.109-128
    • /
    • 2021
  • This paper is to explore considerations in authority control to accommodate LRM nomen entities through the literature reviews, the analysis of RDA rules, and the opinion survey of domestic catalog experts. As a result, for authority control, considerations were proposed in the aspect of nomen's attribute elements, catalog description, and MARC authority format. First, it is necessary to describe in as much detail as possible the category, the scheme, intended audience, the context of use, the reference source, the language, the script, the script conversion as the attributes of the nomen with the status of identification, note, and indifferentiated name indicators added in RDA. Second, the description method of attribute elements and relational elements of nomen can be unstructured, structured, identifier, and IRI as suggested in RDA, and vocabulary encoding scheme (VES) and string encoding scheme (SES) should be written for structured description, Also, cataloging rules for structuring authorized access points and preferred names/title should be established. Third, an additional expansion plan based on Maxwell's expansion (draft) was proposed in order to prepare the MARC 21 authority format to reflect the LRM nomen. (1) The attribute must be described in 4XX and 5XX so that the attribute can be entered for each nomen, and the attributes of the nomen to be described in 1XX, 5XX and 4XX are presented separately. (2) In order to describe the nomen category, language, script, script conversion, context of use, and date of usage as a nomen attribute, field and subfield in MARC 21 must be added. Accordingly, it was proposed to expand the subfield of 368, 381, and 377, and to add fields to describe the context of use and date of usage. The considerations in authority control for the LRM nomen proposed in this paper will be the basis for establishing an authority control plan that reflects LRM in Korea.

MICA: Mind Care Dataset on Korean Anonymous Mental Health Platform (MICA: 한국 익명 심리건강 플랫폼 기반 심리상담 데이터셋)

  • Seungmoo Yang;Seonghyun Kim;Chanhee Jeong;Jeehye Koo;Seunghyeok Hong
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.210-215
    • /
    • 2022
  • 최근 전 세계적으로 불안감, 우울증 등을 비롯한 정신 건강 관리에 어려움을 겪고 있다. 특히 COVID-19 팬데믹 사태로 인해 경제적, 사회적으로 고립되는 시간이 길어지면서 정신 건강이 악화되고 있다. 한국의 경우도 심리상담을 받는 비율이 증가하는 등 정신 건강 관리의 수요가 높아지고 있다. 정신 건강 관리를 위한 여러 진입 장벽들을 극복하기 위해 개발된 비대면 심리상담들이 인기를 얻고 있다. 특히, 인공지능 기술과 정신 건강 관리를 결합하려는 시도가 많아지고 있으며, 미국, 중국 등 해외에서는 이미 워봇(Woebot), 유퍼(Youper) 같은 심리상담 챗봇이 상용화되어 서비스 중이다. 그러나 한국에서의 심리상담 챗봇은 아직까지 해외만큼 상용화 단계에 이르지 못했다. 또한, 이러한 챗봇을 구축하기 위한 데이터셋 연구가 부족한 실정이다. 본 논문에서는 익명 심리 플랫폼을 통하여, 심리전문가가 비식별화한 고민과 해당 고민에 대한 전문가 답변을 활용하여 구축한 MICA를 소개한다. 또한, 본 데이터셋을 활용해 딥러닝 기반의 언어 모델을 학습하고 정량적, 정성적 성능 평가를 통해 챗봇의 가능성을 확인하였다.

  • PDF

Extraction of Author Identification Elements of Overseas Academic Papers on Authority Data System for Science and Technology (과학기술 전거데이터 시스템에서의 해외 학술논문 저자 식별요소 추출)

  • Choi, Hyunmi;Lee, Seokhyoung;Kim, Kwangyoung;Kim, Hwanmin
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2013.05a
    • /
    • pp.711-713
    • /
    • 2013
  • Various human resource information of the world can be found according to spread of social network such as facebook and twitter. There are an amounts of researcher information on the science and technology area but it is difficult to find a suitable researcher for research or business such as research partner, because researcher information is not systematically arranged. To solver this problem, we are constructing authority data system for science and technology based on authority information of overseas academic papers. In this paper, in order to construct the authority data, we extracts author identification elements from millions of overseas academic papers, which are published from 1994 to 2012. There are more than 50 author identification elements such as author name, affiliation, paper title, publisher, year, keywords, co-author, co-author's affiliation in Korean, English, Chinese, and Japanese. We construct the element database by extracting and storing an author identification information based on the elements from overseas academic papers. Future works includes that the authority database for overseas academic papers is constructed by storing an academic activities of researchers after author clustering with these extracted elements. The authority data is used to improve the researcher information utilization and activate community to find a suitable research partner or a business examiner.

  • PDF

AI-based stuttering automatic classification method: Using a convolutional neural network (인공지능 기반의 말더듬 자동분류 방법: 합성곱신경망(CNN) 활용)

  • Jin Park;Chang Gyun Lee
    • Phonetics and Speech Sciences
    • /
    • v.15 no.4
    • /
    • pp.71-80
    • /
    • 2023
  • This study primarily aimed to develop an automated stuttering identification and classification method using artificial intelligence technology. In particular, this study aimed to develop a deep learning-based identification model utilizing the convolutional neural networks (CNNs) algorithm for Korean speakers who stutter. To this aim, speech data were collected from 9 adults who stutter and 9 normally-fluent speakers. The data were automatically segmented at the phrasal level using Google Cloud speech-to-text (STT), and labels such as 'fluent', 'blockage', prolongation', and 'repetition' were assigned to them. Mel frequency cepstral coefficients (MFCCs) and the CNN-based classifier were also used for detecting and classifying each type of the stuttered disfluency. However, in the case of prolongation, five results were found and, therefore, excluded from the classifier model. Results showed that the accuracy of the CNN classifier was 0.96, and the F1-score for classification performance was as follows: 'fluent' 1.00, 'blockage' 0.67, and 'repetition' 0.74. Although the effectiveness of the automatic classification identifier was validated using CNNs to detect the stuttered disfluencies, the performance was found to be inadequate especially for the blockage and prolongation types. Consequently, the establishment of a big speech database for collecting data based on the types of stuttered disfluencies was identified as a necessary foundation for improving classification performance.

eXtensible Rule Markup Language (XRML): Design Principles and Application (확장형 규칙 표식 언어(eXtensible Rule Markup Language) : 설계 원리 및 응용)

  • 이재규;손미애;강주영
    • Journal of Intelligence and Information Systems
    • /
    • v.8 no.1
    • /
    • pp.141-157
    • /
    • 2002
  • extensible Markup Language (XML) is a new markup language for data exchange on the Internet. In this paper, we propose a language extensible Rule Markup Language (XRML) which is an extension of XML. The implicit rules embedded in the Web pages should be identifiable, interchangeable with structured rule format, and finally accessible by various applications. It is possible to realize by using XRML. In this light, Web based Knowledge Management Systems (KMS) can be integrated with rule-based expert systems. To meet this end, we propose the six design criteria: Expressional Completeness, Relevance Linkability, Polymorphous Consistency, Applicative Universality, Knowledge Integrability and Interoperability. Furthermore, we propose three components such as RIML (Rule Identification Markup Language), RSML (Rule Structure Markup Language) and RTML (Rule Triggering Markup Language), and the Document Type Definition DTD). We have designed the XRML version 0.5 as illustrated above, and developed its prototype named Form/XRML which is an automated form processing for disbursement of the research fund in the Korea Advanced Institute of Science and Technology (KAISI). Since XRML allows both human and software agent to use the rules, there is huge application potential. We expect that XRML can contribute to the progress of Semantic Web platforms making knowledge management and e-commerce more intelligent. Since there are many emerging research groups and vendors who investigate this issue, it will not take long to see XRML commercial products. Matured XRML applications may change the way of designing information and knowledge systems in the near future.

  • PDF