• 제목/요약/키워드: R language

검색결과 499건 처리시간 0.021초

SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안 (SimKoR: A Sentence Similarity Dataset based on Korean Review Data and Its Application to Contrastive Learning for NLP )

  • 김재민;나요한;김강민;이상락;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.245-248
    • /
    • 2022
  • 최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히 이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후 제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는 한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고, 이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다.

  • PDF

어문청정 빅데이터 분석: 위문기거 일례 (A Big Data Analysis of Yumentingzheng: Weiwenqiju as an Example)

  • 스노우버거 다니엘 아론;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.624-626
    • /
    • 2021
  • 청나라 황제가 신하들과 정사를 논한 내용을 기록한 중국의 어문청정은, 한국의 조선실록과 같은 중요한 문서이다. 본 논문은 만주글자로 쓰여진 어문청정을 빅데이터 분석하기 위한 방법과 그 단계를 기술한다. 만주글자로 씌여진 문서의 빅데이터 분석에는 사전에 해결해야 할 많은 문제가 있으며 이에 대한 연구가 선행되어야 한다. 본 논문에서는 앞으로 이루어질 사전 연구를 통하여 만주 글자로 씌여진 텍스트가 라틴문자로 전사된 단계에서, R언어를 이용하여 빅데이터 분석을 하는 방법을 제안하였다. 제안된 방법에서는 어문청정을 전사하는 방식은 압카이 방식을 채택하였고, 위문기거 부분의 텍스트를 이용하여 빅데이터 분석 결과를 제시하였다.

  • PDF

MLOps workflow language and platform for time series data anomaly detection

  • Sohn, Jung-Mo;Kim, Su-Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.19-27
    • /
    • 2022
  • 본 연구에서는 시계열 데이터 이상 탐지 수행을 위한 MLOps(Machine Learning Operations) 워크플로를 기술하고 관리할 수 있는 언어와 플랫폼을 제안한다. 시계열 데이터는 IoT 센서, 시스템 성능 지표, 사용자 접속량 등 많은 분야에서 수집되고 있다. 또한, 시스템 모니터링 및 이상 탐지 등 많은 응용 분야에 활용 중이다. 시계열 데이터의 예측 및 이상 탐지를 수행하기 위해서는 분석된 모델을 빠르고 유연하게 운영 환경에 적용할 수 있는 MLOps 플랫폼이 필요하다. 이에, 최근 데이터 분석에 많이 활용되고 있는 Python 기반의 AMML(AI/ML Modeling Language)을 개발하여 손쉽게 MLOps 워크플로를 구성하고 실행할 수 있도록 제안한다. 제안하는 AI MLOps 플랫폼은 AMML을 이용하여 다양한 데이터 소스(R-DB, NoSql DB, Log File 등)에서 시계열 데이터를 추출, 전처리 및 예측을 수행할 수 있다. AMML의 적용 가능성을 검증하기 위해, 변압기 오일 온도 예측 딥러닝 모델을 생성하는 워크플로를 AMML로 구성하고 학습이 정상적으로 수행됨을 확인하였다.

단독성 고메티오닌혈증 환아들의 임상적 특성과 유전자 분석 (Clinical Findings and Genetic Analysis of Isolated Hypermethioninemia Patients in Korea)

  • 유상수;이민희;이정호;이동환
    • 대한유전성대사질환학회지
    • /
    • 제13권2호
    • /
    • pp.98-103
    • /
    • 2013
  • Purpose: MAT-I/III deficiency by MAT1A gene mutation causes isolated hypermethioninemia, which is considered to be a clinically benign disease. But in some patients, mental retardation, developmental delay, myelination disorder may be shown. This study was performed to find out the clinical manifestations and genetic characteristics of patients with isolated hypermethioninemia. Methods: Clinical, biochemical and genetic analysis were done to 10 patients with isolated hypermethioninemia who were referred to department of pediatrics, Soonchunhyang University Hospital from March 1999 to March 2012. Results: At first visit, all patients' mean plasma methionine level was 5.5 mg/dL (2.1-14.6) and there were no increase of amino acid levels including homocystine in all patients. Serum homocysteine level was evaluated in seven patients who visited after year 2003, and ranged from 4.96 to $11.15{\mu}mol/L$ (normal < $25{\mu}mol/L$). Methionine restricted diet was started to all patients. Nine patients who managed regularly showed normal development, but one patient whose initial plasma methionine level was 14.6 mg/dL showed language delay at 1 year of age and was diagnosed as mild mental retardation (IQ=66) at 6 years of age. Genetic analysis was done to eight patients, R264H mutation was identified in seven patients. Also, both R299C and R356Q mutation were identified in one patient. Conclusion: Clinical findings in patients with isolated hypermethioninemia were generally good, but one patient showed mental retardation and language difficulty. R264H mutation which usually inherits as an autosomal dominant trait was most frequently found in our patients, and R299C/R356Q mutation were also identified.

  • PDF

Effects of Inter-phoneme Probabilities on the Acceptability Judgment of Korean CVC Nonwords

  • Lee, Yong-Eun
    • 음성과학
    • /
    • 제14권4호
    • /
    • pp.41-52
    • /
    • 2007
  • Recent experimental studies have shown that language-users' knowledge of the statistical characteristic of their native language plays a key role in their task performance. One specific instance of this that the current study focuses on is the effect of phonotactic probabilities on speakers' wordlikeness judgment of nonwords. In this paper, I explore the question of whether the judgment of Korean speaking subjects as to the wordlikeness of Korean nonsense words is influenced by the degree of association between two-phoneme sequences in Korean. The current results suggest that the objective measure of correlations (expressed by $r_{\phi}$ values) between an onset consonant and a vowel inside Korean syllables play an important role in Korean speakers' nonword processing. The current results additionally indicate an effect of the correlations of two-phoneme sequences including vowels and coda consonants on nonword processing. Implications of these findings for Korean speakers' learning the correlations between adjacent segments inside the syllable are discussed.

  • PDF

한국인의 영어 문장 발음에 대한 한국인/원어민/ILT(Interactive Language Tutor) 평가 점수 사이의 상관관계 (Correlations between pronunciation test scores given by Korean/Nativel/ILT(Interactive Language Tutor) raters against the Korean-spoken English sentences)

  • 이석재;박전규
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.83-88
    • /
    • 2003
  • This study carried out an experimental English pronunciation assessment to see the differences in the relationship between the different rater categories. The result shows that i) correlation between Korean and Native American raters is high(r=.98) enough to be considered reliable, ii) previous instructions about assessment rubric and the knowledge about English phonetics and phonology exert little influence on the rating scores, iii) correlation between the automatic ILT(Interactive Language Tutor) rating using speech recognition technology and Natives' rating is stronger than that between ILT and Koreans' rating.

  • PDF

한국어 화자를 위한 외국어 학습 코스웨어의 모델링 (Modelling Foreign Language Learning Courseware for Korean Speakers)

  • 윤애선;김경희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.418-425
    • /
    • 1999
  • 한국어 화자를 위한 외국어 학습 코스웨어를 학습 목표언어 독립적으로 모델링하는 방안을 모색하기 위한 외국어 학습 이론과 웹상의 자료 제시 유형에 관해 논하고 기개발된 플랫폼 LangEdu를 살펴봄으로써 그 실현 가능성을 증명하고 있다. 체계적인 학습 자료 제시와 사용자간의 긴밀한 상호 작용 및 손쉬운 관리가 가능하도록 설계되어진 이 플랫폼을 이용하면 전산 전문 지식이 없는 교과 전문가가 큰 어려움이 없이 개별 외국어 학습 코스웨어를 제작할 수 있다. 따라서, 이 방법론은 비용효과적일 뿐만 아니라 교과전문가의 적극적인 참여를 유도하여 양질의 코스웨어 제작에 기여한다.

  • PDF

질의 응답 시스템을 위한 질의, 문서, 답변 검증기 (Question, Document, Response Validator for Question Answering System)

  • 민태홍;이재홍;인수교;문기윤;조휘열;김경덕
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.604-607
    • /
    • 2022
  • 본 논문은 사용자의 질의에 대한 답변을 제공하는 질의 응답 시스템에서, 제공하는 답변이 사용자의 질의에 대하여 문서에 근거하여 올바르게 대답하였는지 검증하는 QDR validator에 대해 기술한 논문이다. 본 논문의 과제는 문서에 대한 주장을 판별하는 자연어 추론(Natural Language inference, NLI)와 유사한 과제이지만, 문서(D)와 주장(R)을 포함하여 질의(Q)까지 총 3가지 종류의 입력을 받아 NLI 과제보다 난도가 높다. QDR validation 과제를 수행하기 위하여, 약 16,000 건 데이터를 생성하였으며, 다양한 입력 형식 실험 및 NLI 과제 데이터 추가 학습, 임계 값 조절 실험을 통해 최종 83.05% 우수한 성능을 기록하였다

  • PDF

비정형 요구사항으로부터 원인-결과 그래프 자동 발생을 위한 문장 의미 모델(Sentence Semantic Model) 설계 (Design of Sentence Semantic Model for Cause-Effect Graph Automatic Generation from Natural Language Oriented Informal Requirement Specifications)

  • 장우성;정세준;김영철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-219
    • /
    • 2020
  • 현재 한글 언어학 영역에서는 많은 언어 분석 연구가 수행되었다. 또한 소프트웨어공학의 요구공학 영역에서는 명료한 요구사항 정의와 분석이 필요하고, 비정형화된 요구사항 명세서로부터 테스트 케이스 추출이 매우 중요한 이슈이다. 즉, 자연어 기반의 요구사항 명세서로부터 원인-결과 그래프(Cause-Effect Graph)를 통한 의사 결정 테이블(Decision Table) 기반 테스트케이스(Test Case)를 자동 생성하는 방법이 거의 없다. 이런 문제를 해결하기 위해 '한글 언어 의미 분석 기법'을 '요구공학 영역'에 적용하는 방법이 필요하다. 본 논문은 비정형화된 요구사항으로부터 테스트케이스 생성하는 과정의 중간 단계인 요구사항에서 문장 의미 모델(Sentence Semantic Model)을 자동 생성하는 방법을 제안 한다. 이는 요구사항으로부터 생성된 원인-결과 그래프의 정확성을 검증할 수 있다.

  • PDF

Toon Image Generation of Main Characters in a Comic from Object Diagram via Natural Language Based Requirement Specifications

  • Janghwan Kim;Jihoon Kong;Hee-Do Heo;Sam-Hyun Chun;R. Young Chul Kim
    • International journal of advanced smart convergence
    • /
    • 제13권1호
    • /
    • pp.85-91
    • /
    • 2024
  • Currently, generative artificial intelligence is a hot topic around the world. Generative artificial intelligence creates various images, art, video clips, advertisements, etc. The problem is that it is very difficult to verify the internal work of artificial intelligence. As a requirements engineer, I attempt to create a toon image by applying linguistic mechanisms to the current issue. This is combined with the UML object model through the semantic role analysis technique of linguists Chomsky and Fillmore. Then, the derived properties are linked to the toon creation template. This is to ensure productivity based on reusability rather than creativity in toon engineering. In the future, we plan to increase toon image productivity by incorporating software development processes and reusability.