• Title/Summary/Keyword: 컴퓨터 어휘 학습

Search Result 47, Processing Time 0.025 seconds

The automatic Lexical Knowledge acquisition using morpheme information and Clustering techniques (어절 내 형태소 출현 정보와 클러스터링 기법을 이용한 어휘지식 자동 획득)

  • Yu, Won-Hee;Suh, Tae-Won;Lim, Heui-Seok
    • The Journal of Korean Association of Computer Education
    • /
    • v.13 no.1
    • /
    • pp.65-73
    • /
    • 2010
  • This study offered lexical knowledge acquisition model of unsupervised learning method in order to overcome limitation of lexical knowledge hand building manual of supervised learning method for research of natural language processing. The offered model obtains the lexical knowledge from the lexical entry which was given by inputting through the process of vectorization, clustering, lexical knowledge acquisition automatically. In the process of obtaining the lexical knowledge acquisition of model, some parts of lexical knowledge dictionary which changes in the number of lexical knowledge and characteristics of lexical knowledge appeared by parameter changes were shown. The experimental results show that is possibility of automatic building of Machine-readable dictionary, because observed to the number of lexical class information cluster collected constant. also building of lexical ditionary including left-morphosyntactic information and right-morphosyntactic information is reflected korean characteristic.

  • PDF

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

  • Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

A Study on the Academic vocabulary Education for Content-Based Korean Language Education: A Basic Study for Online Dictionary Development

  • Hwang, Shung-eun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.2
    • /
    • pp.67-74
    • /
    • 2020
  • In this paper, we proposes to develop an online academic vocabulary dictionary as a way of educating academic vocabulary for content-oriented Korean language education. Various academic languages exist in the content-based Korean language teaching materials they encounter when studying at university. You cannot understand or produce academic text without knowing the academic vocabulary. Therefore, one of the tasks of Korean language education has become to improve educational efficiency by preparing a method for academic vocabulary education that is most suitable for them in consideration of their own. Prior to the development of the online academic vocabulary dictionary, the institute conducted a basic study on how the content should be contained in the online dictionary. Online academic vocabulary dictionaries allow students to naturally link their limited education into and out of the classroom, thereby overcoming the limitations of vocabulary education at the educational scene and maximizing their educational effectiveness.

Automatic Classification of Blog Posts Considering Category-specific Information (범주별 고유 정보를 고려한 블로그 포스트의 자동 분류)

  • Kim, Suah;Oh, Sungtak;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2015.01a
    • /
    • pp.11-14
    • /
    • 2015
  • 많은 블로그 제공 사이트는 블로그 포스트 작성자에게 미리 정의된 범주 (category)에 따라 포스트의 주제에 대하여 범주를 선택할 수 있는 환경을 제공한다. 그러나 블로거들은 작성한 포스트의 범주를 매번 수동으로 선택해야 하는 불편함이 있다. 이러한 불편함의 해결을 위해 블로그 포스트를 자동으로 분류해주는 기능을 제공한다면 블로그의 활용성이 증가할 것이다. 기존의 블로그 문서 분류의 연구는 각 범주의 고유 정보를 반영하는 것에 한계가 있었다. 이러한 문제를 해결하기 위해, 본 논문에서는 범주별 고유 정보를 반영한 어휘 가중치를 제안한다. 어휘 가중치의 분석을 위하여 범주별로 블로그 문서를 수집하고, 수집한 문서에서 어휘의 빈도와 문서의 빈도, 범주별 어휘빈도 등을 고려하여 새로운 지표인 CTF, CDF, IECDF를 개발하였다. 이러한 지표를 기반으로 기존의 Naive Bayes 알고리즘으로 학습하여, 블로그 포스트를 자동으로 분류하였다. 실험에서는 본 논문에서 제안한 가중치 방법인 TF-CTF-CDF-IECDF를 사용한 분류가 가장 높은 성능을 보였다.

  • PDF

An English Vocabulary Learning Method by using Digital Storytelling (디지털 스토리텔링을 이용한 영어어휘학습설계)

  • Yoo, Ji-Ho;Lim, Heui-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1445-1448
    • /
    • 2011
  • 이야기를 통한 메시지 전달은 가장 강력한 소통의 기구다. 그것은 디지털미디어가 발달하면서도 마찬가지이다. 정보의 급격한 양과 질적인 변화는 인간에게 다양하고 변화되는 학습이 요구되고 있으며, 평생교육의 개념이 강화되는 상황 속에서, 디바이스의 발달은 지식정보화 사회에서의 필수적인 학습도구로서 자리잡고 있으나, 진화를 요구 받게 되어있다. 특히, 영어학습에서 디바이스들은 EFL 에서 학습한계를 극복하고, 문화적 교육을 가능하게 하는 도구로 발전하고 있으므로, 수집된 정보들은 의미전달에 있어서 효율성을 취하는 설계에 있어서 디지털 스토리텔링방법의 효과성 검증과 디지털 매체 그리고 변화된 환경의 학습자 분석을 통한 교수학습의 촉진기반연구가 필요하며, 이에 기반한 영어어휘 교수 학습설계의 개발연구를 제안하고자 한다.

A Design of Electronic Dictionary for Computer English Abbreviation Supporting Voice and Study Functions (음성출력/학습기능을 지원하는 컴퓨터용어 약어 전자사전 설계)

  • Kim, Hong-Seop;Lee, Hyun-Geol;Kim, Cheol-Ho;Lee, Keum-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.347-357
    • /
    • 1992
  • 컴퓨터용어에 대한 약어들을 기존 사건관리 방법에서 벗어나 컴퓨터에 수록하여, 음성을 포함한 한글 및 영문풀이 조회, 추가등록, 삭제, 수정을 가능케 하여 어휘변화 및 의미파악에 신속히 대처하고, 영문, 한글 단어를 이용한 약어검색 기능과 시스템에서 임의로 문제를 출제, 학습자 수준을 측정해볼 수 있는 컴퓨터 보조학습(CAI)과 knowledge base 교체시 타분야에서 활용이 가능하도록 DB화한 약어 전문가체제로, 업무 활용자(학습자)와 컴퓨터 상호작용에 의한 개인차를 극복할 수 있도록 컴퓨터용어 약어 전자사전을 설계하였다.

  • PDF

Analysis of Vocabulary Relations by Dimensional Reduction for Word Vectors Visualization (차원감소 단어벡터 시각화를 통한 어휘별 관계 분석)

  • Ko, Kwang-Ho;Paik, Juryon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.13-16
    • /
    • 2022
  • LSTM과 같은 딥러닝 기법을 이용해 언어모델을 얻는 과정에서 일종의 부산물로 학습 대상인 말뭉치를 구성하는 어휘의 단어벡터를 얻을 수 있다. 단어벡터의 차원을 2차원으로 감소시킨 후 이를 평면에 도시하면 대상 문장/문서의 핵심 어휘 사이의 상대적인 거리와 각도 등을 직관적으로 확인할 수 있다. 본 연구에서는 기형도의 시(詩)을 중심으로 특정 작품을 선정한 후 시를 구성하는 핵심 어휘들의 차원 감소된 단어벡터를 2D 평면에 도시하여, 단어벡터를 얻기 위한 텍스트 전처리 방식에 따라 그 거리/각도가 달라지는 양상을 분석해 보았다. 어휘 사이의 거리에 의해 군집/분류의 결과가 달라질 수 있고, 각도에 의해 유사도/유추 연산의 결과가 달라질 수 있으므로, 평면상에서 핵심 어휘들의 상대적인 거리/각도의 직관적 확인을 통해 군집/분류작업과 유사도 추천/유추 등의 작업 결과의 양상 변화를 확인할 수 있었다. 이상의 결과를 통해, 영화 추천/리뷰나 문학작품과 같이 단어 하나하나의 배치에 따라 그 분위기와 정동이 달라지는 분야의 경우 텍스트 전처리에 따른 거리/각도 변화를 미리 직관적으로 확인한다면 분류/유사도 추천과 같은 작업을 좀 더 정밀하게 수행할 수 있을 것으로 판단된다.

  • PDF

A Study on the Automatic Descriptor Assignment for Scientific Journal Articles Using Rocchio Algorithm (로치오 알고리즘을 이용한 학술지 논문의 디스크 립터 자동부여에 관한 연구)

  • Kim, Pan-Jun
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.3 s.61
    • /
    • pp.69-89
    • /
    • 2006
  • Several performance factors which have applied to the automatic indexing with controlled vocabulary and text categorization based on Rocchio algorithm were examined, and the simple method for performance improvement of them were tried. Also, results of the methods using Rocchio algorithm were compared with those of other learning based methods on the same conditions. As a result, keeping with the strong points which are implementational easiness and computational efficiency, the methods based Rocchio algorithms showed equivalent or better results than other learning based methods(SVM, VPT, NB). Especially, for the semi-automatic indexing(computer-aided indexing), the methods using Rocchio algorithm with a high recall level could be used preferentially.

A System for Learning English Words Using Relations between Words (단어간의 관계를 이용한 영어 단어 학습 시스템)

  • Siyeong Bae;Sangchul Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.1154-1157
    • /
    • 2008
  • 오늘날은 실용성 있는 생활 영어교육이 절실히 필요한 시대로서 영어 교육은 무엇보다도 의사소통 능력 개발에 중점을 두고 있다. 영어 학습을 시작하는 초기 학습자 단계에서 가장 우선적으로 직면하게 되는 것이 바로 어휘 학습이다. 기존 영어 단어 학습 시스템은 학습자에게 지나치게 많은 단어들을 단순한 방법을 통해서 학습하게 함으로써 심리적 부담을 주고 있다. 심리언어학에서는 언어 이해의 과정이 단순히 제시된 것을 그대로 받아들이는 수용의 과정이 아니라 학습자가 이미 보유한 경험과 개념을 근거로 활성망의 확산을 통해 적절한 관계를 찾는 역동적·능동적 과정이라는 이론이 있다. 본 논문에서는 언어 학습 이론을 바탕으로 단어들 사이의 관계를 부각시킴으로써 추론과 기억에 도움을 주는 영어 단어 학습 시스템을 제안한다. 본 시스템은 단어들 간의 관계를 정의한 단어 관계 망을 중심으로 단어 학습 순서를 결정할 수 있고, 이미지 및 게임 기능을 지원하여 단어학습의 흥미를 유발하는 특징이 있다. 본 학습시스템을 실제 단어 학습에 적용해 본 결과 학습자들의 만족도가 높았다.

A English Composition Level Assessment System Using Machine Learning Techniques (기계학습기법을 이용한 영어작문 문장 수준평가 시스템)

  • Eom, Jin-Hee;Kwak, Dong-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1290-1293
    • /
    • 2013
  • 본 논문은 문장 내에서 나타나는 어휘간의 관계를 통해 표현 수준을 자동으로 평가할 수 있는 시스템을 제안한다. 제안하는 방법은 영어에세이 코퍼스 내의 문장에서 발생하는 철자 및 문법의 오류와 함께 어휘와 문법 패턴에 따른 표현난이도를 평가할 수 있는 자질을 생성하고 다양한 기계학습기법을 사용하여 문장의 수준을 평가하고자 하였다. 또한 기존에 연구되어온 규칙기반의 문장 평가시스템을 구현하고 기계학습기법을 이용한 문장 평가시스템과 비교하였다. 이를 통해 철자 및 문법의 오류율뿐만 아니라 표현난이도를 평가할 수 있는 자질들이 유용함을 확인할 수 있었다. 영어작문 문장의 수준평가를 위해서 국내 학생들의 토플 에세이 코퍼스를 수집하여 2,000문장을 추출하였고, 4명의 전문평가자들을 통해 6단계로 평가하여 학습 및 테스트 세트를 구성하였다. 성능척도로는 정확률과 재현율을 사용하였으며, 제안하는 방법으로 67.3%의 정확률과 67.1%의 재현율을 보였다.