• 제목/요약/키워드: 어휘학습시스템

검색결과 109건 처리시간 0.022초

Sequence-to-sequence 학습을 이용한 한국어 약어 생성 (Korean Abbreviation Generation using Sequence to Sequence Learning)

  • 최수정;박성배;김권양
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권3호
    • /
    • pp.183-187
    • /
    • 2017
  • 스마트폰 사용자들은 텍스트를 쉽게 읽고 빠르게 입력하기를 원한다. 이런 흐름에 따라 사용자들은 채팅 용어에서부터 전문 분야, 뉴스 기사에 이르기까지 여러 단어로 이루어진 어휘를 축약한 약어를 많이 사용한다. 그러므로 약어를 모아 데이터를 구축한다면 정보 검색과 추천 시스템 등에 유용하게 사용될 수 있다. 하지만 약어는 새로운 콘텐츠가 등장할 때마다 계속해서 생겨나기 때문에 수동으로 모으는 일은 쉽지 않으므로, 약어를 자동으로 생성하는 방법이 필요하다. 기존 연구들은 약어를 자동으로 생성하기 위해 규칙 기반 방법을 사용하였으나, 불규칙한 약어들은 생성할 수 없다는 한계점이 있다. 또한 규칙에 의해 생성된 후보 약어들 중에서 올바른 약어를 결정해야하는 문제도 발생한다. 따라서 본 논문에서는 이런 한계점을 극복하기 위해 시퀀스 투 시퀀스 학습 방법을 사용하여 약어를 자동으로 생성한다. 시퀀스투 시퀀스 학습 방법은 심층 신경망으로 기존의 규칙 기반 방법으로 생성할 수 없던 불규칙한 약어들을 생성할 수 있다. 게다가 후보 약어들 중 올바른 약어를 결정할 문제가 발생하지 않기 때문에 자동으로 약어를 생성하는 문제에 적합하다. 본 논문에서는 제안한 방법을 평가한 결과, 기존의 연구에서 생성할 수 없던 불규칙적인 약어를 생성하여 제안한 모델이 효과적임을 증명하였다.

초등학교 교사의 그림책 접근점 요구에 관한 연구 (A Study on Elementary School Teachers' Needs for Access Points for Picture Books)

  • 김혜미;김수정
    • 한국비블리아학회지
    • /
    • 제33권1호
    • /
    • pp.233-258
    • /
    • 2022
  • 본 연구의 목적은 교수매체로써 그림책을 탐색하고자 하는 초등학교 교사들의 접근점에 대한 요구를 파악하고 학교도서관 DLS(Digital Library System)의 접근점 개선방안을 제안하는 것이다. 이를 위해 먼저 국내외 7개 도서관 온라인목록시스템에서 제공하는 접근점을 조사하였다. 그리고 초등학교 교사들을 대상으로 온라인 설문조사를 실시하여 최종적으로 220개의 응답을 분석하였다. 분석 결과, 교사들이 가장 필요로 하는 그림책의 접근점은 주제, 학년/연령, 내용, 교과/단원, 범교과학습주제 등으로 나타났다. 이러한 결과를 바탕으로 본 연구는 필요성이 높게 나타난 접근점을 DLS의 목록레코드에서 제공하고, 통제어휘집을 개발하고, 시스템의 기능이나 인터페이스를 개선하여 그림책에 대한 접근성을 향상시키는 방안을 제안하였다.

초등학교 수학 교과서 개선과 편찬 상의 이슈 분석: 2015 개정 초등학교 수학 국정 교과용 도서를 중심으로 (An Analysis of Improvement and Compilation Issues of Mathematics Textbooks for Elementary Schools: Focusing on the 2015 Revised Elementary School Mathematics Textbook Government Published)

  • 이화영
    • 한국수학교육학회지시리즈C:초등수학교육
    • /
    • 제25권4호
    • /
    • pp.411-431
    • /
    • 2022
  • 본 논문은 2015 개정 교육과정에 따른 초등학교 수학국정 교과용 도서 편찬의 과정과 결과를 분석하여 향후 교과용 도서 편찬을 위한 시사점을 모색하였다. 2015 개정 초등 수학 국정 교과서 편찬은 전국의 학계와 학교 현장 전문가들이 전문성을 발휘할 수 있도록 체계적인 편찬 시스템을 갖추고 운영되었다. 내용상의 개선 사항으로는 기초 계산 능력 강화를 위한 단원과 차시를 증대하고, 수학 개념과 원리 도입 방식이나 알고리즘 제시 방식 개선 및 내용 간의 내적 연결성을 강화하였다. 학생들에게 이해가 어려운 내용은 상위 학기나 상위 학년으로 이동 배치하여 학습 시기를 조정하였다. 1~2학년군에서는 학생들의 한글수준에 맞게 읽을 분량을 대폭 축소하고, 문장과 어휘 개선 및 지시문을 간결하게 수정하였다. 편집·디자인 개선 사항으로는 단원별 도입 차시의 삽화와 차시별 맥락 그림을 세밀화로 연계하여 제시하였고, 교과서에 등장하는 인물들을 전 학년군에 걸쳐 일관성있게 제시하였다. 편찬 과정에서 교과서의 문장과 어휘 수준, 교과서 분량, 수학 익힘 문제 난이도 등 이슈가 제기되었으며, 이에 따른 교과서 편찬 개선 노력과 그 결과를 조망하였다. 위와 같이 전반적인 분석을 통하여, 향후 국정 교과서 및 검정 교과서 등 편찬을 위해 학생과 교사를 위한 교과서 편찬 개선 방안과 편찬 운영 방안을 제시하였다.

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.

BiLSTM 모델과 형태소 자질을 이용한 서술어 인식 방법 (Predicate Recognition Method using BiLSTM Model and Morpheme Features)

  • 남충현;장경식
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.24-29
    • /
    • 2022
  • 정보 추출 및 질의응답 시스템 등 다양한 자연어 처리 분야에서 사용되는 의미역 결정은 주어진 문장과 서술어에 대해 서술어와 연관성 있는 논항들의 관계를 파악하는 작업이다. 입력으로 사용되는 서술어는 형태소 분석과 같은 어휘적 분석 결과를 이용하여 추출하지만, 한국어 특성상 문장의 의미에 따라 다양한 패턴을 가질 수 있기 때문에 모든 언어학적 패턴을 만들 수 없다는 문제점이 있다. 본 논문에서는 사전에 언어학적 패턴을 정의하지 않고 신경망 모델과 사전 학습된 임베딩 모델 및 형태소 자질을 추가한 한국어 서술어를 인식하는 방법을 제안한다. 실험은 모델의 변경 가능한 파라미터에 대한 성능 비교, 임베딩 모델과 형태소 자질의 사용 유무에 따른 성능 비교를 하였으며, 그 결과 제안한 신경망 모델이 92.63%의 성능을 보였음을 확인하였다.

유학생 대상의 비대면 교양 영어 수업 방안: 영화 대본 소리 내어 읽기를 중심으로 (A Study on Non-Face-to-Face General English Courses for International Students: Reading Movie Scripts Aloud)

  • 이지현
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.267-272
    • /
    • 2021
  • 본 연구는 코로나 사태로 인한 비대면 교양 영어 수업에서 영화 대본 소리 내어 읽기가 유학생들의 영어 능력에 미치는 영향을 알아보는 것을 목적으로 한다. 서울 소재 대학에 다니는 유학생 47명을 대상으로 일주일에 한 번, 15주간, 애니메이션 라푼젤(Tangled)을 이용하여 교양 영어 수업을 진행하였다. 교사의 동영상 수업과 영화 대본 소리 내어 읽기 활동을 격주로 진행하였다. 교사는 쉬운 한국어로 영화 대사의 어휘 설명 및 해석으로 동영상을 제작하여 학습 관리 시스템(LMS)에 게시하였다. 학생들은 소리 내어 읽기 활동은 줌을 통해 교사의 도움을 받으며 개인별 및 조별 소리 내어 읽기를 하였다. 사후 평가에서 사전 평가 대비 읽기와 쓰기 영역 모두에서 유의미한 향상을 보여주었다. 설문에서는 이해도, 만족도, 흥미도, 추천도의 정의적 측면에서 긍정적인 결과가 나타났다.

지질용어 시소러스 시스템의 설계 및 구축 (Design and Implementation of Thesaurus System for Geological Terms)

  • 황재홍;지광훈;한종규;연영광;류근호
    • 한국지리정보학회지
    • /
    • 제10권2호
    • /
    • pp.23-35
    • /
    • 2007
  • 최근 정보 검색 분야에서 시맨틱 웹 기술에 따른 인터넷 용어사전과 더불어 시소러스의 필요성이 더욱 중요시되고 있다. 시소러스는 분류와 사전의 결합으로 상위 및 하위개념 사이의 전후관계를 명확히 하기 위해서 공식적으로 조직, 통제된 색인어의 어휘로 인간의 학습, 탐구활동 등 제반 지식활동의 대상이 되는 개념(용어)간의 관계를 표현한 지식구조의 토픽 맵이다. 하지만 시소러스가 용어의 통제 및 표준화와 더불어 정보를 능률적으로 처리하고 검색하는데 필수적인 수단으로 평가되고 있음에도 불구하고 아직까지 지질분야에서 우리말 시소러스가 없는 실정이다. 시소러스를 구축하기 위해서는 표준화되고 잘 정의된 지침이 필요하다. 이러한 표준화된 지침은 보다 효율적인 정보 관리를 가능하게 할 것이며, 정보 이용자 또한 보다 정확한 정보를 쉽고 편리하게 이용할 수 있게 될 것이다. 본 연구는 지질정보 중 가장 기본이 되는 용어 시소러스 시스템 구축 연구이다. 이를 위해서 첫째, 국내외 지질용어 표준화 동향을 살펴보았다. 둘째, 15개 분야에 대한 지질학적 주제를 정하고 각 주제에 대한 분류체계(안)를 마련하였다. 셋째, 지질용어 시소러스 분류체계를 바탕으로 지질용어 시소러스 명세서를 작성하였다. 마지막으로 이 명세서를 이용하여 인터넷기반 지질용어 시소러스 시스템을 설계하고 구축하였다.

  • PDF

텍스트 및 영상의 멀티모달분석을 이용한 트위터 사용자의 감성 흐름 모니터링 기술 (Monitoring Mood Trends of Twitter Users using Multi-modal Analysis method of Texts and Images)

  • 김은이;고은정
    • 한국융합학회논문지
    • /
    • 제9권1호
    • /
    • pp.419-431
    • /
    • 2018
  • 본 논문은 개인 사용자의 트윗을 분석하여 사용자의 감정 흐름을 모니터링할 수 있는 새로운 방법을 제안한다. 본 논문에서는 사용자의 감성 흐름을 정확하게 예측하기 위해서 기존의 텍스트 위주의 시스템과 달리 본 연구에서는 사용자가 쓴 텍스트와 영상 등으로부터 감성을 인식하는 멀티 모달 분석 기법이 개발된다. 제안된 방법에서는 먼저 어휘분석 및 문맥을 이용한 텍스트분석기와 학습기반의 영상감성인식기를 이용하여 텍스트 및 영상 트윗에 숨겨진 개별 감성을 추출한다. 이후 이들은 규칙기반 통합 방법에 의해 날짜별로 통합되고, 마지막으로 개인의 감성흐름을 보다 직관적으로 관측할 수 있도록 감성흐름그래프로 시각화한다. 제안된 방법의 효용성을 평가하기 위해 두 단계의 실험이 수행되었다. 먼저 4만여 개의 트윗으로부터 제안된 방법의 정확도 평가 실험이 수행되고, 최신 트윗 분석 기술과 비교 분석되었다. 두 번째 실험에서는 40명의 우울증을 가진 사용자와 일반사용자를 구분할 수 있는지에 대한 실험이 수행된 결과, 제안된 기술이 실제 사용자의 감성흐름을 모니터하는데 효율적임을 증명하였다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.