• 제목/요약/키워드: representation learning

검색결과 513건 처리시간 0.021초

Improved Character-Based Neural Network for POS Tagging on Morphologically Rich Languages

  • Samat Ali;Alim Murat
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.355-369
    • /
    • 2023
  • Since the widespread adoption of deep-learning and related distributed representation, there have been substantial advancements in part-of-speech (POS) tagging for many languages. When training word representations, morphology and shape are typically ignored, as these representations rely primarily on collecting syntactic and semantic aspects of words. However, for tasks like POS tagging, notably in morphologically rich and resource-limited language environments, the intra-word information is essential. In this study, we introduce a deep neural network (DNN) for POS tagging that learns character-level word representations and combines them with general word representations. Using the proposed approach and omitting hand-crafted features, we achieve 90.47%, 80.16%, and 79.32% accuracy on our own dataset for three morphologically rich languages: Uyghur, Uzbek, and Kyrgyz. The experimental results reveal that the presented character-based strategy greatly improves POS tagging performance for several morphologically rich languages (MRL) where character information is significant. Furthermore, when compared to the previously reported state-of-the-art POS tagging results for Turkish on the METU Turkish Treebank dataset, the proposed approach improved on the prior work slightly. As a result, the experimental results indicate that character-based representations outperform word-level representations for MRL performance. Our technique is also robust towards the-out-of-vocabulary issues and performs better on manually edited text.

비지도 대조 학습에서 한국어 문장 표현을 위한 특수 토큰 컷오프 방법의 유효성 분석 (On the Effectiveness of the Special Token Cutoff Method for Korean Sentence Representation in Unsupervised Contrastive Learning)

  • 한명수;정유현;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2023
  • 사전학습 언어모델을 개선하여 고품질의 문장 표현(sentence representation)을 도출하기 위한 다양한 대조 학습 방법에 대한 연구가 진행되고 있다. 그러나, 대부분의 대조학습 방법들은 문장 쌍의 관계만을 고려하며, 문장 간의 유사 정도를 파악하는데는 한계가 있어서 근본적인 대조 학습 목표를 저해하였다. 이에 최근 삼중항 손실 (triplet loss) 함수를 도입하여 문장의 상대적 유사성을 파악하여 대조학습의 성능을 개선한 연구들이 제안되었다. 그러나 많은 연구들이 영어를 기반으로한 사전학습 언어모델을 대상으로 하였으며, 한국어 기반의 비지도 대조학습에 대한 삼중항 손실 함수의 실효성 검증 및 분석은 여전히 부족한 실정이다. 본 논문에서는 이러한 방법론이 한국어 비지도 대조학습에서도 유효한지 면밀히 검증하였으며, 다양한 평가 지표를 통해 해당 방법론의 타당성을 확인하였다. 본 논문의 결과가 향후 한국어 문장 표현 연구 발전에 기여하기를 기대한다.

  • PDF

각기둥과 각뿔의 정의 및 시각적 표현에 대한 분석 (Analysis of the definition and visual representation of the prisms and pyramids)

  • 강윤지
    • 한국수학교육학회지시리즈C:초등수학교육
    • /
    • 제27권2호
    • /
    • pp.139-153
    • /
    • 2024
  • 본 연구는 초등 수학 교과서와 관련하여 입체도형의 지도와 관련된 교수학적 시사점을 제시하고자 하였다. 국정 1종 및 검정 10종의 교과서를 분석하였으며 각기둥과 각뿔 단원 내 수학적 개념의 정의와 시각적으로 표현된 예시를 분석하였다. 분석 결과, 동일한 교육과정이 반영되었음에도 불구하고 수학적 개념의 정의 방법 및 내용이 다르게 나타났다. 또한, 각기둥과 각뿔을 학습하는 과정에서 다양한 형태로 표현된 시각적 예시가 제공되었다. 본 연구의 결과를 바탕으로 수학적 개념의 정의를 이해하고 학생에게 적절한 방식으로 지도할 필요가 있으며 시각적 예시를 제시하는 과정에서 각 차시의 목표 및 활동의 목표를 고려하여야 한다는 시사점을 도출하였다.

Paper Recommendation Using SPECTER with Low-Rank and Sparse Matrix Factorization

  • Panpan Guo;Gang Zhou;Jicang Lu;Zhufeng Li;Taojie Zhu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권5호
    • /
    • pp.1163-1185
    • /
    • 2024
  • With the sharp increase in the volume of literature data, researchers must spend considerable time and energy locating desired papers. A paper recommendation is the means necessary to solve this problem. Unfortunately, the large amount of data combined with sparsity makes personalizing papers challenging. Traditional matrix decomposition models have cold-start issues. Most overlook the importance of information and fail to consider the introduction of noise when using side information, resulting in unsatisfactory recommendations. This study proposes a paper recommendation method (PR-SLSMF) using document-level representation learning with citation-informed transformers (SPECTER) and low-rank and sparse matrix factorization; it uses SPECTER to learn paper content representation. The model calculates the similarity between papers and constructs a weighted heterogeneous information network (HIN), including citation and content similarity information. This method combines the LSMF method with HIN, effectively alleviating data sparsity and cold-start issues and avoiding topic drift. We validated the effectiveness of this method on two real datasets and the necessity of adding side information.

비디오 행동 인식을 위하여 다중 판별 결과 융합을 통한 성능 개선에 관한 연구 (A Study for Improved Human Action Recognition using Multi-classifiers)

  • 김세민;노용만
    • 방송공학회논문지
    • /
    • 제19권2호
    • /
    • pp.166-173
    • /
    • 2014
  • 최근 다양한 방송 및 영상 분야에서 사람의 행동을 인식하여는 연구들이 많이 이루어지고 있다. 영상은 다양한 형태를 가질 수 있기 때문에 제약된 환경에서 유용한 템플릿 방법들보다 특징점에 기반한 연구들이 실제 사용자 환경에서 더욱 관심을 받고 있다. 특징점 기반의 연구들은 영상에서 움직임이 발생하는 지점들을 찾아내어 이를 3차원 패치들로 생성한다. 이를 이용하여 영상의 움직임을 히스토그램에 기반한 descriptor(서술자)로 표현하고 학습기반의 판별기로 최종적으로 영상내에 존재하는 행동들을 인식하였다. 그러나 단일 판별기로는 다양한 행동을 인식하기에 어려움이 있다. 따라서 이러한 문제를 개선하기 위하여 최근에 다중 판별기를 활용한 연구들이 영상 판별 및 물체 검출 영역에서 사용되고 있다. 따라서 본 논문에서는 행동 인식을 위하여 support vector machine과 sparse representation을 이용한 decision-level fusion 방법을 제안하고자 한다. 제안된 논문의 방법은 영상에서 특징점 기반의 descriptor를 추출하고 이를 각각의 판별기를 통하여 판별 결과들을 획득한다. 이 후 학습단계에서 획득된 가중치를 활용하여 각 결과들을 융합하여 최종 결과를 도출하였다. 본 논문에 실험에서 제안된 방법은 기존의 융합 방법보다 높은 행동 인식 성능을 보여 주었다.

Bidirectional LSTM CRF 기반의 개체명 인식을 위한 단어 표상의 확장 (Expansion of Word Representation for Named Entity Recognition Based on Bidirectional LSTM CRFs)

  • 유홍연;고영중
    • 정보과학회 논문지
    • /
    • 제44권3호
    • /
    • pp.306-313
    • /
    • 2017
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서 가장 우수한 성능을 보여주고 있는 모델은 Bidirectional LSTM CRFs 모델이다. 이러한 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이다. 따라서 입력이 되는 단어를 잘 표현하기 위하여 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 Bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 음절 기반에서 확장된 단어 임베딩 벡터, 그리고 개체명 사전 자질 벡터를 사용한다. 최종 단어 표상 확장 결과 사전 학습된 단어 임베딩 벡터만 사용한 것 보다 8.05%p의 성능 향상을 보였다.

XML 기반 강건 타입형 유전자 프로그램의 이식${\cdot}$독립적 표현 (XML-based Portable Self-containing Representation of Strongly-typed Genetic Program)

  • 이승익
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권4호
    • /
    • pp.277-289
    • /
    • 2005
  • 선택과 재생산을 특징으로 하는 계통적 학습에서 유전자 프로그램이 가지는 긴 설계시간/높은 계산노력/낮은 계산효율을 극복하고자, 이 논문은 XML에 기반을 둔 유전적 표현 방법을 제안한다. 이 방법에서 유전자 프로그램과 유전자 연산은 기성 DOM 파서의 API 호출에 의하여 관리되기 때문에, 유전자 프로그램을 설계하는데 소비되는 시간이 상당히 단축되는 특징이 있다. 또 표준 XML 스키마를 기반으로 의미적으로 올바른 유전자 프로그램만을 다루기 때문에 탐색공간과 계산노력이 감소된다. 그리고 이형 분산 컴퓨팅 환경에서 유전자 프로그램의 이주에 적합한 시스템 및 형식인 XML을 사용하기 때문에 유전자 프로그램이 병렬적으로 수행될 수 있고, 이에 따라 계산효율이 향상된다. 제안된 방법의 검증을 위하여 포식자-피식자 문제에서 다중 에이전트의 사회적 행동의 진화에 적용한 결과, 유전자 프로그램에 대한 계산시간이 단축됨을 .보인다

도심 영상에서의 비음수행렬분해를 이용한 차량 인식 (Vehicle Recognition using NMF in Urban Scene)

  • 반재민;이병래;강현철
    • 한국통신학회논문지
    • /
    • 제37권7C호
    • /
    • pp.554-564
    • /
    • 2012
  • 차량인식은 차량 후보영역 검출단계와 검출된 후보 영역에서 특징을 기반으로 차량을 검증하는 차량 검증단계로 나누어진다. 선형 변환 방식의 특징은 차원 감소 효과와 통계적인 특징을 지니게 되어, 이동이나 회전에 강인한 특성을 갖는다. 선형 변환 방식 중 비음수행렬분해(Non-negative Matrix Factorization, NMF)는 부분 기반 표현 방식으로 차량의 국소적인 특징을 기저벡터로 사용하여 희소성을 갖는 특징을 추출할 수 있기 때문에 도심영상에서 발생하는 차폐 영역에 따른 인식률 저하를 방지할 수 있다. 본 논문에서는 차량 인식에 적합한 NMF 특징 추출 방법을 제안하고, 인식률을 검증하였다. 또한 희소성 제약 조건을 이용하여 기저 벡터에 희소성을 가지는 SNMF(Sparse NMF)와 LVQ2(Learning Vector Quantization) 신경 회로망을 결합하여 차폐 영역에 대한 차량 인식 효율을 기존의 NMF를 이용한 방법과 비교하였다. NMF를 이용하는 특징은 차량이 혼재되어 차폐 영역이 빈번히 발생하는 도심에서도 강건한 특징임을 보였다.

GeoMapApp 자료를 이용한 화산과 지진 학습에서 초등학생의 공간 능력에 따른 공간적 사고의 발현 양상 (Structuring of Elementary Students' Spatial Thinking with Spatial Ability in Learning of Volcanoes and Earthquakes Using GeoMapApp-Based Materials)

  • 송동혁;맹승호
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제40권3호
    • /
    • pp.390-406
    • /
    • 2021
  • 이 연구는 화산과 지진 단원의 수업에 GeoMapApp을 활용한 학습 자료를 적용하고, 공간 능력이 서로 다른 초등학생들이 인지한 공간 개념, 표현한 공간적 표상의 도구, 지형 구조를 표현하는 데 적용한 공간적 추론을 추출하여 공간적 사고의 과정을 분석하였다. 공간 능력 상위 집단 학생들은 인지한 공간 개념 정보를 수평 거리에 따라 구간을 나누어 화산과 지진의 지형 구조에 관한 심리적 이미지를 형성하는 내적 공간 표상을 활용하거나, 인식한 공간 개념을 그대로 연결하는 공간적 추론의 사례를 보였다. 또한, 지진 자료를 보고 공간 개념을 변형하여 공간적 추론을 수행하는 예도 있었다. 공간 능력 하위 집단 학생들은 공간 개념을 직접 지형 구조로 연결하는 공간적 추론을 보이거나, 공간 개념을 부분적으로 인식하여 지형을 파악하는 공간적 추론 사례를 보였다. 연구 결과를 근거로 초등학생들이 GeoMapApp 자료에서 거리, 높이, 깊이와 같은 공간 개념을 정확히 인식해야 더 나은 공간적 사고를 구현할 수 있음을 밝혔다.

삼각함수에 대한 고등학생들의 이해 층위 분석 (An Analysis of Understanding Level of High School Students Shown in Trigonometric Functions)

  • 이유빈;조정수
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제33권3호
    • /
    • pp.319-334
    • /
    • 2019
  • 본 연구는 삼각함수와 관련된 과제를 통해 고등학교 학생들의 함수 개념 이해 정도를 Hitt(1998)의 층위 분석을 통해 살펴보았다. 우선 학생들의 함수 이해 정도를 층위 분석을 통해 단계를 구분한 후 이해 관점을 과정과 대상 관점으로 다시 분류하였다. 그 결과 고등학교 학생들의 함수 개념 이해의 정도 층위는 3단계에서 불완전성을 보였다. 그리고 함수의 이해의 관점은 그래프 해석에서 과정 관점이 주를 이루고 있으며 대수적 표상의 조작이 중요시되고 있음을 알 수 있었다. 이러한 결과를 바탕으로 삼각함수를 다양한 관점으로 이해할 수 있는 교수-학습 방법에 대한 연구와 함께 문제 해결과 그에 따른 표상 체계 사이의 일관성이 유지되는 함수 개념 이해 층위 5단계에 도달할 수 있는 수업모델의 연구가 필요할 것으로 보인다.