• 제목/요약/키워드: 문장 유형

검색결과 238건 처리시간 0.025초

한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구 (A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks)

  • 김진성;김경민;손준영;박정배;임희석
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.39-47
    • /
    • 2021
  • 효과적인 분절을 통한 양질의 입력 자질 구성은 언어모델의 문장 이해력을 향상하기 위한 필수적인 단계이다. 입력 자질의 품질 제고는 세부 태스크의 성능과 직결된다. 본 논문은 단어와 문장 분류 관점에서 한국어의 언어적 특징을 효과적으로 반영하는 분절 전략을 비교 연구한다. 분절 유형은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 분류하며, RoBERTa 모델 구조를 활용하여 사전학습을 진행한다. 각 세부 태스크를 분류 단위에 따라 문장 분류 그룹과 단어 분류 그룹으로 구분 지어 실험함으로써, 그룹 내 경향성 및 그룹 간 차이에 대한 분석을 진행한다. 실험 결과에 따르면, 문장 분류에서는 단위의 언어학적 분절 전략을 적용한 모델이 타 분절 전략 대비 최대 NSMC: +0.62%, KorNLI: +2.38%, KorSTS: +2.41% 높은 성능을, 단어 분류에서는 음절 단위의 분절 전략이 최대 NER: +0.7%, SRL: +0.61% 높은 성능을 보임으로써, 각 분류 그룹에서의 효과성을 보여준다.

KoEPT 기반 한국어 수학 문장제 문제 데이터 분류 난도 분석 (Analyzing Korean Math Word Problem Data Classification Difficulty Level Using the KoEPT Model)

  • 임상규;기경서;김부근;권가진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권8호
    • /
    • pp.315-324
    • /
    • 2022
  • 이 논문에서는 자연어로 구성된 수학 문장제 문제 자동 풀이하기 위한 Transformer 기반의 생성 모델인 KoEPT를 제안한다. 수학 문장제 문제는 일상 상황을 수학적 형식으로 표현한 자연어 문제이다. 문장제 문제 풀이 기술은 함축된 논리를 인공지능이 파악해야 한다는 요구사항을 지녀 최근 인공지능의 언어 이해 능력을 증진하기 위해 국내외에서 다양하게 연구되고 있다. 한국어의 경우 문제를 유형으로 분류하여 풀이하는 기법들이 주로 시도되었으나, 이러한 기법은 다양한 수식을 포괄하여 분류 난도가 높은 데이터셋에 적용하기 어렵다는 한계가 있다. 본 논문은 이에 대해 '식' 토큰과 포인터 네트워크를 사용하는 KoEPT 모델을 사용했다. 이 모델의 성능을 측정하기 위해 현존하는 한국어 수학 문장제 문제 데이터셋인 IL, CC, ALG514의 분류 난도를 측정한 후 5겹 교차 검증 기법을 사용하여 KoEPT의 성능을 평가하였다. 평가에 사용된 한국어 데이터셋들에 대하여, KoEPT는 CC에서는 기존 최고 성능과 대등한 99.1%, IL과 ALG514에서 각각 89.3%, 80.5%로 새로운 최고 성능을 얻었다. 뿐만 아니라 평가 결과 KoEPT는 분류 난도가 높은 데이터셋에 대해 상대적으로 개선된 성능을 보였다. KoEPT가 분류 난도의 영향을 덜 받으며 좋은 성능을 얻게 된 이유를 '식' 토큰과 포인터 네트워크 때문이라는 것을 ablation study를 통해서 밝혔다.

자모 및 음절 임베딩 결합을 이용한 오타에 효과적인 한국어 형태소 분석 (Effective Korean POS Tagging for Typing Errors Using the Concatenation of Jamo and Syllable Embedding)

  • 김혜민;양선;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.574-579
    • /
    • 2018
  • 본 논문에서는 한국어 형태소 분석 시스템을 제안하는데, 연구 목표는 오타 없는 문서를 대상으로 한 경우에도 높은 성능을 유지하면서, 동시에 오타가 있는 문서에서도 우수한 성능을 산출하는 것이다. 실험은 크게 두 종류로 나누어서 진행된다. 주 실험인 첫 번째 실험에서는, 자모 임베딩과 음절 임베딩을 결합(concatenate)한 벡터를 입력으로 Bidirectional LSTM CRFs을 수행함으로써, 세종말뭉치 대상으로 어절 정확도 97%, 그리고 1, 2, 5 어절마다 오타가 출현한 경우에서도 각각 80.09%, 87.53%, 92.49%의 높은 성능을 산출하였다. 추가 실험인 두 번째 실험에서는, 실생활에서 자주 발생하는 오타들을 집계하여 그 중에서 11가지 오타 유형을 선정 후, 각 유형에 대해 변환된 임베딩 벡터를 적용함으로써, 해당 오타를 포함한 문장에서 93.05%의 우수한 성능을 산출하였다.

  • PDF

구문 분석 결과를 이용한 한국어 무제한 정보추출 (A Syntax-Based Hybrid System for Korean Open Information Extraction)

  • 김병수;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-45
    • /
    • 2015
  • 무제한 정보추출은 주로 영어를 대상으로 연구가 진행 되었지만, 최근에는 영어가 아닌 다른 언어에 대한 적용이 시도되고 있다. 본 논문에서는 관계 어휘의 유형을 동사형과 명사형 2가지로 정의하고, 각 유형별로 구문 분석 결과 기반의 서로 다른 방법론을 적용하는 한국어 대상 무제한 정보추출 시스템을 소개한다. 동사형 관계 어휘에 대해서는 의존 관계 기반의 추출 규칙을 적용하고, 명사형 관계 어휘에 대해서는 대량의 말뭉치로부터 자동으로 학습한 의존 관계 구조 기반의 추출 패턴을 적용한다. 임의의 100개 문장에 대해서 수행한 결과는 산출된 전체 트리플에 대해 0.8이상의 정밀도를 보임으로써 본 논문에서 제안하는 방법의 효용성을 증명하였다.

  • PDF

정보검색기반 질의응답 시스템 설계 (Design of a QA System based on Information Retrieval)

  • 김민경;안혁주;김학수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.816-818
    • /
    • 2015
  • 본 논문에서는 질의유형을 통한 검색기반 질의응답 시스템을 구현하기 위한 설계방법을 제안한다. 이를 위해 위키피디아 문서의 링크 데이터를 이용하여 색인 대상문서와 데이터베이스를 구축하는 색인 모델과 2-포아송 모델을 이용하여 얻은 문서들을 색인 데이터베이스를 통해 필터링하여 정답 후보문장을 추출하는 검색모델, 키워드 패턴 매칭 기반 질의유형 분류 모델을 설계하였다.

Factotum SemNet의 Functional Relation 순열 분석: Plot Unit 유형 파악 (Functional Relation Sequence Analysis of Factotum SemNet: Recognizing Plot Unit Type)

  • 양재군;김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.409-412
    • /
    • 2004
  • Plot Units는 이야기를 형성하는 줄거리 또는 줄거리에 나오는 여러 사건을 하나로 구성하여 표현하는 단위이다. 한편, 개연규칙은 문장간 구성성분들의 개연적인 결속성을 나타낸다. 이러한 결속은 개연사슬로 나타낼 수 있다. 개연사슬은 개념을 연결하는 어휘들과 그 연결을 설명하는 관계들의 목록이다. 이중에서 기능관계순열로는 해당 개연규칙을 보다 개념적으로 설명할 수 있다. 본 논문에서는 이러한 기능관계순열을 분석하고 Plot Units과 비교해 보았다. 실험을 통하여 주어진 기능관계순열이 Plot Units의 어떤 유형에 해당하는지 알 수 있었다.

  • PDF

중국어 모어 화자의 한국어 학습자의 쓰기에 나타난 오류 분석 -어휘 오류를 중심으로- (Error Analysis of Chinese Learners of the Korean Language: Focus on Analysis of Vocabulary)

  • 노병호
    • 한국융합학회논문지
    • /
    • 제6권5호
    • /
    • pp.131-142
    • /
    • 2015
  • 본 연구는 중국어 모어 화자 한국어 학습자의 쓰기에 나타난 오류 분석을 실시하여 오류의 원인을 살펴보고 이를 분석한 내용을 바탕으로 학습자들이 생산해 내는 오류에 효과적인 교육 방안을 제시하는데 있다. 본 연구의 분석 대상 자료는 '내가 생각하는 한국', '중국과 한국의 문화융합에 대하여', '친구' 등의 주제로 작문한 것을 바탕으로 모든 문장을 입력하고 이들 문장 중에서 어휘 오류를 추출하여 수정한 후, 본 연구자가 설정한 오류 유형의 범주에 의하여 재분류하였으며 분류한 오류의 빈도수를 작성하였다. 연구의 결과, 대치 오류 > 철자 오류 > 오형태 > 누락 오류 > 첨가 오류 의 순으로 오류의 유형이 나타났다. 오류 방지를 위한 교육 방안으로 문법적인 요소나 어휘의 형태적인 면을 제시할 경우에는 그 부분의 제약이 되는 점을 같이 제시해줘야 오류를 미연에 방지할 수 있을 것이다.

분수의 곱셈과 나눗셈에 관한 초등학교 수학과 교과용 도서 분석 (An Analysis of the Multiplication and Division of Fractions in Elementary Mathematics Instructional Materials)

  • 방정숙;이지영
    • 대한수학교육학회지:학교수학
    • /
    • 제11권4호
    • /
    • pp.723-743
    • /
    • 2009
  • 본 논문은 제7차 및 개정 수학과 교육과정에서 제시한 분수의 곱셈과 나눗셈 지도 내용을 바탕으로 관련 내용을 다루는 현행 수학교과서와 익힘책을 상세하게 분석하였다. 우선 전반적인 지도 내용과 관련하여 지도시기의 적절성, 지도계열의 연계성, 차시구성의 적절성을 탐색한 후, 구체적으로 교과서의 내용 전개를 감안하여 각 연산별로 제시된 문장제의 유형과 빈도, 활용된 시각적 모델의 유형과 빈도, 계산방법과 원리의 형식화 과정을 세부적으로 분석하였다. 이를 통해 현재 개발 중인 수학교과용 도서의 기초 자료 및 구체적인 시사점을 제공하고자 한다.

  • PDF

순열 조합 문장제의 문제 변인과 오류 분석 (Analysis of Variables and Errors of the Combinatorial Problem)

  • 이지현;이정연;최영기
    • 대한수학교육학회지:학교수학
    • /
    • 제7권2호
    • /
    • pp.123-137
    • /
    • 2005
  • 순열 조합의 문제는 내재된 의미 구조에 의해 선택, 분배, 분할의 세 가지의 유형으로 분류될 수 있다. 본 연구에서는 순열 조합의 연산과 문제 유형의 변인이 문제의 난이도에 미치는 영향을 분석하였다 그리고 문제 이해과정에서의 오류를 순서, 중복, 대상의 구별, 같은 것이 있는 순열, 상자의 구별, 분할의 조건, 기타로 분류하고 이해 단계의 장애를 구체적으로 분석하였다. 연구 결과, 순열 조합 연산과 문제의 유형은 난이도에 유의미한 영향을 미치는 것으로 나타났다. 특히 학생들에게 선택, 분할, 분배 문제간의 변환은 쉽지 않으며 순열 조합의 문제에서 학생들이 겪는 어려움 중 하나는 바로 문제 유형의 차이에서 비롯된다는 것을 알 수 있었다. 또한 현 교과서에서는 선택, 분배, 분할을 고려한 다양한 문제 유형이 부족한 것으로 나타났다. 따라서 순열 조합의 지도에 있어 문제 유형을 활용하여 다양한 의미 구조의 문제를 제시하고, 공식위주가 아닌 문제 상황을 충분히 이해하고 이에 대한 해법을 변형, 확장하는 경험을 강조하는 것이 필요하다고 하겠다.

  • PDF

Recognition Type of Message Expressed on Fashion -Focusing on 20's Women-

  • Cha, Su-Joung
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.149-159
    • /
    • 2021
  • 본 연구에서는 문자가 적용된 의복 및 패션제품을 많이 착용하는 20대 여성을 대상으로 의복에 표현된 메시지에 대한 인식유형을 분석해보고자 하였다. 20대 여성이 패션에 표현된 문자를 어떻게 유형화하는지에 대한 주관적인 평가와 유형별 특성을 고찰하고자 하였다. 본 연구는 Q 방법론으로 진행되었으며, 분석에는 QUANL pc program을 활용하였다. 제1유형은 문자는 하나의 디자인 요소이고 패션이라고 생각하고 의복에 표현된 문자가 이미지로 인식되었다. 제2유형은 의복에 표현된 문자가 메시지로 인식되며, 문자가 사회적 메시지와 시사성을 가지고 있는 것이 중요하다고 생각하였다. 제3유형은 문자가 캐주얼 의상에 접목되는 것을 선호하고 문자의 조형성을 중요시하였다. 제4유형은 문자가 브랜드를 나타내 주는 것을 선호하고 보이는 위치에 크게 배치되는 것을 좋아하였다. 향후 다양한 연령층과 성별에 따른 추가적인 연구와 글자체, 컬러, 문장의 길이 등에 따른 차이를 파악하기 위한 세부적인 연구가 이루어져야 할 것으로 생각된다.