• 제목/요약/키워드: sentence processing

검색결과 323건 처리시간 0.023초

기계학습 기법을 이용한 문장경계인식 (Sentence Boundary Detection Using Machine Learning Techniques)

  • 박수혁;임해창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.69-72
    • /
    • 2008
  • 본 논문은 언어의 통계적 특징을 이용하여 범용의 문장경계 인식기를 제안한다. 제안하는 방법은 대량의 코퍼스 내에서 사용되고 있는 문장 경계를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 다양한 기계학습 기법을 사용하여 문장경계를 인식하고자 하였다. 또한 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우 또는 잘못 사용 된 구두점 등의 경우에도 적용 가능하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 및 다른 언어권의 언어에도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다. 한국어 문장경계 인식을 위한 기계학습 및 실험을 위해서 세종계획 코퍼스를 사용하였으며, 성능척도로는 정확률과 재현율을 사용하였으며, 실험결과 제안한 방법으로 99%의 정확률과 99.2%의 재현율을 보였다. 영문의 경우는 Wall Street Journal 코퍼스를 사용하였으며, 동일한 자질을 적용하여 실험한 결과 98.9%의 정확률과 94.6%의 재현율을 보였다.

인지능력의 개별차와 한국어 학습자의 주격-목적격 관계절 프로세싱 (Cognitive Individual Differences and L2 Learners' Processing of Korean Subject-Object Relative Clauses)

  • 구재명
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권6호
    • /
    • pp.493-503
    • /
    • 2018
  • 본 연구는, 한국어 학습자들의 주격과 목적격 관계절 프로세싱과 관련한 두 가지 가설인 선형거리가설(Linear distance hypothesis)과 구조거리가설(Structural distance hypothesis)을 통해 Keenan과 Comrie(1977)의 명사구 접근 위계(Noun Phrase Accessibility Hierarchy)를 검증한 O'Grady, Lee, 그리고 Choo의 2003년 연구를 바탕으로 설계된 conceptual replication 연구이다. 본 실험에서는 한국에서 공부하는 중국어 모어 학습자들을 대상으로 두 가설을 테스트 하였다. 더불어, 두 가설과 관련, 인지적인 능력(작동기억)의 개별차가 어떤 역할을 하는지에 대해서도 추가적으로 조사하였다. 실험 당시 지방의 모 대학 소재 한국어학당에서 공부하는 중국어 모어 학습자들이 실험집단으로 참여하였다. 각각의 실험 활동을 올바르게 인지하고 참여한 23명의 학습자 데이터에 한하여 통계 분석이 이루어졌다. 통제집단으로는 한국어 모어 대학생 15명이 참여하였다. 참가자들은 두 가지 실험 활동을 수행하였다: O'Grady외의 연구에서 사용된 동일한 관계절들이 포함된 그림 선택 활동과 작동기억 측정을 위해 디자인된 활동(Operation Span Task). 본 실험의 결과는 O'Grady외의 연구 결과와 다소 차이를 보였다. 즉, 주격보다는 목적격 관계절에 대한 학생들의 이해도가 상대적으로 현저하게 높게 나타났다. 세부적인 분석에 따르면, 이는 선형거리가설에 따른 현상이라기보다는, 상용절 전략을 사용한 프로세싱 결과로 해석하는 것이 더 적절해 보인다. 작동기억의 개별차와 관계절 프로세싱이 유의미한 상관관계가 없는 것으로 나타난 것도 이러한 과도한 상용절 전략의 결과로 볼 수 있다.

Processing Scrambled Wh-Constructions in Head-Final Languages: Dependency Resolution and Feature Checking

  • Hahn, Hye-ryeong;Hong, Seungjin
    • 한국언어정보학회지:언어와정보
    • /
    • 제18권2호
    • /
    • pp.59-79
    • /
    • 2014
  • This paper aims at exploring the processing mechanism of filler-gap dependency resolution and feature checking in Korean wh-constructions. Based on their findings on Japanese sentence processing, Aoshima et al. (2004) have argued that the parser posits a gap in the embedded clause in head-final languages, unlike in head-initial languages, where the parser posits a gap in the matrix clause. In order to verify their findings in the Korean context, and to further explore the mechanisms involved in processing Korean wh-constructions, the present study replicated the study done by Aoshima et al., with some modifications of problematic areas in their original design. Sixty-four Korean native speakers were presented Korean sentences containing a wh-phrase in four conditions, with word order and complementizer type as the two main factors. The participants read sentences segment-by-segment, and the reading times at each segment were measured. The reading time analysis showed that there was no such slowdown at the embedded verb in the scrambled conditions as observed in Aoshima et al. Instead, there was a clear indication of the wh-feature checking process in terms of a major slowdown at the relevant region.

  • PDF

순열 조합 이해 과제에서의 안구 운동 추적 연구 (Eye Movements in Understanding Combinatorial Problems)

  • 최인용;조한혁
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제26권4호
    • /
    • pp.635-662
    • /
    • 2016
  • 조합(combinatorics)은 확률적 사고의 기초가 되며 정보, 과학 등 타교과와 연계성이 높은 중요한 영역이지만, 학교 수학에서 학생들이 가장 어려워하는 단원 중 하나이다. 본 연구는 순열 조합 문제의 구조를 나타낼 수 있는 표현식을 도입하여, 문제를 표현식으로 변환하는 대학원생의 안구 운동을 분석함으로써 순열 조합 문장제의 이해 과정과 의미 구조에 따른 난이도 차이를 조사하였다. 연구 결과, 연구참여자들의 순열 조합 문장제 이해 전략은 문제에 대한 수학적 모델을 내적으로 직접 표상하는 전략과 보기에 주어진 표현식과 문제를 비교하여 답을 찾는 전략으로 분류할 수 있었다. 전문가 집단인 연구참여자들은 대상들의 구별성, 중복가능성, 의미 구조에 관한 단어나 수치 정보 등 문제의 핵심정보를 빠르게 파악하고 주의를 기울였다. 의미 구조의 변환이 필요한 문제를 풀 때 학생들은 문제의 핵심정보를 더 많이 보고, 보기의 표현식을 더 오래 응시하며, 문제와 보기 사이의 비교를 더 많이 하는 등 복잡한 인지 처리와 연관된 안구운동 지표가 나타났다. 안구 운동 데이터는 문제 이해 과정에서 연구참여자의 수학적 인지를 분석하는데 유의미한 정보를 제공하였다.

문장-질의 유사성을 이용한 웹 정보 검색의 성능 향상 (Performance Improvement of Web Information Retrieval Using Sentence-Query Similarity)

  • 박의규;나동열;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.406-415
    • /
    • 2005
  • 인터넷의 발전으로 웹 상에 수많은 문서 및 정보가 존재하는 상황에서 사용자가 원하는 정보를 담은 웹 문서를 검색하여 주는 웹 정보 검색 기술은 매우 중요하게 되었다. 본 논문에서는 웹 정보 검색 시스템의 성능 향상에 효과적인 몇 가지 주요한 기술을 제안하였다. 기존 시스템들은 주로 문서와 질의의 유사도를 계산하여 이를 주요 정보로 이용하였다. 그러나 본 논문에서는 여기에서 한 걸음 더 나아가 문서 안의 각 문장들이 질의와 얼마나 유사한가를 계산하여 이를 이용하는 기법을 제안하였다. 이러한 문장-질의 유사도를 성숙된 자연어 처리 기술 없이 근사적으로 계산하는 방법을 소개하였다. 그리고 이계산 작업은 문서 수의 증가에 선형적인 계산량의 증가를 가져 옴을 보임으로써 실용적인 대용량 시스템에서도 사용할 수 있음을 보였다. 그 다음으로 제안된 주요한 기술은 출력 문서의 순위화에 계층적인 개념을 도입하는 것이다. 이 기법을 사용함으로써 상당한 성능 향상을 이룰 수 있음을 보였다. 그 외에도 웹 문서의 특징인 하이퍼 링크 정보와 타이틀 정보를 이용하여 어느 정도의 성능 개선을 가져올 수 있음을 보였다. 이러한 기술들의 타당성을 입증하기 위해 대용량 웹 정보검색 시스템을 개발하고 실험하였다.

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발 (Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.1-25
    • /
    • 2020
  • 대규모 텍스트에서 관심 대상이 가지고 있는 속성들에 대한 감성을 세부적으로 분석하는 속성기반 감성분석(Aspect-Based Sentiment Analysis)은 상당한 비즈니스 가치를 제공한다. 특히, 텍스트에 속성어가 존재하는 명시적 속성뿐만 아니라 속성어가 없는 암시적 속성까지 분석 대상으로 하는 속성카테고리 감성분류(ACSC, Aspect Category Sentiment Classification)는 속성기반 감성분석에서 중요한 의미를 지니고 있다. 본 연구는 속성카테고리 감성분류에 BERT 사전훈련 언어 모델을 적용할 때 기존 연구에서 다루지 않은 다음과 같은 주요 이슈들에 대한 답을 찾고, 이를 통해 우수한 ACSC 모델 구조를 도출하고자 한다. 첫째, [CLS] 토큰의 출력 벡터만 분류벡터로 사용하기보다는 속성카테고리에 대한 토큰들의 출력 벡터를 분류벡터에 반영하면 더 나은 성능을 달성할 수 있지 않을까? 둘째, 입력 데이터의 문장-쌍(sentence-pair) 구성에서 QA(Question Answering)와 NLI(Natural Language Inference) 타입 간 성능 차이가 존재할까? 셋째, 입력 데이터의 QA 또는 NLI 타입 문장-쌍 구성에서 속성카테고리를 포함한 문장의 순서에 따른 성능 차이가 존재할까? 이러한 연구 목적을 달성하기 위해 입력 및 출력 옵션들의 조합에 따라 12가지 ACSC 모델들을 구현하고 4종 영어 벤치마크 데이터셋에 대한 실험을 통해 기존 모델 이상의 성능을 제공하는 ACSC 모델들을 도출하였다. 그리고 [CLS] 토큰에 대한 출력 벡터를 분류벡터로 사용하기 보다는 속성카테고리 토큰의 출력 벡터를 사용하거나 두 가지를 함께 사용하는 것이 더욱 효과적이고, NLI 보다는 QA 타입의 입력이 대체적으로 더 나은 성능을 제공하며, QA 타입 안에서 속성이 포함된 문장의 순서는 성능과 무관한 점 등의 유용한 시사점들을 발견하였다. 본 연구에서 사용한 ACSC 모델 디자인을 위한 방법론은 다른 연구에도 비슷하게 응용될 수 있을 것으로 기대된다.

글씨쓰기 명료도 평가의 정량적 영상처리 분석 (Quantitative image processing analysis for handwriting legibility evaluation)

  • 김은빈;이초희;김은영;이언석
    • 한국산학기술학회논문지
    • /
    • 제20권7호
    • /
    • pp.158-165
    • /
    • 2019
  • 선수능력의 발달 미흡과 신경학적 손상으로 인해 나타나는 쓰기 장애는 의미전달의 혼동을 줄 수 있고 가독성이 떨어지며 학습, 사회정서 문제 유발 가능성이 높다. 이에 문제 파악과 적시 개입을 위한 평가가 요구되고 있지만 임상에서는 수기에 의한 채점 방식을 채택하며 주관적인 평가에 따른 오류 가능성이 발생한다. 본 연구는 성인의 오프라인 필기체 문자를 영상처리를 통해 글자의 크기비율, 위치를 데이터화 하고 정량화 하며 수기 채점방식과의 비교, 분석을 통해 보다 객관적이고 정확하게 쓰기 수행을 평가하고자 하였다. 2018년 11월 12일부터 16일까지 신경학적 손상이 없는 성인 20명을 채택하여 10단어, 2 문장 자극을 평소 쓰기 습관을 유지한 후 연필을 사용해 따라 쓰며 쓰기 검사 데이터를 수집하였다. 본 연구에서 개발한 글씨 측정 알고리즘 결과 단어의 높이가 폭에 비해 1.2배 정도 크고 왼쪽 아래로 치우치는 경향을 보였으며 평균 9mm의 간격을 두고 띄어 썼다. Paired T test를 통한 수기와 본 시스템의 분석결과, 단어 검사와 문장 2의 검사는 고도의 상관관계를 보여 추후 검사 도구로써의 가능성을 보였다. 본 연구는 성인의 오프라인 필기체 문자를 영상처리를 통해 보다 객관적이고 정확하게 쓰기 수행을 평가하였으며 수행 규준을 위한 예비자료를 제공하였다. 향후 다양한 연령대의 쓰기 진단의 기초 자료로 제시될 수 있으며 아동의 경우 쓰기 장애 개입에 깊이 있게 활용될 수 있을 것이다.

NLP기반 NER을 이용해 소셜 네트워크의 조직 구조 탐색을 위한 협력 프레임 워크 (A Collaborative Framework for Discovering the Organizational Structure of Social Networks Using NER Based on NLP)

  • 프랭크 엘리호데;양현호;이재완
    • 인터넷정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.99-108
    • /
    • 2012
  • 방대한 양의 데이터로부터 정보추출의 정확도를 향상시키기 위한 많은 방법이 개발되어 왔다. 본 논문에서는NER(named entity recognition), 문장 추출, 스피치 태깅과 같은 여러 가지의 자연어 처리 작업을 통합하여 텍스트를 분석하였다. 데이터는 도메인에 특화된 데이터 추출 에이전트를 사용하여 웹에서 수집한 텍스트로 구성하였고, 위에서 언급한 자연어 처리 작업을 사용하여 비 구조화된 데이터로부터 정보를 추출하는 프레임 워크를 개발하였다. 조직 구조의 탐색을 위한 택스트 추출 및 분석 관점에서 연구의 성능을 시뮬레이션을 통해 분석하였으며, 시뮬레이션 결과, 정보추출에서 MUC 및 CoNLL과 같은 다른 NER 분석기 보다 성능이 우수함을 보였다.

언어 장애인을 위한 한국어 지원 시스템의 구현 (Implementation of Korean Support System for Language Disorders)

  • 최정환;추교남;우요섭
    • 재활복지공학회논문지
    • /
    • 제6권1호
    • /
    • pp.29-35
    • /
    • 2012
  • 대부분의 보완 대체 의사소통은 별도의 전용기기를 사용하여 제공하거나 휴대가 어려운 데스크톱 또는 현재는 거의 사용하지 않는 Windows 기반의 태블릿 등에서 제공되는 연구들이 대부분이었다. 게다가, 앞선 연구들의 고유명사 처리는 사전을 만들어 제공하는 형식이었기 때문에 무수히 많은 고유명사에 대한 처리가 거의 불가능하였고 향후 연구과제로 많이 지적되고 있었다. 본 논문에서는 현재 급속도록 보급되고 있는 스마트 기기를 활용하여 과거의 연구 과제로 남았던 고유명사 처리에 대한 해결 방법을 제안한다. 또한, 신체장애를 가진 사람을 위하여 버튼을 이용한 입력방법과 키보드를 통한 입력 시 생길 수 있는 오류에 대한 보완 방법도 제안한다. 본 연구에서는 제안하는 보완 대체 의사소통 시스템의 유용성을 확인하기 위하여 안드로이드 기반의 모바일 어플리케이션을 구현하였다. 실험결과 사용자의 위치와 선택에 따라 주변에 있는 다양한 고유명사가 도출되어 문장을 생성하는데 도움을 주는 것을 확인할 수 있었다.

  • PDF