• 제목/요약/키워드: Grammatical information

검색결과 118건 처리시간 0.025초

초등과학영재 특성 도출을 위한 탐구활동에서의 담화분석 (Discourse Analysis for Deriving Characteristics of Science-gifted Elementary Students in Inquiry Activities)

  • 최미향;전영석
    • 영재교육연구
    • /
    • 제20권1호
    • /
    • pp.369-388
    • /
    • 2010
  • 초등과학영재들의 학습 특성을 구체적으로 파악하기 위한 방안 중의 하나로 과학 탐구 문제를 협동 과제로 수행하여 해결하는 과정에서 이루어지는 학생들의 담화 분석도구를 고안하여 적용하였다. 연구 대상 학생은 서울의 한 대학부설 영재교육원의 과학반에서 1년 동안 공부한 4명의 초등학생이며, 이들이 모둠을 이루어 문제를 해결하는 과정을 녹화하고 녹음한 다음, 체계기능언어학에 바탕을 두고 정보-주제 구조를 중심으로 담화 내용을 분석하였다. 담화 분석틀은 과학교육 및 영재교육 전문가들과의 집중 작업을 통해 개발하였으며 문법적 분석 보다는 의미의 전개 과정의 분석에 중점을 두었다. 개발된 분석틀을 적용한 결과, 새로 개발된 분석틀이 초등과학영재의 특성을 파악하는데 유용하다는 것을 확인하였다. 특히 모둠 구성원 중 두 학생은 탐구 활동이 진행되는 동안 대화의 점유율이 서로 상반된다는 특성을 보였는데, 이를 통해 학생 간 상호 작용이 문제 해결 과정에 큰 영향을 끼친다는 것을 알 수 있었다. 또한 소집단학습을 중심으로 하는 과학영재수업이 효과적으로 이루어지기 위해서는 상대방과 의사소통하는 방법에 대한 적절한 훈련이 필요하다는 시사점도 얻을 수 있었다.

한국어 목적격조사의 몽골어 격 어미 번역 (Translation of Korean Object Case Markers to Mongolian's Suffixes)

  • ;신준철;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권2호
    • /
    • pp.79-88
    • /
    • 2019
  • 최근 기계 번역에 관한 연구들이 활발하게 이루어지고 있고 한국어와 몽골어 간의 상호 기계 번역 시스템도 개발되고 있다. 한국어와 몽골어는 계통적으로 같은 어족에 속하며 '주어+목적어+서술어'라는 비교적 자유로운 어순을 가지는 언어이고 어미와 조사가 발달한 것이 그 특징이다. 따라서 기계 번역 시 양언어의 조사나 어미의 의미를 잘 번역하는 것이 중요하다. 그러나 한국어 목적격 조사를 몽골어로 번역할 때 한국어 목적격 조사가 몽골어의 여러 격 어미로 번역이 될 수 있는데, 기존의 연구들은 한 가지 격 어미로만 번역해 정확한 의미를 전달하지 못하는 문제점이 있다. 본 논문에서는 이러한 문제점을 개선하기 위하여 한국어 형태소 분석과 동시에 품사 및 동형이의어 태깅 시스템인 유태거(UTagger)를 기반으로 하여 한국어 목적격 조사의 몽골어 격 어미 결정 방법을 제안한다. 제안하는 방법에서는 한국어 목적격 조사에 대응하는 몽골어 격 어미들을 살펴보고 데이터 테이블을 설계하여 적절한 격 어미를 결정한다. 제안한 방법의 성능을 검증하기 위하여 한국어기초사전에서 데이터를 추출하고 유태거와 비교 실험하였다. 실험 결과 목적격 조사를 바로 대격 어미로 번역한 유태거의 정확률은 46.9%인데 반해 본 논문에서 제안한 방법은 88.38%로 제안한 방법이 41.48%p 더 우수한 결과를 보였다.

Out-of-Vocabulary 단어에 강건한 병렬 Tri-LSTM 문장 임베딩을 이용한 감정분석 (Sentiment Analysis using Robust Parallel Tri-LSTM Sentence Embedding in Out-of-Vocabulary Word)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.16-24
    • /
    • 2021
  • word2vec 등 기존의 단어 임베딩 기법은 원시 말뭉치에 출현한 단어들만을 대상으로 각 단어를 다차원 실수 벡터 공간에 고정된 길이의 벡터로 표현하기 때문에 형태론적으로 풍부한 표현체계를 가진 언어에 대한 단어 임베딩 기법에서는 말뭉치에 출현하지 않은 단어들에 대한 단어 벡터를 표현할 때 OOV(out-of-vocabulary) 문제가 빈번하게 발생한다. 문장을 구성하는 단어 벡터들로부터 문장 벡터를 구성하는 문장 임베딩의 경우에도 OOV 단어가 포함되었을 때 문장 벡터를 정교하게 구성하지 못하는 문제점이 있다. 특히, 교착어인 한국어는 어휘형태소와 문법형태소가 결합되는 형태론적 특성 때문에 미등록어의 임베딩 기법은 성능 향상의 중요한 요인이다. 본 연구에서는 단어의 형태학적인 정보를 이용하는 방식을 문장 수준으로 확장하고 OOV 단어 문제에 강건한 병렬 Tri-LSTM 문장 임베딩을 제안한다. 한국어 감정 분석 말뭉치에 대해 성능 평가를 수행한 결과 한국어 문장 임베딩을 위한 임베딩 단위는 형태소 단위보다 문자 단위가 우수한 성능을 보였으며, 병렬 양방향 Tri-LSTM 문장 인코더는 86.17%의 감정 분석 정확도를 달성하였다.

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

다국어 범용 의존관계 주석체계(Universal Dependencies) 적용 연구 - 한국어와 일본어의 비교를 중심으로 (A Case Study on Universal Dependency Tagsets)

  • 한지윤;이진;이찬영;김한샘
    • 비교문화연구
    • /
    • 제53권
    • /
    • pp.163-192
    • /
    • 2018
  • 이 논문은 형태통사적 특성이 유사한 한국어와 일본어의 다국어 범용 의존관계 주석체계(Universal Dependencies, 이하 UD) 적용 사례를 살펴보고 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰하는 것을 목적으로 한다. 한국어와 일본어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 적용하는 데에 많은 어려움이 있다. 이에 본고에서는 UD를 구성하는 범용 품사 주석(Universal POS, 이하 UPOS)과 범용 의존관계 주석(Universal Dependency Relations, 이하 DEPREL)의 적용과 그에 따른 논의들을 검토하였다. UPOS의 경우 AUX(조동사 표지), ADJ(형용사 표지), VERB(동사 표지)처럼 서술어와 관련된 주석 표지의 처리와 조사, 어미와 같은 기능어의 처리 방안을 살펴보았으며 접속사 및 이와 관련된 단위를 어떻게 처리하고 있는지 검토하였다. DEPREL과 관련해서는, 구문 표지를 주석하는 기본 단위의 문제에서 출발하여 통사적 문제를 어떻게 반영하고 있는지 살펴보았다. 지배소 설정 방식과 병렬 구조의 주석 방식, case(격 관계 표지)와 aux(조동사 관계 표지) 주석 방식을 검토하였다. 다양한 관계 주석 표지 중에서 특히 case와 aux에 집중하여 논의한 것은 한국어와의 주석 표지 적용 양상을 비교했을 때 분포 상 가장 두드러지는 차이를 나타내기 때문이다. case는 한국어와 일본어 모두 조사와 관련이 있고, aux는 한국어에서는 보조용언, 일본어에서는 조동사와 관련이 있는 표지이다. 구체적인 주석 양상을 살펴본 결과 일본어의 aux는 서법 조동사뿐만 아니라 동사에 문법적 의미를 더하는 요소, 한국어의 어미에 해당하는 형태에도 aux를 할당하기 때문에 주석이 차지하는 비율이 크게 차이가 나는 것으로 밝혀졌다. iobj(간접목적어 관계 표지)와 관련해서는 일본어에서 간접목적어를 인정하는 데에 반해 한국어에서는 간접목적어를 인정하지 않는 경우가 더 많았다. 일본어의 UD 주석에서 형태 분석 기본 단위인 '단단위'를 기본 구문 주석 단위로 하되 '장단위'와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 의존관계 주석의 정보로 활용하는 방안에 대해서 고려할 필요가 있다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

일한기계번역에서 진행형 "ている"의 번역처리 (A Processing of Progressive Aspect "te-iru" in Japanese-Korean Machine Translation)

  • 김정인;문경희;이종혁
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.685-692
    • /
    • 2001
  • 본 논문은 일한기계번역에서 일본어 진행표현 "ている" 형태로부터 한국어 대역어의 선정과정에서 발생하는 애매성을 해소하기 위하여 연구한 것이다. 대부분의 일한 기계번역 시스템은 양궁어의 문법적인 유사엉에 기초하여 어휘적인 단계의 처리만으로 고품질의 번역이 가능한 직접 번역방식을 채용하고 있다. 그러나, 직접 번역방식에 기초한 일한 기계번역에서는 술부에 존재하는 "ている"형태의 상적인 의미를 구별할 수 있는 방법론이 아직 제안되지 않았다. 일본어에서 "ている"형태는 동작진행과 상태진행을 모두 나타내지만 한국어에서는 "고 있다."와 "어 있다."로 나누어 표기한다. 양 언어간의 상적인 의미 대응은 간단하지 않지만, 술부의 의미 정보, 부사와 부사어의 의미정보 등을 이용하여 "ている"형태의 상적인 의미를 결정하는 것이 가능하다. "ている"형태의 적절한 대역어 선정을 위하여, 사전 속의 모든 일본어 술어에 다섯 종류의 의미코드를 입력한다. 즉 "1:동작진행만으로 사용되는 술어", "2: 일반적으로는 동작진행으로 사용되지만, 수동인 경우에는 상태진행의 형태로도 사용되는 술어", "3: 상태진행으로만 사용되는 술어", "4: 동작진행, 상태진행의 구별이 애매한 술어", "5: 기타" 당의 상적인 의미분류코드를 술어별로 입력한다. 그리고 "2","4"형태의 술어로부터 진행형은 구별하기 위하여 부사와 부사어를 사용하는 방법을 제안한다. 실험에는 아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.

  • PDF