• 제목/요약/키워드: 문단이해

검색결과 14건 처리시간 0.027초

인지정보처리의 개인차와 문단의 이해: 구조모형 연구 (The Effect of the Individual differences in Cognitive Processes on Paragraph Comprehension: Structural Equation Modeling)

  • 이윤형;권유안
    • 인지과학
    • /
    • 제23권4호
    • /
    • pp.487-515
    • /
    • 2012
  • 본 연구의 목적은 다양한 방식으로 개개인의 인지능력을 측정하고 문단 이해 능력을 살펴보는 것을 통해 문단이해에 영향을 미치는 인지정보처리 기제를 살펴보는 것이다. 이를 위하여 본 연구에서는 어휘판단 과제와 형태비교 과제를 사용하여 하위 인지능력을 측정하였고 숫자폭 과제, 작업폭 과제와 읽기폭 과제를 통하여 작업기억의 개인차를 측정하였다. 또한 논리적으로 유효한 추론과 유효하지 않은 추론의 처리 속도와 정확도를 살펴보는 것을 통해 고차 인지능력을 측정하였다. 문단이해 능력을 측정하기 위해서는 목표 문장 앞에 원인 문장이 있는 경우와 그렇지 않은 경우에 실험참여자들의 문장의 읽기 속도와 정확도를 측정하였다. 구조 모형을 통해 문단이해에 영향을 미치는 요인들을 살펴본 결과 하위 인지처리의 속도는 고차 인지처리의 속도와 상관이 있고 하위 인지처리의 정확도는 고차인지 처리의 정확도와 상관이 있었으나 고차 인지처리와 하위 인지처리에서 모두 속도와 정확도간의 상관은 나타나지 않았다. 또한 작업기억은 고차 인지처리 및 하위 인지처리의 정확도와는 상관이 있었으나 인지처리의 속도와는 상관이 없었다. 보다 중요하게 문단이해의 속도에는 하위 인지처리의 속도만이 영향을 미쳤지만 문단이해의 정확도에는 작업기억과 고차인지처리 기제가 영향을 미치는 것으로 나타났다. 문단이해의 속도는 문단이해의 정확도에 영향을 미치지 않았다.

  • PDF

과학텍스트의 읽기 및 이해에 대한 결속장치의 선택적 영향 (The Selective Effect of Cohesive Devices on Scientific Text Reading and Comprehension)

  • 김세영;한광희;조숙환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.226-232
    • /
    • 2001
  • 본 연구는 결속장치(cohesive devices)가 과학텍스트의 읽기 속도와 내용 이해에 끼치는 영향에 대해 연구하였다. 연구의 목적을 위한 실험을 통해서 먼저, 텍스트의 문단별 읽기 시간을 측정하여 온라인 처리 과정을 검토하였고, 둘째, 회상과 재인 검사를 실시하여 오프라인 상태에서의 이해도를 조사하였다. 이 연구의 재료로 사용된 텍스트는 번개 생성과정에 대한 과학텍스트로서, 반복, 지시사, 정박(anchoring), 인과적 접속사 등의 결속장치를 이용하여 응집성(coherence)의 강도를 높고, 낮게 조작하였다. 실험 결과, 결속장치가 길속장치의 종류와 지엽적 응집성의 강도에 따라 과학텍스트 읽기와 이해에 선택적으로 영향을 끼친다는 것을 발견하였다. 첫째, 인과적 접속사는 읽기 시간에는 영향을 주지 않는 반면, 이해를 촉진했는데, 이 긍정적 효과는 과제의 종류에 따라 다르게 나타났다. 즉, 회상 검사 결과에서는 인과적 접속사가 쓰인 모든 문단에서 유의한 차이가 나타났으나, 재인 검사에서는 유의한 차이가 부분적으로만 나타났다. 둘째, 반복 결속장치는 다른 결속장치와 같이 발생할 경우에만 읽기 시간과 이해를 부분적으로 촉진하는 것으로 나타났다. 셋째. 정박 결속장치의 영향은 읽기와 이해 두 처리 과정에 모두 선택적으로 영향을 준 것으로 나타났다. 인과적 접속사와 함께 쓰인 문단의 경우에는 회상 검사에서만, 반복 결속장치가 함께 쓰인 문단에서는 회상, 재인 검사에서 모두 긍정적 영향을 준 것으로 관찰되었다.

  • PDF

XML 문서 키워드 가중치 분석 기반 문단 추출 모델 (XML Document Keyword Weight Analysis based Paragraph Extraction Model)

  • 이종원;강인식;정회경
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2133-2138
    • /
    • 2017
  • 기존의 XML 문서나 다른 문서는 단어를 중심으로 분석이 진행되었다. 이는 형태소 분석기를 활용하여 구현이 가능하나 문서 내에 기재되어 있는 많은 단어를 분류할 뿐 문서의 핵심 내용을 파악하기에는 어려움이 있다. 사용자가 문서를 효율적으로 이해하기 위해서는 주요 단어가 포함되어 있는 문단을 추출하여 사용자에게 보여주어야 한다. 본 논문에서 제안하는 시스템은 정규화 된 XML 문서 내에 키워드를 검색하고 사용자가 입력한 키워드들이 포함되어 있는 문단을 추출하여 사용자에게 보여준다. 그리고 검색에 사용된 키워드들의 빈도수와 가중치를 사용자에게 알려주고 추출한 문단의 순서와 중복 제거 기능을 통해 사용자가 문서를 이해하는데 발생할 수 있는 오류를 최소화하였다. 제안하는 시스템은 사용자가 문서 전체를 읽지 않고 문서를 이해할 수 있게 하여 문서를 이해하는데 필요한 시간과 노력을 최소화할 수 있을 것으로 사료된다.

키워드 가중치 기반 문단 추출 알고리즘 (Keyword Weight based Paragraph Extraction Algorithm)

  • 이종원;주상웅;이현주;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.504-505
    • /
    • 2017
  • 기존의 형태소 분석기는 문서 내에 사용된 단어들을 분류한다. 이를 기반으로 문장과 문단을 추출하는 시스템이 개발되고 있으나 해당 문서를 압축하여 주요 문단을 추출하는 시스템은 매우 미흡한 실정이다. 본 논문에서 제안하는 알고리즘은 문서 내에 사용된 키워드들의 가중치를 계산하고 키워드를 포함한 문단들을 추출한다. 이는 해당 문서를 모두 읽지 않고 키워드가 포함된 문단들을 읽음으로써 문서를 이해하는 시간을 줄일 수 있다. 또한 검색에 사용된 키워드의 개수에 따라 추출되는 문단의 수가 다름으로 사용자는 기존 시스템에 비해 다양한 패턴의 검색이 가능하다.

  • PDF

문서 분석 기반 주요 요소 추출 시스템 (Document Analysis based Main Requisite Extraction System)

  • 이종원;여일연;정회경
    • 한국정보통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.401-406
    • /
    • 2019
  • 본 논문에서는 XML 형태의 논문이나 보고서로 작성된 문서를 분석하는 시스템을 제안한다. 논문이나 보고서에서 지정한 키워드를 추출하고 이를 사용자에게 보여준 뒤 사용자가 해당 문서 내에서 검색을 원하는 키워드를 입력하면 각 키워드들을 포함하고 있는 문단들을 추출한다. 시스템은 사용자가 입력한 키워드들의 빈도수를 확인하고 가중치를 계산한 뒤 가중치가 가장 낮은 키워드만을 포함한 문단들을 제거한다. 또한, 정제된 문단들을 10개의 영역으로 나눈 뒤 영역별 문단들의 중요도를 계산하고 각 영역들의 중요도를 비교하여 가장 높은 중요도를 갖는 주요 영역을 사용자에게 알려준다. 이러한 특징들로 인해 제안하는 시스템을 활용할 경우 기존의 문서 분석 시스템을 활용하여 논문이나 보고서를 분석하는 것보다 압축률이 높은 형태로 주요 문단들을 제공받을 수 있다. 이로 인해 문서를 이해하는데 필요한 시간을 줄일 수 있을 것으로 사료된다.

KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋 (KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension)

  • 김영민;임승영;이현정;박소윤;김명지
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-102
    • /
    • 2019
  • KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 구글이 오픈소스로 공개한 BERT Multilingual을 활용하여 실험한 결과 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 real world task로 확장하고자 한다.

  • PDF

문장 및 단어 중요도를 통한 한국어 문서 연관 이미지 검색 (Relevant Image Retrieval of Korean Documents based on Sentence and Word Importance)

  • 김남규;강신재
    • 한국산학기술학회논문지
    • /
    • 제20권3호
    • /
    • pp.43-48
    • /
    • 2019
  • 텍스트로만 이루어진 글에서 알지 못하는 단어가 나온다면, 글을 읽는 도중 집중이 되지 않고 내용을 이해함에 있어 어려움이 생긴다. 또한 이미 알고 있는 단어라도 아이들의 경우 경험이 적기 때문에 글에서 상황을 묘사하는 표현이 생소하거나 애매하다면 머릿속에 떠올리기 힘들다. 이에 본 논문에서는 글을 이해를 돕고 독자의 흥미를 증가시키기 위해서 글의 텍스트들을 분석하여 중요하다고 판단되는 내용을 선택하고, 이 내용과 가장 관련 있는 이미지를 웹에서 자동으로 가져와 연결하여 보여주는 시스템을 구현하고자 한다. 시스템의 구현은 글을 문단 단위로 나누어 글을 분석하고, 문단마다 중요한 문장을 선택한 후, 중요한 문장 내에서 이 문장을 가장 잘 표현할 수 있는 중요한 단어들을 선택하여 웹에서 연관 이미지를 검색하고, 검색된 이미지 결과를 이전에 나눈 각 문단마다 연결시켜준다. 실험으로 글에서 중요한 문장을 선택하는 방법과 문장 내 중요한 단어를 선택하는 방법을 제시하였다. 실험한 결과, 선택된 이미지 3개와 해당 중요 문장과의 연관 여부를 정확률로 평가하였을 때 60%의 성능을 얻을 수 있었다.

실어증에서 나타나는 참조어 정보처리과정의 특성 : 명칭 실어증과 이해성 실어증을 중심으로 (Anaphoric Resolution in Anomia and Wernike Aphasia)

  • 김가영;황유미;문영선;박윤;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.455-461
    • /
    • 1999
  • 본 연구의 목적은 실어증 화자가 참조어(대명사)를 이해하고 표현하는데 있어서의 오류 반응을 살펴봄으로써 참조어에 관한 처리기제를 알아보는 것이다. 본 연구에서는 명칭성 실어증 환자와 이해성 실어증 환자를 대상으로 하였으며, 각각의 환자에게 두 가지 실험을 진행하였다. 실험 1은 정오판정 과제로 문장, 혹은 문단을 제시하고 사용된 참조어가 옳은지 그른지를 판정하도록 하는 것이다. 실험 2는 채워넣기 과제로 문장, 문단을 제시하고 괄호 안에 들어갈 참조어를 보기에서 고르도록 하는 것이다. 사용된 참조어는 인칭 대명사와 지시 대명사, 그리고 지시 관형사였다. 인칭 대명사의 경우는 인칭과 수로 나누어 각각 1인칭, 2인칭의 단수 복수로 구분하여 제시되었으며, 문장 내에서 각각 주격조사 '가', 보조사 '는', 소유격조사 '의'와 결합되어 제시되었다. (나는, 너는, 우리는, 너희는/ 내가, 너가, 우리가, 너희가/ 나의, 너의, 우리의, 너희의) 지시 대명사의 경우는 사물을 나타내는 것과 장소를 나타내는 것으로 구분되어 제시되었다. (이것, 그것, 저것/ 이곳, 그곳, 저곳) 지시 관형사의 경우는 '이', '그', '저'가 각각 명사와 결합되어 제시되었는데 지시대명사로 분류하였다. 실험결과는 실험과제간(정오판정, 채워넣기), 실험재료간(인칭 대명사, 지시 대명사)의 차이로 분석될 수 있다. 또한 인칭 대명사와 지시 대명사 내에서도 각각의 재료들 간에 오류반응의 특징이 있는 것으로 나타났다 이로 미루어 볼 때 참조어 범주간 별개의 처리과정이 작용하는 것이라고 생각할 수 있다. 물론 인칭대명사와 지시대명사가 사용되는 문맥적 상황, 대명사의 개념적 거리, 빈도, 사용된 문장의 길이 등 여타의 요소들도 고려되어야 할 것이다. 보조용언으로 쓰일 때 어휘적 의미가 전혀 활성화되지 않아 정상인과는 다른 언어처리를 하고 있음이 밝혀졌다.류의 의미가 모두 활성화되는 것을 보여 주었다. 즉, "먹은"과 간은 어절 이해는 구성 형태소로의 분석과 구성 형태소 어휘 접근을 통해 어절 이해가 이루어진다는 가설을 지지하고 있다. 실험 2에서는 실험 1과 다르게 한 뜻으로만 안일 수밖에 없는 "쥐어"와 같은 어절을 사용하여 이런 경우에도(즉, 어절의 문맥이 특정 뜻으로 한정하는 경우) 구성 형태소로의 분석 과정이 일어나는지를 조사하였다. 실험 2의 결과는 실험 1의 결과와는 다르게 어간의 한가지 의미와 관련된 조건만 촉진적 점화 효과가 나타나는 것을 보여주었다. 특히, 실험 2에서 SOA가 1000msec일 경우, 두 의미의 활성화가 나타나는 것을 보여주었는데, 이 같은 결과는 어절 문맥이 특정한 의미로 한정시킬 경우는 심성어휘집에 활용형태로 들어있다는 것이다. 또한 명칭성 실어증 환자의 경우에는 즉시적 점화과제에서는 일반인과 같은 형태소 처리과정을 보였으나, 그이후의 처리과정이 일반인과 다른 형태를 보였다. 실험 1과 실험 2의 결과는 한국어 어절 분석이 구문분석 또는 활용형태를 통해 어휘 접근되는 가설을 지지하고 있다. 또 명칭성 실어증 환자의 경우에는 지연된 점화과제에서 형태소 처리가 일반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에

  • PDF

LUKE 기반의 한국어 문서 검색 모델 (LUKE based Korean Dense Passage Retriever)

  • 고동률;김창완;김재은;박상현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.131-134
    • /
    • 2022
  • 자연어처리 분야 중 질의응답 태스크는 전통적으로 많은 연구가 이뤄지고 있는 분야이며, 최근 밀집 벡터를 사용한 리트리버(Dense Retriever)가 성공함에 따라 위키피디아와 같은 방대한 정보를 활용하여 답변하는 오픈 도메인 QA(Open-domain Question Answering) 연구가 활발하게 진행되고 있다. 대표적인 검색 모델인 DPR(Dense Passage Retriever)은 바이 인코더(Bi-encoder) 구조의 리트리버로서, BERT 모델 기반의 질의 인코더(Query Encoder) 및 문단 인코더(Passage Encoder)를 통해 임베딩한 벡터 간의 유사도를 비교하여 문서를 검색한다. 하지만, BERT와 같이 엔티티(Entity) 정보에 대해 추가적인 학습을 하지 않은 언어모델을 기반으로 한 리트리버는 엔티티 정보가 중요한 질문에 대한 답변 성능이 저조하다. 본 논문에서는 엔티티 중심의 질문에 대한 답변 성능 향상을 위해, 엔티티를 잘 이해할 수 있는 LUKE 모델 기반의 리트리버를 제안한다. KorQuAD 1.0 데이터셋을 활용하여 한국어 리트리버의 학습 데이터셋을 구축하고, 모델별 리트리버의 검색 성능을 비교하여 제안하는 방법의 성능 향상을 입증한다.

  • PDF

영화 스크립트 내 감정 정보를 이용한 시각화 (Visualization using Emotion Information in Movie Script)

  • 김진수
    • 한국융합학회논문지
    • /
    • 제9권11호
    • /
    • pp.69-74
    • /
    • 2018
  • 인터넷 기술과 다양한 정보 기술의 융합을 통해 광대한 정보를 수집 및 가공하여 사용자 취향에 맞는 다양한 지식을 서로 주고받을 수 있게 되었다. 특히, 영화 미디어 속에 내포된 감정 변화의 흐름을 통해 사용자의 취향과 연결된 밀접한 콘텐츠를 선호하는 경향이 있다. 사용자는 스크립트에 나타난 정보를 바탕으로 전체적인 감정의 흐름이나 특정한 등장인물, 또는 특정한 장면에서의 감정의 흐름을 보다 빠르게 이해하기 위해 시각화하고자 한다. 본 논문에서는 영화 웹페이지로부터 정제되지 않은 데이터를 획득한 후, 정제 과정을 거쳐 표준화된 스크립트 형식으로 변환한다. 정제된 데이터를 XML 문서로 변환하여 다양한 정보를 쉽게 획득한 후, 감정 예측 시스템에 각 문단을 입력하여 다양한 감정을 예측한다. 예측된 감정들의 흐름과 스크립트에 포함된 정보량을 혼합하여 사용자가 필요로 하는 다양한 감정의 전체적 또는 특정 부분에서 캐릭터들 간의 감정 상태의 변화를 시각화를 통해 쉽게 이해할 수 있는 시스템을 제안한다.