• Title/Summary/Keyword: 언어적 정보

Search Result 4,727, Processing Time 0.081 seconds

Automatic cognitive processing of korean written language as indexed by visual MMN(vMMN) (시각적 MMN(vMMN)의 분석을 통한 한국어 글말의 무의식적인 인지과정 연구)

  • Lee, Sung Eun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.67-72
    • /
    • 2009
  • ERP의 일종인 MMN(Mismatch Negativity)은 언어의 청각 인지정보 처리과정(central auditory processing)을 규명하는 데 유용한 수단으로 이용되어 왔다. 그런데, 최근의 연구들은 이러한 MMN이 청각 자극뿐만 아니라 시각 자극에 의해서도 검출될 수 있음을 밝혀냈다. 본 연구는 이러한 시각적 MMN을 이용하여 뇌에서 이루어지는 한국어 화자의 무의식적인 한국어 문자 정보처리과정을 규명하려고 시도하였다. 본 연구에서는 한국어의 글말 최소쌍 '므'/'모'와 '므'/'무', 이에 대응되는 비언어자극 '+ㅡ'/'+ㅗ'와 '+ㅡ'/'+ㅜ'(+표시의 아래에 모음을 붙여서 만든 인공문자, 그림1 참고)를 수동적(passive) Oddball paradigm으로 제시하고 언어 자극에 대한 EEG를 비언어자극과 비교 하에 측정, 분석하였다. 본 연구의 결과, 언어자극과 비언어자극 모두에서 시각적 MMN이 검출되었다. 하지만, 언어자극의 시각적 MMN이 비언어자극의 시각적 MMN보다 높게 나타남을 확인하였다. 이는 한국어 모국어화자들이 무의식적인 인지과정에서 언어자극이 갖는 물리적인 시각 정보뿐만 아니라 한국어 문자의 언어적 정보도 함께 처리하고 있음을 보여주는 것이다. 본 연구의 결과들은 한국어 글말의 무의식적인 인지처리과정을 밝혀주는 한편, 한국어 문자가 인지과학에서 갖는 중요한 지위를 보여줄 수 있을 것으로 기대된다.

  • PDF

Problems in Syntactic Annotation for Building a LDB in Korean (언어정보 DB 구축을 위한 문법적 주석 상의 몇 문제 - 기존 국어사전의 어휘 정보 수용과 관련된 문제를 중심으로)

  • Shin, Sun-Kyung;Han, Young-Gyun
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.73-81
    • /
    • 1992
  • 한 언어에 대한 포괄적인 언어정보 데이타베이스의 구축에 있어서는 수집된 텍스트에 대한 상세한 문법정보의 주석이 일차적 작업 대상이 된다. 이는 통사적 정보가 단순히 구문 분석상의 문제들을 해결하기 위한 정보를 제공해주는 것일 뿐 아니라 형태소 해석 및 문장 의미의 파악등 자연언어 이해시스템 전반의 성능을 향상시키는 데에 중요한 물을 차지하기 때문이다. 각개 단어의 문법적 기능에 대한 주석은 사전적 정의에 따른다면 "품사"로 표현할 수 있을 것이다. 그런데 품사는 각개 단어가 지니는 고유한 어휘의미적 정보이기보다는 구문구조에 의존적인 양상을 보인다. 이는 사전에 따라서 각개 단어에 대한 품사 정보가 달리 나타나는 점에서도 간취할 수 있는데, 한편으로 한국어 언어정보 데이타베이스 구축을 위한 문법적 주석에 있어서는 기존 사전의 품사정보에만 의존할 수는 없다는 문제점이 제기된다. 따라서 각 어휘들의 구문정보(흑은 품사정보)를 어떻게 기술할 것인가가 해결되어야 하는 것이다. 본 연구에서는 일차적으로 각 어휘들의 문장 안에서의 기능을 바탕으로 한 주석체계를 설정하고 그에 따라서 약 12만개의 문장에 대한 일차적 형식화를 수작업으로 처리하였다. 이는 향후 자동적으로 문법적 주석이 가능하도록 해주는 시스템의 개발을 지원하기 위한 언어정보의 수집에 목적을 둔 것인데, 이를 통해서 기존 국어사전에서의 언어정보상의 미비점을 수정 보완할 몇 가지 근거를 마련할 수 있었다.

  • PDF

Expansion and Improvement of Korean FrameNet utilizing linguistic features (언어적 특징을 반영한 한국어 프레임넷 확장 및 개선)

  • Kim, Jeong-uk;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.85-89
    • /
    • 2016
  • 프레임넷 (FrameNet) 프로젝트는 버클리에서 1997년에 처음 제안했으며, 최근에는 다양한 언어적 특징을 반영하여 여러 국가에서 사용되고 있다. 하지만 문장의 프레임을 분석하는 것은 자연언어처리 전문가들이 많은 시간을 들여야 한다. 이 때문에, 한국어 프레임넷을 처음 만들 때는 충분한 훈련을 받은 번역가들이 영어 프레임넷의 문장들과 그 주석 정보들을 직접 번역하는 방법을 사용했다. 결과적으로 상대적으로 적은 비용이 들지만, 여전히 한 문장에 여러 번 등장하는 프레임 정보를 모두 번역하고 에러를 분석해야 했기에 많은 노력이 들어갔다. 본 연구에서는 일본어와 한국어의 언어적 유사성을 사용하여 비교적 적은 비용으로 한국어 프레임넷을 확장하는 방법을 제시한다. 또한 프레임넷에 친숙하지 않은 사용자가 더욱 쉽게 프레임 정보를 활용할 수 있도록 PubAnnotation 기술을 도입하고 "조사"라는 특성을 고려한 Valence pattern 분류를 통해 한국어 공개 프레임넷 사이트를 개선하였다.

  • PDF

Effects of categorization on linguistic spatial representation and non-linguistic spatial representation (언어적 공간표상과 비언어적 공간표상에서의 범주화의 효과)

  • 서원식;한광희
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.119-124
    • /
    • 2002
  • 공간적 관계정보(spatial relation)가 언어적 표상시스템과 비언어적 표상시스템에서 어떻게달라지는가를 범주화 모델의 원형이론 모델을 적용하여 알아보고자 하였다. 이전의 연구들에 따르면 공간적 관계정보에 대한 프로토타입이 언어적 범주와 비언어적 범주에서 다르다는 연구 결과(Crawford 등 2000, Huttenlocher 등 1991)와 동일하다. (Hayward & Tarr 1995)는 상반된 연구 결과가 제기되고 있다. 하지만 이전 연구들에서의 문제점은 언어/비언어 표상체계 간의 편향을 통제하지 못했기 때문에 과제에 따라 서로 다른 결과가 나온 것이라고 볼 수 있다 본 연구에서는 두 대상간의 관계정보를 문장으로 제시한 조건, 그림으로 제시한 조건, 그리고 두 조건을 혼합한 조건을 사용하여 편향에 의한 효과를 제거하고자 하였다. 실험은 각 조건에 따라 짝으로 구성된 자극을 학습한 후 검사자극을 공간적 관계정보를 다양하게 하여 학습자극과 동일한지 아닌지를 판단하게 하였다. 실험결과 관계정보를 언어적으로 제시한 조건과 비언어적으로 제시한 조건간에 대상의 위치에 따른 반응시간의 경향성에서 차이가 없었으며, 대상이 단어인지 그림인지에 따라서 반응시간에서 통계적으로 차이가 나타났다. 그리고 두 표상체계에서 공간적 관계에 대한 프로토타입을 분석한 결과 수직축을 중심으로 전형성 효과가 나타나는 것을 알 수 있었다.

  • PDF

Measurement of Political Polarization in Korean Language Model by Quantitative Indicator (한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안)

  • Jeongwook Kim;Gyeongmin Kim;Imatitikua Danielle Aiyanyo;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

Studies on the linguistic properties of the IT-People documents for an efficient Information Retrieval (IT 인물 관련 텍스트 정보의 효율적인 검색을 위한 Sub-language의 속성 연구)

  • Koh, Seung-Hui;Kim, So-Yeon;Cheon, Seung-Mi;Nam, Jee-Sun;Kim, Kweon-Yang;Park, Se-Young;Berlocher, Ivan
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.241-249
    • /
    • 2007
  • 본 연구는 IT 인물 관련 텍스트 정보의 효율적인 검색을 위하여 문서 내에서 인물과 관련된 정보를 담고 있는 문장들이 어떠한 특징을 가지고 실현되는가를 살펴보고 언어적 속성을 어떻게 구조화하고 형식화할 것인가를 논의하는 것을 목적으로 한다. 언어적 속성 분석을 위해서 전자신문 내에서 인물 관련 코퍼스를 수집하고 이들의 분석을 통해 다음과 같이 문제가 되는 특징들을 확인하였다. 즉 외래어 음차 표기문제, 복합명사 및 명사구 그리고 서술 명사적 표현의 문제 등으로 요약된다. IT라는 특정 영역에 대해 텍스트 내에서의 어휘-통사적 패턴을 분석하고 언어적 특징에 대한 효율적 기술을 위해서는 LGG 부분 문법 그래프 모델을 활용하도록 한다. 본 연구는 특정 영역인 IT 관련 문서에서 자연언어 텍스트를 대상으로 정보 검색할 때 문제가 되는 다양한 언어학적 현상들을 다루며, 향후보다 확장된 영역에서의 효율적 언어 처리에 대한 방법론적 대안을 제시할 수 있을 것으로 기대된다.

  • PDF

ColBERT with Adversarial Language Adaptation for Multilingual Information Retrieval (다국어 정보 검색을 위한 적대적 언어 적응을 활용한 ColBERT)

  • Jonghwi Kim;Yunsu Kim;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.239-244
    • /
    • 2023
  • 신경망 기반의 다국어 및 교차 언어 정보 검색 모델은 타겟 언어로 된 학습 데이터가 필요하지만, 이는 고자원 언어에 치중되어있다. 본 논문에서는 이를 해결하기 위해 영어 학습 데이터와 한국어-영어 병렬 말뭉치만을 이용한 효과적인 다국어 정보 검색 모델 학습 방법을 제안한다. 언어 예측 태스크와 경사 반전 계층을 활용하여 인코더가 언어에 구애 받지 않는 벡터 표현을 생성하도록 학습 방법을 고안하였고, 이를 한국어가 포함된 다국어 정보 검색 벤치마크에 대해 실험하였다. 본 실험 결과 제안 방법이 다국어 사전학습 모델과 영어 데이터만을 이용한 베이스라인보다 높은 성능을 보임을 실험적으로 확인하였다. 또한 교차 언어 정보 검색 실험을 통해 현재 검색 모델이 언어 편향성을 가지고 있으며, 성능에 직접적인 영향을 미치는 것을 보였다.

  • PDF

Null Subjects in Crosslinguistic Acquisition Data and Theoretical Implications (주어 탈락 현상의 언어간 비교와 이론적 모색)

  • Kim, Young-Joo
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.264-280
    • /
    • 1995
  • 한 문장의 주어가 우리말에서처럼 수의적으로 나타날 수 있는가 혹은 영어에서처럼 반드시 표면에 나타나야 하는가에 따라 공주어언어 (null-subject language)와 비공주어언어(non-null-subject language)로 분류된다. 이러한 주어 탈락 현상에 대하여 이론적으로 다양한 가설이 제기되어 왔다. 본 논문에서는 한국어의 언어 습득 자료에 나타나는 주어 탈락의 양상을 살피고, 이를 비공주어언어인 영어자료와 공주어언어인 이탈리아어, 포르투갈어, 중국어자료와 비교함으로써 궁극적으로 이론적 가설을 비교 평가하는 데 이바지하고자 한다.

  • PDF

Evaluation of Language Model Robustness Using Implicit Unethical Data (암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가)

  • Yujin Kim;Gayeon Jung;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.633-637
    • /
    • 2023
  • 암시적 비윤리 표현은 명시적 비윤리 표현과 달리 학습 데이터 선별이 어려울 뿐만 아니라 추가 생산 패턴 예측이 까다롭다. 고로 암시적 비윤리 표현에 대한 언어 모델의 감지 능력을 기르기 위해서는 모델의 취약성을 발견하는 연구가 반드시 선행되어야 한다. 본 논문에서는 암시적 비윤리 표현에 대한 표기 변경과 긍정 요소 삽입이라는 두 가지 변형을 통해 모델의 예측 변화를 유도하였다. 그 결과 모델이 야민정음과 외계어를 사용한 언어 변형에 취약하다는 사실을 발견하였다. 이에 더해 이모티콘이 텍스트와 함께 사용되는 경우 텍스트 자체보다 이모티콘의 효과가 더 크다는 사실을 밝혀내었다.

  • PDF

Sequential Sentence Classification Model based on ELECTRA (ELECTRA 기반 순차적 문장 분류 모델)

  • Choi, Gi-Hyeon;Kim, Hark-Soo;Yang, Seong-Yeong;Jeong, Jae-Hong;Lim, Tae-Gu;Kim, Jong-Hoon;Park, Chan-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.327-330
    • /
    • 2020
  • 순차적 문장 분류는 여러 문장들을 입력으로 받아 각 문장들에 대하여 사전 정의된 라벨을 할당하는 작업을 말한다. 일반적인 문장 분류와 대조적으로 기준 문장과 주변 문장 사이의 문맥 정보가 분류에 큰 영향을 준다. 따라서 입력 문장들 사이의 문맥 정보를 반영하는 과정이 필수적이다. 최근, 사전 학습 기반 언어 모델의 등장 이후 여러 자연 언어 처리 작업에서 큰 성능 향상이 있었다. 앞서 언급하였던 순차적 문장 분류 작업의 특성상 문맥 정보를 반영한 언어 표현을 생성하는 사전 학습 기반 언어 모델은 해당 작업에 매우 적합하다는 가설을 바탕으로 ELECTRA 기반 순차적 분류 모델을 제안하였다. PUBMED-RCT 데이터 셋을 사용하여 실험한 결과 제안 모델이 93.3%p로 가장 높은 성능을 보였다.

  • PDF