• 제목/요약/키워드: 언어 분석

검색결과 4,658건 처리시간 0.031초

한국어 언어모델의 속성 및 정량적 편향 분석: 영어 언어모델과의 비교 및 개선 제안 (Properties and Quantitative Analysis of Bias in Korean Language Models: A Comparison with English Language Models and Improvement Suggestions)

  • 김재민;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.558-562
    • /
    • 2023
  • 최근 ChatGPT의 등장으로 텍스트 생성 모델에 대한 관심이 높아지면서, 텍스트 생성 태스크의 성능평가를 위한 지표에 대한 연구가 활발히 이뤄지고 있다. 전통적인 단어 빈도수 기반의 성능 지표는 의미적인 유사도를 고려하지 못하기 때문에, 사전학습 언어모델을 활용한 지표인 BERTScore를 주로 활용해왔다. 하지만 이러한 방법은 사전학습 언어모델이 학습한 데이터에 존재하는 편향으로 인해 공정성에 대한 문제가 우려된다. 이에 따라 한국어 사전학습 언어모델의 편향에 대한 분석 연구가 필요한데, 기존의 한국어 사전학습 언어모델의 편향 분석 연구들은 사회에서 생성되는 다양한 속성 별 편향을 고려하지 못했다는 한계가 있다. 또한 서로 다른 언어를 기반으로 하는 사전학습 언어모델들의 속성 별 편향을 비교 분석하는 연구 또한 미비하였다. 이에 따라 본 논문에서는 한국어 사전학습 언어모델의 속성 별 편향을 비교 분석하며, 영어 사전학습 언어모델이 갖고 있는 속성 별 편향과 비교 분석하였고, 비교 가능한 데이터셋을 구축하였다. 더불어 한국어 사전학습 언어모델의 종류 및 크기 별 편향 분석을 통해 적합한 모델을 선택할 수 있도록 가이드를 제시한다.

  • PDF

DECO-LGG 언어자원 및 의존파서와 LSTM을 활용한 하이브리드 자질기반 감성분석 플랫폼 DecoFESA 구현 (DecoFESA: A Hybrid Platform for Feature-based Sentiment Analysis Based on DECO-LGG Linguistic Resources with Parser and LSTM)

  • 황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-326
    • /
    • 2020
  • 본 연구에서는 한국어 감성분석 성능 향상을 위한 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph) 패턴문법 기술 프레임에 의존파서 및 LSTM을 적용하는 하이브리드 방법론을 제안하였다. 본 연구에 사용된 DECO-LGG 언어자원을 소개하고, 이에 기반하여 의미 정보를 의존파서(D-PARS)와 페어링하는 한편 OOV(Out Of Vocabulary)의 문제를 LSTM을 통해 해결하여 자질기반 감성분석 결과를 제시하였다. 부트스트랩 방식으로 반복 확장될 수 있는 LGG 언어자원 및 알고리즘을 통해 수행되는 자질기반 감성분석 프로세스는 전용 플랫폼 DecoFESA를 통해 그 범용성을 확장하였다. 실험을 위해서 네이버 쇼핑몰의 '화장품 구매 후기글'을 크롤링하였으며, DecoFESA 플랫폼을 통해 현재 구축된 DECO-LGG 언어자원 기반의 감성분석 성능을 평가하였다. 이를 통해 대용량 언어자원의 구축과 이를 활용하기 위한 어휘 시퀀스 처리 알고리즘의 구현이 보다 정확한 자질기반 감성분석 결과를 제공할 수 있음을 확인하였다.

  • PDF

언어 네트워크 분석 방법을 활용한 학술논문의 내용분석 (A Content Analysis of Journal Articles Using the Language Network Analysis Methods)

  • 이수상
    • 정보관리학회지
    • /
    • 제31권4호
    • /
    • pp.49-68
    • /
    • 2014
  • 본 연구의 목적은 국내 학술논문 데이터베이스에서 검색한 언어 네트워크 분석 관련 53편의 국내 학술논문들을 대상으로 하는 내용분석을 통해, 언어 네트워크 분석 방법의 기초적인 체계를 파악하기 위한 것이다. 내용분석의 범주는 분석대상의 언어 텍스트 유형, 키워드 선정 방법, 동시출현관계의 파악 방법, 네트워크의 구성 방법, 네트워크 분석도구와 분석지표의 유형이다. 분석결과로 나타난 주요 특성은 다음과 같다. 첫째, 학술논문과 인터뷰 자료를 분석대상의 언어 텍스트로 많이 사용하고 있다. 둘째, 키워드는 주로 텍스트의 본문에서 추출한 단어의 출현빈도를 사용하여 선정하고 있다. 셋째, 키워드 간 관계의 파악은 거의 동시출현빈도를 사용하고 있다. 넷째, 언어 네트워크는 단수의 네트워크보다 복수의 네트워크를 구성하고 있다. 다섯째, 네트워크 분석을 위해 NetMiner, UCINET/NetDraw, NodeXL, Pajek 등을 사용하고 있다. 여섯째, 밀도, 중심성, 하위 네트워크 등 다양한 분석지표들을 사용하고 있다. 이러한 특성들은 언어 네트워크 분석 방법의 기초적인 체계를 구성하는 데 활용할 수 있을 것이다.

독일어와 한국어를 비교한 언어 유형적 분석 (Sprachtypologische Fehleranalyse - Im Vergleich der deutschen und koreanischen Sprache -)

  • 박진길
    • 한국독어학회지:독어학
    • /
    • 제7집
    • /
    • pp.1-24
    • /
    • 2003
  • 우리는 지금까지 독일어와 한국어 두 언어간의 오류분석을 논의해 왔다. 특히 언어유형학적인 측면에서 몇 가지 오류유형과 분석을 시도했다. 그 결과는 대체로 다음과 같이 요약될 수 있다. 독일어와 한국어가 서로 근본적으로 상반되는 언어현상과 더불어 약간의 공통성을 나타내며 일정한 유형을 나타낸다. 이는 두로 인간의 언어습득장치에 기인된 언어습득의 결정주의(Determinismus)에서 비롯될 것이다. 언어특성/문제의 체계성/규칙성 또는 일관성은 이를 반영한다. 거대한 언어자료 중에 극히 미미한 일부, 즉 언어최소량를 정복함으로써 그 효용성을 극대화할 수 있는 것은 매우 중요한 의미를 지닌다. 이를 연구 이용하는 경우에는 엄청난 효과와 가능성을 기대할 수 있을 것이다. (1) 독일어와 한국어의 학습 및 오류분석에서 가장 핵심적인 것은 언어유형학적으로 드러난 언어특성, 즉 전치성(독일어/영어)과 후치성(한국어)이다. 이를 토대로 형성된 대립적인 면과 공통적인 문제를 체계화하는 것이 역시 오류분석 문제의 관건이다. 또한 독일어가 아직 후치성 언어(한국어(TXV))에서 출발해서 전치성 언어(영어(SVX))로 발전/변화해 가는 과정, 즉 중간단계인 TVX에 머물고 있다는 사실이 중요한 의미를 지닌다. 즉 그들의 대극성과 유사성을 연결하는 실마리로 볼 수 있기 때문이다. (2) 일치(Kongruenz)/상관(Korrelation) 및 반복(Wiederholung) 현상, 그리고 격변화와 인칭변화 현상은 어순문제와 더불어 형태론적 문제를 통해 문법적인 확인수단으로 작용한다. 이들은 대부분 체계적/구조적으로 나타나기 때문에 학습자는 흔히 같은 유형에서 반복적으로 오류를 범하기 마련이다. 이를 극복하기 위해서 언어 유형학적 오류분석을 이해하고 또한 이를 통해 오류를 줄이거나 예방하는 학습이 필요하다. (3) 명사가 한정사구 안에서 성/수/격에 따라 변화하는 것과 동사가 동사구에서 주어의 인칭/수에 따라 인칭변화 하는 것은 우리 한국인에게는 아주 이색적인 현상이다. 이는 양면적인 수식구조에 대한 확인수단 및 원자가에 의한 강력한 형식위주 언어인 독일어와 전위적인 단일 수식구조와 부정형 동사를 특성으로 형성된 핵/최소문 언어간의 필연적인 적응관계 및 결과라고 볼 수 있다. 이 두 가지 유형 역시 언어특성에 따라 도식화/공식화 할 수 있다. (4) 괄호현상, 즉 으뜸머리(Hauptkopf)가 버금머리(Nebenkopf)와 분리하는 것은 우리 한국인에게는 아주 이색적인 언어현상이다. 한국어에는 머리의 이동이 없기 때문이다. 긴 구문에서 버금머리를 잊어버리거나 실수하는 것은 모든 괄호구문에서 예견되는 결과이다. 그러나 이는 정치성과 후치성 언어간의 전이 과정으로 이해될 수 있다. 으뜸머리가 원래의 자리를 박차고 소속 구/문의 앞자리로 도약한 것처럼 느껴지기 때문이다. (5) 전치 및 후치 수식이 유동적으로 작용하는 독일어는 전치 수식만으로 고정된 한국어보다 복잡하지만 균형적인 언어구조이다. 이러한 수식구조에서 한국인은 흔히 형태 및 어순에서, 그리고 번역에서 오류를 범하고 만다. (6) 그러나 가장 중요한 것은 아는 것을 제대로 이용하는 문제이다. 모국어/L2를 자유로이 말하고 쓸 때까지, 즉 언어습득에는 일체이 문법이나 도표/도식을 이용할 필요가 없다는 사실이다. 이는 17세기 서구의 이성주의 철학자들의 한결같은 경고이다. 오늘날 초고속 과학문명에서 더욱 빛을 발하는 것은 당연한 결과이다. 한 언어 속에 들어있는 문법체계를 익혀 가는 것이 곧 언어습득 과정이지만, 이를 달성하는 가능성 내지 첩경은 실제적인 언어자료와 체험이지 결코 문법이나 추상적인 개념적 접근이 아님을 웅변하고 있기 때문이다. 핵심적인 문제는 모국어교육에서도 최대 장점인 대화를 통한 언어연습/대화 기회를 최대한 보장하는 데 있다. 또한 언어간섭 현상을 조장하는 분위기를 막아야 할 것이다. 이러한 의미에서 교수법 개발이 외국어/L2 성공의 관건일 것이다. (7) 언어학습에서 오류를 극복하는 데는 일차적인 실제 상황에 부합하는 대화적인 연습, 그리고 효과적인 언어자료 접촉, 즉 독서와 모방이 중요하다. 이차적이고 직접적인 것은 통사(Syntax) 및 형태론(Morphologie)를 익힐 수 있는 말/문을 끊임없이 익히는 일이다. 이것이 또한 언어최소량을 충족시켜 언어습득에 이르는 첩경이다. 자연 생태적인 모국어 학습 또는 조정 및 제도적인 언어학습에서도 실제상황에 어긋나는 문법적인 체계에 얽매이는 도식 및 도표 위주의 텟스트는 일시적인 기대일 뿐이다. 인간의 언어습득장치를 이해하지 못한 결과이기 때문이다. 문법적인 개념위주 접근은 상당한 설명이 필요해서 절박한 자료와 체험까지 앗아가기 마련이다. 더구나 이를 위해 수준을 무시하고 모국어로 일관하여 벙어리와 문맹을 자초하는 것은 참으로 어리석은 일이다. 지식 정보화 시대 및 세계화 시대에는 무엇보다도 교육 및 언어정책이 국가 발전의 원동력이다. 특히 영어를 비롯한 외국어 학습능력과 학습방법은 매우 중요하다. 학습자에게 말하고 쓰는 기본 능력을 보장하는 것이 급선무이다. 이를 위한 작업의 하나가 바로 언어간의 오류분석일 것이다. 언어의 습득과 활용이 체계적이듯이 오류분석 역시 상당히 체계적이다. 그래서 인간의 언어습득과 언어습득장치를 두고 결정론(Determinismus)이 지배적이다. 이러한 의미에서 언어습득의 3대 요소, 즉 언어습득장치를 구비한 인간으로 태어나고, 해당 언어를 통한 일관된 언어체험/학습으로 언어최소량을 충족해야 한 언어를 정복할 수 있다는 것은 결정적인 사실이다. 학생고객에게 다가서는 책임교육으로 교육개방에 대비하는 일 역시 시대적인 상황이요 또한 결정적인 단계임엔 틀림이 없을 것이다.

  • PDF

언어 장애 진단을 위한 그림 설명글의 언어학적 특성 분석 (Linguistic Analysis of Picture Description for Language Impairment Diagnosis)

  • 이용재;민혜진;박종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.244-247
    • /
    • 2011
  • 사람은 성장 배경이나 학습에 따라 고유의 언어 사용 특성을 가지게 된다. 이러한 언어 사용 특성은 개인의 언어 유창성에 대한 지표를 제공하며, 언어 사용 특성에 대한 분석은 장애에 따른 변화에도 능동적으로 대처할 수 있게 한다. 그러나 어떤 특정인의 언어 사용 특성을 파악하는 연구는 아직 부족한 실정이다. 본 연구에서는 개인 언어 사용 특성 파악을 위하여 일차적으로 일반인들의 그림 설명글 데이터를 모았으며, 이에 대한 분석 결과에 기반하여 언어 장애 진단에 적용하기 위한 언어 사용 특성을 파악하고자 한다. 본 연구의 결과로 형태소 단위, 단어 단위, 그리고 내용 전달의 방식에 따른 개인의 언어 사용특성을 일부 파악할 수 있었으며, 이와 같은 특성은 향후 치매와 같은 인지 기능 장애로 인한 언어 사용의 변화를 추적하는데 중요한 실마리를 제공할 수 있을 것으로 기대된다.

흐름 제어 언어의 통합분석을 위한 확장 ST (EST for Analysis of Flow Control Language)

  • 정은영;김선주;김태완;장천현;김문회
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1013-1016
    • /
    • 2002
  • 제어 시스템에 사용되는 흐름 제어 언어로는 IL(Instruction List), ST(Structured Text), FBD(Function Block Diagram), SFC(Sequential Function Chart), LD (Ladder Diagram)가 있다. 일반적으로 제어 시스템에 탑재하여 사용하는 언어는 상기 언어 중 두 종류 이하의 특정 언어로 제한되어 있다. 이러한 제약을 보완하기 위해, 모든 흐름 제어 언어를 통합 분석할 수 있는 통합 분석기가 필요하다. 본 논문에서는 흐름 제어 언어의 통합 분석 처리가 가능하도록 그래픽 표현의 FBD 를 문자 표현의 EST(Extended Structured Text)로 변형하는 규칙과 문자 표현의 EST 를 IL 로 변형하는 규칙을 제시한다. 언어간의 변형 과정에서 FBD 를 ST 로 표현할 수 없는 부분을 EST 로 정의한다. 또한 본 논문에서 제안된 EST 를 기반으로 통합 분석기의 구조를 제시한다.

  • PDF

흐름 제어 언어 분석 도구 설계 및 구현 (Design and Implementation of Analysis Tool for Flow Control Language)

  • 김선주;김태완;장천현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.634-636
    • /
    • 2002
  • 산업분야에서 자동화 시스템은 자동설계, 생산설비의 관리, 품질검사 등 각종 생산과 관련되어 모든 일을 자동으로 처리 할 수 있도록 하여 생산성을 향상시킨다. 일반적으로 자동화 시스템에서 사용되는 소프트웨어는 사용할 수 있는 흐름 제어 언어가 2종류 이하로 제한이 되어 있고, 동일한 시스템에서 언어의 혼용을 통한 시뮬레이션이 불가능하다. 이에 본 논문에서 혼용 사용이 가능한 흐름 제어 언어 통합 분석기를 제시한다. 고급언어 형태의 ST를 기초로 확장한 언어인 EST를 제시하고 통합 분석기를 위하여 그래픽언어를 EST로 변환하고 흐름제어 규칙 작성이 가능한 FBD 편집기, FBD 편집기에서 출력한 EST를 다시 변환하는 EST-IL 변환기를 설계 및 구현한다. EST를 기준으로 그래픽 언어를 통합하는 통합 분석기는 흐름 제어 언어의 통합 시뮬레이션이 가능하다.

  • PDF

현직 초등 교사들의 교육용 프로그래밍 언어(EPL)에 관한 실태 및 요구 분석 (An analysis on in-service elementary school teachers' current status and needs toward educational programming language(EPL))

  • 이진원;이영준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.183-184
    • /
    • 2016
  • 본 논문에서는 2015 개정 교육과정에서 강조하고 있는 SW 교육의 교육용 프로그래밍 언어(EPL)에 대한 현직 초등 교사들의 실태와 요구를 분석하였다. 현직 초등 교사들이 대부분 이수한 교대의 교육과정에는 교육용 프로그래밍 언어 교육에 관한 내용은 대다수 없는 것으로 파악되었다. 또한 현장에서 실시되고 있는 교육용 프로그래밍 언어에 관한 연수는 양적으로도 연수의 수가 부족할 뿐만 아니라 질적으로도 개선이 필요한 것으로 분석되었다. 교육용 프로그래밍 언어에 대한 현직 교사의 사례들에서도 교육용 프로그래밍 언어에 대한 교사교육에 관한 다양한 요구가 분석되었다. 이를 통하여 교육용 프로그래밍 언어에 대한 초등 교사교육의 필요성과 방향에 대하여 제언하였다.

  • PDF

남북한 방송언어의 차이에 대한 기초 분석 (Preliminary analysis about the differences between South and North Korean Broadcasting Languages)

  • 이창환;김경일;박종민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 2부
    • /
    • pp.622-625
    • /
    • 2010
  • 본 연구는 장기간의 남북한 분단으로 인한 언어적 이질성의 정도를 가늠해보기 위하여 남북한 방송언어 비교하였다. 연구의 주 목적은 남북한 언어간 차이에 대한 데이터가 부족한 상황에서 언어사용 실태에 대한 토대 데이터를 제공하는 것이었다. 남북한의 주요 방송사 뉴스 동영상에서 추출한 텍스트를 대상으로 한국어분석프로그램 KLIWC (Korean Linguistic Inquiry and Word Count)으로 분석하였다. 분석 결과, 북한 방송언어는 KLIWC의 각 차원에서 남한 언어와 유의미한 차이를 나타냈으며, 특히 정서적 단어, 인지적 단어, 사회적 단어 등에서 유의미한 차이가 발견되었다. 또한 북한 방송에서는 인칭대명사나 품사와 같은 언어학적 기능어에 있어서도 남한방송보다 사용빈도가 높았다. 이러한 차이에 대한 예비적인 심리학적 신문방송학적 해석을 제공하였다.

  • PDF

한국어 처리를 위한 품사 체계 연구 (A Study on a Part of Speech for Korean Natural Language Processing)

  • 안미정;김재한;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.581-592
    • /
    • 1993
  • 지금까지의 한국어 자연언어 처리에 기반이 되는 사전 품사 체계에 대한 연구는 형태소 분석, 구문 구조 분석, 그리고 의미 분석 등의 다양한 분야에서 이루어져 왔다. 한국어 자연언어 처리 각 분야는 자체의 고유한 독립성을 가지는데, 이러한 특성은 사전 품사 체계의 다양화를 초래하였으며, 연계성있는 자연언어 처리를 위한 통합 환경 조성을 저해시켜 왔다. 본 논문에서는 한국어 자연언어 처리 전반에 걸친 통합 환경 조성을 위한 범용적인 사전 품사체계의 필요성에 따라 한국어 자연언어 분석의 각 분야에 적합한 사전 품사체계에 대하여 살펴 본 후, 한국어 자연 언어 처리 전반에 사용될 범용적이고 통합적인 기본 사전 품사체계 구축을 위한 방안을 제시한다.

  • PDF