• 제목/요약/키워드: 언어 분석

검색결과 4,658건 처리시간 0.027초

효과적인 한국어 교차언어 전송을 위한 특성 연구 (Research on Features for Effective Cross-Lingual Transfer in Korean)

  • 윤태준;김태욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.119-124
    • /
    • 2023
  • 자원이 풍부한 언어를 사용하여 훈련된 모델을 만들고 해당 모델을 사용해 자원이 부족한 언어에 대해 전이 학습하는 방법인 교차언어 전송(Cross-Lingual Transfer)은 다국어 모델을 사용하여 특정한 언어에 맞는 모델을 만들 때 사용되는 일반적이고 효율적인 방법이다. 교차언어 전송의 성능은 서비스하는 언어와 전송 모델을 만들기 위한 훈련 데이터 언어에 따라 성능이 매우 다르므로 어떤 언어를 사용하여 학습할지 결정하는 단계는 효율적인 언어 서비스를 위해 매우 중요하다. 본 연구에서는 교차언어 전송을 위한 원천언어를 찾을 수 있는 특성이 무엇인지 회귀분석을 통해 탐구한다. 또한 교차언어전송에 용이한 원천 학습 언어를 찾는 기존의 방법론들 간의 비교를 통해 더 나은 방법을 도출해내고 한국어의 경우에 일반적으로 더 나은 원천 학습 언어를 찾을 수 있는 방법론을 도출한다.

  • PDF

다국어 소셜미디어에 대한 감성분석 방법 개발: 한국어-중국어를 중심으로 (A Method of Analyzing Sentiment Polarity of Multilingual Social Media: A Case of Korean-Chinese Languages)

  • 최미나;진윤선;권오병
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.91-111
    • /
    • 2016
  • 소비자들이 소셜미디어 상에 기록한 글을 통해 기업은 제품 또는 기업 이미지에 대한 감성분석을 수행하는데 이는 소셜미디어 기반 마케팅에서 중요한 활동 중에 하나다. 특히 글로벌 소셜미디어의 경우 국적을 불문하고 다양한 고객이 늘어남에 따라 여러 언어권의 소비자들이 각자의 언어로 다양한 의견을 표명하고 있다. 이처럼 다양한 언어로 작성된 텍스트를 감성분석하기 위해서는 기존 방법과 달리 동일한 언어로 통일시켜야 하는 번역 작업이 필요하다. 하지만 번역을 하게 될 경우, 언어와 관련된 배경이나 문화, 용어사용의 차이 등으로 본래 문서에 있는 모든 단어나 문법을 정확히 표현할 수 없는 문제점이 있다. 따라서 본 연구에서는 다중 언어로 수집되는 텍스트를 번역하지 않고 해당 언어별로 텍스트를 분리한 다음 감성분석을 진행하여 각각의 극성치를 종합하는 방법을 제안하고자 한다. 본 연구에서 제안한 다국어 감성분석 알고리즘을 검증하기 위해 다중언어 문장을 한국어, 중국어로 번역한 감성분석의 극성치 편차인 RMSE 값을 비교하였다. 그 결과, 번역을 통한 다중언어의 감성분석보다 언어별로 분리한 감성값이 실제 감성값에 가장 근접하는 것으로 나타나 본 연구에서 제안한 방법론의 우수성을 입증하였다. 본 연구는 다수의 유사한 연구에서 사용했던 알고리즘을 사용하지 않고 원문 그대로 다중언어 감성분석을 시도했다는 점에서 의의가 있다.

3~6세 연령대별 언어장애아동의 언어중재 스크립트 상황에 대한 양육자와 언어재활사의 우선순위 분석 (Analyses of Priorities in Contexts for the Script-based Speech Language Intervention by Age for 3~6 years Old Children in SLPs and Caregivers)

  • 유지원;윤미선;최성준;홍경훈
    • 한국콘텐츠학회논문지
    • /
    • 제19권4호
    • /
    • pp.207-217
    • /
    • 2019
  • 본 연구는 3~6세의 언어장애아동을 대상으로 일상적 스크립트를 활용한 언어중재에서 양육자와 언어재활사가 인식하는 우선적 중재가 필요한 주요 의사소통 상황을 분석하는데 목적이 있었다. 예비조사와 본 설문조사를 거쳐 수집한 데이터를 계층분석 (AHP)을 사용하여 분석하였다. 그 결과, 3개의 상위 상황 중에서 양육자는 '교육사회생활' 그리고 언어재활사는 '가정생활'을 가장 우선적인 상황으로 선택하였다. 상위별 하위상황의 경우, '가정생활'에서는 '식사', '교육사회생활'에서는 '친구와 놀기'가, 그리고 '여가문화생활'에서는 '놀이터'가 중요한 의사소통 상황으로 인식되었다. 전체 35개의 하위 상황에서 양육자는 '친구와 놀기' 그리고 언어재활사는 '식사'를 선택하였으며, 상위 5순위의 상황을 살펴보면 양육자와 언어재활사 모두 '가정생활'의 상황들이 높은 중요도 비율을 보였다. 아동연령별로 양육자 인식을 분석한 결과, 3세와 6세의 각 양육자 집단은 '가정생활' 그리고 4세와 5세의 각 양육자 집단은 '교육사회생활'을 가장 중요한 상위 상황으로 보았다. 전체 하위상황에서도 아동의 연령별로 양육자의 주요 상황에 대한 우선순위 인식에서 약간의 차이를 보였다. 본 연구결과는 언어재활사가 스크립트를 활용한 언어중재를 실시할 때 아동의 연령과 발달수준 뿐만 아니라 양육자의 요구를 고려한 의사소통 상황의 선정이 필요함을 시사한다.

언어 정보 획득을 위한 한국어 코퍼스 분석 도구 (A Korean Corpus Analysis Tool for Language Information Acquisition)

  • 이호;김진동;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.297-304
    • /
    • 1994
  • 코퍼스는 기계 가독형으로 개장되어 있는 실제 사용 언어의 집합으로 자연어 처리에 필요한 여러 가지 언어 정보를 내재하고 있다. 이들 정보는 코퍼스 분석기를 이용하여 획득할 수 있으며 용례와 각종 통계 정보 및 확률 정보, 연어 목록 등은 코퍼스에서 추출할 수 있는 대표적인 언어 정보들이다. 그러나 기존의 한국어 코퍼스 분석 도구들은 용례 추출 기능만을 보유하여 활용 범위가 제한되어 있었다. 이에 본 논문에서는 대량의 한국어 코퍼스를 분석하여 용례뿐만 아니라 자연어 처리의 제분야에서 필요한 언어 정보들을 추출하는 방법에 대해 연구하였으며 이의 검증을 위해 KCAT(Korean Corpus Analysis Tool)를 구현하였다. KCAT는 코퍼스 색인, 용례 추출, 통계 정보 추출, 연어 추출 부분으로 구성되어 있다. 용례 색인을 위해서는 여러 가지 사전과 용례 색인 구조가 필요한데 KCAT에서는 가변 차수 B-Tree 구조를 이용하여 사전을 구성하며 용례 색인을 위해 버킷 단위의 역 화일 구조를 이용한다. 질 좋은 용례의 추출을 위해 KCAT는 다양한 용례 연산 및 정렬 기능을 제공한다. 또한 통계적 방법의 자연어 처리 분야를 위해 어휘 확률, 상태 전이 확률, 관측 심볼 확률, 상호 정보, T-score 등을 제공하며, 기계 번역 분야에서 필요한 연어를 추출한다.

  • PDF

협업 비즈니스 프로세스 언어의 비교 분석 (Comparison and Analysis of Collaboration Business Process Languages)

  • 조명현;설주영;박정업;손진현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.94-96
    • /
    • 2005
  • 지금까지 비즈니스 프로세스 관리에 대한 다양한 연구 활동들이 수행되어 왔지만, 아직까지 범용적인 비즈니스 프로세스 언어 표준이 규정되어 있지 않은 상태이다. 본 연구에서는 대표적인 비즈니스 프로세스 언어들(BPEL4WS, BPML, WSCI, WS-CDL, BPSS 등)의 비교 분석을 통해, 협업 비즈니스 환경에서 비즈니스 프로세스 언어가 가져야 할 필수 요소들을 제안한다. 비즈니스 프로세스 언어의 비교는 세 단계로 구성된다. 첫째, 비즈니스 프로세스를 구성하는 애플리케이션에 따라 조직 내외의 비즈니스 프로세스를 비교한다. 둘째, 협업 비즈니스 프로세스의 모델링 절차에 따라 절차에 필요한 필수 비즈니스 엔터티를 제안한다. 마지막으로, 추출된 필수 비즈니스 엔터티를 이용하여 다양한 비즈니스 프로세스 언어들 사이의 특징을 비교 분석한다.

  • PDF

한국어-영어 공감대화 데이터셋과 성격을 기반으로 한 언어모델 평가 (Language Model Evaluation Based on Korean-English Empathetic Dialogue Datasets and Personality)

  • 이영준;현종환;이도경;성주원;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.312-318
    • /
    • 2023
  • 본 연구는 다양한 대규모 언어 모델들의 한국어/영어 공감 대화 생성에서 성능을 실험적으로 비교 분석하는 것과 개인의 성향과 공감 사이에서의 상관 관계를 실험적으로 분석하는 것을 목표로 한다. 이를 위해, 한국어 공감 대화 데이터셋인 KorEmpatheticDialogues 를 구축하였고, personality-aware prompting 방법을 제안한다. 실험을 통해, 총 18개의 언어 모델들 간의 공감 대화 생성 성능을 비교 분석하였고, 개인의 성향에 맞춤형 제공하는 공감이 더 상호작용을 이끌어낼 수 있다는 점을 보여준다. 코드와 데이터셋은 게재가 허용되면 공개할 예정이다.

  • PDF

개념 및 구문 정보를 이용한 한국어 대화체 분석시스템 (Korean Spoken Language Analysis System Using Concept and Syntactic Information)

  • 왕지현;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.341-346
    • /
    • 1997
  • 개념기반 분석방법은 발화문에서 발화자가 전달하고자 하는 중요한 부분만을 추출하여 개념어로 대표하여 분석하기 때문에 문장에서 발생하는 불필요한 여러 언어현상을 무시하고 주요 의미만 추출할 수 있는 강건함을 가장 큰 장점으로 갖는다. 한국어는 영어권 언어와는 달리 교착어와 부분 자유 어순의 특징을 가지기 때문에 구문정보를 이용하지 않는 순수 개념 기반의 분석기법을 한국어에 그대로 적용하면 문법의 복잡도가 증가하여 시스템 성능이 크게 저하된다. 본 논문에서 제시하는 구문정보를 이용한 개념기반의 분석방법은 순수 개념 기반의 분석기법이나 구문정보만을 사용하는 방법보다 모호성이 적고, 문법의 기술이 용이하며, 대화체 처리의 어려운 점들을 상당수 극복할 수 있다. 또한 분석루틴의 skip기능은 자연 발화문의 분석률을 높여주며, 어근으로부터 분리한 어미를 일정한 개념으로 분류함으로써 교착어의 특성으로 인한 문법의 복잡도를 해소하였고, 분석문법으로 부분 자유 어순에 따른 다양한 문장들을 수용할 수 있다.

  • PDF

SHIFT-REDUCE 알고리즘을 이용한 한국어 자동 분석 기법 (A Parsing Technique for Korean Using Shift-Reduce Algorithm)

  • 김지은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.439-442
    • /
    • 1994
  • 본 논문은 PC 환경에서 한국어 문장구조를 분석할 수 있는 분석 기법을 제시한다. 상대적으로 어순이 자유로운 언어인 한국어의 특성에 중점을 두어, 이를 효과적으로 처리할 수 있는 분식 기법으로 shift-reduce 알고리즘을 제시한다. shift-reduce 분석 기법은 구문론 및 의미론적 하위 범주화어 의한 분석을 효율적으로 실행할 수 있도록 해주며. bottom-up과 left-right에 의한 분석 과정을 보완하여 준다.

  • PDF

R 언어 기반의 REST API 구현 및 보안문제의 해결 방안 (Implementation of R-language-based REST API and Solution for Security Issues)

  • 강동훈;오세종
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제9권1호
    • /
    • pp.387-394
    • /
    • 2019
  • 최근 빅 데이터의 중요성이 부각되면서 데이터 분석에 대한 수요가 증가하고 있다. R 언어는 데이터 분석을 목적으로 고안된 언어로서, 사용자들은 R언어의 다양한 통계, 머신러닝, 데이터 마이닝 패키지의 알고리즘을 활용하여 데이터를 효과적으로 분석 할 수 있다. 그러나 R 언어는 분석 결과를 어플리케이션으로 만들어 활용하기 어렵다는 단점이 있다. 이를 보완하기 위해 PHP, Java등과 같은 다른 언어를 통해 R 스크립트를 호출하는 법이 제안되었다. 그러나 이러한 개발 방식은 R 이외에도 다른 언어를 혼용해서 작성해야 하는 번거로움이 있다. 본 연구에서는 R 언어의 Plumber 패키지를 활용하여 다른 언어를 사용하지 않고 오직 R 언어만을 이용하여 API를 작성하는 방법을 제안하였다. 또한 API를 구현할 때 고려해야할 보안 이슈와 해결 방안에 대해서도 제시하였다. 본 연구에서 제안한 기술을 이용하여 웹 응용 프로그램을 개발 한다면 높은 생산성과 개발의 편리성, 운영의 효율성을 기대할 수 있다.

IT 인물 관련 텍스트 정보의 효율적인 검색을 위한 Sub-language의 속성 연구 (Studies on the linguistic properties of the IT-People documents for an efficient Information Retrieval)

  • 고승희;김소연;천승미;남지순;김권양;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.241-249
    • /
    • 2007
  • 본 연구는 IT 인물 관련 텍스트 정보의 효율적인 검색을 위하여 문서 내에서 인물과 관련된 정보를 담고 있는 문장들이 어떠한 특징을 가지고 실현되는가를 살펴보고 언어적 속성을 어떻게 구조화하고 형식화할 것인가를 논의하는 것을 목적으로 한다. 언어적 속성 분석을 위해서 전자신문 내에서 인물 관련 코퍼스를 수집하고 이들의 분석을 통해 다음과 같이 문제가 되는 특징들을 확인하였다. 즉 외래어 음차 표기문제, 복합명사 및 명사구 그리고 서술 명사적 표현의 문제 등으로 요약된다. IT라는 특정 영역에 대해 텍스트 내에서의 어휘-통사적 패턴을 분석하고 언어적 특징에 대한 효율적 기술을 위해서는 LGG 부분 문법 그래프 모델을 활용하도록 한다. 본 연구는 특정 영역인 IT 관련 문서에서 자연언어 텍스트를 대상으로 정보 검색할 때 문제가 되는 다양한 언어학적 현상들을 다루며, 향후보다 확장된 영역에서의 효율적 언어 처리에 대한 방법론적 대안을 제시할 수 있을 것으로 기대된다.

  • PDF