• 제목/요약/키워드: language training

검색결과 689건 처리시간 0.026초

개인정보 보호를 고려한 딥러닝 데이터 자동 생성 방안 연구 (A Study of Automatic Deep Learning Data Generation by Considering Private Information Protection)

  • 장성봉
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.435-441
    • /
    • 2024
  • 수집된 대량의 데이터셋이 딥러닝 학습데이터로 사용되기 위해서는 주민번호, 질병 정보등과 같이 민감한 개인정보는 해커에게 노출되지 않도록 값을 변경하거나 암호화해야 하고 구축된 딥러닝 모델의 구조와 일치 하도록 데이터를 재구성 해주어야 한다. 현재, 이러한 작업은 전문가에 의해 수동으로 이루어지기 때문에, 시간과 비용이 많이 소요 된다. 이러한 문제점을 해결하기 위해, 본 논문에서는 딥러닝 과정에서 개인정보 보호를 위한 데이터 처리 작업을 자동으로 수행할 수 있는 기법을 제안한다. 제안된 기법에서는 데이터 일반화에 기반한 개인정보 보호 작업을 수행하고 원형큐를 사용하여 데이터 재구성 작업을 수행한다. 제안된 기법의 타당성을 검증하기 위해, C언어를 사용하여 직접 구현하였다. 검증 결과, 데이터 일반화가 정상적으로 수행되고 딥러닝 모델에 맞는 데이터 재구성이 제대로 수행됨을 확인 할 수 있었다.

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.

온톨로지 지식 기반 특성치를 활용한 Bidirectional LSTM-CRF 모델의 시퀀스 태깅 성능 향상에 관한 연구 (Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature)

  • 진승희;장희원;김우주
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.253-266
    • /
    • 2018
  • 본 연구는 질의 응답(QA) 시스템에서 사용하는 개체명 인식(NER)의 성능을 향상시키기 위하여 시퀀스 태깅 방법론을 적용한 새로운 방법론을 제안한다. 사용자의 질의를 입력 받아 데이터베이스에 저장된 정답을 추출하기 위해서는 사람의 언어를 컴퓨터가 알아들을 수 있도록 구조화 질의어(SQL)와 같은 데이터베이스의 언어로 전환하는 과정이 필요한데, 개체명 인식은 사용자의 질의에서 데이터베이스에 포함된 클래스나 데이터 명을 식별하는 과정이다. 기존의 데이터베이스에서 질의에 포함된 단어를 검색하여 개체명을 인식하는 방식은 동음이의어와 문장성분 구를 문맥을 고려하여 식별하지 못한다. 다수의 검색 결과가 존재하면 그들 모두를 결과로 반환하기 때문에 질의에 대한 해석이 여러 가지가 나올 수 있고, 계산을 위한 시간복잡도가 커진다. 본 연구에서는 이러한 단점을 극복하기 위해 신경망 기반의 방법론을 사용하여 질의가 가지는 문맥적 의미를 반영함으로써 이러한 문제를 해결하고자 했고 신경망 기반의 방법론의 문제점인 학습되지 않은 단어에 대해서도 문맥을 통해 식별을 하고자 하였다. Sequence Tagging 분야에서 최신 기술인 Bidirectional LSTM-CRF 모델을 도입함으로써 신경망 모델이 가진 단점을 해결하였고, 학습되지 않은 단어에 대해서는 온톨로지 기반 특성치를 활용하여 문맥을 반영한 추론을 사용하였다. 음악 도메인의 온톨로지(Ontology) 지식베이스를 대상으로 실험을 진행하고 그 성능을 평가하였다. 본 연구에서 제안한 방법론인 L-Bidirectional LSTM-CRF의 성능을 정확하게 평가하기 위하여 학습에 포함된 단어들뿐만 아니라 학습에 포함되지 않은 단어들도 포함한 질의를 평가에 사용하였다. 그 결과 L-Bidirectional LSTM-CRF 모형을 재학습 시키지 않아도 학습에 포함되지 않은 단어를 포함한 질의에 대한 개체명 인식이 가능함을 확인하였고, 전체적으로 개체명 인식의 성능이 향상됨을 확인할 수 있었다.

중앙아시아 한인의 사회문화적 특성과 과제 (The Sociocultural Characteristics of Korean Ethnics in Central Asia)

  • 정성호
    • 한국인구학
    • /
    • 제20권2호
    • /
    • pp.161-180
    • /
    • 1997
  • 본 연구는 중앙아시아 한인의 생활 실태를 밝히는데 그 목적이 있다. 이를 위해 본 연구는 중앙아시아 한인의 인구학적 특성을 살펴보고, 그들이 지니고 있는 사회문화적 특성과 문제점을 전반적인 사회변동의 맥락에서 검토하고자 한다. 본 연구는 중앙아시아의 우즈베키스탄, 카자흐스탄 한인 사회에 대한 현지조사를 기초로 진행되었다. 현지조사는 설문조사와 심층면접으로 이루어졌다. 설문조사는 타쉬켄트와 알마타에서 러시아어로 준비된 질문지를 통해 수행되었다. 이와 함께 한인 및 단체에 대한 방문, 면담, 관찰 등으로 얻은 질적 자료도 활용되었다. 연구결과 중앙아시아 한인들이 당면하고 있는 가장 심각한 문제는 구소련이 해체되면서 급속히 진행되고 있는 체제변화 속에서 어떻게 적응해야 하는가라는 과제와 직결된다. 예컨대, 경제적 기반이자 정신문화의 구심점이었던 집단농장이 붕괴돼 가고, 한글을 모르는 세대가 성장하면서 신구세대간의 갈등이 빚어지고, 정신적 보루였던 고려일보, 조선극장 등 각종 문화단체들이 변화의 소용돌이 속에서 생존의 몸부림을 치고 있다. 이와 함께 각 공화국의 자민족 중심정책에 따른 언어문제도 한인들에게 또 다른 적응의 고통이 되고 있다. 이들에게 필요한 것은 한인들이 다민족 사회에서 자기의 말과 문화를 간직한 채 상당한 정도의 동질성을 유지해 가며 주위의 다른 민족과 잘 살아 나아가는 것이다. 현지어의 습득을 위한 노력도 게을리 하지 말아야 하며 각 공화국 개혁에 능동적으로 참여하는 주인역도 맡아야 한다. 이러한 노력과 함께 한국인 및 한국정부도 이들에 보다 많은 관심과 정책적 배려를 아끼지 말아야 한다. 특히 정부 및 민간 차원의 경제적·문화적 교류 활성화와 그 결과로서 현지 한인들의 생활기반 안정과 지위 향상을 도모하는 노력이 지속적으로 전개되어야 할 것이다. 한국어와 한국문화에 대한 제도적 지원, 그리고 한국경제의 지속적인 발전에 따른 한인들의 자부심 고양 등이 한인들에 대한 자극제로 작용할 때 한인과 한국인 사이의 인식의 공감대가커질 수 있으며, 이는 다시 조국과 민족의식을 되찾아 주는 계기가 될 것이기 때문이다.

  • PDF

소형선박 종사자 사용용어 실태 분석 및 표준화 방안 (Analysis and the Standardization Plan of the Terms Used by Seafarers on Small Vessel)

  • 강석용;류원;배창원;김종관
    • 해양환경안전학회지
    • /
    • 제25권7호
    • /
    • pp.867-873
    • /
    • 2019
  • 2019년 8월을 기준으로 우리나라에서 소형선박의 범주에 포함될 수 있는 30톤 미만의 선박은 3,782척으로 전체 등록선박 8,890척 대비 42.5 %를 차지한다. 문제는 소형선박의 종사자들이 주로 외래어에서 기형적으로 파생된 비표준어를 많이 사용함으로써 선내 의사소통의 단절, 해기사 면허시험이나 해기 관련 교육수강 시 의사소통의 어려움을 겪는 등 많은 문제에 직면하고 있으며, 이는 소형선박 종사자들의 직무능력 저하로 이어지고 있다는 점이다. 이에 본 연구에서는 소형선박 종사자들의 사용용어를 면밀히 분석하고, 이를 바탕으로 표준화 방안을 제안하였다. 사용용어 분석을 위하여 해기사 면허시험의 기출용어, 소형선박 교육교재의 다빈도 용어를 식별하였고, 이에 해당하는 비표준어를 조사하였다. 조사된 내용을 토대로 전문가 회의를 개최하여, 주요 용어에 대한 잘못된 일본식표기, 영어표기, 표준어를 제시하여 어느 표기에 가장 친숙한지에 관해 설문을 시행하여 분석하였다. 설문 분석결과 항해 용어의 경우 비교적 표준어 사용의 비율이 높으나, 기관 용어의 경우 잘못된 일본식 표기를 더 많이 사용하고 있으며, 연령별, 톤수별 분석결과도 일본식 표기를 전반적으로 많이 사용하며, 영어식 표기의 사용빈도는 낮은 것으로 분석되었다. 이를 토대로 소형선박 종사자의 표준어 사용을 위한 단기 및 장기방안을 제안하였고, 이에는 소형선박 종사자들이 사용하는 용어에 대한 표준어사전의 제작, 표준어 사용에 대한 중요성 홍보, 교육기관을 통한 적극적인 교육, 외국인 선원들을 대상으로 하는 한국어교육에 대한 체계적인 준비 및 이행 등이 포함된다.

코호트 사이즈가 경력-임금 곡선에 미치는 영향 (Effects of Cohort Size on Male Experience-Earnings Profiles in Korea)

  • 신영수
    • 한국인구학
    • /
    • 제10권1호
    • /
    • pp.50-69
    • /
    • 1987
  • 본 연구는 중앙아시아 한인의 생활 실태를 밝히는데 그 목적이 있다. 이를 위해 본 연구는 중앙아시아 한인의 인구학적 특성을 살펴보고, 그들이 지니고 있는 사회문화적 특성과 문제점을 전반적인 사회변동의 맥락에서 검토하고자 한다. 본 연구는 중앙아시아의 우즈베키스탄, 카자흐스탄 한인 사회에 대한 현지조사를 기초로 진행되었다. 현지조사는 설문조사와 심층면접으로 이루어졌다. 설문조사는 타쉬켄트와 알마타에서 러시아어로 준비된 질문지를 통해 수행되었다. 이와 함께 한인 및 단체에 대한 방문, 면담, 관찰 등으로 얻은 질적 자료도 활용되었다. 연구결과 중앙아시아 한인들이 당면하고 있는 가장 심각한 문제는 구소련이 해체되면서 급속히 진행되고 있는 체제변화 속에서 어떻게 적응해야 하는가라는 과제와 직결된다. 예컨대, 경제적 기반이자 정신문화의 구심점이었던 집단농장이 붕괴돼 가고, 한글을 모르는 세대가 성장하면서 신구세대간의 갈등이 빚어지고, 정신적 보루였던 고려일보, 조선극장 등 각종 문화단체들이 변화의 소용돌이 속에서 생존의 몸부림을 치고 있다. 이와 함께 각 공화국의 자민족 중심정책에 따른 언어문제도 한인들에게 또 다른 적응의 고통이 되고 있다. 이들에게 필요한 것은 한인들이 다민족 사회에서 자기의 말과 문화를 간직한 채 상당한 정도의 동질성을 유지해 가며 주위의 다른 민족과 잘 살아 나아가는 것이다. 현지어의 습득을 위한 노력도 게을리 하지 말아야 하며 각 공화국 개혁에 능동적으로 참여하는 주인역도 맡아야 한다. 이러한 노력과 함께 한국인 및 한국정부도 이들에 보다 많은 관심과 정책적 배려를 아끼지 말아야 한다. 특히 정부 및 민간 차원의 경제적·문화적 교류 활성화와 그 결과로서 현지 한인들의 생활기반 안정과 지위 향상을 도모하는 노력이 지속적으로 전개되어야 할 것이다. 한국어와 한국문화에 대한 제도적 지원, 그리고 한국경제의 지속적인 발전에 따른 한인들의 자부심 고양 등이 한인들에 대한 자극제로 작용할 때 한인과 한국인 사이의 인식의 공감대가커질 수 있으며, 이는 다시 조국과 민족의식을 되찾아 주는 계기가 될 것이기 때문이다.

  • PDF

초등 고학년 교과서에 나타난 희곡교육 방법 연구 (A study on the method of teaching drama in elementary and upper grade textbooks)

  • 이철우
    • 공연문화연구
    • /
    • 제43호
    • /
    • pp.203-228
    • /
    • 2021
  • 본 논문은 초등 고학년 교과서 '연극을 즐겨요'에 나타난 희곡교육 방법에 관하여 고찰하였다. 희곡을 제외한 다른 교과과정의 교육방법은 '장르이해 - 작품감상 - 작품창작'의 순서로 제시되었다면, 희곡교육의 방법은 '장르이해 - 작품창작 - 작품감상'의 순서로 제시되고 있다. 이런 교육과정은 '연극'이 갖는 교과목과의 연계학습을 고려한다 하더라도 자칫 '창작'이 주는 '부담감'을 학생들이 안을 수 있고, '구어'에 대한 이해과정을 간략화함으로써 오히려 '우리말'의 특성이나 매력을 학생들이 체감하기 어렵게 만들 수도 있다. 이런 체계화는 초등 고학년 교과서의 과정을 통해 '연극'을 표현하는 문제에는 부합할 수 있지만, 학생들에게 '연극'을 통해 구체적으로 삶의 문제를 해결하는 방안에 대한 생각을 이끄는 데에는 아쉬움이 남는다는 것이 본 연구결과다. 또한, 자신의 감정을 드러내도록 표현하는 방법에 있어서 학생들에게 자율적인 표현방법을 깨닫게 하는 표현의 중요성을 강조하는 것도 필요하지만, 한편으로는 감정의 공감을 먼저 공유하고 이 같은 감정에 대해 이해하며, 이를 근거로 감정의 표현방법을 통해 개성적인 표현법을 익히게 함으로써 표현과 감정을 유추할 수 있는 훈련과 공유되는 감정을 학생들이 자발적으로 수용할 수 있도록 교육하는 과정 역시 필요하다는 것을 제시하였다. '연극'을 통해 정서적인 감정의 공유와 표현, 공연하는 과정을 통한 협동과 분업을 통한 참여 등등 학생들이 학습해야 하는 학습뿐만 아니라 이 교육과정을 통해 '희곡'에 대한 이해와 '우리말'에 대한 아름다움을 발견하는 수업과정으로 발전되기를 바라기 때문이다.

단일 카테고리 문서의 다중 카테고리 자동확장 방법론 (A Methodology for Automatic Multi-Categorization of Single-Categorized Documents)

  • 홍진성;김남규;이상원
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.77-92
    • /
    • 2014
  • 텍스트에 대한 사용자의 접근성을 향상시키기 위해, 이들 문서는 정해진 기준에 따라 카테고리로 분류되어 제공되고 있다. 과거에는 카테고리 분류 작업이 수작업으로 수행되었지만, 문서 작성자에게 분류를 맡기는 경우 분류 정확성을 보장할 수 없고 관리자가 모든 분류를 담당하는 경우 많은 시간과 비용이 소요된다는 어려움이 있었다. 이러한 한계를 극복하기 위해 카테고리를 자동으로 식별할 수 있는 문서 분류 기법에 대한 연구가 활발하게 수행되었다. 하지만 대부분의 문서 분류 기법은 각 문서가 하나의 카테고리에만 속하는 경우를 가정하고 있기 때문에, 하나의 문서가 다양한 주제를 갖는 실제 상황과 부합하지 않는다는 한계를 갖는다. 이를 보완하기 위해 최근 문서의 다중 카테고리 식별을 위한 연구가 일부 수행되었으나, 이들 연구는 대부분 이미 다중 카테고리가 부여되어 있는 문서에 대한 학습을 통해 분류 규칙을 생성하므로 단일 카테고리만 부여되어 있는 기존 문서의 다중 카테고리 식별에는 적용할 수 없다는 제약을 갖는다. 따라서 본 연구에서는 이러한 제약을 극복하기 위해, 카테고리, 토픽, 문서간 관계 분석을 통해 단일 카테고리를 갖는 문서로부터 추가 주제를 발굴하여 이를 다중 카테고리로 자동 확장시킬 수 있는 방법론을 제안하였다. 실험 결과 원 카테고리가 식별된 총 24,000건의 문서 중 23,089건에 대해 카테고리를 확장시킬 수 있었다. 또한 정확도 분석에서 카테고리의 특성에 따라 카테고리 분류 정확도가 상이하게 나타나는 현상을 발견하였다. 본 연구는 단일 카테고리로 분류된 문서에 대해 다중 카테고리를 추가로 식별하여 부여함으로써, 규칙 학습 과정에서 다중 카테고리가 부여된 문서를 필요로 하는 기존 다중 카테고리 문서 분류 알고리즘의 활용성을 매우 향상시킬 수 있을 것으로 기대한다.

BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발 (Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.1-25
    • /
    • 2020
  • 대규모 텍스트에서 관심 대상이 가지고 있는 속성들에 대한 감성을 세부적으로 분석하는 속성기반 감성분석(Aspect-Based Sentiment Analysis)은 상당한 비즈니스 가치를 제공한다. 특히, 텍스트에 속성어가 존재하는 명시적 속성뿐만 아니라 속성어가 없는 암시적 속성까지 분석 대상으로 하는 속성카테고리 감성분류(ACSC, Aspect Category Sentiment Classification)는 속성기반 감성분석에서 중요한 의미를 지니고 있다. 본 연구는 속성카테고리 감성분류에 BERT 사전훈련 언어 모델을 적용할 때 기존 연구에서 다루지 않은 다음과 같은 주요 이슈들에 대한 답을 찾고, 이를 통해 우수한 ACSC 모델 구조를 도출하고자 한다. 첫째, [CLS] 토큰의 출력 벡터만 분류벡터로 사용하기보다는 속성카테고리에 대한 토큰들의 출력 벡터를 분류벡터에 반영하면 더 나은 성능을 달성할 수 있지 않을까? 둘째, 입력 데이터의 문장-쌍(sentence-pair) 구성에서 QA(Question Answering)와 NLI(Natural Language Inference) 타입 간 성능 차이가 존재할까? 셋째, 입력 데이터의 QA 또는 NLI 타입 문장-쌍 구성에서 속성카테고리를 포함한 문장의 순서에 따른 성능 차이가 존재할까? 이러한 연구 목적을 달성하기 위해 입력 및 출력 옵션들의 조합에 따라 12가지 ACSC 모델들을 구현하고 4종 영어 벤치마크 데이터셋에 대한 실험을 통해 기존 모델 이상의 성능을 제공하는 ACSC 모델들을 도출하였다. 그리고 [CLS] 토큰에 대한 출력 벡터를 분류벡터로 사용하기 보다는 속성카테고리 토큰의 출력 벡터를 사용하거나 두 가지를 함께 사용하는 것이 더욱 효과적이고, NLI 보다는 QA 타입의 입력이 대체적으로 더 나은 성능을 제공하며, QA 타입 안에서 속성이 포함된 문장의 순서는 성능과 무관한 점 등의 유용한 시사점들을 발견하였다. 본 연구에서 사용한 ACSC 모델 디자인을 위한 방법론은 다른 연구에도 비슷하게 응용될 수 있을 것으로 기대된다.

문헌정보학에서의 인공지능과 전문가시스템 교육과정 연구 (A Curricular Study on AI & ES in Library and Information Science)

  • 구본영;박미영
    • 한국문헌정보학회지
    • /
    • 제32권2호
    • /
    • pp.211-232
    • /
    • 1998
  • 본 연구의 목적은 직면하고 있는 기술과 시스템 환경변화에 적합한 정보전문가 양성을 위한 문헌정보학 교육의 내용을 규명해보는데 있다. 그 중에서 현재 정보환경 변화에 따라 요구되는 최신정보기술인 인공지능과 전문가시스템이 필요함을 인식하여 인공지능과 전문가시스템의 어떤 교육내용이 문헌정보학에 도입해야 할 것인가에 대한 해결방안을 모색하고 기본적 자료를 얻어내는데 그 목적이 있다. 본 연구 결과에 따른 내용을 정리하면 다음과 같다. 첫째, 고도의 정보기술과 컴퓨터의 발전으로 인하여 문헌정보학의 전통적인 핵심내용이 새로운 내용 즉 네트워크를 통한 정보원 탐색, 온라인데이터베이스 검색, 정보시스템 분석과 설긴 컴퓨터활용능력, 정보검색전략 개발순으로 나타났다. 둘째. 인공지능과 전문가시스템 교육내용 중에서 문헌정보학 교육에 중요한 내용으로는 데이터베이스처리 시소러스 자연언어처리, 지식표현으로 나타났다. 셋째, 문헌정보학 교수들은 인공지능과 전문가시스템 교과목 주제가 대다수 학생들에게 유용한 주제라고 인식하고 있음이 나타났다. 넷째, 앞으로 사서/정보전문가를 돕는 인공지능과 전문가시스템의 역할이 참고봉사, 편목${\cdot}$ 분류, 정보검색${\cdot}$ 문헌전달 업무에서 더 중요하게 인식하고 있음이 나타났다. 다섯째, 문헌정보학과 교수들이 인공지능과 전문가시스템 교과목 주제를 중요하게 인식함에 따라 앞으로 인공지능과 전문가시스템 교육과정이 국내 문헌정보학 교육과정에 개설될 것으로 나타났으며 인공지능과 전문가시스템 교육내용 중에서 중요하다고 조사된 데이터베이스처리. 시소러스 자연언어처리. 지식표현의 과목은 앞으로 문헌정보학 교육과정에 도입하여야 할 것이다.

  • PDF