• 제목/요약/키워드: language processing

검색결과 2,669건 처리시간 0.029초

초·중등 AI 교육을 위한 데이터 리터러시 정의 및 구성 요소 연구 (A Study of the Definition and Components of Data Literacy for K-12 AI Education)

  • 김슬기;김태영
    • 정보교육학회논문지
    • /
    • 제25권5호
    • /
    • pp.691-704
    • /
    • 2021
  • AI 기술의 발달은 우리 삶의 큰 변화를 가져왔다. 생활에서부터 사회, 경제에 이르기까지 AI의 영향력이 커짐에 따라 AI와 데이터 교육에 대한 중요성이 함께 커지고 있다. 이에 OECD 교육 연구 보고서 및 다양한 국내 정보과 교육과정 연구에서 데이터와 데이터 리터러시를 다루고 필수 역량으로 제시하고 있다. 하지만 국내외 관련 연구를 살펴보면 데이터 리터러시에 대한 정의와 구성 요소의 내용과 범위가 연구자에 따라 다른 것을 알 수 있다. 이에 데이터 리터러시 관련 주요 연구의 정의와 구성 요소에 활용된 단어 빈도 분석과 함께 Word2Vec 딥러닝 자연어 처리 방법을 통해 단어의 관계와 의미 유사도를 분석하여 객관적이고 포괄적인 정의와 구성 요소를 제시하였다. 그리고 전문가 검토를 통해 수정 보완하여 데이터 리터러시를 '문제를 해결하기 위해 데이터를 수집하고 분석 및 활용하여 정보로 처리하는 지식 구성과 의사소통의 기초 능력'으로 정의하였으며, '지식, 기능, 가치와 태도'로 각각의 구성 요소를 범주화하였다. 본 연구를 통해 도출된 데이터 리터러시의 정의와 구성 요소가 AI 교육 체계화와 학생들의 미래 역량 관련 교육 연구에 좋은 기초 자료가 될 수 있기를 기대한다.

농업계 고등학생들의 동일계 대학 전공기초능력 향상을 위한 교육과정 편성 방안 탐색 (Exploration on the Strategies of Organizing Curriculum for Improvement of Major Basic Competencies in the Agricultural High School Students to University by Departments Identical to Their Major)

  • 김진구;이건남
    • 직업교육연구
    • /
    • 제29권3호
    • /
    • pp.61-83
    • /
    • 2010
  • 이 연구는 농업계열 동일계 대학 교육과정을 성공적으로 이수하는데 필요한 고등학교 교육과정상의 보통교과목 및 전문교과목을 분석하고, 이를 바탕으로 동일계 대학 전공기초능력 향상을 위한 농업계 고등학교의 교육과정 편성 방안 모색에 활용할 수 있는 기초 자료를 제공하는데 그 목적이 있었다. 이를 위하여 이 연구에서는 유의 표집을 통해 선정된 8개 농업계 대학의 116개 학과 교수들을 대상으로 설문조사를 실시하였다. 이 연구로부터 도출된 결과는 다음과 같다. 첫째, 농업계 대학 전공 학과들의 보편적인 학문적 특성으로 인하여 대체적으로 기초과학능력에 해당되는 생물 및 화학 교과목이 전공기초능력과 관련성이 높았지만, 농업기계와 농업토목 기준학과에서는 수학 및 물리, 농산물유통정보 기준학과에서는 경제 및 수학 교과목의 관련성이 높았다. 둘째, 동일계 대학 전공교과목을 성공적으로 이수하는 데에는 언어능력 및 외국어능력과 같은 기초수학능력이 반드시 뒷받침되어야 한다. 셋째, 식물자원은 재배, 동물자원은 동물자원, 식품가공은 식품위생, 농업기계는 농업기계 등과 같이 전공기초능력과 가장 관련성이 높은 농업생명산업계열 전문교과목은 교육과정상의 9개 기준학과별로 뚜렷한 차이가 발견되었고, 동일계 대학 전공기초능력 향상을 위해 반드시 선 이수해야 할 전문교과목 및 중요도 역시 이와 비슷한 경향을 보였다. 넷째, 동일계 대학 전공기초능력 향상에 실제적인 도움이 되기 위해서는 농생명산업계열 전문교과목들이 대체적으로 기본 개념 및 원리, 법칙 등을 실생활에 응용 또는 탐구할 수 있는 내용 중심으로 구성되어야 한다는 의견이 가장 많았지만, 식품가공 및 조경 기준학과에서는 실험 실습 내용을 중심으로, 생물공학 기준학과에서는 학문 이론적 내용을 중심으로 구성되어야 한다는 의견이 가장 많았다.

근거리 영상정보를 활용한 실감형 재난재해 대피 훈련 가상 현실 구현 (Implementation of virtual reality for interactive disaster evacuation training using close-range image information)

  • 김두영;허정림;이진덕;방건준
    • 한국지리정보학회지
    • /
    • 제22권1호
    • /
    • pp.140-153
    • /
    • 2019
  • 드론 및 지상에서 촬영된 근거리 영상 정보는 3D 모델링 및 매핑 등을 통해 재해 저감 분야에서 자주 사용되어 왔다. 게다가 실사와 같은 3D 모델을 이용하여 가상현실과 함께 대규모 재난재해 상황을 모의할 수 있는 가상현실 구현 기술을 통해 그 활용도가 증가하고 있다. 본 논문에서는 무인 항공기 및 디지털 카메라 영상으로부터 실사와 같은 3D 모델을 추출하여 가상현실 훈련 프로그램을 구현하였으며, 이 과정에서 발생하는 다양한 문제점과 가상현실을 재난재해 훈련 상황에 적용했을 경우의 효과에 대해 검토하였다. 먼저 재해 발생 상황의 시나리오를 만들고, 근거리 이미지를 획득한 후 이미지 처리를 사용하여 3D 모델을 만들었으며, 완성된 3D 모델은 증강/가상현실 개발 프로그램인 Unity를 이용하여 가상현실의 배경으로 설정하고, 안드로이드 휴대폰을 위한 가상현실 환경을 C# 기반 스크립트를 이용하여 생성하였다. 생성된 가상현실은 재해 발생 시, 훈련자가 가상현실에서 대피 요령에 맞는 대피 경로를 따라 안전 장소까지 이동하는 시나리오를 포함하고 있으며, 성공적으로 가상훈련이 가능할 것으로 판단되었다. 또 구성된 가상현실을 통한 훈련은 비용, 공간, 시간적 효율성에 있어서 실제 대피 훈련보다 우위에 있는 것으로 확인하였다.

기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구 (Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences)

  • 김선우;고건우;최원준;정희석;윤화묵;최성필
    • 정보관리학회지
    • /
    • 제35권4호
    • /
    • pp.141-164
    • /
    • 2018
  • 최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

음성특징의 거리 개념에 기반한 한국어 모음 음성의 시각화 (Speech Visualization of Korean Vowels Based on the Distances Among Acoustic Features)

  • 복거철
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.512-520
    • /
    • 2019
  • 음성을 시각적으로 표현하는 것은 외국어를 습득하는 과정의 학습자나 음성을 직접 들을 수 없는 청각장애자에게 매우 유용하며 기존에 다수의 연구가 이루어졌다. 그러나 기존의 연구들은 발음의 특징을 단지 컬러로 표현한다든가 입모양을 3차원 그래픽으로 표현하거나 입과 구강의 변화하는 형태를 애니메이션으로 보여 주는 방식에 머물러 있다. 따라서 이런 방식을 사용하는 학습자들은 자신의 발음이 표준 발음과 얼마나 멀리 떨어져 있는지 알 수가 없고 더 나아가서 학습 중에 스스로 교정을 해 나가는 시스템을 개발하기가 기술적으로 어려운 단점이 있다. 이를 극복하기 위해 본 논문에서는 음성 간의 상대적 거리를 토대로 음성을 시각화하는 모델을 제시하고, 이를 한국어 모음에 적용하여 모음의 음성적 특징을 이용한 시각화의 구체적인 구현 방법을 제시한다. 음성데이터에서 F1, F2, F3의 세 개의 포먼트를 구하고 이들 특징벡터를 코호넨 자기조직화맵 알고리즘으로 2차원 화면에 사상하여 각 음성을 화면 위의 각 점에 대응하여 표현하였다. 제안하는 시스템의 실제적인 구현은 인터넷에 공개된 음성처리 공개소프트웨어를 사용하고 한국인 교사의 표준 발음과 한국어를 배우고 있는 외국인 유학생의 음성을 이용하여 음성특징의 상호간 거리를 구하였으며, 사용자 인터페이스는 자바스크립트를 이용하여 구현하였다.

한국어 목적격조사의 몽골어 격 어미 번역 (Translation of Korean Object Case Markers to Mongolian's Suffixes)

  • ;신준철;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권2호
    • /
    • pp.79-88
    • /
    • 2019
  • 최근 기계 번역에 관한 연구들이 활발하게 이루어지고 있고 한국어와 몽골어 간의 상호 기계 번역 시스템도 개발되고 있다. 한국어와 몽골어는 계통적으로 같은 어족에 속하며 '주어+목적어+서술어'라는 비교적 자유로운 어순을 가지는 언어이고 어미와 조사가 발달한 것이 그 특징이다. 따라서 기계 번역 시 양언어의 조사나 어미의 의미를 잘 번역하는 것이 중요하다. 그러나 한국어 목적격 조사를 몽골어로 번역할 때 한국어 목적격 조사가 몽골어의 여러 격 어미로 번역이 될 수 있는데, 기존의 연구들은 한 가지 격 어미로만 번역해 정확한 의미를 전달하지 못하는 문제점이 있다. 본 논문에서는 이러한 문제점을 개선하기 위하여 한국어 형태소 분석과 동시에 품사 및 동형이의어 태깅 시스템인 유태거(UTagger)를 기반으로 하여 한국어 목적격 조사의 몽골어 격 어미 결정 방법을 제안한다. 제안하는 방법에서는 한국어 목적격 조사에 대응하는 몽골어 격 어미들을 살펴보고 데이터 테이블을 설계하여 적절한 격 어미를 결정한다. 제안한 방법의 성능을 검증하기 위하여 한국어기초사전에서 데이터를 추출하고 유태거와 비교 실험하였다. 실험 결과 목적격 조사를 바로 대격 어미로 번역한 유태거의 정확률은 46.9%인데 반해 본 논문에서 제안한 방법은 88.38%로 제안한 방법이 41.48%p 더 우수한 결과를 보였다.

CTC를 적용한 CRNN 기반 한국어 음소인식 모델 연구 (CRNN-Based Korean Phoneme Recognition Model with CTC Algorithm)

  • 홍윤석;기경서;권가진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.115-122
    • /
    • 2019
  • 지금까지의 한국어 음소 인식에는 은닉 마르코프-가우시안 믹스쳐 모델(HMM-GMM)이나 인공신경망-HMM을 결합한 하이브리드 시스템이 주로 사용되어 왔다. 하지만 이 방법은 성능 개선 여지가 적으며, 전문가에 의해 제작된 강제정렬(force-alignment) 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 이 모델의 문제로 인해 타 언어를 대상으로 한 음소 인식 연구에서는 이 단점을 보완하기 위해 순환 신경망(RNN) 계열 구조와 Connectionist Temporal Classification(CTC) 알고리즘을 결합한 신경망 기반 음소 인식 모델이 연구된 바 있다. 그러나 RNN 계열 모델을 학습시키기 위해 많은 음성 말뭉치가 필요하고 구조가 복잡해질 경우 학습이 까다로워, 정제된 말뭉치가 부족하고 기반 연구가 비교적 부족한 한국어의 경우 사용에 제약이 있었다. 이에 본 연구는 강제정렬이 불필요한 CTC 알고리즘을 도입하되, RNN에 비해 더 학습 속도가 빠르고 더 적은 말뭉치로도 학습이 가능한 합성곱 신경망(CNN)을 기반으로 한국어 음소 인식 모델을 구축하여 보고자 시도하였다. 총 2가지의 비교 실험을 통해 본 연구에서는 한국어에 존재하는 49가지의 음소를 판별하는 음소 인식기 모델을 제작하였으며, 실험 결과 최종적으로 선정된 음소 인식 모델은 CNN과 3층의 Bidirectional LSTM을 결합한 구조로, 이 모델의 최종 PER(Phoneme Error Rate)은 3.26으로 나타났다. 이는 한국어 음소 인식 분야에서 보고된 기존 선행 연구들의 PER인 10~12와 비교하면 상당한 성능 향상이라고 할 수 있다.

단순 손동작 반복이 말소리장애 아동과 일반 아동의 말소리산출의 정확성과 유창성에 미치는 영향 (What Effect can Simple Hand Tapping Have on the Accuracy and Fluency of Speech Production in Children With and Without Speech Sound Disorders?)

  • 신유나;하지완
    • 재활치료과학
    • /
    • 제8권2호
    • /
    • pp.67-78
    • /
    • 2019
  • 목적 : 본 연구에서는 말소리장애 아동과 일반 아동을 대상으로 어휘인출 시 단순 손동작(hand tapping)을 반복하게 하는 것이 조음정확도와 유창성에 어떠한 영향을 미치는지에 대해 알아보았다. 손동작을 반복하면서 어휘를 산출하는 것은 주의를 분산시키는 이중과제에 해당하기 때문에, 주의력 저하가 보고된 말소리장애 아동의 경우 일반 아동과 다른 행동 양상을 보이는지를 파악하고자 하였다. 연구방법 : 4, 5, 6세의 말소리장애 아동 15명과 일반 아동 15명이 본 연구에 참여하였다. 조음복잡성이 높은 어휘와 낮은 어휘를 각각 15개씩, 총 30개를 선정하여, 이에 대한 대면이름대기 과제를 실시하였다. 첫 번째 실험조건에서는 단순 손동작을 반복하지 않고, 두 번째 실험조건에서는 손바닥으로 책상을 두드리면서 그림 이름을 말하도록 하였다. 대상자의 반응에 대해 자음정확도, 비유창성 정도, 정확성 변화와 유창성 변화의 상관관계를 측정하여, 두 실험조건에 따른 두 집단 간 수행력을 비교하였다. 결과 : 첫째, 말소리장애 집단과 일반 집단 모두 손동작 반복 과제와 손동작 비반복 과제 간 자음정확도에는 유의한 차이가 없었다. 둘째, 일반 집단은 손동작 반복 과제에서 비유창성이 유의하게 증가하였으나, 말소리장애 집단은 차이가 없었다. 셋째 손동작 반복에 따른 자음정확도 변화와 비유창성 변화는 일반집단의 경우 유의한 양의 상관관계가 있었으나 말소리장애 집단은 아무런 상관을 보이지 않았다. 결론 : 본 연구에서 주의력 분산을 위해 사용한 단순 손동작 반복은 결과적으로 집단에 따라 대상자의 목표행동에 방해가 될 수도, 혹은 그 반대로 도움이 될 수도 있었다. 어휘인출에 대한 손동작 반복의 영향이 두 집단 간 다른 양상으로 나타난 만큼 이에 대한 심층적 논의가 필요할 것이다.

부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석 (Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization)

  • 조단비;이현영;정원섭;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.

디지털 인문학 연구 동향 분석 - Digital Humanities 학술대회 논문을 중심으로 - (An Investigation on Digital Humanities Research Trend by Analyzing the Papers of Digital Humanities Conferences)

  • 정은경
    • 한국문헌정보학회지
    • /
    • 제55권1호
    • /
    • pp.393-413
    • /
    • 2021
  • 디지털 정보기술과 인문학적 연구 문제의 결합을 통해 새롭고 혁신적인 지식을 창출하는 디지털인문학은 대표적인 다학제적 융합 학문 분야라고 볼 수 있다. 이러한 디지털인문학 분야의 지적구조를 규명하기 Digital Humanities 학술대회 최근 2년간(2019, 2020)의 논문 441건을 대상으로 저자사항과 키워드 동시출현 네트워크 분석을 수행하였다. 저자와 키워드 분석 결과를 살펴보면, 유럽, 북미 지역, 동아시권의 일본 중국의 저자의 활발한 활동을 찾아볼 수 있다. 공저자 네트워크를 통해서는 11개의 분절된 네트워크를 확인할 수 있으며, 이는 폐쇄적인 공저활동의 결과로 볼 수 있다. 키워드 분석을 통해서는 16개의 세부 주제 영역을 규명할 수 있으며, 이는 기계학습, 교육학, 메타데이터, 토픽모델링, 문체, 문화유산, 네트워크, 디지털아카이브, 자연언어처리, 디지털도서관, 트위터, 드라마, 빅데이터, 신경망 네트워크, 가상현실, 윤리으로 구성된다. 이러한 군집 구성은 디지털 정보기술이 주된 세부 주제 영역으로 자리매김하고 있음을 알 수 있다. 또한 출현빈도가 높은 키워드들은 인문학 기반 키워드, 디지털 정보기술 기반 키워드, 융합 키워드으로 구분될 수 있으며, 디지털인문학의 성장과 발전 과정의 역동성을 찾아볼 수 있다.