• 제목/요약/키워드: 단어학습

검색결과 814건 처리시간 0.027초

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

음성명료도 시험에 의한 노인 교육시설의 청취환경 조사 (Investigation of the listening environment of classrooms for elderly people using speech intelligibility tests)

  • 박찬재;김보경;한찬훈
    • 한국음향학회지
    • /
    • 제40권1호
    • /
    • pp.18-30
    • /
    • 2021
  • 본 연구의 궁극적인 목적은 청력 비완전자인 노인을 위한 학습공간의 음향기준을 제시하기 위한 것이다. 사전연구로서 본 연구는 현재 운영 중인 노인 교육시설의 청취환경을 조사하고 이를 이용 중인 노인의 음성 인지성능 실태를 조사하기 위해 진행되었다. 이를 위하여, 청주시 소재 2개 노인 교육시설을 대상으로 물리적 음향성능을 측정하고 설문조사 를 실시하였다. 또한, 음절법과 단어법을 이용한 음성명료도 평가를 수행하였다. 노인을 대상으로 한 설문조사 결과 전반적인 청취환경에는 만족하는 것으로 나타났다. 배경소음, 신호대잡음비, 잔향시간, 음성전달지수와 같은 물리적 음향성능 측정 결과 대한민국 일반교실의 음향성능 기준을 만족하고 있음을 알 수 있었다. 그러나 음성명료도 평가 결과 20대 건청인에 비해 노인 그룹의 점수가 20점 이상의 차이로 월등히 낮았으며, 연령대가 높아질수록 점수 또한 낮아지는 것으로 나타났다. 따라서 현재 사용 중인 일반인 대상 교육시설의 음향성능 기준이 노인 교육시설에 적합하지 않음을 알 수 있었다.

디지털 인문학 연구 동향 분석 - Digital Humanities 학술대회 논문을 중심으로 - (An Investigation on Digital Humanities Research Trend by Analyzing the Papers of Digital Humanities Conferences)

  • 정은경
    • 한국문헌정보학회지
    • /
    • 제55권1호
    • /
    • pp.393-413
    • /
    • 2021
  • 디지털 정보기술과 인문학적 연구 문제의 결합을 통해 새롭고 혁신적인 지식을 창출하는 디지털인문학은 대표적인 다학제적 융합 학문 분야라고 볼 수 있다. 이러한 디지털인문학 분야의 지적구조를 규명하기 Digital Humanities 학술대회 최근 2년간(2019, 2020)의 논문 441건을 대상으로 저자사항과 키워드 동시출현 네트워크 분석을 수행하였다. 저자와 키워드 분석 결과를 살펴보면, 유럽, 북미 지역, 동아시권의 일본 중국의 저자의 활발한 활동을 찾아볼 수 있다. 공저자 네트워크를 통해서는 11개의 분절된 네트워크를 확인할 수 있으며, 이는 폐쇄적인 공저활동의 결과로 볼 수 있다. 키워드 분석을 통해서는 16개의 세부 주제 영역을 규명할 수 있으며, 이는 기계학습, 교육학, 메타데이터, 토픽모델링, 문체, 문화유산, 네트워크, 디지털아카이브, 자연언어처리, 디지털도서관, 트위터, 드라마, 빅데이터, 신경망 네트워크, 가상현실, 윤리으로 구성된다. 이러한 군집 구성은 디지털 정보기술이 주된 세부 주제 영역으로 자리매김하고 있음을 알 수 있다. 또한 출현빈도가 높은 키워드들은 인문학 기반 키워드, 디지털 정보기술 기반 키워드, 융합 키워드으로 구분될 수 있으며, 디지털인문학의 성장과 발전 과정의 역동성을 찾아볼 수 있다.

BERT-Fused Transformer 모델에 기반한 한국어 형태소 분석 기법 (Korean Morphological Analysis Method Based on BERT-Fused Transformer Model)

  • 이창재;나동열
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.169-178
    • /
    • 2022
  • 형태소는 더 이상 분리하면 본래의 의미를 잃어버리는 말의 최소 단위이다. 한국어에서 문장은 공백으로 구분되는 어절(단어)의 조합이다. 형태소 분석은 어절 단위의 문장을 입력 받아서 문맥 정보를 활용하여 형태소 단위로 나누고 각 형태소에 적절한 품사 기호를 부착한 결과를 생성하는 것이다. 한국어 자연어 처리에서 형태소 분석은 가장 핵심적인 태스크다. 형태소 분석의 성능 향상은 한국어 자연어 처리 태스크의 성능 향상에 직결된다. 최근 형태소 분석은 주로 기계 번역 관점에서 연구가 진행되고 있다. 기계 번역은 신경망 모델 등으로 어느 한 도메인의 시퀀스(문장)를 다른 도메인의 시퀀스(문장)로 바꾸는 것이다. 형태소 분석을 기계 번역 관점에서 보면 어절 도메인에 속하는 입력 시퀀스를 형태소 도메인 시퀀스로 변환하는 것이다. 본 논문은 한국어 형태소 분석을 위한 딥러닝 모델을 제안한다. 본 연구에서 사용하는 모델은 기계 번역에서 높은 성능을 기록한 BERT-fused 모델을 기반으로 한다. BERT-fused 모델은 기계 번역에서 대표적인 Transformer 모델과 자연어 처리 분야에 획기적인 성능 향상을 이룬 언어모델인 BERT를 활용한다. 실험 결과 형태소 단위 F1-Score 98.24의 성능을 얻을 수 있었다.

리빙랩 기반 초등학교 데이터 과학 프로그램의 효과성 분석 (The Effectiveness of the Living Lab-based Elementary School Data Science Program)

  • 손정명;김태영
    • 정보교육학회논문지
    • /
    • 제26권2호
    • /
    • pp.105-120
    • /
    • 2022
  • 팬데믹으로 인한 급격한 시대적 변화와 더불어 새로운 교육과정의 개정이 맞물리며 교육과정을 구성하는 학습자, 사회, 교과의 세 요소의 비중 변화가 불가피한 현실이다. 특히 교육과정에서 '사회'의 비중과 함께 '교육공동체'라는 단어의 범위가 커지고 이를 중심으로 한 교육과정 재구성의 허용 범위가 넓어졌다. 새로운 교육과정에서 의도하는 교육의 방향이 제대로 정착되기 위해서는 새롭게 등장한 역량과 문해력 등을 함양하기 위한 다양한 교육 방법적 연구가 필요하다. 본 연구에서는 교과 선정의 다양한 기준을 중심으로 융합 교과 내용과 목표를 선정한 후 이를 바탕으로 리빙랩의 PDIE 방법론을 재구성하여 데이터 과학 프로그램을 설계하였다. 이에 대한 평가 요소로 교육과정에서 강조하는 미래 역량 중 '창의성', '문제해결력', '의사소통 능력', '협업능력'에 대한 효과성을 분석하고자 하였다. 연구 결과 창의성과 의사소통능력 향상에 효과가 있었으며, 본 연구는 학교 교육과정내의 문제를 해결하는 스쿨 리빙랩의 효과성 검증에 초점을 두고 연구를 진행하여 일반화에 제한이 있다는 측면에서 연구의 적용 공간을 넓히고 교육공동체 주체의 역할 비중을 다양화 시킨 사후 연구 진행의 필요성을 제언한다.

텍스트마이닝을 활용한 아동, 청소년 대상 소비관련 연구 키워드 분석 (Keyword Analysis of Research on Consumption of Children and Adolescents Using Text Mining)

  • 진현정
    • 한국가정과교육학회지
    • /
    • 제33권4호
    • /
    • pp.1-13
    • /
    • 2021
  • 본 연구는 텍스트마이닝 기법으로 최근 20년간 아동, 청소년 대상 소비 관련 연구의 주요어를 분석하여 소비 관련 연구의 동향을 파악하고자 하였다. 이를 위하여 KCI 등재/등재후보 학술지에 게재된 아동, 청소년의 소비관련 연구 869편의 주요어를 분석하였다. 빈도분석 결과 가장 빈도가 높은 주요어는 청소년, 청소년소비자, 소비자교육, 과시소비, 소비행동, 캐릭터, 경제교육, 윤리적소비 순으로 나타났다. 5년 단위로 주요어의 빈도를 분석한 결과, 2006년~2010년에는 소비자교육의 빈도가 월등하게 높아 이 시기에 소비자교육에 관한 연구가 많이 이루어졌음을 확인할 수 있었다. 2011년 이후 윤리적소비에 관한 연구가 활발해졌으며, 최근 5년 동안은 두드러지는 주요어가 없는 대신 다양한 주제로 연구가 이루어졌음을 알 수 있었다. TF-IDF 기준으로 주요어를 살펴보면 2001년~2005년 사이에는 환경과 인터넷 관련 단어가 주요 키워드였다. 2006년~2010년에는 미디어이용, 광고 교육, 인터넷아이템, 2011년~2015년에는 공정무역, 녹색성장, 녹색소비, 북한이탈청소년, 소셜미디어, 2016~2020년에는 텍스트마이닝, 지속가능발전교육, 메이커교육, 2015개정교육과정이 중요한 용어로 등장하였다. 토픽모델링 결과, 소비자교육, 대중매체/또래문화, 합리적 소비, 한류/문화산업, 소비자역량, 경제교육, 교수학습방법, 친환경/윤리적소비의 8개의 토픽이 도출되었다. 동시 출현 빈도를 활용한 네트워크 분석을 통해 아동, 청소년 관련 소비 연구에서 과시소비와 소비자교육이 중요한 연구주제임을 알 수 있었다.

해사영어 플랫폼을 활용한 표준해사영어 실력 향상에 관한 연구 (Study on Improving Maritime English Proficiency Through the Use of a Maritime English Platform)

  • 설진기;박영수;신동수;김대원
    • 해양환경안전학회지
    • /
    • 제29권7호
    • /
    • pp.930-938
    • /
    • 2023
  • 해사영어는 선박 운항, 해양 안전, 선내 의사소통 및 선외 교신을 위해 설계된 특수한 영어 언어체계이다. 국제해사기구 STCW(선원의 훈련, 자격증명 및 당직근무의 기준에 관한 국제협약)에 따르면 국제항해에 종사하는 항해사가 되기 위해서는 SMCP를 포함한 해사영어 대한 충분한 이해가 수반되어야 한다. 본 연구는 음성인식, 번역, 단어 기입 등 유형의 해사영어시험을 통하여 학생들의 해사영어 활용 능력을 측정하고 플랫폼 사용에 따른 시험 점수 향상 정도, 나아가 초임항해사로 나가기 위하여 요구되는 해사영어 시험 플랫폼 활용 시간 등을 조사하고자 하였다. 실험은 먼저 초기 시험을 통해 학생들의 일반영어능력과 SMCP 활용 능력에 대한 연관성을 조사한 후, 중간 시험 및 최종 시험을 통해 플랫폼 활용에 대한 점수 향상 정도, 응시시간 변화 등 요인을 측정하였다. 초기 시험을 통해 개인 요인(예: 토익 점수, 본인 스스로에 대한 영어능력 평가)에 따른 그룹 간 해사영어시험 점수에 유의한 차이가 있음을 확인하였으며, 중간시험 및 최종시험을 통해 플랫폼 활용이 유의한 시험점수 향상으로 이어졌음을 확인하였다. 해당 연구는 해사 교육분야에 다양하게 적용할 수 있는 학습 플랫폼 활용 효능을 조사하였으며 향후 해사영어 교육 외 그 범위를 넓혀 활용될 수 있을 것으로 사료된다.

딥러닝 기반 온라인 리뷰를 활용한 추천 모델 개발: 레스토랑 산업을 중심으로 (Developing a deep learning-based recommendation model using online reviews for predicting consumer preferences: Evidence from the restaurant industry)

  • 김동언;장동수;엄금철;이가은
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.31-49
    • /
    • 2023
  • 레스토랑 산업의 성장과 함께 레스토랑 오프라인 매장 수는 점차 증가하지만, 소비자는 자신의 선호도에 적합한 레스토랑을 선택하는 데 어려움을 경험하고 있다. 따라서 소비자의 선호도에 맞는 레스토랑을 추천하는 개인화된 추천 서비스의 필요성이 대두하고 있다. 기존 연구에서는 설문조사 및 평점 정보를 활용하여 소비자 선호도를 조사했으나, 이는 소비자의 구체적인 선호도를 효과적으로 반영하는데 어려움이 존재한다. 이러한 배경하에 온라인 리뷰는 방문 동기, 음식 평가 등 레스토랑에 대한 소비자 구체적인 선호도를 효과적으로 반영하기 때문에 필수적인 정보이다. 한편, 일부 연구에서는 리뷰 텍스트에 전통적인 기계학습 기법을 적용하여 소비자의 선호도를 측정하였다. 그러나 이러한 접근 방식은 주변 단어나 맥락을 고려하지 못하는 한계점이 존재한다. 따라서 본 연구는 딥러닝을 효과적으로 활용하여 온라인 리뷰에서 소비자의 선호도를 정교하게 추출하는 리뷰 텍스트 기반 레스토랑 추천 모델을 제안한다. 본 연구에서 제안된 모델은 추출된 높은 수준의 의미론적 표현과 소비자-레스토랑 상호작용을 연결하여 소비자의 선호도를 정확하고 효과적으로 예측한다. 실험 결과에 따르면 본 연구에서 제안된 추천 모델은 기존 연구에서 제안된 여러 모델에 비해 우수한 추천 성능을 보이는 것으로 나타났다.

발달장애 아동 부모의 인지재활 경험에 대한 질적 연구: 워드 클라우드 분석과 현상학적 연구 방법 혼합설계 (Parents' Perceptions of Cognitive Rehabilitation for Children With Developmental Disabilities: A Mixed-Method Approach of Phenomenological Methodology and Word Cloud Analysis )

  • 주유미;김영근;이희령;홍승표;한대성
    • 재활치료과학
    • /
    • 제13권1호
    • /
    • pp.49-63
    • /
    • 2024
  • 목적 : 본 연구의 목적은 현상학적 방법론과 워드 클라우드 분석을 통해 발달장애 아동 부모의 인지재활 경험에 대한 인식을 알아보기 위함이다. 연구방법 : 인지재활에 대한 부모 인식을 알아보기 위하여 발달장애 아동의 부모 5명을 심층 인터뷰하였다. 아울러 Python을 사용하여 워드 클라우드 분석을 하였고, 출현 빈도 수가 높은 단어를 중심으로 5명의 연구자가 의미 단위와 주제를 현상학적 방법으로 분석하였다. 결과 : 인지재활의 현상에 대한 의미 단위 43개 및 구성요소 9개를 도출하였고, 이로부터 총 3개의 주제를 최종 도출하였다. 도출된 중심 주제는 인지재활의 정의, 인지재활의 문제점, 인지재활 기관 선택 시 고려사항이었다. 인지재활은 발달장애 아동의 학습, 일상생활 기능, 인지기능 향상을 목적으로 하는 치료라는 인식이 있었다. 인지재활의 문제점으로는 치료방식, 치료사의 전문성, 치료비용에 관한 문제인식이 있었다. 마지막으로, 인지재활 기관 선택 시 고려사항으로는 치료사의 전문성, 입소문, 비용과 시간의 적정성이 있었다. 결론 : 발달장애 아동의 부모는 인지재활을 통해 아동의 실질적인 기능 향상을 기대하고 있었고, 이와 더불어 임상에는 현실적인 문제들이 존재하고 있었다. 본 연구는 부모가 인식하는 문제점들을 보완한 보다 나은 인지재활 서비스로 발전되는 데 기초자료가 될 것이다.

토픽 모델링과 머신 러닝 방법을 이용한 온라인 C2C 중고거래 시장에서의 사기 탐지 연구 (A Study on the Fraud Detection in an Online Second-hand Market by Using Topic Modeling and Machine Learning)

  • 이동우;민진영
    • 경영정보학연구
    • /
    • 제23권4호
    • /
    • pp.45-67
    • /
    • 2021
  • 온라인 C2C 중고거래에 대한 수요가 증가하고 있으나 물품을 보내지 않거나 명시한 것과 다른 물건을 보내는 방식으로 부당한 금전적 이득을 챙기려는 사기 행위자들의 수도 증가하고 있다. 본 연구는 이러한 사기를 미연에 방지하기 위한 머신 러닝 방법을 이용한 사기 탐지 모델을 구축하였다. 이를 위해 대표적 C2C 중고거래 플랫폼인 중고나라에서 145,536건의 거래 게시글을 수집하였다. 이후 이들 게시글에서 토픽 모델링 기법을 이용하여 상품 설명 내용의 주제를 추출하였으며, 상품 설명의 언어적 특성, 준언어적 특성, 상품의 특성, 게시글의 포스팅 특성, 구매자 특성, 거래 특성들을 추출하였다. 이를 XGBoost 방법에 기반한 머신 러닝 모델을 구축하여 사기 게시글을 탐지하였다. 분석 결과, 사기 게시글은 글 자체의 길이가 대체로 짧고, 제공하는 정보가 적고 상대적으로 구체적이지 않은 것으로 나타났으며 명사를 상대적으로 적게 쓰고 이미지도 사용하지 않거나 적게 사용하는 글이 대부분인 것으로 나타났다. 또한 상대적으로 숫자와 공백의 비율이 높게 나타났으며 정상 게시글의 경우 명사의 경우 상품의 정보, 동사의 경우 전달, 형용사의 경우는 행위와 관련된 단어들이 사용되었으나 사기 게시글은 뚜렷한 주제를 가지지 못하는 것으로 나타났다. 본 연구는 전화번호나 계좌번호를 사용한 기존의 방법과 달리 다양한 게시글의 특성으로 사기 여부를 탐지하는 모델을 구축했다는 점에서 학술적, 실무적 시사점을 가지고 있다.