• 제목/요약/키워드: 문장유사성분석

검색결과 69건 처리시간 0.025초

빅데이터를 통한 2016년의 다이어트 실태 분석 (Analysis of dieting practices in 2016 using big data)

  • 정은진;장은재;조경애
    • 한국식품과학회지
    • /
    • 제51권2호
    • /
    • pp.176-181
    • /
    • 2019
  • 인터넷과 대중매체의 발전은 새로운 다이어트에 대한 사람들의 접근을 용이하게 만들었다. 그러나 사람들의 관심은 시시각각으로 변화하기 때문에 이슈가 되는 다이어트는 매년 달라지고 있다. 따라서 본 연구에서는 2016년의 다이어트에 대한 경향을 알아보고 분석하기 위해서 빅데이터 분석 방법을 이용하였고, 포털 사이트 네이버를 통해 2016년 1월 1일부터 2016년 12월 31일 까지 1년간 다이어트 키워드가 포함된 문장을 수집하고 분석하여 단순빈도 분석, N-gram 분석, 키워드 네트워크 분석, 계절성 분석을 시행하였다. 단순빈도분석을 통해 가장 많이 출현한 키워드는 '운동'으로(191,032개)나타났고, 그 다음으로 '식단'이(102,631개)로 나타났으며, 키워드 간의 연관빈도를 분석한 N-gram 분석결과 상위 결과로 다이어트-식단, 다이어트-시작, 다이어트-성공으로 나타났고, 다이어트-도시락이 새롭게 나타나 다이어트 시장의 새로운 변화를 확인할 수 있었다. 또한 다이어트 키워드와 연관된 키워드를 유사한 성격들끼리 그룹화한 키워드 네트워크 분석을 통해 식이그룹, 운동 그룹, 상업적 다이어트 식품, 상업적 다이어트 프로그램 그룹으로 총 4개의 그룹으로 세분화되었다. 계절성 분석을 통해 2월부터 7월까지 꾸준한 상승을 보였으나, 10월에 다이어트 출현빈도 수치가 급격히 상승하였고, 대중매체를 통해 소개된 고지방 다이어트의 월별 출현빈도도 10월에 급격한 상승이 있었다. 따라서 대중매체의 영향이나 새로운 다이어트의 유행이 사람들에게 큰 영향을 미치는 것을 확인할 수 있었다. 이상의 결과를 바탕으로 다이어트의 패턴은 1년을 기준으로 일정한 양상을 띠고 있으나, 새롭게 유행하는 다이어트의 출현을 통해 사람들의 관심이 변화하여 다이어트의 패턴에도 영향을 미치는 것을 확인하였다. 결국 시시각각 변화하는 다이어트를 빠르게 파악하기 위해서는 주기적이기 보다는 지속적인 모니터링과 분석이 필요하다고 판단되어진다.

남녀성차에 대한 라캉의 구조적 정의와 그 문제 (The Critical Discussion about Lacanian Structural Definition of Sexual Difference.)

  • 문장수
    • 철학연구
    • /
    • 제129권
    • /
    • pp.53-82
    • /
    • 2014
  • 본 글은 라캉의 주체 개념 및 이것의 연장인 남녀성차에 대한 구조적 정의에 대한 내용을 분석하고 이러한 정의들에 내포된 문제들을 비판한다. 라캉이 제공하는 남녀성차에 대한 구조적 정의를 분석하고 비판하기 위해서는 우선 그가 이론화하고 개념화한 저 다양한 정신분석학적 용어들, 즉 상상계, 상징계 그리고 실재계의 관계성, 이상적 자아와 자아 이상의 구분, 남근과 기표의 의미, 타자와 욕망, 의식과 무의식, 소외와 분리 등과 같은 기본적인 용어들의 사용법을 분석하는 것이 급선무이다. 이를 위해 필자는 우선 제 2장에서 상상계와 이상적 자아 사이의 관계, 그리고 제 3장에서는 상징계와 자아 이상 사이의 관계를 논구할 것이다. 그렇게 하여 '이상적 자아'와 '자아 이상'의 차이와 유사를 해명할 것이다. 그리고 제 4장에서 타자, 욕망 그리고 무의식적 주체 사이의 연관성을 해명하고, 제 5장에서는 라캉이 말하는 남근과 기표의 의미를 분석할 것이다. 그리고 제 6-7장에서는 상기의 분석들을 토대로 남녀성차에 대한 라캉의 구조적 정의를 본격적으로 분석할 것이다. 그리고 마지막 결론 장에서는 주체 이론 및 남녀성차에 대한 라캉이론의 전체적 의의 및 그 한계를 최종적으로 정리할 것이다. 그런데, 물론 결론의 장에서 성차에 대한 라캉의 구조적 정의를 전체적으로 비판하기 이전에 각 장들의 말미에서 그 장의 핵심적인 관념들을 비판하는 책무를 소홀히 하지 않을 것이다. 필자의 최종 결론은 이것이다. 라캉과 라캉 학파의 성차에 대한 다양한 정의들이 최소한의 객관적인 의미라도 가지려고 한다면, 그것들은 궁극적으로 해부학적 차이에 근거해야만 한다는 것이다.

딥러닝 기반 분류 모델의 성능 분석을 통한 건설 재해사례 텍스트 데이터의 효율적 관리방향 제안 (A Suggestion of the Direction of Construction Disaster Document Management through Text Data Classification Model based on Deep Learning)

  • 김하영;장예은;강현빈;손정욱;이준성
    • 한국건설관리학회논문집
    • /
    • 제22권5호
    • /
    • pp.73-85
    • /
    • 2021
  • 본 연구는 딥러닝 기반의 텍스트 데이터 분류 모델의 성능 고찰을 통해 한국어 건설 재해사례의 효율적 관리방향을 제안한다. 이를 위해 비정형 텍스트 문서인 건설 재해 보고서를 활용해 건설 사고의 대표적 유형인 추락, 감전, 낙하, 붕괴, 협착의 5개 범주로 분류하는 딥러닝 모델을 구현하였다. 초기 모델 테스트 결과, 추락 재해의 분류 정확도가 상대적으로 높게 도출되며 타 유형을 추락 재해로 분류하는 경우가 많이 발생한다는 특징이 나타났다. 원인 분석 결과, 1) 구체적인 사고 유발 행동, 2) 유사한 문장 구조, 3) 여러 유형에 해당되는 복합사고가 위의 특징에 영향을 미치는 것으로 분석되었으며, 이 중 추가 실험을 통해 검증이 가능한 복합사고에 대한 두 가지 정확도 개선 실험을 진행하였다: 1) 재분류, 2) 제외. 실험 결과, 복합사고 제외 시 분류 성능이 185.7% 향상되었으며, 이를 통해 여러 사고 유형에 대한 내용을 동시에 포함하는 복합사고의 다중공선성(multicollinearity)이 해소되었음을 알 수 있다. 결론적으로 본 연구에서는 향후 사고에 대한 상황을 상세히 서술하는 체계를 마련함과 동시에 복합사고를 독립적으로 관리할 필요성을 시사한다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

우리나라 교과서와 International Baccalaureate Diploma Programme(IBDP) 교과서 비교·분석 -수학적 모델링의 관점에서 함수 영역을 중심으로- (A Comparative Study on International Baccalaureate Diploma Programme(IBDP) Textbooks and Korean Textbooks by the 2015 Revised Curriculum -Focus on function from a mathematical modeling perspective-)

  • 박우홍;고상숙
    • 한국학교수학회논문집
    • /
    • 제25권2호
    • /
    • pp.125-148
    • /
    • 2022
  • 본 연구의 목적은 International Baccalaureate Diploma Programme(이하 IBDP)의 수학 교과서와 우리나라 고등학교 수학 교과서의 함수 단원의 문제 중 모델링 문제의 수와 특징을 비교·분석하는데 있다. IBDP 교과서 3종과 우리나라 교과서 9종 선택한 후 이원분류법을 사용하여 교과서의 모든 문제를 실세계 문제와 그렇지 않은 문제로 분류한 후 실세계 문제는 수학적 모델 설정의 필요성에 따라 문장제와 모델링 문제로 분류한 다음 모델링 문제는 일반적 응용문제와 적절한 모델링 문제로 분류하였다. 12 종의 교과서 중 모델링 문제를 가장 많이 포함한 교과서는 IBDP의 '수학: 응용과 해석 HL' 교과서로 전체 문제대비 50.41%의 모델링 문제 비율을 나타내었다. 이 교과서는 2%에서 9% 사이의 모델링 문제 비율 분포를 보인 다른 교과서에 비해 학습자들에게 현저히 높은 모델링 기회를 제공하였다. 수학적 모델링의 6가지 하위 행동 요소 중 '수학적 분석' 요소와 '해석과 결과에 대한 분석' 요소는 모델링 문항 수와 매우 유사한 정도로 가장 많이 나타났으며 '수학화' 요소가 뒤를 이었다. 위의 연구 결과로 모델링 문제들에 대한 분석을 통해 각 교과서에서 등장하는 모델링 문제의 수와 비율에 대한 비교와 모델링 문제에서 어떠한 모델링 하위행동요소가 어느 정도로 나타나는지에 대한 이해에 도움을 줄 수 있을 것으로 기대한다.

인공지능 문장 분류 모델 Sentence-BERT 기반 학교 맞춤형 고등학교 통합과학 질문-답변 챗봇 -개발 및 1년간 사용 분석- (A School-tailored High School Integrated Science Q&A Chatbot with Sentence-BERT: Development and One-Year Usage Analysis)

  • 민경모;유준희
    • 한국과학교육학회지
    • /
    • 제44권3호
    • /
    • pp.231-248
    • /
    • 2024
  • 본 연구에서는 오픈소스 소프트웨어와 인공지능 문서 분류 모델인 한국어 Sentence-BERT로 고등학교 1학년 통합과학 질문-답변 챗봇을 제작하고 2023학년도 1년 동안 독립형 서버에서 운영했다. 챗봇은 Sentence-BERT 모델로 학생의 질문과 가장 유사한 질문-답변 쌍 6개를 찾아 캐러셀 형태로 출력한다. 질문-답변 데이터셋은 인터넷에 공개된 자료를 수집하여 초기 버전을 구축하였고, 챗봇을 1년 동안 운영하면서 학생의 의견과 사용성을 고려하여 자료를 정제하고 새로운 질문-답변 쌍을 추가했다. 2023학년도 말에는 총 30,819개의 데이터셋을 챗봇에 통합하였다. 학생은 챗봇을 1년 동안 총 3,457건 이용했다. 챗봇 사용 기록을 빈도분석 및 시계열 분석한 결과 학생은 수업 중 교사가 챗봇 사용을 유도할 때 챗봇을 이용했고 평소에는 방과 후에 자습하면서 챗봇을 활용했다. 학생은 챗봇에 한 번 접속하여 평균적으로 2.1~2.2회 정도 질문했고, 주로 사용한 기기는 휴대폰이었다. 학생이 챗봇에 입력한 용어를 추출하고자 한국어 형태소 분석기로 명사와 용언을 추출하여 텍스트 마이닝을 진행한 결과 학생은 과학 질문 외에도 시험 범위 등의 학교생활과 관련된 용어를 자주 입력했다. 학생이 챗봇에 자주 물어본 주제를 추출하고자 Sentence-BERT 기반의 BERTopic으로 학생의 질문을 두 차례 범주화하여 토픽 모델링을 진행했다. 전체 질문 중 88%가 35가지 주제로 수렴되었고, 학생이 챗봇에 주로 물어보는 주제를 추출할 수 있었다. 학년말에 학생을 대상으로 한 설문에서 챗봇이 캐러셀 형태로 결과를 출력하는 형태가 학습에 효과적이었고, 통합과학 학습과 학습 목적 이외의 궁금증이나 학교생활과 관련된 물음에 답해주는 역할을 수행했음을 확인할 수 있었다. 본 연구는 공교육 현장에서 학생이 실제로 활용하기에 적합한 챗봇을 개발하여 학생이 장기간에 걸쳐 챗봇을 사용하는 과정에서 얻은 데이터를 분석함으로써 학생의 요구를 충족할 수 있는 챗봇의 교육적 활용 가능성을 확인했다는 점에 의의가 있다.

한국어판 간호사 임상적 추론 역량 척도의 타당도와 신뢰도 (Validity and Reliability of a Korean Version of Nurse Clinical Reasoning Competence Scale)

  • 정재원;한정원
    • 한국산학기술학회논문지
    • /
    • 제18권4호
    • /
    • pp.304-310
    • /
    • 2017
  • 본 연구는 간호사의 임상적 추론 역량을 강화하기 위한 기초자료로 Liou와 그의 동료들이 개발한 NCRC (Nurse Clinical Reasoning Competence) 도구를 한국어로 번역하고 번역된 항목들에 대해서는 문장구조와 의미의 유사성을 검토하는 절차를 거쳐 도구의 타당도와 신뢰도를 검증하는 방법론적 연구이다. 본 연구는 서울과 부산 소재의 4개의 상급병원에서 근무하는 간호사 166명을 대상으로 하여 타당도 및 신뢰도 검증을 실시하였다. 전문가들을 통한 내용타당도 검증은 전체문항이 모두 CVI 0.8이상으로 확인되었고, 탐색적 요인 분석과 확인적 요인 분석을 통해 최종적으로 1요인으로 구성된 총 15개 문항으로 분석되었다. 또한 동시타당도 검증을 위해 간호사의 비판적 사고성향과 임상 의사결정 능력 측정도구를 활용하여 본 연구의 한국어판 간호사 임상적 추론 척도와의 상관관계를 확인한 결과, 측정도구간의 상관계수는 .55-.64(p<.001)로 나타났고, 도구의 신뢰도는 Cronbach's ${\alpha}=.93$으로 나타났다. 따라서 한국판 NCRC 도구는 한국 간호사들의 임상적 추론 역량을 객관적으로 평가하기에 유용한 도구라고 할 수 있으며, 국내 간호사들의 임상적 추론 역량 사정 및 증진전략 개발에 기초자료를 제공했다는데 의의가 있다. 그러나 한국의 간호 환경과 문화를 고려한 임상적 추론 역량 문항들이 있는지에 대한 추가적인 연구가 필요하다고 생각한다.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

사설시조의 형태구조 연구 (A Study on the Morphological Structure of Sasul-Sijo)

  • 원용문
    • 한국시조학회지:시조학논총
    • /
    • 제23집
    • /
    • pp.161-188
    • /
    • 2005
  • 사설시조의 형태구조를 알아보기 위하여 시조의 형태를 종류별로 알아보고, 평시조, 엇시조, 사설시조를 형태적으로 구분하는 기준을 제시하였다. 그래서 평시조는 3장 6구 12절 이상이라 하였고, 엇시조는 3장 7구 14철 이상이라 하였고, 사설시조는 3장 8구 16절 이상이라 하였다. 이 연구는 1) 시조와 비시조, 2) 엇시조와 사설시조의 구분, 3) 서설시조의 구조 순으로 논의하였다. 1)에서는 2음보에 44조로 된 작품, 시조와 마찬가지로 3장의 형식은 갖추었지만 시조의 틀과 율조에 거리가 먼 작품, 쓰여진 말이나 어구가 우리말이 아니고 한시나 한문 문장으로 되어 있는 작품들은 비시조로 보아서 시조의 범주에서 제외시켰다. 2)에서는 엇시조는 형식을 장별로 보아 1구 2절 이상 늘어난 것만 엇시조로 간주하였고, 사설시조의 경우는 장별로 따졌을 때 어느 한 장에서 2구 4절 이상 늘어나면 사설시조로 간주하였다. 엇시조는 3장 중 어느 한 장에 구 한 개가 늘어난 경우, 사설시조는 3장 중 어느 한 장에 장 한 개가 늘어난 경우라 보면 된다. 3)에서 사설시조의 구조는 시조 1편이 3장 8구 16절 이상 된 것이라 하였다. 시조의 3장중에서 어느 한 장이 2구 4절 이상 늘어났으면 사설시조의 요건을 갖추었다고 본 것이다. 이러한 구절 첨가 현상은 (1) 초장에서 절(음보) 첨가 현상이 일어난 경우 (2) 중장에서 절 첨가 현상이 일어난 경우 (3) 종장에서 절 첨가 현상이 일어난 경우 (4) 초장과 중장에서 동시에 절 첨가 현상이 일어난 경우(5) 중장과 종장에서 동시에 절 첨가 현상이 일어난 경우 (6) 초 중 종 3장 모두에서 동시에 절 첨가 현상이 일어난 경우 등 다양하기 이를 데 없었다. 그리고 사설시조의 구절 수는 3장중 어느 한 장에서 최소 8절부터 최다 87절까지 늘어난 경우가 있어서 그 격차가 너무 크다는 것을 확인하였다.보 20, 검설뽕과 비슷한 성적을 나타내었으나 특이하게 pH 4.7로 단맛과 신맛을 함께 지니고 있었다. 7. NK-T2의 사료가치 검정평가 결과 개량뽕과 비교하여 유충기간과 화용비율, 견충비율은 거의 비슷하였으나, 단견중, 견층중. 2만두 수견량은 약간 떨어지는 결과를 보여 엽질이 비교적 우량하다고 평가되었다. 8. MK-T2로 사육한 5령3일차 누에의 아미노산을 분석한 결과 개량뽕을 급이한 대조구 간에는 서로 거의 유사한 아미노산 조성을 보여주었으나 MK-T2를 급이한 시험구의 경우 대조구와 비교하여 Leu에서 차이를 보여주었으며 Ile는 대조구에서는 검출되지 않았으나 MK-T2 시험구에서는 검출되었다. 9. MK-T2로 사육한 5령3일차 누에 에탄올 추출물의 약리효과 검정결과 누에 에탄을 추출물을 투여한 쥐에서 적출한 신장조직에 대한 HE 염색 및 조직면역화학염색 모두에서 조직학적 병징이 나타나지 않았고 $TGF-{\beta}1$ 단백 발현이 거의 확인되지 않는 수준으로 낮아졌다.며, 앞으로 LTCC가 발전 해야할 방향을 제시하고자 한다.e 121.9 ${\mu}g/100mg$ 함유되어 있었다. 버뮤다그라스(Cynodon dactylon)에서 발견되었다.이 설치 운영하고 있는 측정 장비에 의해 취득한 기상자료를 공동 활용하여 표출하면 더욱 상세한 자료의 획득과 활용이 기대되어 진다. 또한, 금번 논문에서는 산불위험지역의 격자점(15km)내에 최소한 1대의 AWS 설치방안을 제시하였지만, 금후에는 15km내에서도 능선, 계곡 등 구체적인 위치확정을 위한 선행연구가 실시되어야할 것으로 판단된다.의해 원고는 결과발생지인 미국법원의 재판관할을 강제할 수 없을 것이다. 지적재산권을 둘러싼 분쟁에 관한 재판관할과 국제법상의 판결의 승인 및 집행의 통일성을 기하기 위하여 2001년 1월 세계지적재산권기구(World

  • PDF