• 제목/요약/키워드: 언어 학습 모델

검색결과 838건 처리시간 0.027초

결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘을 이용한 음성인식에 관한 연구 (A Study on Speech Recognition Using the HM-Net Topology Design Algorithm Based on Decision Tree State-clustering)

  • 정현열;정호열;오세진;황철준;김범국
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.199-210
    • /
    • 2002
  • 본 논문은 한국어 음성인식에서 음향모델의 성능개선을 위한 기초적 연구로서 결정트리 상태 클러스터링에 의한 HM-Net (Hidden Markov Network)의 구조결정 알고리즘을 이용한 음성인식에 관한 연구를 수행하였다. 한국어는 다른 언어와 비교하여 많은 문법과 변이음이 존재하는데, 국어 음성학에서 정의한 다양한 변이음을 조사하고, 음소결정트리를 위한 음소 질의어 집합을 작성하였다. 본 논문의 HM-Net 구조결정 알고리즘의 아이디어는 SSS (Successive State Splitting) 알고리즘의 구조를 가지면서 미리 작성해 둔 문맥의존 음향모델의 상태를 다시 분할하는 방법이다. 즉, 모델의 각 상태위치마다 음소 질의어 집합에 의해 음소결정트리를 생성하고, PDT-SSS (Phonetic Decision Tree-based SSS) 알고리즘에 의해 문맥의존 음향모델의 상태열을 다시 학습하는 방법이다. 결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘의 유효성을 확인하기 위해, 국어공학센터 (KLE)의 452단어와 항공편 예약에 관련된 YNU200 문장을 대상으로 음성인식 실험을 수행하였다. 인식실험 결과, 음소, 단어, 연속음성인식 실험에서 상태분할을 수행한 후 상태수의 변화에 따라 인식률이 점진적으로 향상됨을 확인하였다. 상태수 2,000일 때 음소, 단어 인식률이 평균 71.5%, 99.2%를 각각 얻었으며, 연속음성인식률은 상태수 800일 때 평균 91.6%를 얻었다. 또한 HM-Net 구조결정 알고리즘의 파라미터 공유관계를 비교하기 위해 상태공유를 수행하는 HTK를 이용한 단어인식 실험을 수행하였다. 실험결과, HTK를 이용한 문맥의존 음향모델에 비해 평균 4.0%의 인식률 향상을 보여, 본 논문에서 적용한 결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘의 유효성을 확인하였다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

회의 소집을 위한 다중 에이전트 시스템의 구현 (Implementation of A Multiple-agent System for Conference Calling)

  • 유재홍;노승진;성미영
    • 지능정보연구
    • /
    • 제8권2호
    • /
    • pp.205-227
    • /
    • 2002
  • 이 연구는 웹 기반 협동작업 시스템에서 지능적인 에이전트들을 이용하여 원격 회의의 소집을 자동화함으로써 여러 참여자들에게 보다 편리한 형태의 협동작업 환경을 지원해 주는 시스템에 대한 것이다 회의 일정을 잡는 작업을 자동화하는 것은 각 개인의 공적인 일정 뿐만 아니라 개인의 사정과 선호도 등에 대한 세심한 배려를 요구한다. 그러므로, 회의 소집 자동화는 신뢰성과 병렬성을 높이기 위해서 각 개인의 일정을 병렬적으로 별도 관리하는 작업을 지원하는 분산 처리 작업이 요구된다. 이 논문에서는 회의 소집에 들이는 시간과 노력을 최소로 줄여주는 다중 에이전트 시스템의 설계와 구현에 대하여 자세하게 소개한다. 이 시스템은 서버-를라이언트 모델에 기반하며, 서버 측에서는 스케줄 에이전트, 협상 에이전트, 개인정보 관리 에이전트, 그룹 정보 관리 에이전트, 세션관리 에이전트와 조정 에이전트가 활동한다. 클라이언트 측에서는 인터페이스 에이전트, 미디어 에이전트와 협동 에이전트가 활동한다. 이들 에이전트들은 통신은 표준화된 지식 표현 언어를 이용하여 통신하므로 분산 협동 처리를 위한 에이전트들 간의 통신에 있어 가장 큰 문제점인 이형질성을 극복할 수 있도록 해준다. 본 시스템의 회의소집 지원 에이전트들은 전진연결 알고리즘으로 추론하고 역전파 네트워크 알고리즘으로 학습하여 가장 많은 사람이 참여할 수 있는 날짜를 제안해줌으로써 회의 소집자가 회의 소집에 들이는 노력을 최소로 줄일 수 있게 해 준다.

  • PDF

A BERGPT-chatbot for mitigating negative emotions

  • Song, Yun-Gyeong;Jung, Kyung-Min;Lee, Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.53-59
    • /
    • 2021
  • 본 연구에서는 '레플리카'와 같은 텍스트 입력 기반의 부정적 감정 완화가 가능한 국내 인공지능 챗봇인 BERGPT-chatbot을 제안하고자 한다. BERGPT-chatbot은 KR-BERT와 KoGPT2-chatbot을 파이프라인으로 만들어 감정 완화 챗봇을 모델링하였다. KR-BERT를 통해 정제되지 않은 일상 데이터셋에 감정을 부여하고, 추가 데이터셋을 KoGPT2-chatbot을 통해 학습하는 방식이다. BERGPT-chatbot의 개발 배경은 다음과 같다. 현재 전 세계적으로 우울증 환자가 증가하고 있으며, 이는 COVID-19로 인해 장기적 실내 생활이나 대인 관계 제한으로 더욱 심각한 문제로 대두되었다. 그로 인해 부정적 감정 완화나 정신 건강 케어에 목적을 둔 국외의 인공지능 챗봇이 팬데믹 사태로 사용량이 증가하였다. 국내에서도 국외의 챗봇과 비슷한 심리 진단 챗봇이 서비스 되고 있으나, 국내의 챗봇은 텍스트 입력 기반 답변이 아닌 버튼형 답변 중심으로 국외 챗봇과 비교하였을 때 심리 진단 수준에 그쳐 아쉬운 실정이다. 따라서, BERGPT-chatbot을 통해 감정 완화에 도움을 주는 챗봇을 제안하였으며, BERGPT-chatbot과 KoGPT2-chatbot을 언어 모델의 내부 평가 지표인 '퍼플렉서티'를 통해 비교 분석하여 BERGPT-chatbot의 우수함을 보여주고자 한다.

과학 영재의 논문 초록 구조 분석 및 이에 대한 인공지능의 활용 가능성 탐색 (Analysis of the Abstract Structure in Scientific Papers by Gifted Students and Exploring the Possibilities of Artificial Intelligence Applied to the Educational Setting)

  • 이봉우;조헌국
    • 한국과학교육학회지
    • /
    • 제43권6호
    • /
    • pp.573-582
    • /
    • 2023
  • 본 연구는 영재학교 학생들의 논문 초록의 구조를 파악하여 그 특성을 분석하고, 인공지능을 활용하여 초록을 구성하는 여러 요소를 추출하여 그 성능을 비교함으로써 과학영재교육에서 인공지능의 활용 가능성을 모색하는 것을 목적으로 하였다. 이에 따라 S 영재학교의 2017~2021년의 5년간 졸업 논문 263건을 대상으로 초록에 포함된 배경, 목적, 방법, 결과, 논의의 빈도나 유형이 어떠한지 분석하고 이를 파인튜닝 및 프롬프트를 활용한 인공지능을 활용한 분류 방법을 통해 그 정확도를 평가하였다. 연구 결과, 영재 학생들이 작성한 과학 논문의 초록 요소의 출현 빈도는 목적, 방법, 결과, 배경, 논의(D)의 순이었고, 목적, 방법, 결과 등 초록에서 필수적으로 포함되어야 하는 요소를 모두 담은 경우는 전체 57.4%에 불과하였다. 인공지능을 활용한 이러한 요소를 분류한 결과, 파인튜닝을 이용한 경우가 가장 정확도가 높았으며 5가지 요소 중 배경, 목적, 결과는 비교적 높은 성능을 보였으나 방법, 논의에 대해서는 정확히 분류하지 못하는 경우가 많 았다. 이러한 결과는 여러 요소의 분포 비율이나 학습을 위한 적절한 데이터셋이나 정보를 제공해 인공지능을 활용해야 보다 효과적인 수단으로 활용될 수 있음을 의미하며, 이에 대한 교육적 시사점을 제시하였다.

BERTopic을 활용한 불면증 소셜 데이터 토픽 모델링 및 불면증 경향 문헌 딥러닝 자동분류 모델 구축 (Topic Modeling Insomnia Social Media Corpus using BERTopic and Building Automatic Deep Learning Classification Model)

  • 고영수;이수빈;차민정;김성덕;이주희;한지영;송민
    • 정보관리학회지
    • /
    • 제39권2호
    • /
    • pp.111-129
    • /
    • 2022
  • 불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 'Reddit'의 불면증 커뮤니티인 'insomnia'를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군('부정적 감정', '조언 및 도움과 감사', '불면증 관련 질병', '수면제', '운동 및 식습관', '신체적 특징', '활동적 특징', '환경적 특징')을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.

대구대학교 특수교육-재활과학-사회복지 기반 학제 간 융합전공(장애인평생교육) 신설 논의 (A Discussion on the Establishment of a New Interdisciplinary Convergence Major(Lifelong Education for Disabled) based on Special Education, Rehabilitation Science, and Social Welfare at Daegu University)

  • 김영준;김화수;이근용
    • 문화기술의 융합
    • /
    • 제8권1호
    • /
    • pp.147-156
    • /
    • 2022
  • 본 연구는 특수교육, 재활과학, 사회복지 분야를 통해 장애인 교육 및 복지의 거점 대학으로 위상 및 정체성을 확립하고 있는 대구대학교를 기반으로 장애인평생교육의 융합전공이 신설될 수 있는 근거와 방안을 다각적으로 논의하는 데 목적을 두어 실시되었다. 장애인평생교육은 장애인 학습자를 대상으로 하기 때문에 장애의 특수성을 공통적으로 반영하고 있으나, 교육과 복지의 두 가지 관점 및 성격을 구성하고 있으므로 장애인 관련 분야의 학제 간 융합연구에 따른 접근이 중요하게 요구된다. 위 차원에서 대구대학교는 현행에 구축하고 있는 학문 및 실천 기반의 각종 인프라를 통해 국내 장애인평생교육을 주도할 수 있는 적합한 기반을 갖추고 있으며, 법규 제정에서부터 현장기관의 설치 및 운영 등에 이르기까지 명확성이 구축되지 못한 장애인평생교육 지원체제의 현실적 한계를 개선해 나갈 수 있는 리더십 역시 충분히 갖추고 있다. 이에 따라, 본 연구는 문헌 고찰과 전문가 자문을 통해 대구대학교에서 학제간 융합전공 신설 차원에서 장애인평생교육을 반영할 수 있는 방안과 관련 근거를 연구 내용으로 제시하였다. 학제간 융합전공 신설 차원에서 조망된 장애인평생교육은 특수교육, 재활과학, 사회복지의 세 분야 간에 우선순위적 관점으로 적용되기보다는 세 분야가 공통적으로 접근할 수 있는 전문역량을 통하여 활성화되어야 한다는 관점으로 강조되었다. 연구 결과, 장애인평생교육 지원체제를 구축하지 못한 국내의 경우 특수교육, 재활과학, 사회복지의 학제 간 융합연구가 수월한 대구대학교의 적용 모델 및 방안을 기점으로 점차 관련 타 대학으로 보급 및 확산되어야 한다는 필요성이 시사되었다. 또한, 세 분야 간의 합의를 통하여 장애인평생교육 전문인력의 자격 개발 경로가 체계적으로 구축되어야 할 필요성 역시 시사되었다.

생성형 AI의 의료적 활용과 개인정보보호 (A Study on the Medical Application and Personal Information Protection of Generative AI)

  • 이수경
    • 의료법학
    • /
    • 제24권4호
    • /
    • pp.67-101
    • /
    • 2023
  • 생성형 AI의 활용은 교육계를 넘어서 이미 의료계에서도 의료 기기에 임상 소프트웨어 등의 도입 등으로 연구되고 있다. 생성형 AI는 대규모 대화형 언어모델을 활용하여 방대한 데이터를 이해하고 자료를 선별하는 시간과 에너지를 줄여주면서 사용자와 끊임없는 대화를 통한 정보의 전달이 가능하다. 바로 이러한 점이 인류에게 생성형 AI가 혁신적인 기술의 등장으로 인정받고 있는 점이기도 하다. 그러나 반면 사용자에게 제공되는 컨텐츠의 정합성은 출처나 근거 없이 사용자에게 판단의 영역으로 맡겨지고 있다. 그러나 이 글에서는 생성형 AI를 활용함에 있어서 가장 직접적으로 발생할 수 있는 쟁점을 우선적으로 살펴보기로 한다. 따라서 이 글에서는 생성형 AI의 대표적인 프로그램인 Chat GPT의 발전과 이용자의 활용에 대비하여 특히 개인정보 보호의 쟁점에 대하여 논의하였다. 이를 위하여 먼저 생성형 AI의 기술적인 특성을 살펴본 뒤에 발생 가능한 민사적 쟁점 가운데에서도 개인정보 보호에 관한 문제를 우선적으로 살펴보았다. 생성형 AI는 그 자체로서 학습 데이터의 편향이나 출처 없는 결과값의 제공 등 여러 문제점이 제기되고 있으나, 이러한 문제점은 윤리적 문제를 내포하는 것으로 당장 임상 소프트웨어로서 의료기기에서 활용될 경우 개인정보 보호법제와 보건의료데이터의 활용 가이드로 환자 혹은 이용자의 개인정보를 보호할 수 있을 것인가에 대한 의문에 대한 논의가 시급하다고 판단되었다. 우리나라의 개인정보 보호법제는 특히 보건의료데이터의 활용에서 특정 개인의 개인정보를 가명처리하고 비식별조치를 취하는 데에 적절한 프로세스를 갖추고 있는 것으로 보이나, 생성형 AI이 소프트웨어로서 의료기기에 적용되었을 경우에도 이 법제로서 개인정보 보호의 목적을 이루기에는 어려운 점이 있다. 임상 소프트웨어에서 활용될 생성형 AI의 기능을 대비하기 위해서는 생성형 AI에 걸맞는 개인정보 보호의 법제가 필요할 것으로 보인다.