• 제목/요약/키워드: 대규모 언어모델

검색결과 83건 처리시간 0.03초

한국어 방송 음성 인식에 관한 연구 (A Study on the Korean Broadcasting Speech Recognition)

  • 김석동;송도선;이행세
    • 한국음향학회지
    • /
    • 제18권1호
    • /
    • pp.53-60
    • /
    • 1999
  • 이 논문은 한국 방송 음성 인식에 관한 연구이다. 여기서 우리는 대규모 어휘를 갖는 연속 음성 인식을 위한 방법을 제시한다. 주요 관점은 언어 모델과 탐색 방법이다. 사용된 음성 모델은 기본음소 Semi-continuous HMM이고 언어 모델은 N-gram 방법이다. 탐색 방법은 음성과 언어 정보를 최대한 활용하기 위해 3단계의 방법을 사용하였다. 첫째로, 단어의 끝 부분과 그에 관련된 정보를 만들기 위한 순방향 Viterbi Beam탐색을 하였으며, 둘째로 단어 의 시작 부분과 그에 관련된 정보를 만드는 역방향 Viterbi Beam탐색, 그리고 마지막으로 이들 두 결과와 확률적인 언어 모델을 결합하여 최종 인식결과를 얻기 위해 A/sup */ 탐색을 한다. 이 방법을 사용하여 12,000개의 단어에 대한 화자 독립으로 최고 96.0%의 단어 인식률과 99.2%의 음절 인식률을 얻었다.

  • PDF

인공지능을 이용한 웹기반 건축현장 안전관리 플랫폼 개발 (Development of Web-based Construction-Site-Safety-Management Platform Using Artificial Intelligence)

  • 김시욱;김은석;김치경
    • 한국전산구조공학회논문집
    • /
    • 제37권2호
    • /
    • pp.77-84
    • /
    • 2024
  • 4차 산업혁명 시대에 건설산업은 전통적인 업무 방식에서 디지털 프로세스로 전환하고 있다. 특히, 건설산업의 특성으로 인해 업무 절차의 변경에는 어려움이 따르며, 점진적인 디지털 전환 및 시행착오가 발생하고 있다. 건설현장의 안전관리 분야도 역시 이 흐름을 따라 모든 데이터의 디지털화와 자동화를 목표로 연구 및 시도가 활발히 진행되고 있다. 그러나 최근의 통계에 따르면, 건설업 안전사고는 계속해서 발생하고 있으며, 안전사고 사망자 수도 줄지 않고 있다. 본 연구는 이러한 문제를 해결하기 위해 건설공사 안전관리 종합정보망의 빅데이터를 대규모 언어모델 인공지능을 통해 분석하였다. 분석된 결과는 실시간으로 업데이트가 가능한 상세설계모델로부터 위치정보와 공간적 특성을 반영하여 안전관리가 필요한 현장모델링에 정보를 맵핑하였다. 해당 연구를 통해 건설현장 안전관리 데이터의 디지털화를 통한 시설물 및 근로자의 안전을 강화하고, 건설사고 예방 및 효과적인 교육 지시를 위한 빅데이터 기반 안전관리 플랫폼 개발을 목표로 한다.

Enhancement of a language model using two separate corpora of distinct characteristics

  • 조세형;정태선
    • 한국지능시스템학회논문지
    • /
    • 제14권3호
    • /
    • pp.357-362
    • /
    • 2004
  • 언어 모델은 음성 인식이나 필기체 문자 인식 등에서 다음 단어를 예측함으로써 인식률을 높이게 된다. 그러나 언어 모델은 그 도메인에 따라 모두 다르며 충분한 분량의 말뭉치를 수집하는 것이 거의 불가능하다. 본 논문에서는 N그램 방식의 언어모델을 구축함에 있어서 크기가 제한적인 말뭉치의 한계를 극복하기 위하여 두개의 말뭉치, 즉 소규모의 구어체 말뭉치와 대규모의 문어체 말뭉치의 통계를 이용하는 방법을 제시한다. 이 이론을 검증하기 위하여 수십만 단어 규모의 방송용 말뭉치에 수백만 이상의 신문 말뭉치를 결합하여 방송 스크립트에 대한 퍼플렉시티를 30% 향상시킨 결과를 획득하였다.

기존 SCADA시스템 통신모듈의 정형명세 및 검증 (Formal specification and verification of communication driver module in existing SCADA system)

  • 이혁;제정광;최진영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.244-246
    • /
    • 2012
  • 대규모 실시간 시스템인 SCADA 시스템은 수처리, 발전, 보일러, 제철, 석유화학 등 산업전반에 걸쳐 사용되는 시스템이다. 현재는 국산화가 잘 이루어져 아직까지 큰 문제가 없는 분야이지만, 전통적인 방법론을 통해 개발된 시스템을 사용하고 있다. 복잡하고 규모가 큰 시스템에서는 전통적인 방법론으로는 잠재된 오류나 이로 인한 피해여부를 파악할 수 있는 방법이 없다. 본 논문에서는 모델기반 명세 및 검증 언어인 Statecharts를 이용해 소프트웨어공학적 기법을 SCADA 시스템의 통신 모듈에 적용시켜 시스템의 안전성과 신뢰성을 향상시키고자 한다.

다중 레이블 이미지를 활용한 CNN기반 이미지 어노테이션 시스템의 개선 (Improving a CNN-based Image Annotation System Using Multi-Labeled Images)

  • 김택수;김상범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-103
    • /
    • 2015
  • 최근 딥러닝 기술의 발전에 힘입어 이미지로부터 자동으로 관련된 단어 혹은 문장을 생성하는 연구들이 진행되고 있는데, 많은 연구들은 이미지와 단어가 1:1로 대응된 잘 정련된 학습 집합을 필요로 한다. 한편 스마트폰 보급의 확산으로 인스타그램, 폴라 등의 이미지 기반 SNS가 급속하게 성장함에 따라 인터넷에는 한 이미지의 복수개의 단어(태그)가 부착되어있는 데이터들이 폭증하고 있는 것이 현실이다. 본 논문에서는 소규모의 잘 정련된 학습 집합뿐 아니라 이러한 대규모의 다중 레이블 데이터를 같이 활용하여 이미지로부터 태그를 생성하는 개선된 CNN구조 및 학습알고리즘을 제안한다. 기존의 분류 기반 모델에 은닉층을 추가하고 새로운 학습 방법을 도입한 결과, 어노테이션 성능이 기존 모델보다 11% 이상 향상되었다.

  • PDF

의미적 토픽 기반 지식모델의 통합에 관한 연구 (A study on integration of semantic topic based Knowledge model)

  • 전승수;이상진;배상태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.181-183
    • /
    • 2012
  • 최근 자연어 및 정형언어 처리, 인공지능 알고리즘 등을 활용한 효율적인 의미 기반 지식모델의 생성과 분석 방법이 제시되고 있다. 이러한 의미 기반 지식모델은 효율적 의사결정트리(Decision Making Tree)와 특정 상황에 대한 체계적인 문제해결(Problem Solving) 경로 분석에 활용된다. 특히 다양한 복잡계 및 사회 연계망 분석에 있어 정적 지표 생성과 회귀 분석, 행위적 모델을 통한 추이분석, 거시예측을 지원하는 모의실험(Simulation) 모형의 기반이 된다. 본 연구에서는 이러한 의미 기반 지식모델을 통합에 있어 텍스트 마이닝을 통해 도출된 토픽(Topic) 모델 간 통합 방법과 정형적 알고리즘을 제시한다. 이를 위해 먼저, 텍스트 마이닝을 통해 도출되는 키워드 맵을 동치적 지식맵으로 변환하고 이를 의미적 지식모델로 통합하는 방법을 설명한다. 또한 키워드 맵으로부터 유의미한 토픽 맵을 투영하는 방법과 의미적 동치 모델을 유도하는 알고리즘을 제안한다. 통합된 의미 기반 지식모델은 토픽 간의 구조적 규칙과 정도 중심성, 근접 중심성, 매개 중심성 등 관계적 의미분석이 가능하며 대규모 비정형 문서의 의미 분석과 활용에 실질적인 기반 연구가 될 수 있다.

UML 모델의 지식화 방안 (A method for constructing Knowledge of S/W Models in UML)

  • 김일석;양성봉
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.528-530
    • /
    • 1999
  • 컴퓨터가 인식할 수 있는 지식의 표현방식에 대한 연구는 오래전부터 인공지능 분야에서 이루어져 왔다. 현재는 대규모의 지식베이스를 구축하고 공유하기 위한 Knowledge Sharing Effort(KSE) 프로젝트가 진행중인데, 여기에서는 도메인별로 어휘와 개념을 체계적으로 정의하여 Ontology로 구축하고 있다. 이 논문에서는 객체지향 소프트웨어 개발 방법론에서 모델링언어로서 널리 받아들여지고 있는 UML을, KSE에서 표준으로 제시하고 있는 컴퓨터가 인식할 수 있는 지식의 형태인 Knowledge Interchange Format 형태로 변환하는 방법을 제시하고 이를 통해 추론과 같은 보다 유연한 지식의 처리가 가능함을 보인다.

  • PDF

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

ChatGPT 를 효율적으로 사용하기 위한 Prompt Engineering 기법 (Prompt Engineering Technique for efficient use of ChatGPT)

  • 장경원;한성수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.595-597
    • /
    • 2023
  • 대규모 언어 모델에 기반한 AI 챗봇인 ChatGPT 의 사용과 출력 품질을 개선하는 데 있어 Prompt Engineering 의 중요성이 확대되고 있다. Prompt Engineering 은 AI 모델에서 보다 정확하고 관련성 높은 응답을 생성하기 위해 프롬프트의 요소를 선택하고 구성하는 작업을 포함한다. 본 논문에서는 ChatGPT 에서 정보나 답변을 효과적으로 추출하는 데 사용할 수 있는 다양한 Prompt Engineering 기법을 소개하고 이러한 기법이 실제 시나리오에 어떻게 적용될 수 있는지에 대한 예를 제공한다.

ChatGPT, 생성형 AI 시대 도서관의 데이터 리터러시 교육에 대한 연구 (A Study on the Data Literacy Education in the Library of the Chat GPT, Generative AI Era)

  • 이정미
    • 한국문헌정보학회지
    • /
    • 제57권3호
    • /
    • pp.303-323
    • /
    • 2023
  • 본 연구의 목적은 ChatGPT와 같은 생성형 AI 시대를 맞아 이와 같은 언어모델에 대해 소개하고, 이를 활용한 도서관의 데이터 리터러시 교육 구성요소를 고민하고 방향을 제시하고자 하는 연구이다. 이를 위해 다음과 같은 세 가지 연구 문제를 제시하였다. 먼저 ChatGPT 유사 언어모델의 기술적 특징을 살펴보고, 이후 생성형 인공지능 기술 기반 서비스 플랫폼을 활용하여 적합한, 정확한 정보를 유용하게 활용하기 위한 이용자의 데이터 리터러시 역량 교육의 필요성을 주창하였다. 마지막으로 ChatGPT 시대 도서관 데이터 리터러시 교육을 위해 데이터에 대한 이해, 데이터 생성, 데이터 수집, 데이터 검증, 데이터 관리, 데이터 이용 및 공유, 데이터 윤리와 같은 7개 구성항목을 포함한 데이터 리터러시 교육 구성안을 제안하였다. 결론적으로 ChatGPT와 같은 생성형 인공지능 기술이 이용자의 정보 활용에 많은 영향을 미치게 될 것이라 예상되는 만큼 도서관은 이러한 기술의 장단점, 문제점 등에 대해 한발 먼저 고민하고 이를 통해 도서관의 정보서비스를 한층 개선할 수 있는 토대로 삼아야 할 것을 강조하며 마무리했다.