• 제목/요약/키워드: Korean human dataset

검색결과 161건 처리시간 0.025초

Calculation of a First-In-Man Dose of 7-O-Succinyl Macrolactin A Based on Allometric Scaling of Data from Mice, Rats, and Dogs

  • Noh, Keumhan;Kang, Wonku
    • Biomolecules & Therapeutics
    • /
    • 제25권6호
    • /
    • pp.648-658
    • /
    • 2017
  • 7-O-Succinyl macrolactin A (SMA) exerts several pharmacological effects including anti-bacterial, anti-inflammation, and anti-cancer activities. Recently, SMA has been extensively evaluated as an anti-cancer drug. Thus, the objectives of the present study were to characterise the pharmacokinetics of SMA via both non-compartmental and compartmental analysis in mice, rats, and dogs, and to derive an appropriate first-in-man dose based on allometric scaling of the animal data. The time courses of plasma SMA concentrations after intravenous administration to rats and dogs were analysed retrospectively, as were data collected after intraperitoneal SMA injection in mice. Pharmacokinetic parameters were estimated via both noncompartmental and compartmental analysis, and were correlated with body weight and/or the potential maximum life-span. The clearance and distribution volume of SMA in humans were predicted, and a first-in-man dose proposed. A two-compartment model best described the time courses of SMA plasma concentrations after a saturation elimination process was applied to fit the dataset obtained from rats. Incorporation of the maximum potential life-span during allometric scaling was required to improve the estimation of human clearance. The SMA clearance and the distribution volume in the steady state, in a 70-kg adult male, were estimated to be 30.6 L/h and 19.5 L, respectively. To meet the area under the curve (AUC) required for anti-tumour activity, a dose of 100 mg (~1.5 mg/kg) was finally proposed as the first dose for a 70-kg human. Although toxicological profiles derived from non-clinical studies must be considered before any final decision is made, our work will facilitate clinical studies on SMA.

토픽 모델링과 이해관계자 요구 산출물을 이용한 요구사항 자동 우선순위화 (Automatic Prioritization of Requirements using Topic Modeling and Stakeholder Needs-Artifacts)

  • 장종인;백종문
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.196-203
    • /
    • 2016
  • 소프트웨어 개발에 투자되는 자원은 한정되어 있으므로 요구사항들을 우선순위화하여 중요한 요구사항부터 충족시켜야 한다. 기존 요구사항 우선순위화 기법들은 인간의 수동화된 판단에 의존하므로 요구사항의 수가 많은 경우에는 적용하기가 힘든 확장성 문제와 이해관계자 개개인의 편향된 가치판단에 노출되는 편향성 문제를 가지고 있다. 이 문제들을 해결하고자 본 논문은 요구사항 도출 단계에서 얻어지는 이해관계자 요구 산출물과 텍스트의 의미적 주제를 추리하는 토픽 모델링 기법을 이용한 자동 요구사항 우선순위화 기법, ToMSN(Topic Modeling Stakeholder Needs for requirements prioritization)을 제안한다. 이 기법을 사용자 30,000명 규모의 실제 소프트웨어 요구사항 데이터로 평가한 결과, 인간의 개입이 필요 없는 자동화 과정으로 확장성과 편향성 문제를 해결함과 더불어 우선순위화 정확도 또한 기존 수동화 기법들과 유사함을 확인할 수 있었다.

An Artificial Intelligence Approach for Word Semantic Similarity Measure of Hindi Language

  • Younas, Farah;Nadir, Jumana;Usman, Muhammad;Khan, Muhammad Attique;Khan, Sajid Ali;Kadry, Seifedine;Nam, Yunyoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권6호
    • /
    • pp.2049-2068
    • /
    • 2021
  • AI combined with NLP techniques has promoted the use of Virtual Assistants and have made people rely on them for many diverse uses. Conversational Agents are the most promising technique that assists computer users through their operation. An important challenge in developing Conversational Agents globally is transferring the groundbreaking expertise obtained in English to other languages. AI is making it possible to transfer this learning. There is a dire need to develop systems that understand secular languages. One such difficult language is Hindi, which is the fourth most spoken language in the world. Semantic similarity is an important part of Natural Language Processing, which involves applications such as ontology learning and information extraction, for developing conversational agents. Most of the research is concentrated on English and other European languages. This paper presents a Corpus-based word semantic similarity measure for Hindi. An experiment involving the translation of the English benchmark dataset to Hindi is performed, investigating the incorporation of the corpus, with human and machine similarity ratings. A significant correlation to the human intuition and the algorithm ratings has been calculated for analyzing the accuracy of the proposed similarity measures. The method can be adapted in various applications of word semantic similarity or module for any other language.

Prediction of Doodle Images Using Neural Networks

  • Hae-Chan Lee;Kyu-Cheol Cho
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.29-38
    • /
    • 2023
  • 낙서는 대부분 불규칙한 형태와 패턴을 갖추고 있기에, 인공지능이 불규칙한 낙서를 기계적으로 패턴을 인식하고 예측하기란 매우 어렵다. 만약 그려진 원이 완벽한 동그라미가 아니거나, 직선도 완전히 일직선이 아닐 경우, 인간은 별도의 학습 과정 없이도 낙서를 인식하고 예측할 수 있다. 이에 반해, 인공지능은 주어진 학습 데이터로 패턴을 학습해야만 낙서를 인식하고 예측한다. 본 논문은 국적, 문화, 왼손잡이 또는 오른손잡이 등 관계없이 다양한 사람들의 낙서 이미지 데이터셋을 활용한다. 그리고 두 가지의 신경망 학습을 거친 뒤, 어느 신경망이 더 높은 정확도를 제공하는지, 낙서 이미지 예측에 더 적합한지 대한 여부를 결정한다. 인공지능을 통한 낙서 이미지 예측을 하는 이유는 신경망을 활용함으로써, 인간의 표현과 의도에 대한 독특한 관점을 제공할 수 있기 때문이다. 가령, 인간이 그린 낙서에 대해 인공지능이 제공하는 다양한 이미지를 활용하여 예술적인 표현의 다양성을 촉진하고 창작 영역을 넓히는 데 기여할 것으로 기대한다.

딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구 (A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

요점만 남긴 신문 기사: 한국어 표제 형식 문서 요약 데이터셋 (News in a Nutshell: A Korean Headline-Style Summarization Dataset)

  • 권홍석;고병현;박주홍;이명지;오재영;허담;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-53
    • /
    • 2020
  • 문서 요약은 주어진 문서에서 핵심 내용만을 남긴 간결한 요약문을 생성하는 일로 자연어처리의 주요 분야 중 하나이다. 최근 방대한 데이터로부터 심층 신경망 표상을 학습하는 기술의 발전으로 문서 요약 기술이 급진적으로 진화했다. 이러한 데이터 기반 접근 방식에는 모델의 학습을 위한 양질의 데이터가 필요하다. 그러나 한국어와 같이 잘 알려지지 않은 언어에 대해서는 데이터의 획득이 쉽지 않고, 이를 구축하는 것은 많은 시간과 비용을 필요로 한다. 본 논문에서는 한국어 문서 요약을 위한 대용량 데이터셋을 소개한다. 데이터셋은 206,822개의 기사-요약 쌍으로 구성되며, 요약은 표제 형식의 여러 문장으로 되어 있다. 우리는 구축한 학습 데이터의 적합성을 검증하기 위해 수동 평가 및 여러 주요 속성에 대해 분석하고, 기존 여러 문서 요약 시스템에 학습 및 평가하여 향후 문서 요약 벤치마크 데이터셋으로써 기준선을 제시한다. 데이터셋은 https://github.com/hong8e/KHS.git의 스크립트를 통해 내려받을 수 있다.

  • PDF

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

DeNERT: Named Entity Recognition Model using DQN and BERT

  • Yang, Sung-Min;Jeong, Ok-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.29-35
    • /
    • 2020
  • 본 논문에서는 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다. 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다. 본 논문에서는 이러한 DQN, BERT 두가지 딥러닝 모델을 이용한 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 제안하는 모델은 범용 언어 모델의 장점인 언어 표현력을 기반으로 강화학습 모델의 학습 환경을 만드는 방법으로 학습된다. 이러한 방식으로 학습된 DeNERT 모델은 적은 양의 학습 데이터세트로 더욱 빠른 추론시간과 높은 성능을 갖는 모델이다. 마지막으로 제안하는 모델의 개체명 인식 성능평가를 위해 실험을 통해서 검증한다.

Generative optical flow based abnormal object detection method using a spatio-temporal translation network

  • Lim, Hyunseok;Gwak, Jeonghwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.11-19
    • /
    • 2021
  • 이상 객체란 일반적이고 평범한 행동을 취하는 객체가 아닌 비정상적이고 흔하지 않은 행동을 하여 관찰이나 감시·감독을 필요로 하는 사람, 물체, 기계 장치 등을 뜻한다. 이를 사람의 지속적인 개입 없이 인공지능 알고리즘을 통해 탐지하기 위해서 광학 흐름 기법을 활용한 시간적 특징의 특이도를 관찰하는 방법이 많이 활용되고 있으며, 이 기법은 정해진 표현 범위가 없는 수많은 이상 행동을 식별하기에 적합하다. 본 연구에서는 생성적 적대 신경망(Generative Adversarial Network, GAN)으로 입력 영상 프레임을 광학 흐름 영상으로 변환하는 알고리즘을 학습시켜 비정상적인 상황을 식별한다. 특히 생성적 적대 신경망 모델이 입력 영상에 대한 중요한 특징 정보를 학습하고, 그 외 불필요한 이상치를 제외시키기 위한 전처리 과정과 학습 후 테스트 데이터셋에서 식별 정확도를 높이기 위한 후처리 과정을 고도화하여 전체적인 모델의 이상 행동 식별 성능을 향상시키는 기법을 제안한다. 이상 행동을 탐지하기 위한 학습 데이터셋으로 UCSD Pedestrian, UMN Unusual Crowd Activity를 활용하였으며, UCSD Ped2 데이터셋에서 프레임 레벨 AUC 0.9450, EER 0.1317의 수치를 보이며 이전 연구에서 도출된 성능 지표 대비 성능 향상이 확인되었다.