• Title/Summary/Keyword: 자연어 이해

Search Result 177, Processing Time 0.022 seconds

Analyzing the Language Usage Characteristics of Korean Dark Web Users (국내 다크웹 사용자들의 언어 사용 특성 분석)

  • Youjin Lee;Dayeon Yim;Yongjae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.397-402
    • /
    • 2022
  • 익명 네트워크 기술에 기반한 다크웹은 일반 표면웹보다 더 강화된 익명성을 제공한다. 최근 이 익명성을 악용하여 다수의 다크웹 사용자들이 다크웹 내에서 범죄 행위를 모의하는 행위가 꾸준히 발생하고 있다. 특히, 국내 다크웹 사용자들은 마약 유포를 위한 방법을 공유하거나 성착취물 유포 행위 등에 직간접적으로 가담하고 있다. 이와 같은 범죄 행위들은 수사 기관의 눈을 피해 현재까지도 계속해서 발생하고 있어 국내 다크웹 범죄 동향 파악의 필요성이 증대되고 있다. 그러나 다크웹 특성상 범죄 행위를 논의하는 게시글을 수집하기가 어렵고, 다크웹 내에서의 언어 사용 특성에 대한 이해 부족으로 그동안 다크웹 사용자들이 어떤 내용의 범죄를 모의하는지 파악하기가 어려웠다. 본 논문에서는 국내 사용자들이 활동하는 다크웹 포럼들을 중심으로 사용자들의 언어 사용 특성을 연구하고, 이를 통해 다크웹에서 다뤄지는 범죄 유형들을 분석한다. 이를 위해, 자연어처리 기반의 분석 방법론을 적용하여 다크웹에서 공유되는 게시글을 수집하고 다크웹 사용자들의 은어와 특정 범죄군에서 선호되는 언어 특성을 파악한다. 특히 현재 다크웹 내에서 사용자들 사이에 관측되는 어휘들에 대한 기술통계 분석과 유의어 관계 분석을 수행하였고, 실제 다크웹 내에서 사용자들이 어떠한 범죄에 관심이 많은지를 분석하였으며, 더 나아가 수사의 효율성을 증대시키기 위한 소셜미디어, URL 인용 빈도에 대한 연구를 진행하였다.

  • PDF

LUKE based Korean Dense Passage Retriever (LUKE 기반의 한국어 문서 검색 모델 )

  • Dongryul Ko;Changwon Kim;Jaieun Kim;Sanghyun Park
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.131-134
    • /
    • 2022
  • 자연어처리 분야 중 질의응답 태스크는 전통적으로 많은 연구가 이뤄지고 있는 분야이며, 최근 밀집 벡터를 사용한 리트리버(Dense Retriever)가 성공함에 따라 위키피디아와 같은 방대한 정보를 활용하여 답변하는 오픈 도메인 QA(Open-domain Question Answering) 연구가 활발하게 진행되고 있다. 대표적인 검색 모델인 DPR(Dense Passage Retriever)은 바이 인코더(Bi-encoder) 구조의 리트리버로서, BERT 모델 기반의 질의 인코더(Query Encoder) 및 문단 인코더(Passage Encoder)를 통해 임베딩한 벡터 간의 유사도를 비교하여 문서를 검색한다. 하지만, BERT와 같이 엔티티(Entity) 정보에 대해 추가적인 학습을 하지 않은 언어모델을 기반으로 한 리트리버는 엔티티 정보가 중요한 질문에 대한 답변 성능이 저조하다. 본 논문에서는 엔티티 중심의 질문에 대한 답변 성능 향상을 위해, 엔티티를 잘 이해할 수 있는 LUKE 모델 기반의 리트리버를 제안한다. KorQuAD 1.0 데이터셋을 활용하여 한국어 리트리버의 학습 데이터셋을 구축하고, 모델별 리트리버의 검색 성능을 비교하여 제안하는 방법의 성능 향상을 입증한다.

  • PDF

Reading Comprehension requiring Discrete Reasoning Over Paragraphs for Korean (단락에 대한 이산 추론을 요구하는 한국어 기계 독해)

  • Kim, Gyeong-min;Seo, Jaehyung;Lee, Soomin;Lim, Heui-seok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.439-443
    • /
    • 2021
  • 기계 독해는 단락과 질의가 주어졌을 때 단락 내 정답을 찾는 자연어 처리 태스크이다. 최근 벤치마킹 데이터셋에서 사전학습 언어모델을 기반으로 빠른 발전을 보이며 특정 데이터셋에서 인간의 성능을 뛰어넘는 성과를 거두고 있다. 그러나 이는 단락 내 범위(span)에서 추출된 정보에 관한 것으로, 실제 연산을 요구하는 질의에 대한 응답에는 한계가 있다. 본 논문에서는 기존 범위 내에서 응답이 가능할 뿐만이 아니라, 연산에 관한 이산 추론을 요구하는 단락 및 질의에 대해서도 응답이 가능한 기계 독해 모델의 효과성을 검증하고자 한다. 이를 위해 영어 DROP (Discrete Reasoning Over the content of Paragraphs, DROP) 데이터셋으로부터 1,794개의 질의응답 쌍을 Google Translator API v2를 사용하여 한국어로 번역 및 정제하여 KoDROP (Korean DROP, KoDROP) 데이터셋을 구축하였다. 단락 및 질의를 참조하여 연산을 수행하기 위한 의미 태그를 한국어 KoBERT 및 KoELECTRA에 접목하여, 숫자 인식이 가능한 KoNABERT, KoNAELECTRA 모델을 생성하였다. 실험 결과, KoDROP 데이터셋은 기존 기계 독해 데이터셋과 비교하여 단락에 대한 더욱 포괄적인 이해와 연산 정보를 요구하였으며, 가장 높은 성능을 기록한 KoNAELECTRA는 KoBERT과 비교하여 F1, EM에서 모두 19.20의 월등한 성능 향상을 보였다.

  • PDF

A Design of HTML Tag Stack and HTML Embedding Method to Improve Web Document Question Answering Performance of BERT (BERT 의 웹 문서 질의 응답 성능 향상을 위한 HTML 태그 스택 및 HTML 임베딩 기법 설계)

  • Mok, Jin-Wang;Lee, Hyun-Seob
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.583-585
    • /
    • 2022
  • 최근 기술의 발전으로 인해 자연어 처리 모델의 성능이 증가하고 있다. 그에 따라 평문 지문이 아닌 KorQuAD 2.0 과 같은 웹 문서를 지문으로 하는 기계 독해 과제를 해결하려는 연구가 증가하고 있다. 최근 기계 독해 과제의 대부분의 모델은 트랜스포머를 기반으로 하는 추세를 보인다. 그 중 대표적인 모델인 BERT 는 문자열의 순서에 대한 정보를 임베딩 과정에서 전달받는다. 한편 웹 문서는 태그 구조가 존재하므로 문서를 이해하는데 위치 정보 외에도 태그 정보도 유용하게 사용될 수 있다. 그러나 BERT 의 기존 임베딩은 웹 문서의 태그 정보를 추가적으로 모델에 전달하지 않는다는 문제가 있었다. 본 논문에서는 BERT 에 웹 문서 태그 정보를 효과적으로 전달할 수 있는 HTML 임베딩 기법 및 이를 위한 전처리 기법으로 HTML 태그 스택을 소개한다. HTML 태그 스택은 HTML 태그의 정보들을 추출할 수 있고 HTML 임베딩 기법은 이 정보들을 BERT 의 임베딩 과정에 입력으로 추가함으로써 웹 문서 질의 응답 과제의 성능 향상을 기대할 수 있다.

Korean Commonsense Reasoning Evaluation for Large Language Models (거대언어모델을 위한 한국어 상식추론 기반 평가)

  • Jaehyung Seo;Chanjun Park;Hyeonseok Moon;Sugyeong Eo;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.162-167
    • /
    • 2023
  • 본 논문은 거대언어모델에 대한 한국어 상식추론 기반의 새로운 평가 방식을 제안한다. 제안하는 평가 방식은 한국어의 일반 상식을 기초로 삼으며, 이는 거대언어모델이 주어진 정보를 얼마나 잘 이해하고, 그에 부합하는 결과물을 생성할 수 있는지를 판단하기 위함이다. 기존의 한국어 상식추론 능력 평가로 사용하던 Korean-CommonGEN에서 언어 모델은 이미 높은 수준의 성능을 보이며, GPT-3와 같은 거대언어모델은 사람의 상한선을 넘어선 성능을 기록한다. 따라서, 기존의 평가 방식으로는 거대언어모델의 발전된 상식추론 능력을 정교하게 평가하기 어렵다. 더 나아가, 상식 추론 능력을 평가하는 과정에서 사회적 편견이나 환각 현상을 충분히 고려하지 못하고 있다. 본 연구의 평가 방법은 거대언어모델이 야기하는 문제점을 반영하여, 다가오는 거대언어모델 시대에 한국어 자연어 처리 연구가 지속적으로 발전할 수 있도록 하는 상식추론 벤치마크 구성 방식을 새롭게 제시한다.

  • PDF

Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues (과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강)

  • Chae-Gyun Lim;Hye-Woo Lee;Kyeong-Jin Oh;Joo-Won Sung;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

A study on the didactical application of ChatGPT for mathematical word problem solving (수학 문장제 해결과 관련한 ChatGPT의 교수학적 활용 방안 모색)

  • Kang, Yunji
    • Communications of Mathematical Education
    • /
    • v.38 no.1
    • /
    • pp.49-67
    • /
    • 2024
  • Recent interest in the diverse applications of artificial intelligence (AI) language models has highlighted the need to explore didactical uses in mathematics education. AI language models, capable of natural language processing, show promise in solving mathematical word problems. This study tested the capability of ChatGPT, an AI language model, to solve word problems from elementary school textbooks, and analyzed both the solutions and errors made. The results showed that the AI language model achieved an accuracy rate of 81.08%, with errors in problem comprehension, equation formulation, and calculation. Based on this analysis of solution processes and error types, the study suggests implications for the didactical application of AI language models in education.

Development of the Artwork using Music Visualization based on Sentiment Analysis of Lyrics (가사 텍스트의 감성분석에 기반 한 음악 시각화 콘텐츠 개발)

  • Kim, Hye-Ran
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.10
    • /
    • pp.89-99
    • /
    • 2020
  • In this study, we tried to produce moving-image works through sentiment analysis of music. First, Google natural language API was used for the sentiment analysis of lyrics, then the result was applied to the image visualization rules. In prior engineering researches, text-based sentiment analysis has been conducted to understand users' emotions and attitudes by analyzing users' comments and reviews in social media. In this study, the data was used as a material for the creation of artworks so that it could be used for aesthetic expressions. From the machine's point of view, emotions are substituted with numbers, so there is a limit to normalization and standardization. Therefore, we tried to overcome these limitations by linking the results of sentiment analysis of lyrics data with the rules of formative elements in visual arts. This study aims to transform existing traditional art works such as literature, music, painting, and dance to a new form of arts based on the viewpoint of the machine, while reflecting the current era in which artificial intelligence even attempts to create artworks that are advanced mental products of human beings. In addition, it is expected that it will be expanded to an educational platform that facilitates creative activities, psychological analysis, and communication for people with developmental disabilities who have difficulty expressing emotions.

Effective menu retrieval for electronic information system (전자정보 시스템의 효율적 메뉴검색)

  • Shin, Dong-Wook;Nam, Se-Jin;Bae, Jeon-Gil;Park, Sang-Kyu;Jang, Myeong-Wook;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.409-415
    • /
    • 1994
  • Hitel 과 같은 전자정보 시스템은 사용자가 원하는 정보를 체계적으로 얻을 수 있도록 하기 위하여 메뉴들을 적당히 계층적으로 구성하여 제공하고 있다. 그러나, 보통 이 메뉴들의 계층이 정확한 분류법에 기초하여 만들어지지 않았을 뿐 아니라 그 양도 엄청나게 방대하여, 이 메뉴 계층을 이용하여 사용자가 원하는 정보를 얻기가 쉽지 않다. 실험적으로 보통 Hitel을 자주 이용하는 사람들도 자신이 주로 이용하는 메뉴들의 구성만 이해하고 있을뿐, 사용하지 않는 부분의 메뉴들의 구성은 잘 알지 못하는 것이 일반적이었다. 따라서 Hitel을 자주 이용하는 사용자도 자신이 이용해 보지 않은 정보를 얻기 쉽지 않으며, 더더욱 초보자에게는 이 메뉴계층을 이용하여 원하는 정보를 얻기가 쉽지 않은 실정이다. 본 연구에서는 정보검색 기술을 이용하여 Hitel과 같은 전자정보 시스템에서 사용자가 쉽게 자신이 원하는 정보를 얻을 수 있는 보조 시스템을 개발하고자 한다. 본 시스템은 사용자가 메뉴계층을 이용하기 전에 간략한 자연어로 입력을 주면, 여기에 적합한 메뉴나 실제 정보를 검색해 낸다. 따라서 사용자는 이 메뉴정보를 이용하여 메뉴계층을 쉽게 따라갈 수 있을 뿐 아니라, 경우에 따라서는 원하는 실제 정보를 검색하기 때문에 메뉴계층을 탐색할 필요가 없다. 본 연구에서는 자연어 입력을 최장 일치 방법으로 의미있는 명사들을 추출하여 불리한 질의어로 만든 후, 명사들 사이의 관계가 표현된 시소러스를 이용하여 이 질의어를 확장시킨다. 다음에 이 질의어들을 메뉴들과 부분/정확부합을 통하여 관련된 메뉴들을 찾아낸 후, 이들의 계층과제를 고려하여 최종 메뉴들을 검색한다. 본 시스템은 현재 C언어로 만들어져 구동중이며, 정확한 실험은 아직 하지 않았지만 높은 검색율을 보이고 있다. industrialized, was improved by introducing pressure in cooling procedure for both carbon and iron thermistors.er>$CHCl_3$>Hexane층 순으로 높은 활성을 나타냈다. 5. 아질산염소거능은 끝순, 들깨잎, 콩나물이 우수하였고 그중 들깨잎이 저해율 72%로 가장 높았으며, 용매분획 중에는 BuOH과 water추출물의 활성이 가장 높았다. 6. ACE 저해 효과는 고구마 부위별로는 끝순이 괴근에 비하여 1.5배 높았고, 들깨잎, 콩나물, 시금치보다 $1.9{\sim}3.7$배 높았다. 용매분획별로는 EtOAc, BuOH, water 추출물이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에 따라 단백질(蛋白質) 함량(含量)도 증가(增加)하였다. 7. CHS-

  • PDF

"Hey Alexa, Would You Create a Color Palette?" UX/UI Designers' Perspectives on Using Natural Language to Interact with Future Intelligent Design Assistants ("알렉사, 색상 팔레트를 만들어줄 수 있어?" 지능형 디자인 비서와 자연어로 협업을 수행할 UX/UI 디자이너의 생각)

  • Bertao, Renato Antonio;Joo, Jaewoo
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.11
    • /
    • pp.193-206
    • /
    • 2021
  • Artificial Intelligence (AI) has been inserted into people's lives through Intelligent Virtual Assistants (IVA), like Alexa. Moreover, intelligent systems have expanded to design studios. This research delves into designers' perspectives on developing AI-based practices and examines the challenges of adopting future intelligent design assistants. We surveyed UX/UI professionals in Brazil to understand how they use IVAs and AI design tools. We also explored a scenario featuring the use of Alexa Sensei, a hypothetical voice-controlled AI-based design assistant mixing Alexa and Adobe Sensei characteristics. The findings indicate respondents have had limited opportunities to work with AI, but they expect intelligent systems to improve the efficiency of the design process. Further, majority of the respondents predicted that they would be able to collaborate creatively with AI design systems. Although designers anticipated challenges in natural language interaction, those who already adopted IVAs were less resistant to the idea of working with Alexa Sensei as an AI design assistant.