• Title/Summary/Keyword: 다국어 문서

Search Result 25, Processing Time 0.019 seconds

KoCheckGPT: Korean LLM written document detector (KoCheckGPT: 한국어 초거대언어모델 작성 글 판별기)

  • Myunghoon Kang;Jungseob Lee;Seungyoon Lee;Seongtae Hong;Jeongbae Park;Heuiseok, Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.432-436
    • /
    • 2023
  • 초거대언어모델(LLM)의 도래에 따라 다양한 과업들이 도메인 관계 없이 제로샷으로 추론이 가능해짐에 따라서 LLM이 다양한 산업분야에 적용되고 있다. 대표적으로 ChatGPT와 GPT-4는 상용 API로 서비스를 제공하여 용이한 서비스 접근으로 다양한 이용층을 끌어들이고 있다. 그러나 현재 상용 API로 제공되고 있는 ChatGPT 및 GPT-4는 사용자의 대화 내역 데이터를 수집해 기업의 보안 문제를 야기할 수 있고 또한 생성된 결과물의 환각 문제로 인한 기업 문서의 신뢰성 저하를 초래할 수 있다. 특히 LLM 생성 글은 인간의 글과 유사한 수준으로 유창성을 확보한만큼 산업현장에서 LLM 작성 글이 판별되지 못할 경우 기업 활동에 큰 제약을 줄 수 있다. 그러나 현재 한국어 LLM 작성 글 탐지 서비스가 전무한 실정이다. 본 논문에서는 한국어 초거대언어모델 작성 글 판별기: KoCheckGPT 를 제안한다.KoCheckGPT는 산업현장에서 자주 사용되는 문어체, 개조식 글쓰기로 작성된 문서 도메인을 목표로 하여 글 전체와 문장 단위의 판별 정보를 결합하여 주어진 문서의 LLM 작성 여부를 효과적으로 판별한다. 다국어 LLM 작성 글 판별기 ZeroGPT와의 비교 실험 결과 KoCheckGPT는 우수한 한국어 LLM 작성 글 탐지 성능을 보였다.

  • PDF

Design and Implementation of eBook Annotation Ontology Based on Non-First Normal Form (Non-First Normal Form에 입각한 eBook Annotation 온톨로지의 설계와 구현)

  • Shin Sung-Wook;Kim Jong-Suk;Lim Soon-Bum;Choy Yoon-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.361-363
    • /
    • 2005
  • 본 연구에서는 온라인 다중 사용자 환경의 eBook 어노테이션 시스템 개발에서 데이터를 의미 기반으로 관리하고, 데이터에 대하여 상호 공통적인 이해를 표현하며, 그리고 데이터에 대한 무결성 검사 등을 지원하기 위해서 eBook 어노테이션 온톨로지를 구축하였다. eBook 어노테이션 테이터에 대한 상호 공통적인 이해의 표현을 위해서 한국 전자책 문서 표준인 EBKS(Electronic Book of Korea Standard)를 기반으로 구축 하였으며 구축된 온톨로지는 Conceptual Graph(CG)를 사용하여 표현하였다. 의미 기반의 처리를 위해서 본 온톨로지에서는 다국어(Multilingua) 관계를 고려하였으며 또한 오노테이션 데이터 생성 시 중요도를 표현하기 위해서 중요성 axiom을 고려했고, $NF^2$(Non-First Normal Form)에 입각하여 온톨로지를 설계함으로서 어노테이션 데이터의 검색에 활용도를 높였다. 제안된 온톨로지는 어노테이션 데이터의 재사용성을 높일 수 있고 의미 정보를 활용함으로써 eLearning, cyberclass과 같은 다중 사용자 환경에서 효과적인 협업을 가능하게 한다. 본 연구에서는 구현한 eBook annotation 시스템은 구축한 온톨로지를 사용함으로써 의미 기반의 데이터 관리가 가능하다. 또한 어노테이션 생성 시 온톨로지 구조를 모르더라도 어노테이션을 생성할 수 있는 인터페이스를 구현하였다.

  • PDF

Design and Implementation of Language Learning Device by Using RFID (RFID를 이용한 언어 학습기의 설계 및 구현)

  • Choi, Kwang-Won;Kim, Nam-Hyeoung;Park, Jin-Woong;You, Young-Jun;An, Jung-Ho;Kim, Jin-Hwan;Park, Chan Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.3-5
    • /
    • 2010
  • 최근 학습 패러다임은 문서 중심에서 지식 및 정보 기반으로 크게 변화하고 있다. 또한 유비쿼터스 사회로의 전환을 맞이하여 다양한 USN 기술 기반의 학습 연구가 활발히 진행 중이다. 그 중 RFID 기술 기반의 학습 연구에서는 대부분 유비쿼터스 학습 환경 구축에 관한 연구가 주를 이루고 있다. 따라서 실질적인 학습에 적용하는 연구의 결과는 미미하다. 본 논문에서는 RFID기술 기반의 다국어 학습기를 구현하였다. 태그를 인식하여 특정 사물을 사용자로 하여금 모국어뿐만 아니라 다국어로도 변역하여 여러 가지 언어들을 학습할 수 있게 지원하는 장치이다. 실험에서는 13.56Mhz의 RFID 및 PXA255A ARM보드 사용하여 학습기를 제작하여 효율성 테스트를 하였다.

Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval (과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용)

  • 최용석;최기선
    • Korean Journal of Cognitive Science
    • /
    • v.14 no.1
    • /
    • pp.29-40
    • /
    • 2003
  • Cross-Language Information Retrieval (CLIR) deals with the documents in various languages by one language query. A user who uses one language can retrieve the documents in another language through CLIR system. In CLIR, query translation method is known to be more efficient. For the better performance of query translation, we need more resources like dictionary, ontology, and parallel/comparable corpus but usually not available. This paper proposes a new concept called the Common Base Axis which is adapted to Korean-English Query translation ann a new weighting method in dictionary based query translation. The essential idea is that we can express Korean and English word in one vector space by Common Base Axis and use it in calculating sense distance for query weighting. The experiments show that Common Base Axis gives us good performance without ontology and is especially good for one word query translation.

  • PDF

Search Re-ranking Through Weighted Deep Learning Model (검색 재순위화를 위한 가중치 반영 딥러닝 학습 모델)

  • Gi-Taek An;Woo-Seok Choi;Jun-Yong Park;Jung-Min Park;Kyung-Soon Lee
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.5
    • /
    • pp.221-226
    • /
    • 2024
  • In information retrieval, queries come in various types, ranging from abstract queries to those containing specific keywords, making it a challenging task to accurately produce results according to user demands. Additionally, search systems must handle queries encompassing various elements such as typos, multilingualism, and codes. Reranking is performed through training suitable documents for queries using DeBERTa, a deep learning model that has shown high performance in recent research. To evaluate the effectiveness of the proposed method, experiments were conducted using the test collection of the Product Search Track at the TREC 2023 international information retrieval evaluation competition. In the comparison of NDCG performance measurements regarding the experimental results, the proposed method showed a 10.48% improvement over BM25, a basic information retrieval model, in terms of search through query error handling, provisional relevance feedback-based product title-based query expansion, and reranking according to query types, achieving a score of 0.7810.