• 제목/요약/키워드: SQL 쿼리 변환

검색결과 7건 처리시간 0.02초

대형 언어 모델의 한국어 Text-to-SQL 변환 능력 평가 (Evaluation of Large Language Models' Korean-Text to SQL Capability)

  • 최주영;민경구;심묘섭;정해민;박민준;최정규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.171-176
    • /
    • 2023
  • 최근 등장한 대규모 데이터로 사전학습된 자연어 생성 모델들은 대화 능력 및 코드 생성 태스크등에서 인상적인 성능을 보여주고 있어, 본 논문에서는 대형 언어 모델 (LLM)의 한국어 질문을 SQL 쿼리 (Text-to-SQL) 변환하는 성능을 평가하고자 한다. 먼저, 영어 Text-to-SQL 벤치마크 데이터셋을 활용하여 영어 질의문을 한국어 질의문으로 번역하여 한국어 Text-to-SQL 데이터셋으로 만들었다. 대형 생성형 모델 (GPT-3 davinci, GPT-3 turbo) 의 few-shot 세팅에서 성능 평가를 진행하며, fine-tuning 없이도 대형 언어 모델들의 경쟁력있는 한국어 Text-to-SQL 변환 성능을 확인한다. 또한, 에러 분석을 수행하여 한국어 문장을 데이터베이스 쿼리문으로 변환하는 과정에서 발생하는 다양한 문제와 프롬프트 기법을 활용한 가능한 해결책을 제시한다.

  • PDF

XML과 관계형 데이타베이스 매핑을 통한 자료의 변환 (Data Transformation through Mapping between XML and Relation Database)

  • 김길준
    • 한국컴퓨터정보학회논문지
    • /
    • 제9권4호
    • /
    • pp.5-12
    • /
    • 2004
  • XML과 데이터베이스간의 자료 변환의 원리는 XML과 데이터베이스 간 매칭의 원리로 이루어진다. SQL Server의 데이터에 접근하기 위한 방법은 URL에 SQL 쿼리를 지정하는 방법과 template 파일을 이용하는 방법이 있다. MS-SQL 서버는 OpenXML 기능을 이용하여 기존의 관계형 데이터베이스에 대해 SQL 쿼리를 실행한 결과를 XML 문서로 변환한다. 즉, OpenXML은 노드 트리를 생성한 후에 XML 문서의 로우셋 데이터를 반환하고, XML 데이터를 관계형 형식으로 얻게 한다. XML 데이터를 데이터베이스 데이터로 삽입하기 위해서는 sp_xml_preparedocument 프로시져를 사용하여, XML 문서를 파싱해 데이터를 추출한 후. 그 문서의 노드 구조를 메모리의 트리 구조로 매핑해서 데이터베이스 테이블에 저장하게 된다. 결국 XML과 데이터베이스간의 자료 변환의 원리는 XML과 데이터베이스간 매칭의 원리로 이루어진다. 본 논문에서는 매핑 원리를 제시한 후 SQL Server의 지원하에 두 자료간의 변환을 구현해 보임으로서 자료의 확장성과 효율성 및 다양한 효과를 가져올 수 있음을 제시하고 있다.

  • PDF

SQL/MM Part5를 지원하는 쿼리변환기의 설계 및 구현 (A Design and Implementation of a Query Interpreter for SQL/MM Part5)

  • 강기준;이부권;서영건
    • 디지털콘텐츠학회 논문지
    • /
    • 제6권2호
    • /
    • pp.107-112
    • /
    • 2005
  • 인터넷 기술의 발전으로 멀티미디어 데이터의 중요성과 활용도가 증가됨에 따라 데이터베이스에서 멀티미디어 데이터를 표현하고 처리하기 위한 연구가 필요하게 되었다. 관계형 데이터베이스에서는 멀티미디어 데이터를 저장하기 위한 단순히 저장구조만을 지원하지만 멀티미디어에 대한 데이터형, 표한 질의에 대한 지원은 미흡하다. 이러한 문제를 해결하기 위해 ISO/IEC에서 멀티미디어 데이터를 위해 SQL 멀티미디어(SQL/MM)을 표준화하였다. 그러나 SQL/MM은 객체 관계형 데이터베이스에서는 지원하지만 RDBMS에서는 지원하지 않는다. 따라서 본 논문에서는 RDBMS 중 하나인 MS-SQL 2000에서 SQL/MM 지원하기 위해 쿼리변환기를 제안하고 이를 이용한 이미지 검색 프로그램도 함께 보인다. 쿼리 변환기는SQL/MM을 SQL로 변환하는 기능 외에 이미지 중복 체크기능을 추가로 제공한다. 그리고 쿼리 변환기를 이용한 이미지 처리 프로그램은 RDBMS 기반의 기존시스템과 쉽게 통합 운영이 가능하다.

  • PDF

SQL Injection 공격 방지를 위한 코드 변환 애플리케이션 설계 및 구현 (Design and Implementation of SQL Injection attack prevention code conversion application)

  • 하만석;박수현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.441-444
    • /
    • 2014
  • 인터넷의 보급에 따른 신속정확하고 편리한 정보처리의 장점에도 불구하고 최근 들어 급증하고 있는 보안 관련 사고들로 인하여 개인정보 및 기업정보의 관리에 대한 대책 마련이 시급한 가운데 있다. 그 중에서도 SQL 삽입 공격에 의한 악의적인 관리자 권한 획득 및 비정상적인 로그인 등으로 인하여 많은 피해가 발생하고 있다. 현재 SQL Injection에 관련된 대부분의 연구는 공격을 탐지하는 방법에 초점이 맞추어져 있다. 본 논문에서는 프로그램 코드를 분석하여 따옴표가 포함된 취약한 인라인 SQL 쿼리 구문을 찾아서 매개변수화된 쿼리로 변경하는 기능을 제공함으로써 근본적인 해결책을 찾고자 하였으며 Java, C#.net 등 다양한 언어를 지원하여 개발 업무에서의 활용성을 높이고자 하였다.

SPARQL-to-SQL: 질의 성능 향상을 위한 캐시 관리자 (SPARQL-to-SQL: Cache Manager for Advanced Query Efficiency)

  • 김석현;이상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.765-766
    • /
    • 2009
  • 시맨틱(Semantic) 온톨로지(Ontology)에서 SPARQL 질의언어는 W3C 로부터 표준으로 제정된 이후부터 활발히 연구 되고 있다. 그리고 현재까지 온톨로지 기반 어플리케이션 개발이 다방면으로 진행되어 왔는데, 현재 개발된 온톨로지 어플리케이션들은 시맨틱 데이터 저장 및 질의 처리가 파일시스템 기반 및 데이터베이스 기반 방식으로 나누어 진다. 그 중 데이터베이스 기반 방식은 최근부터 연구가 진행되어 왔고 실제 개발된 어플리케이션도 있지만, 아직 질의 최적화 기술에 대해서는 개선할 수 있는 여지가 많다. 따라서 본 논문에서는 관계형 데이터 베이스를 기반한 온톨로지 데이터 저장 및 질의 처리 방법에서 캐시를 이용한 질의 속도 향상 방법을 제시하도록 하겠다. SPQARQL에서 변환된 SQL 질의 수행시 그 결과를 캐시하고, 후속 SQL 질의를 이전 질의와 비교하여 이전 SQL 질의와 일치하거나 그 결과가 포함 될 경우 캐시된 결과를 사용해 쿼리 속도를 향상 시킬 수 있다.

챗봇 환경에서 데이터 시각화 인터랙션을 위한 자연어처리 모델 (Natural Language Processing Model for Data Visualization Interaction in Chatbot Environment)

  • 오상헌;허수진;김성희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권11호
    • /
    • pp.281-290
    • /
    • 2020
  • 스마트폰의 보급으로 인해 개인화된 데이터를 활용하고자 하는 서비스들이 증가하고 있다. 특히, 헬스케어와 관련된 서비스들은 다양한 데이터를 다루며, 이를 효과적으로 보여주기 위해 데이터 시각화 기법을 활용하고 있다. 데이터 시각화 기법이 활용되면서 자연스럽게 시각화에서의 인터랙션 또한 함께 강조되고 있다. PC 환경에서 데이터 시각화에 대한 인터랙션은 마우스로 이루어지기 때문에, 데이터에 대한 필터링이 다양하게 제공되고 있다. 반면, 모바일 환경에서의 인터랙션은 화면의 크기가 작고, 인터랙션 가능 여부를 인지하기 어려워 버튼 터치 방식으로 앱에서 제공하는 제한된 시각화만을 제공받을 수 있다. 이러한 모바일 환경에서의 인터랙션 한계를 극복하기 위해, 챗봇과의 대화를 통해 데이터 시각화 인터랙션을 가능하게 하여 사용자들에게 개개인의 데이터를 다양한 시각화를 통해 확인할 수 있도록 하고자 한다. 이를 위해서는 사용자의 질의를 쿼리로 변환하여, 주기적으로 데이터를 축적하고 있는 데이터베이스에서 변환된 쿼리를 통해 결과 데이터를 불러올 수 있어야 한다. 자연어를 쿼리로 변환하는 연구는 현재 많이 이루어지고 있지만, 시각화를 기반으로 하여 사용자의 질의를 쿼리로 변환하는 연구에 대해서는 아직 이루어지지 않았다. 따라서, 본 논문에서는 사전에 데이터 시각화 기법이 정해진 상황에서의 쿼리 생성에 초점을 맞추고자 한다. 지원하는 인터랙션은 태스크 x-축 값에 대한 필터링 및 두 그룹 간 비교이다. 테스트 시나리오는 걸음 수에 대한 데이터를 활용하였으며, x-축 기간에 대한 필터링은 바 그래프, 두 그룹간 비교는 라인 그래프로 나타내었다. 시각화를 통해 요청한 정보를 제공받을 수 있는 자연어처리 모델을 개발하기 위해 1,000명을 대상으로 한 설문조사를 통해 약 15,800개의 학습 데이터를 수집하였다. 알고리즘 개발 및 성능 평가를 진행한 결과, 분류 모델에서는 약 89%, 쿼리 생성 모델에서는 약 99% 정확도를 보였다.

지식 기반 추론 엔진을 이용한 자동화된 데이터베이스 튜닝 시스템 (Automated-Database Tuning System With Knowledge-based Reasoning Engine)

  • 강승석;이동주;정옥란;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (A)
    • /
    • pp.17-18
    • /
    • 2007
  • 데이터베이스 튜닝은 일반적으로 데이터베이스 어플리케이션을 "좀 더 빠르게" 실행하게 하는 일련의 활동을 뜻한다[1]. 데이터베이스 관리자가 튜닝에 필요한 주먹구구식 룰(Rule of thumb)들을 모두 파악 하고 상황에 맞추어 적용하는 것은 비싼 비용과 오랜 시간을 요구한다. 그렇게 때문에 서로 다른 어플 리케이션들이 맞물려 있는 복잡한 서비스는 필수적으로 자동화된 데이터베이스 성능 관리와 튜닝을 필 요로 한다. 본 논문에서는 이를 해결하기 위하여 지식 도매인(Knowledge Domain)을 기초로 한 자동화 된 데이터베이스 튜닝 원칙(Tuning Principle)을 제시하는 시스템을 제안한다. 각각의 데이터베이스 튜닝 이론들은 지식 도매인의 지식으로 활용되며, 성능에 영향을 미치는 요소들을 개체(Object)와 콘셉트 (Concept)로 구성하고 추론 시스템을 통해 튜닝 원칙을 추론하여 쉽고 빠르게 현재 상황에 맞는 튜닝 방법론을 적용시킬 수 있다. 자동화된 데이터베이스 튜닝에 대해 여러 분야에 걸쳐 학문적인 연구가 이루어지고 있다. 그 예로써 Microsoft의 AutoAdmin Project[2], Oracle의 SQL 튜닝 아키텍처[3], COLT[4], DBA Companion[5], SQUASH[6] 등을 들 수 있다. 이러한 최적화 기법들을 각각의 기능적인 방법론에 따라 다시 분류하면 크게 Design Tuning, Logical Structure Tuning, Sentence Tuning, SQL Tuning, Server Tuning, System/Network Tuning으로 나누어 볼 수 있다. 이 중 SQL Tuning 등은 수치적으로 결정되어 이미 존재하는 정보를 이용하기 때문에 구조화된 모델로 표현하기 쉽고 사용자의 다양한 요구에 의해 변화하는 조건들을 수용하기 쉽기 때문에 이에 중점을 두고 성능 문제를 해결하는 데 초점을 맞추었다. 데이터베이스 시스템의 일련의 처리 과정에 따라 DBMS를 구성하는 개체들과 속성, 그리고 연관 관계들이 모델링된다. 데이터베이스 시스템은 Application / Query / DBMS Level의 3개 레벨에 따라 구조화되며, 본 논문에서는 개체, 속성, 연관 관계 및 데이터베이스 튜닝에 사용되는 Rule of thumb들을 분석하여 튜닝 원칙을 포함한 지식의 형태로 변환하였다. 튜닝 원칙은 데이터베이스 시스템에서 발생하는 문제를 해결할 수 있게 하는 일종의 황금률로써 지식 도매인의 바탕이 되는 사실(Fact)과 룰(Rule) 로써 표현된다. Fact는 모델링된 시스템을 지식 도매인의 하나의 지식 개체로 표현하는 방식이고, Rule 은 Fact에 기반을 두어 튜닝 원칙을 지식의 형태로 표현한 것이다. Rule은 다시 시스템 모델링을 통해 사전에 정의되는 Rule와 튜닝 원칙을 추론하기 위해 사용되는 Rule의 두 가지 타업으로 나뉘며, 대부분의 Rule은 입력되는 값에 따라 다른 솔루션을 취하게 하는 분기의 역할을 수행한다. 사용자는 제한적으로 자동 생성된 Fact와 Rule을 통해 튜닝 원칙을 추론하여 데이터베이스 시스템에 적용할 수 있으며, 요구나 필요에 따라 GUI를 통해 상황에 맞는 Fact와 Rule을 수동으로 추가할 수도 었다. 지식 도매인에서 튜닝 원칙을 추론하기 위해 JAVA 기반의 추론 엔진인 JESS가 사용된다. JESS는 스크립트 언어를 사용하는 전문가 시스템[7]으로 선언적 룰(Declarative Rule)을 이용하여 지식을 표현 하고 추론을 수행하는 추론 엔진의 한 종류이다. JESS의 지식 표현 방식은 튜닝 원칙을 쉽게 표현하고 수용할 수 있는 구조를 가지고 있으며 작은 크기와 빠른 추론 성능을 가지기 때문에 실시간으로 처리 되는 어플리케이션 튜닝에 적합하다. 지식 기반 모률의 가장 큰 역할은 주어진 데이터베이스 시스템의 모델을 통하여 필요한 새로운 지식을 생성하고 저장하는 것이다. 이를 위하여 Fact와 Rule은 지식 표현 의 기본 단위인 트리플(Triple)의 형태로 표현된다, 트리플은 Subject, Property, Object의 3가지 요소로 구성되며, 대부분의 Fact와 Rule들은 트리플의 기본 형태 또는 트리플의 조합으로 이루어진 C Condition과 Action의 두 부분의 결합으로 구성된다. 이와 같이 데이터베이스 시스템 모델의 개체들과 속성, 그리고 연관 관계들을 표현함으로써 지식들이 추론 엔진의 Fact와 Rule로 기능할 수 있다. 본 시스템에서는 이를 구현 및 실험하기 위하여 웹 기반 서버-클라이언트 시스템을 가정하였다. 서버는 Process Controller, Parser, Rule Database, JESS Reasoning Engine으로 구성 되 어 있으며, 클라이 언트는 Rule Manager Interface와 Result Viewer로 구성되어 었다. 실험을 통해 얻어지는 튜닝 원칙 적용 전후의 실행 시간 측정 등 데이터베이스 시스템 성능 척도를 비교함으로써 시스템의 효용을 판단하였으며, 실험 결과 적용 전에 비하여 튜닝 원칙을 적용한 경우 최대 1초 미만의 전처리에 따른 부하 시간 추가와 최소 약 1.5배에서 최대 약 3배까지의 처리 시간 개선을 확인하였다. 본 논문에서 제안하는 시스템은 튜닝 원칙을 자동으로 생성하고 지식 형태로 변형시킴으로써 새로운 튜닝 원칙을 파생하여 제공하고, 성능에 영향을 미치는 요소와 함께 직접 Fact과 Rule을 추가함으로써 커스터마이정된 튜닝을 수행할 수 있게 하는 장점을 가진다. 추후 쿼리 자체의 튜닝 및 인텍스 최적화 등의 프로세스 자동화와 Rule을 효율적으로 정의하고 추가하는 방법 그리고 시스템 모델링을 효과적으로 구성하는 방법에 대한 연구를 통해 본 연구를 더욱 개선시킬 수 있을 것이다.

  • PDF