연산자 LIKE의 새로운 한글 탐색 패턴

A New Korean Search Pattern of the Operator LIKE

  • 박성철 (경북대학교 전자전기컴퓨터) ;
  • 노은향 (한국신발피혁연구소 생산시스템연구팀) ;
  • 박영철 (경북대학교 전자전기컴퓨터) ;
  • 박종철 ((주)퓨전소프트 R&D3그룹)
  • 발행 : 2007.06.15

초록

데이타베이스 언어인 SQL의 연산자 LIKE는 문자열을 탐색하기 위한 연산자로서 문자열 양식을 설정함으로써 그에 부합하는 칼럼값들을 식별할 수 있게 한다. 표음문자인 한글의 각 음절은 초성과 중성으로 구성되거나 초성, 중성, 그리고 종성으로 구성된다. 본 논문은 연산자 LIKE의 한글 음절의 탐색 양식으로서 한글 음절로 표현되는 기존 양식에 추가하여 한글의 초성과 중성에 기반한 새로운 양식을 제안한다. 제안하는 한글 탐색 양식은 특정 초성을 가지는 한글 음절들, 특정 중성을 가지는 한글 음절들, 또는 특정 초성과 중성을 가지는 한글 음절들을 탐색할 수 있게 한다. 제안하는 한글 탐색 양식을 SQL의 기존 연산자들로 표현하는 것은 실질적으로 많은 불편을 수반하며 DBMS의 문자 집합에 따라 응용 프로그램의 호환성 문제를 초래할 수 있다. 본 논문은 제안하는 한글 탐색 양식을 고려한 연산자 LIKE의 수행 알고리즘을 한글과 한자에 대한 정보 교환용 부호계의 국가 표준인 KS X 1001로 표현된 문자들을 기반으로 제시한다.

The operator LIKE of the database language SQL is a string pattern search operator. By providing the string pattern, the operator can identify column values that match with the string pattern. As a phonetic symbol, each Korean syllable is composed either of a leading sound and a medial sound or of a leading sound, a medial sound, and a trailing sound. As a search pattern of Korean syllables of the operator LIKE, in addition to the traditional Korean search pattern, this paper proposes a new search pattern that is based on leading sounds and medial sounds of Korean. With the new Korean search pattern, Korean syllables having specific leading sounds, specific medial sounds, or both specific leading sounds and medial sounds can be found. Formulating predicates equivalent with the new Korean search pattern by way of existing SQL operators is cumbersome and might cause the portability problem of applications depending on the underlying character set of the DBMS. This paper presents algorithms for the execution of the operator LIKE considering the new Korean search pattern based on the characters that are represented in KS X 1001, which is a Korean standard code for information interchange of Korean and Chinese.

키워드

참고문헌

  1. American National Standards Institute, The Database Language SQL, Standard No. X3.135-1992, New York, 1992
  2. J. Melton, A. R. Simon, Understanding the new SQL: A complete guide, Morgan Kaufmann Publishers, Inc., San Mateo, California, 1993
  3. Korean Standards Information Center, Code for information interchange (Hangul and Hanja), Standard No. KS X 1001, 2002
  4. The Unicode, http://www.unicode.org
  5. 김경석, 컴퓨터 속의 한글 이야기 ? 둘째 보따리 ? , 부산대학교 출판부, 1999
  6. Korean Standards Information Center, Keyboard layout for information processing, Standard No. KS X 5002, 1982
  7. 조관현, 한글 두음 문자열 검색 방법 및 장치 (METHOD AND APPARATUS FOR SEARCHING THE INITIAL SOUND STRING KOREAN CHARACTER), 대한민국 특허 등록 번호 10-02850119, 등록일자 2000년 12월 29일
  8. ORACLE, Oracle 10g Downloads, http://www.oracle.com/technology/software/products/database/oracle10g/index.html, 2005
  9. Microsoft, LIKE (Transact-SQL), http://msdn2.microsoft.com/en-us/library/ms179859.aspx, 2006
  10. Y. C. Park, J. H. Cho, G. J. Cha, and P. Scheuermann, 'Efficient Schemes of Executing Star Operators in XPath Query Expressions,' Proc. of the 11th International Conference on DASFAA, pp. 264-278, April 2006 https://doi.org/10.1007/11733836_20
  11. 박준현, 박영철, 이진수, 'B+-트리에서 키와 구분자의 저장과 탐색', 한국정보과학회 논문지(C), 제3권 제6호, pp. 568-580, 1997
  12. S. H. Kim, M. S. Jung, J. H. Park, and Y. C. Park, 'A Design and Implementation of Savepoints and Partial Rollbacks considering Transaction Isolation Levels of SQL2,' Proc. of the 6th International Conference on DASFAA, pp. 303-312, April 1999 https://doi.org/10.1109/DASFAA.1999.765764
  13. Y. C. Park, M. H. Cha, and J. H. Park, 'An Efficient Scheme of Deleting All Records in a Table,' Proc. of the 7th World Multiconference on Systemics, Cybernetics and Informatics, pp 203-208, 2003
  14. 노은향, LIKE 연산에서 한글 탐색 양식[석사학위 논문], 경북대학교, 2006
  15. The Unicode Consortium, Unicode 4.0 Special Areas and Format Characters, http://www.unicode.org/versions/Unicode4.0.0/ch15.pdf
  16. The Unicode Consortium, Unicode 4.0 Conformance, http://www.unicode.org/versions/Unicode4.0.0/ch03.pdf
  17. http://www.celldb.co.kr
  18. S. C. Park, E. H. Lo, J. C. Park, Y. C. Park, 'A Korean Search Pattern in the LIKE Operation,' Proc. of the 9th International Conference on Enterprise Information Systems, June 2007(to be appeared)
  19. S. Poon, M. Sud, R. Chong, Understanding DB2 Universal Database character conversion, http://www-128.ibm.com/developerworks/db2/library/techarticle/dm-0506chong/, IBM, 2005
  20. S. Law, Globalization Support Oracle Unicode database support. An Oracle White Paper, Oracle Corporation, 2001
  21. M. Kaplan, International Features in Microsoft SQL Server 2000, http://msdn.microsoft.com/library/default.asp?url=/library/en- us/dnsql2k/html/intlfeaturesinsqlserver2000.asp, 2001