• 제목/요약/키워드: 메타문자

검색결과 28건 처리시간 0.022초

메타문자를 사용한 한국어 사전 탐색 앱 (Korean Word Search App Using Meta-characters)

  • 권홍석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.110-113
    • /
    • 2011
  • 스마트 폰의 보급이 대중화됨에 따라 다양한 앱들이 사용되고 있으나 효율적인 사전 탐색에 관한 앱은 그다지 많지 않다. 현재 공개된 한국어 사전 탐색 앱은 완전한 단어이거나 단어의 부분 문자열을 질의로 사용한다. 이 경우 완전한 단어를 기억하지 못하거나 한국어 정보처리를 위한 여러 형태의 음운 정보를 쉽게 탐색할 수 없다. 이러한 문제를 개선하기 위해 본 논문에서는 메타문자를 사용하여 효율적으로 단어를 탐색할 수 있는 앱을 개발한다. 본 논문에서 사용하는 메타문자는 임의의 음절을 표현하는 '*'와 '?'과 종성을 표현하는 ':'를 사용하며 사전구조는 자소 단위의 트라이를 사용한다. 또한 음절은 물론이고 자소(초성, 중성, 종성)로 구성된 질의를 탐색할 수 있다. 더구나 음절과 자소가 혼합된 질의도 사용할 수 있도록 하여 사용자의 편의를 크게 도모하였다.

  • PDF

질의어 자동수정을 이용한 메타시소러스 검색 방법 (The Method of Searching Metathesaurus, Using Automatic Modified a Query)

  • 김종광;하원식;김태용;류중경;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.454-456
    • /
    • 2003
  • UMLS(2003AA edition 기준)의 메타시소러스는 다국어를 지원하며 875.233개의 개 (concept)과 2,146,897개의 개념명(concept name)을 포함한다. 현재 UMLS 메타시소러스 검색을 제공하는 PubMed나 NLM에서는 UMLS에서는 개념명에 존재하지 않는 잘못된 질의나, 잘못된 구문 또는 개념명의 일부를 이용한 검색이 불가능하다. 이는 사용자가 UMLS에서 정보를 얻기 위해서는 정확한 의학용어를 숙지해야 되며. UMLS 메타시소러스의 데이터가 잘못 되었을 경우 정보를 얻을 수 없다. 본 연구에서는 이러한 문제점을 보완하기 위해서 자연어처리에서 연구되고 있는 문자열 간의 유사도 측정방식을 적용하여 잘못된 질의어에 대한 자동수정 기능을 이용한 메타시소러스 검색방법을 제안한다. 제안한 방법에서는 질의어를 자동수정하기 위하여 철자사전을 자동으로 추출하고 문자열 비교알고리즘을 도입하여 질의어와 철자사전간의 용어의 유사도를 측정한다. 유사도에 의하여 얻어진 용어를 메타시소러스의 형식에 맞게 변환하여 질의에 대한 최적의 결과를 얻을 수 있도록 한다. 제안된 방법의 성능을 평가하기 위해서 최근(2003년 8월) bi-gram 방식을 도입한 NLM에서의 시스템과 비교 평가한다.

  • PDF

과학기술정보를 위한 특수문자 표기법 표준화에 관한 연구 (A Study on the Encoding Scheme Standard of Special Characters in Science & Technology Information)

  • 이수상
    • 정보관리연구
    • /
    • 제36권3호
    • /
    • pp.27-49
    • /
    • 2005
  • 과학기술정보 서비스를 위한 메타데이터 작업에서 특수문자의 표기법은 항상 중요한 문제였다. 그러므로 본 연구에서는 특수문자의 표기법의 표준화를 위한 방안을 모색하는 작업을 하였다. 이를 위하여, KISTI의 YesKisti에 나타난 특수문자의 다양한 표기사례를 조사하고, 특수문자 표기문제를 표준화의 관점에서 관련된 주요한 현안과 표준동향을 검토하였다. 그런 다음 국내 환경에서, 과학기술정보 특수문자 표기의 표준화를 위한 요건과 과제를 도출하였다.

중학생들의 매개변수개념 분석과 교수-학습방안 탐색 (The Analysis of Students' Conceptions of Parameter and Development of Teaching-Learning Model)

  • 이종희;김부미
    • 대한수학교육학회지:학교수학
    • /
    • 제5권4호
    • /
    • pp.477-506
    • /
    • 2003
  • 본 연구는 중학교 3학년 학생들이 문자와 식, 방정식, 함수에 대한 문제 해결과정에서 미지수, 변수, 매개변수로 사용되는 문자의 의미를 어떻게 이해하고 있는지를 살펴봄으로써, 매개변수로서 문자가 이해되는 과정을 분석한다. 그리고 학생들이 문제를 해결할 때 매개변수로서의 문자의 의미를 이해하면서 유연하게 변환할 수 있도록 메타인지 사고전략을 활용한 수업 설계 모형인 '자기질문에 의한 자기조정형 수업모형을 제안한다. 분석결과, 학생들은 문제의 문맥에서 매개변수의 역할을 미지수, 변수의 역할과 비교해 볼 때 매개변수는 상수를 대신하는 문자로 인식하는 경향이 강했으며, 주어진 방정식의 매개변수였던 문자는 구문론적 조작을 거치면서 변수나 미지수의 역할로 변환하는 경우에 그 의미와 역할을 불확실하게 이해하고 있었다. 그리고, 문맥상 매개변수의 의미를 파악하여 생각하기보다는 문맥의 전후관계를 살피지 않고 연산과 기호조작을 이용하여 파악하는 경향이 강했으며, 직선의 그래프로 제시했을 때 학생들은 매개변수의 의미를 좌표평면 상에서 직선의 위치를 결정하는 요소로서 해석하는 능력이 부족하였다.

  • PDF

AI를 활용한 메타데이터 추출 및 웹서비스용 메타데이터 고도화 연구 (Metadata extraction using AI and advanced metadata research for web services)

  • 박성환
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.499-503
    • /
    • 2024
  • 방송 프로그램은 자체 방송 송출 외에도 인터넷 다시 보기, OTT, IPTV 서비스 등 다양한 매체에 제공되고 있다. 이 경우 콘텐츠 특성을 잘 나타내는 검색용 키워드 제공은 필수적이다. 방송사에서는 제작 단계, 아카이브 단계 등에서 주요 키워드를 수동으로 입력하는 방법을 주로 사용한다. 이 방식은 양적으로는 핵심 메타데이터 확보에 부족하고, 내용 면에서도 타 매체 서비스에서 콘텐츠 추천과 검색에 한계를 드러낸다. 본 연구는 EBS에서 개발한 DTV 자막방송 서버를 통해 사전 아카이빙 된 폐쇄형 자막 데이터를 활용하여 다수의 메타데이터를 확보하는 방법을 구현했다. 먼저 구글의 자연어 처리 AI 기술을 적용하여 핵심 메타데이터를 자동으로 추출하였다. 다음 단계는 핵심 연구 내용으로 우선순위와 콘텐츠 특성을 반영하여 핵심 메타데이터를 찾는 방법을 제안한다. 차별화된 메타데이터 가중치를 구하는 기술로는 TF-IDF 계산법을 응용하여 중요도를 분류했다. 실험 결과 성공적인 가중치 데이터를 얻었다. 이 연구로 확보한 문자열 메타데이터는 추후 문자열 유사도 측정 연구와 결합하면 타 매체에 제공하는 콘텐츠 서비스에서 정교한 콘텐츠 추천용 메타데이터를 확보하는 기반이 된다.

문자 인식에서의 Fuzzy Membership Function

  • 양순성;남기동;김영종;이균하
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.191-198
    • /
    • 1990
  • 본 논문에서는 문서 자동 인식 시스템에서 다중 카테고리로 모호하게 인식되어 질 수 있는 조합 심볼을 하나의 메타 심볼로 간주하고, 이 심볼을 fuzzy set theory에 기초를 두어 분석을 하였다. 분석 과정에서는 메타 심볼이 갖는 프리미티브들의 기울기와 길이, 프리미티브들간의 연결 및 프리미티브의 위치등의 어트리뷰트들을 이용하였다. 모호성을 내재하고 있는 메타 심볼들을 ACS(Ambiguous Category Set)의 원소로 간주하였으며, ACS의 원소들은 모호성의 원인을 제공하는 부분패턴들을 공동으로 포함하고 있다. 부분패턴을 구성하고 있는 프리미티브를 분리하여 어트리뷰트 값을 측정하고, 정의한 MF(Membership 함수)의 파라메터로 사용하였다. MF에서 얻어진 MFV(Membership Function Value)는 모호한 메타 심볼이 어떤 카테고리로 분류될 수 있는지를 나타내도록 하였다.

  • PDF

메타 검색엔진을 위한 페이지 변경 탐지기 설계 (Design of A Page Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.205-207
    • /
    • 2001
  • 웹 상의 HTML 문서들은 수시로 변경되고 있으며, 정보를 검색하는 웹사이트 또한 예외는 아니다. 다수의 웹 검색엔진들의 결과를 통합하는 메타 검색엔진은 각 검색엔진의 정보 변경에 민감해야 된다. 본 논문은, 수시로 변경되는 검색엔진들의 HTML 문서 정보를 메타 검색 엔진에 반영하기 위해, 자동적으로 검색엔진들의 질의 형태 변경과 검색 엔진의 검색 결과 HTML 문서의 구조 변경 탐지는 질의 결과가 반복되는 HTML 태그(tags) 문서 구조를 패턴(pattern)으로 이용한다. 패턴 발견 알고리즘은 문자열에서 규칙적으로 발생하는 패턴을 찾아내는 Jaak Vilo 알고리즘을 기반으로 HTML 문서를 처리할 수 있도록 확장하였다. 발견된 HTML 문서 패턴과 기존의 검색 엔진 HTML 페이지의 구조적 패턴 정보를 비교하여 문서 구조 변경을 탐지한다.

  • PDF

인쇄 문서 영상의 단어 단위 속성 인식 (Recognition of Word-level Attributed in Machine-printed Document Images)

  • 곽희규;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권5호
    • /
    • pp.412-421
    • /
    • 2001
  • 본 논문은 문서 영상에 존재하는 개별 단어들에 대한 속성정보 추출 방법을 제안한다. 단어 단위의 속성 인식은 단어 영상 매칭의 정확도 및 속도 개선, OCR 시스템에서 인식률 향상, 문서의 재생산 등 다양한 응용 가치를 찾을 수 있으며, 메타정보(meta-information) 추출을 통해 영상 검색(image retrieval)이나 요약(summary) 생성 등에 활용할 수 있다. 제안하는 시스템에서 고려하는 단어 영상의 속성은 언어의 종류(한글, 영문), 스타일(볼드, 이탤릭, 보통, 밑줄), 문자 크기(10, 12, 14 포인트), 문자 개수 (한글: 2, 3, 4, 5, 영문: 4, 5, 6, 7, 8, 9, 10), 서체(명조, 고딕)의 다섯 가지 정보이다. 속성 인식을 위한 특징은, 언어 종류 인식에 2개, 스타일 인식에 3개, 문자 크기와 개수는 각각 1개, 한글 서체 인식은 1개, 영문 서체 인식은 2개를 사용한다. 분류기는 신경망, 2차형 판별함수(QDF), 선형 판별함수(LDF)를 계층적으로 구성한다. 다섯 가지 속성이 조합된 26,400개의 단어 영상을 사용한 실험을 통해, 제안된 방법이 소수의 특징만으로도 우수한 속성 인식 성능을 보임을 입증하였다.

  • PDF

스마트 TV를 위한 전역 문자열 테이블 기반의 효율적인 XML 메타데이터 캡슐화 구조 (The Global String Table based Encapsulation Method of XML Metadata for Smart TV)

  • 오봉진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(D)
    • /
    • pp.351-353
    • /
    • 2012
  • 최근에 XML은 가독성과 확장성이란 장점 때문에 IPTV나 스마트 TV에서 서비스나 콘텐츠 정보 표현 및 검색을 위한 기술로 많이 사용되고 있다. 특히 TV-Anytime에서 정의한 스키마나 전송 프로토콜을 기본 규격으로 채택하고 필요한 기능을 수용하기 위하여 규격을 확장하는 경향을 보이고 있다. 그러한 장점에도 불구하고 XML은 텍스트 기반으로 정보를 표현함으로써 정보의 양이 커진다는 문제가 존재하고 이를 위하여 다양한 인코딩 방식이 제공되고 있다. 그러나 전송과정에서 문서를 독립된 조각으로 단편화하여 블록단위로 캡슐화하는 과정을 거치면서 인코딩 효율이 급격하게 떨어지게 되는 문제가 발생한다. 본 논문에서는 XML 문서를 캡슐화하는 과정에서 단편화를 통해 감소되는 인코딩 효율을 보완할 수 있는 블록 단위의 문자열 테이블 방식을 제안하고 실험을 통한 성능 분석을 제공하였다.

ART2 알고리즘과 얼굴 인증을 이용한 여권 인식 (Passports Recognition using ART2 Algorithm and Face Verification)

  • 장도원;김광백
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 춘계학술대회
    • /
    • pp.190-197
    • /
    • 2005
  • 본 논문에서는 출입국자 관리의 효율성과 체계적인 출입국 관리를 위하여 여권 코드를 자동으로 인식하고 위조 여권을 판별할 수 있는 여권 인식 및 얼굴 인증 방법을 제안한다. 여권 이미지는 기울어진 상태로 스캔되어 획득되어질 수도 있으므로 기울기 보정은 문자 분할 및 인식, 얼굴 인증에 있어 매우 중요하다. 따라서 본 논문에서는 여권 영상을 스미어링한 후, 추출된 문자열 중에서 가장 긴 문자열을 선택하고 이 문자열의 좌측과 우측 부분의 두께 중심을 연결하는 직선과 수평선과의 기울기를 이용하여 여권 여상에 대한 각도 보정을 수행한다. 여권 코드 추출은 소벨 연산자와 수평 스미어링, 8방향 윤곽선 추적 알고리즘을 적용하여 여권 코드의 문자열 영역을 추출하고, 추출된 여권 코드 문자열 영역에 대해 반복 이지화 방법을 적용하여 코드의 문자열 영역을 이진화한다. 이진화된 문자열 영역에 대해 CDM 마스크를 적용하여 문자열의 코드들을 복원하고 8방향 윤곽선 추적 알고리즘을 적용하여 개별 코드를 추출한다. 추출된 개별 코드는 ART2 알고리즘을 적용하여 인식한다. 얼굴 인증을 위해 템플릿 매칭 알고리즘을 이용하여 얼굴 템플릿 데이터베이스를 구축하고 여권에서 추출된 얼굴 영역과의 유사도 측정을 통하여 여권 얼굴 영역의 위조 여부를 판별한다. 얼굴 인증을 위해서 Hue, YIQ-I, YCbCr-Cb 특징들의 유사도를 종합적으로 분석하여 얼굴 인증에 적용한다. 제안된 여권 인식 및 얼굴 인증 방법의 성능을 평가를 위하여 원본 여권에 얼굴 부분을 위조한 여권과 노이즈, 대비 증가 및 감소, 밝기 증가 및 감소 및 여권 영상을 흐리게 하여 실험한 결과, 제안된 방법이 여권 코드 인식 및 얼굴 인증에 있어서 우수한 성능이 있음을 확인하였다.권 영상에서 획득되어진 얼굴 영상의 특징벡터와 데이터베이스에 있는 얼굴 영상의 특징벡터와의 거리 값을 계산하여 사진 위조 여부를 판별한다. 제안된 여권 인식 및 얼굴 인증 방법의 성능을 평가를 위하여 원본 여권에서 얼굴 부분을 위조한 여권과 기울어진 여권 영상을 대상으로 실험한 결과, 제안된 방법이 여권의 코드 인식 및 얼굴 인증에 있어서 우수한 성능이 있음을 확인하였다.진행하고 있다.태도와 유아의 창의성간에는 상관이 없는 것으로 나타났고, 일반 유아의 아버지 양육태도와 유아의 창의성간의 상관에서는 아버지 양육태도의 성취-비성취 요인에서와 창의성제목의 추상성요인에서 상관이 있는 것으로 나타났다. 따라서 창의성이 높은 아동의 아버지의 양육태도는 일반 유아의 아버지와 보다 더 애정적이며 자율성이 높지만 창의성이 높은 아동의 집단내에서 창의성에 특별한 영향을 더 미치는 아버지의 양육방식은 발견되지 않았다. 반면 일반 유아의 경우 아버지의 성취지향성이 낮을 때 자녀의 창의성을 향상시킬 수 있는 것으로 나타났다. 이상에서 자녀의 창의성을 향상시키는 중요한 양육차원은 애정성이나 비성취지향성으로 나타나고 있어 정서적인 측면의 지원인 것으로 밝혀졌다.징에서 나타나는 AD-SR맥락의 반성적 탐구가 자주 나타났다. 반성적 탐구 척도 두 그룹을 비교 했을 때 CON 상호작용의 특징이 낮게 나타나는 N그룹이 양적으로 그리고 내용적으로 더 의미 있는 반성적 탐구를 했다용을 지원하는 홈페이지를 만들어 자료 제공 사이트에 대한 메타 자료를 데이터베이스화했으며 이를 통해 학생들이 원하는 실시간 자료를 검색하여 찾을 수 있고 홈페이지를 방분했을 때 이해하기 어려운 그래프나 각 홈페이지가 제공하는 자료들에 대한 처리 방법을 도움말로 제공받을 수 있게 했다. 실

  • PDF