• 제목/요약/키워드: 표기 방법

검색결과 384건 처리시간 0.024초

Distance LSTM-CNN with Layer Normalization을 이용한 음차 표기 대역 쌍 판별 (Verification of Transliteration Pairs Using Distance LSTM-CNN with Layer Normalization)

  • 이창수;천주룡;김주근;김태일;강인호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.76-81
    • /
    • 2017
  • 외국어로 구성된 용어를 발음에 기반하여 자국의 언어로 표기하는 것을 음차 표기라 한다. 국가 간의 경계가 허물어짐에 따라, 외국어에 기원을 두는 용어를 설명하기 위해 뉴스 등 다양한 웹 문서에서는 동일한 발음을 가지는 외국어 표기와 한국어 표기를 혼용하여 사용하고 있다. 이에 좋은 검색 결과를 가져오기 위해서는 외국어 표기와 더불어 사람들이 많이 사용하는 다양한 음차 표기를 함께 검색에 활용하는 것이 중요하다. 음차 표기 모델과 음차 표기 대역 쌍 추출을 통해 음차 표현을 생성하는 기존 방법 대신, 본 논문에서는 신뢰할 수 있는 다양한 음차 표현을 찾기 위해 문서에서 음차 표기 후보를 찾고, 이 음차 표기 후보가 정확한 표기인지 판별하는 방식을 제안한다. 다양한 딥러닝 모델을 비교, 검토하여 최종적으로 음차 표기 대역 쌍 판별에 특화된 모델인 Distance LSTM-CNN 모델을 제안하며, 제안하는 모델의 Batch Size 영향을 줄이고 학습 시 수렴 속도 개선을 위해 Layer Normalization을 적용하는 방법을 보인다.

  • PDF

복수 음운 정보를 이용한 영.한 음차 표기 (English-to-Korean Transliteration using Multiple Unbounded Overlapping Phonemes)

  • 강인호;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-54
    • /
    • 1999
  • 본 연구에서는 기존의 한정된 길이의 영어 또는 한글의 발음 단위를 이용하던 자동 음차 표기 방식과 달리, 학습 데이터에서 추출한 임의 길이의 음운 패턴을 사용하는 방법을 제안한다. 통계적 정보에 기반하여 추출한 음차 표기 패턴과 외래어 표기 규칙에 기반하여 기술한 음차 표기 패턴을 위치와 길이에 관계없이 사용하여 주어진 영어 단어의 한글 음차 표기를 얻어낸다. 제안하는 방법은 먼저 주어진 영어 단어의 가능한 모든 발음 단위를 기준으로 한글 표기 네트워크를 만든 후, 학습 데이터에서 추출한 음운 패턴을 교차 적용시켜 네트워크 각 노드의 가중치를 결정한다. 가중치가 결정된 네트워크에서 가중치의 합이 가장 좋은 경로를 찾아냄으로 해서 음차 표기를 수행한다. 본 연구에서 제안하는 방법으로 실험을 한 결과 자소 단위 86.5%, 단어 단위 55.3%의 정확률을 얻을 수 있었다.

  • PDF

Distance LSTM-CNN with Layer Normalization을 이용한 음차 표기 대역 쌍 판별 (Verification of Transliteration Pairs Using Distance LSTM-CNN with Layer Normalization)

  • 이창수;천주룡;김주근;김태일;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.76-81
    • /
    • 2017
  • 외국어로 구성된 용어를 발음에 기반하여 자국의 언어로 표기하는 것을 음차 표기라 한다. 국가 간의 경계가 허물어짐에 따라, 외국어에 기원을 두는 용어를 설명하기 위해 뉴스 등 다양한 웹 문서에서는 동일한 발음을 가지는 외국어 표기와 한국어 표기를 혼용하여 사용하고 있다. 이에 좋은 검색 결과를 가져오기 위해서는 외국어 표기와 더불어 사람들이 많이 사용하는 다양한 음차 표기를 함께 검색에 활용하는 것이 중요하다. 음차 표기 모델과 음차 표기 대역 쌍 추출을 통해 음차 표현을 생성하는 기존 방법 대신, 본 논문에서는 신뢰할 수 있는 다양한 음차 표현을 찾기 위해 문서에서 음차 표기 후보를 찾고, 이 음차 표기 후보가 정확한 표기인지 판별하는 방식을 제안한다. 다양한 딥러닝 모델을 비교, 검토하여 최종적으로 음차 표기 대역 쌍 판별에 특화된 모델인 Distance LSTM-CNN 모델을 제안하며, 제안하는 모델의 Batch Size 영향을 줄이고 학습 시 수렴 속도 개선을 위해 Layer Normalization을 적용하는 방법을 보인다.

  • PDF

한국어 음가의 표기 복원을 위한 표기 후보 생성 및 감소에 관한 연구 (A Study On Generation and Reduction of the Notation Candidate for the Notation Restoration of Korean Phonetic Value)

  • 이상범;박성현
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.99-106
    • /
    • 2004
  • 음절 복원은 음성 인식 장치에서 인식된 음가열을 발성 이전의 표기 형태로 복원하는 과정이다. 본 논문에서는 음절 복원 과정을 위하여 표준 발음법을 기반으로 음절 복원 규칙을 작성하였다. 음절 복원 규칙을 이용하여 표기 후보 집합의 생성 방법을 연구하였다. 또한 생성된 표기후보의 수를 감소시키기 위하여, 비 표기 음절을 포함한 표기 후보 감소, 비 어휘 음절을 포함한 표기 후보 감소, 비어간 음절을 포함한 표기 후보 감소의 3단계 감소 과정을 제안하였다. 제안된 방법을 통하여 실험한 결과 평균 74%의 표기 후보 감소율을 나타내었다.

페트리넷을 이용한 한글-로마자 표기 변환표 생성에 관한 연구 (A Study on Creation of Hangeu-Romanization Conversion Table Using Petri-Nets)

  • 김경징;최영규;이상범
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.827-834
    • /
    • 2002
  • 본 논문에서는 개정된 로마자 표기법에 일치하는 한글의 로마자 표기 생성을 위한 한글-로마자 표기 변환표의 생성에 관한 연구를 수행하였다. 로마자 표기법의 근간이 되는 표준 발음법과 로마자 표기법을 수학적으로 분석하기 위하여 페트리넷 모델을 이용한 자연 언어의 수학적 분석 방법을 도입하였다. 페트리넷 모델을 이용한 분석의 방법으로 한글 로마자 표기 변환 표를 생성하기 위한 방안과 로마자 표기법의 페트리 넷 모델링을 통하여 그 실질적인 예를 보여 한국어의 수학적 모델링 방안과 적용방법을 제시한다. 생성된 한글-로마자 표기 변환표를 검증하기 위하여 윈도우 기반 응용 프로그램을 개발하고 로마자 표기 용례사전의 로마자 표기와 응용 프로그램의 결과를 비교하였다.

비즈니스 프로세스 모델링 표기법에 대한 비교 연구 (A Comparison study on the Business Process Modeling Notations)

  • 김훈태;이용한;김민수;윤정희
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2005년도 종합학술대회
    • /
    • pp.124-130
    • /
    • 2005
  • 현재 BPM의 사용이 활성화 되어가고 있으며, 비즈니스 프로세스 실행을 위한 언어들이 표준화되어 가고 있다. 또한 비즈니스 프로세스 모델링 표기법을 위하여 BPMN이 표준안으로 제시되고 있다. 한편 비즈니스 프로세스를 표기하기 위한 방법은 기존에도 있어왔다. BPM사용자 관점에서 기존의 비즈니스 프로세스 표기법들과 BPMN을 비교하여 보고자 한다. 본 연구에서는 비즈니스 프로세스 모델링을 위한 표기법들을 조사하여 제시하고, 각 표기법을 프로세스 핵심요소, 흐름제어 요소, 보조 요소의 측면에서 비교 분석하고자 한다.

  • PDF

BIT 표기법을 활용한 한국어 개체명 인식 (Korean Named Entity Recognition Using BIT Representation)

  • 윤호;김창현;천민아;박호민;남궁영;최민석;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.190-194
    • /
    • 2019
  • 개체명 인식이란 주어진 문서에서 개체명의 범위를 찾고 개체명을 분류하는 것이다. 최근 많은 연구는 신경망 모델을 이용하며 하나 이상의 단어로 구성된 개체명을 BIO 표기법으로 표현한다. BIO 표기법은 개체명이 시작되는 단어의 표지에 B(Beginning)-를 붙이고, 개체명에 포함된 그 외의 단어의 표지에는 I(Inside)-를 붙이며, 개체명과 개체명 사이의 모든 단어의 표지를 O로 간주하는 방법이다. BIO 표기법으로 표현된 말뭉치는 O 표지가 90% 이상을 차지하므로 O 표지에 대한 혼잡도가 높아지는 문제와 불균형 학습 문제가 발생된다. 본 논문에서는 BIO 표기법 대신에 BIT 표기법을 제안한다. BIT 표기법이란 BIO 표기법에서 O 표지를 T(Tag) 표지로 변환하는 방법이며 본 논문에서 T 표지는 품사 표지를 나타낸다. 실험을 통해서 BIT 표기법이 거의 모든 경우에 성능이 향상됨을 확인할 수 있었다.

  • PDF

올림이 있는 자연수 곱셈 알고리즘의 올림하는 수 표기에 관한 고찰 (A Study on Marking the Carrying Number of Multiplication Algorithm with regrouping)

  • 최경아;이정은
    • 한국초등수학교육학회지
    • /
    • 제21권1호
    • /
    • pp.195-214
    • /
    • 2017
  • 표준화된 자연수 곱셈 알고리즘3)은 곱셈의 계산 과정을 간략화한 것으로, 올림이 있는 자연수 곱셈의 경우 올림하는 수를 피승수의 위에 작게 표기하고 있다. 하지만 이러한 올림하는 수 표기 방식은 승수가 한 자리 수인 경우에만 교과서에 제시되고 있어, 승수가 두 자리 수인 경우에는 교사와 학생들이 자기 나름의 표기 방식을 선택하도록 요구하고 있다. 이에 본 연구는 현행 교과서에서의 올림이 있는 자연수 곱셈의 알고리즘 접근 방법을 살펴보고, 3, 4, 5, 6학년 학생들의 올림이 있는 자연수 곱셈 알고리즘에서 나타나는 올림하는 수 표기 방식을 분석하였다. 또한, 핀란드 수학 교과서와 선행 연구에 나타난 올림이 있는 자연수 곱셈 알고리즘 지도 내용을 분석함으로써 자연수 곱셈 알고리즘의 제시 방법에 대한 시사점을 추출하였다. 그 결과로 다음과 같이 제안한다. 첫째, 교사용 지도서나 교과서에 올림하는 수를 표기하는 방법에 대한 예시가 필요하다. 둘째, 올림하는 수를 체계적으로 표기하는 것의 좋음을 학생이 인식하도록 지도되어야 한다. 셋째, 대안적인 자연수 곱셈 알고리즘과 올림하는 수 표기 방법에 대한 교사의 이해가 요구된다.

  • PDF

적합성 피드백을 이용한 자동 음차표기의 성능향상 기법 (Improving English-to-Korean Transliteration through Automatic Relevance Feedback)

  • 오종훈;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.805-807
    • /
    • 2004
  • 음차표기란 외국어의 단어를 글자나 발음을 이용하여 자국어로 표기하는 것으로 정의된다. 자동음차표기는 기계번역과 정보검색 등의 자연언어처리 응용에서 사용된다. 기계번역에서는 번역사전에 등재되어 있지 않은 고유명사나 전문용어를 번역하는 방법으로 사용되며, 정보검색에서는 단어불일치 문제의 해결과 질의확장 등에 사용된다. 하지만 지금까지의 영-한 자동 음차표기 연구들은 대부분 주어진 원어에 대하여 가장 적합한 음차표기를 생성하는 연구에 초점을 맞추었다. 또한, 원어로부터 가능한 음차표기를 파악하는 연구에서도 해당 음차표기에 대한 적합성을 파악하지 않고 단순 리스트형태로 음차표기를 생성함으로써, 음차표기생성 결과에 대한 품질이 낮았다. 본 논문에서는 이러한 문제점을 해결하기 위하여, 주어진 원어로부터 가능한 음차표기를 생성하고 이들에 대한 적합성을 자동으로 파악하는 음차표기 모델을 제안한다. 본 논문의 기법은 약 72%의 단어 정확률을 나타내었으며 기존의 기법보다 최고 31%의 성능향상을 나타내었다.

  • PDF

Sequence to Sequence 모델을 이용한 영단어 음차 표기 (English to Korean transliteration using Sequence to Sequence model)

  • 신형진;육대범;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.627-629
    • /
    • 2018
  • 영단어를 음역 하는 방법으로 규칙 기반 방법, 통계 기반 방법, 최대 엔트로피 기반 방법 등이 연구되어 왔다. 본 연구에서는 최근 기계 번역에서 우수한 성능을 보인 Sequence-to-Sequence 모델을 영어-한글 음차 표기에 적용해보았다. 실험결과, 다른 방법에 비해 우수한 성능을 보였다.

  • PDF