• Title/Summary/Keyword: BLEU

Search Result 72, Processing Time 0.021 seconds

Korea-English Noun Phrase Machine Translation (한국어와 영어의 명사구 기계 번역)

  • Cho, Hee-Young;Seo, Hyung-Won;Kim, Jae-Hoon;Yang, Sung-Il
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.273-278
    • /
    • 2006
  • 이 논문에서 통계기반의 정렬기법을 이용한 한영/영한 양방향 명사구 기계번역 시스템을 설계하고 구현한다. 정렬기법을 이용한 기계번역 시스템을 구축하기 위해서는 않은 양의 병렬말뭉치(Corpus)가 필요하다. 이 논문에서는 병렬 말뭉치를 구축하기 위해서 웹으로부터 한영 대역쌍을 수집하였으며 수집된 병렬 말뭉치와 단어 정렬 도구인 GIZA++ 그리고 번역기(decoder)인 PARAOH(Koehn, 2004), RAMSES(Patry et al., 2002), MARIE(Crego et at., 2005)를 사용하여 한영/영한 양방향 명사구 번역 시스템을 구현하였다. 약 4만 개의 명사구 병렬 말뭉치를 학습 말뭉치와 평가 말뭉치로 분리하여 구현된 시스템을 평가하였다. 그 결과 한영/영한 모두 약 37% BLEU를 보였으나, 영한 번역의 성공도가 좀더 높았다. 앞으로 좀더 많은 양의 병렬 말뭉치를 구축하여 시스템의 성능을 향상시켜야 할 것이며, 지속적으로 병렬 말뭉치를 구축할 수 있는 텍스트 마이닝 기법이 개발되어야 할 것이다. 무엇보다도 한국어 특성에 적합한 단어 정렬 모델이 연구되어야 할 것이다. 또한 개발된 시스템을 다국어 정보검색 시스템에 직접 적용해서 그 효용성을 평가해보아야 할 것이다.

  • PDF

English Auxiliary Verb Generation for Korean-to-English Machine Translation (한영 자동 번역을 위한 보조 용언 생성)

  • Shin, Jong-Hun;Yang, Seong-Il;Seo, Young-Ae;Kim, Chang-Hyun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.143-147
    • /
    • 2011
  • 본 논문에서는 한국어로 입력된 문장을 분석한 결과로부터 그에 해당하는 영어 대역문을 생성하는 과정에서, 어떻게 한국어의 보조용언을 영어 대역문에 반영 할 것인가를 다룬다. 특히 대화체 분야를 다루는 한영 자동번역 시스템에서는 한국어의 보조용언 생성이 대역문의 품질을 향상시키는데 중요한 위치를 차지하기 때문에, 한영 자동 번역에서의 자연스러운 영어 보조용언 생성을 위한 방법론을 제안한다. 첫째, 기존 패턴 기반 한영 자동 번역 엔진과 한국어 말뭉치를 형태소 분석한 결과를 살펴보고, 자연스러운 보조 용언 대역어 생성의 어려움을 살펴본다. 둘째, 자연스러운 보조용언 생성에 필요한 양상을 규칙화 한 지식을 기반으로 자연스러운 단일 보조용언 생성을 위한 방법을 제시한다. 셋째, 두 개 이상의 보조용언이 연속해서 나타나는 다중 보조용언의 생성 방법을 제시한다. 마지막으로, 실험과 결론을 통하여 본 논문이 제안하는 방법론을 사용했을 때, 자동 번역 엔진의 성능 평가 지표 중 하나인 BLEU와 NIST점수의 변화를 나타내봄으로 그 성능을 보인다.

  • PDF

Hierarchical Regression Analysis of Subjective Health Perception and Eating-out Selection Attributes of Elderly People (실버세대의 주관적 건강인식도와 외식선택속성의 위계적 회귀분석에 관한 연구)

  • Kim, Boram;Muk, Young-im;Yoon, Ji-young;joo, Nami
    • Journal of the Korean Dietetic Association
    • /
    • v.25 no.3
    • /
    • pp.188-198
    • /
    • 2019
  • This study examined the subjective health recognition, motivation, selection property, consumption realties, and generalities of elderly people eating out. The ratio of women eating out in those over 60 years of ages was high and people in that age group ate out most actively. The score of convenience-oriented, gourmet-oriented, and dignity-oriented of the selection property for eating out increased with increasing frequency and expenditure for eating out. With increasing age, a negative (-) relationship with a decrease in the safety-oriented score of the selection property for eating out was predicted. As the number of days eating out increased, a positive (+) relationship with an increase in the safety-oriented score of the selection property for eating out was observed. As the scores of physical and social health perception increased, a positive (+) relationship with an increase in the gourmet oriented score was observed. Based on the results, various research on the relationship between the health recognition and eating out behavior of those over 60 years of age are required.

Context-aware and controllable natural language generation model for task-oriented dialogue systems (목적 지향 대화 시스템을 위한 문맥 기반의 제어 가능한 자연어 생성 모델 )

  • Jina Ham;Jaewon Kim;Dongil Yang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.71-76
    • /
    • 2022
  • 목적 지향 대화 시스템은 사용자가 원하는 목적을 달성하기 위해 사용하는 시스템으로 일상 대화와 다르게 시스템이 정보를 명확히 전달하는 것이 중요하다. 따라서 최근 연구에서 목적 지향 대화 시스템을 위한 자연어 생성 모델은 정해진 대화 정책에 따라 알맞은 응답을 생성할 수 있도록 의도와 슬롯 정보를 담은 대화 행위(Dialog Act)를 활용한다. 하지만 대화 행위는 생성하는 문장을 탁월하게 제어하는 반면에 대화의 흐름과 상황에 맞게 다양한 문장을 생성하기 어렵다는 문제점을 가지고 있다. 이러한 문제점을 해소하고자 본 논문에서는 목적에 부합하는 내용을 명확하게 자연어로 생성하기 위해 대화 행위를 사용하면서 동시에 일상 대화 생성 모델과 같이 문맥을 고려하여 대화 흐름에 어울리는 자연스러운 문장을 생성할 수 있는 문맥 기반의 제어 가능한 자연어 생성 모델을 제안한다. 실험에서는 KoGPT2 사전 학습 모델과 한국어 대화 데이터셋을 사용하였으며 실험을 통해 대화 행위 기반의 자연어 생성 모델과 본 연구에서 제안한 문맥 기반의 제어 가능한 자연어 생성 모델을 비교하였다. 결과적으로 대화 행위를 단독으로 학습한 모델보다 일정 문맥을 함께 학습한 모델이 유의미한 BLEU 점수 향상을 보인다는 점을 확인하였다.

  • PDF

Detecting and Interpreting Terms: Focusing Korean Medical Terms (전문용어 탐지와 해석 모델: 한국어 의학용어 중심으로 )

  • Haram-Yeom;Jae-Hoon Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.407-411
    • /
    • 2022
  • 최근 COVID-19로 인해 대중의 의학 분야 관심이 증가하고 있다. 대부분의 의학문서는 전문용어인 의학용어로 구성되어 있어 대중이 이를 보고 이해하기에 어려움이 있다. 의학용어를 쉬운 뜻으로 풀이하는 모델을 이용한다면 대중이 의학 문서를 쉽게 이해할 수 있을 것이다. 이런 문제를 완화하기 위해서 본 논문에서는 Transformer 기반 번역 모델을 이용한 의학용어 탐지 및 해석 모델을 제안한다. 번역 모델에 적용하기 위해 병렬말뭉치가 필요하다. 본 논문에서는 다음과 같은 방법으로 병렬말뭉치를 구축한다: 1) 의학용어 사전을 구축한다. 2) 의학 드라마의 자막으로부터 의학용어를 찾아서 그 뜻풀이로 대체한다. 3) 원자막과 뜻풀이가 포함된 자막을 나란히 배열한다. 구축된 병렬말뭉치를 이용해서 Transformer 번역모델에 적용하여 전문용어를 찾아서 해석하는 모델을 구축한다. 각 문장은 음절 단위로 나뉘어 사전학습 된 KoCharELECTRA를 이용해서 임베딩한다. 제안된 모델은 약 69.3%의 어절단위 BLEU 점수를 보였다. 제안된 의학용어 해석기를 통해 대중이 의학문서를 좀 더 쉽게 접근할 수 있을 것이다.

  • PDF

Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation (병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역)

  • Park, Chanjun;kim, Gyeongmin;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF

Generation Methodology Using Super In-Context Learning (Super In-Context Learning을 활용한 생성 방법론)

  • Seongtae Hong;Seungjun Lee;Gyeongmin Kim;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.382-387
    • /
    • 2023
  • 현재 GPT-4와 같은 거대한 언어 모델이 기계 번역, 요약 및 대화와 같은 다양한 작업에서 압도적인 성능을 보이고 있다. 그러나 이러한 거대 언어 모델은 학습 및 적용에 상당한 계산 리소스와 도메인 특화 미세 조정이 어려운 등 몇 가지 문제를 가지고 있다. In-Context learning은 데이터셋에서 추출한 컨택스트의 정보만으로 효과적으로 작동할 수 있는 효율성을 제공하여 앞선 문제를 일부 해결했지만, 컨텍스트의 샷 개수와 순서에 민감한 문제가 존재한다. 이러한 도전 과제를 해결하기 위해, 우리는 Super In-Context Learning (SuperICL)을 활용한 새로운 방법론을 제안한다. 기존의 SuperICL은 적용한 플러그인 모델의 출력 정보를 이용하여 문맥을 새로 구성하고 이를 활용하여 거대 언어 모델이 더욱 잘 분류할 수 있도록 한다. Super In-Context Learning for Generation은 다양한 자연어 생성 작업에 효과적으로 최적화하는 방법을 제공한다. 실험을 통해 플러그인 모델을 교체하여 다양한 작업에 적응하는 가능성을 확인하고, 자연어 생성 작업에서 우수한 성능을 보여준다. BLEU 및 ROUGE 메트릭을 포함한 평가 결과에서도 성능 향상을 보여주며, 선호도 평가를 통해 모델의 효과성을 확인했다.

  • PDF

A Study on the Intakes and Perceptions of Convenient Breakfast (아침 간편식에 대한 섭취실태 및 인식조사)

  • Mun, Yeon-Seo;Jung, Eun-Kyung;Joo, Na-Mi;Yoon, Ji-Young
    • Korean Journal of Community Nutrition
    • /
    • v.16 no.5
    • /
    • pp.559-568
    • /
    • 2011
  • The purpose of this study was to investigate the intakes and perceptions of convenient breakfast related to age and family type. The survey included 545 men and women living in Seoul from June to July. Questionnaire items covered their age, gender, family types, breakfast intakes and preference for convenient breakfast menu. As a result, there were significant differences in the number of breakfast intakes per week according to family types; large families recorded the highest frequency in "I have breakfast everyday" and the couple-only families and nuclear families scored relatively high numbers. In terms of the type of breakfast, the first choice was "rice and side dishes" across all the age groups (69.3%). There were differences in the preference of convenient breakfast in "bread", "cereal", "rice cake", "sunsik", and "rice gruel" by different age. The teens exhibited the highest preference of bread (5.63), and cereal (5.53) for breakfast; those who were in their fifties for rice cake (5.42). Both forties and fifties showed the higher preference of sunsik (4.58, 4.76) and rice gruel (5.89, 5.77) than other age groups. As for the preference for convenient breakfast according to family types, single person families displayed the highest preference of bread (5.42) and cereal (5.75). Couple families showed higher preference of rice gruel (5.82) than other family groups. The preference level for "rice cake" was similar among all the family types. As a result, it is suggested that the development of various breakfast menus considering age groups and family types is needed so that modern people can enjoy breakfast in terms of quality and quantity in their busy daily life.

Effects of Selaginella Tamariscina on Apoptosis via the Activation of Caspase-3 in HL-60 (권백의 Caspase-3 활성화를 통한 HL-60 세포에서 세포사멸 유도효과)

  • Nam Hang Woo;Lee Sung Won;An Byung Sang;Chough Won Joon;Kim Yeong Mok;Mun Yean Ja;Ahn Seong Hun;Woo Won Hong
    • Journal of Physiology & Pathology in Korean Medicine
    • /
    • v.17 no.3
    • /
    • pp.751-758
    • /
    • 2003
  • In our previous studies, we reported that Selaginella Tamariscina(ST) induced apoptotic cell death in HL-60 cells selectively. The cell viability after treatment with extract of ST was quantified by MTT assay and trypan bleu exclusion method. The results showed that application with ST in HL-60 induced 40% cell death at the concentration of 400 ㎍/ml. The cancericidic effect of Selaginella Tamariscina was mediated by apoptosis. Thus, HL-60 cells exposed to Selaginella Tamariscina displayed the DNA fragmentation ladder and nucleus chromatin condensation characteristic for apoptosis. The enzyme activity of caspase-3 and actived caspase-3 protein were markedly increased in HL-60 cells treated with the extract of Selaginella Tamariscina. In addition, the extract of Selaginella Tamariscina induced cleavage of PARP, a known substrate for caspase-3. The expression of Bcl-2, anti-apoptotic protein, was decreased by treatment of the aqueous extract of Selaginella Tamariscina in a dose-dependent manner. And the expression of pro-apoptotic Bax protein was increased. In conclusion, our results suggest that the extract of Selaginella Tamariscina may induce the apoptotic death of HL-60 cells via activation of caspase-3, cleavage of PARP protein, depletion of cellular ATP levels and Bcl-2 degradation.

Hanwoo Usage Survey and Menu Development using Lean Cut Hanwoo for Restaurants (외식업체 한우 이용 실태조사를 통한 저지방 부위 한우 이용 메뉴 개발)

  • Jeong, Hee-Sun;Joo, Nami;Yoon, Ji-Young
    • The Korean Journal of Food And Nutrition
    • /
    • v.27 no.4
    • /
    • pp.650-659
    • /
    • 2014
  • The purpose of this study was to analyze Hanwoo usage in restaurants and to develop menus of lean cut Hanwoo. Restaurant served customers Hanwoo menus, with the exception of broiled or roasted meat, mainly to provide various menus to customers (4.14), due to customer needs (3.87) and utilizing stocks (3.59). On the other hand, the reason for not providing Hanwoo menus, with the exception of broiled or roasted meat was manpower shortage (3.63), lack of popularity (3.58), low profit (3.29), preservation of Hanwoos' original flavors (3.28) and complex cooking methods (3.22). Concomitantly, the restaurant owners' intentions to apply new menus with lean cut Hanwoo was 73.4%, showing an interest in developing new menus and recipes using lean cut Hanwoo suitable to the changing owner awareness of customer health and trends. This study has established a standard for developing cooking methods and developed menus according to classified recipes for lean cut Hanwoo, based on the survey of restaurants' current status of using Hanwoo and the owners' opinions. 20 menus using lean cut Hanwoo (rump or shank) were developed by $1^{st}$ and $2^{nd}$ cooking experiments, and in-depth interview of experts-groups. Of these, 12 menus suitable for the restaurant were finally selected based on the results of consumer's evaluation using JARS. Structured recipe flow diagram and recipe instructions were developed for future semi-processed or processing foods. Diverse recipe methods using lean cut Hanwoo were obtained from the study, however aggressive public relations work is required for promoting the developed menus.