• 제목/요약/키워드: English Word

검색결과 576건 처리시간 0.021초

이중 언어 기반 패러프레이즈 추출을 위한 피봇 차별화 방법 (Pivot Discrimination Approach for Paraphrase Extraction from Bilingual Corpus)

  • 박에스더;이형규;김민정;임해창
    • 인지과학
    • /
    • 제22권1호
    • /
    • pp.57-78
    • /
    • 2011
  • 패러프레이즈는 같은 의미를 다른 단어를 사용하여 표현한 것을 말한다. 패러프레이즈는 일상적인 언어생활에서도 흔히 관측되며 자연어처리 분야에서 다양하게 활용할 수 있다. 특히 최근에는 통계적 기계 번역 분야에서 데이터 부족 문제를 보완하여 번역 성능을 향상시키기 위해 패러프레이즈를 활용한 연구가 많다. 이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇으로 사용하기 때문에 단어 정렬 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류가 패러프레이즈로 전파될 수 있다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우에는 단어 정렬 오류가 더 심각하기 때문에 피봇 프레이즈부터 잘못 추출되는 경우가 많아진다. 이러한 문제를 보완하기 위해 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서 어휘, 품사 정보를 이용해 올바른 피봇 프레이즈에 더 높은 가중치를 부여하는 방법을 제안한다. 실험 결과, 제안하는 피봇 가중치 부여 방법을 기존의 패러프레이즈 추출 방법에 추가했을 때 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다. 또한, 제안하는 방법을 통해 추출한 패러프레이즈를 한영 기계 번역 시스템에서 활용하였을 때 번역률이 향상됨을 확인할 수 있었다.

  • PDF

우리글 읽기에서 형태소정보의 미리보기 효과 (Morphological Parafoveal Preview Benefit Effects in Reading Korean)

  • 이상은;주혜리;고성룡
    • 인지과학
    • /
    • 제31권2호
    • /
    • pp.25-54
    • /
    • 2020
  • 이 연구의 목적은 안구운동 추적 기법을 통해 우리글을 읽을 때 중심와(fovea)의 주변에서 형태소 정보가 추출되는지를 알아보고자 한다. 다수 영어권 연구에서는 경계선 기법(Rayner, 1975)을 사용하여 중심와주변(parafovea)에서 형태소 정보가 추출되지 않는다고 보고하였다(Pollatsek, & Rayner, 2001; Rayner, Balota, & Pollatsek, 1986 등). 그러나 우리글인 한글은 영어와 같이 음소문자체계이면서 또한 모아쓰기를 하기를 때문에 한 자가 형태소가 될 수 있다. 또한 불규칙용언은 형태가 변하기 때문에 영어권의 결과와 다르게 글을 읽을 때 중심와주변에서 형태소 정보를 추출할 수도 있다. 실험은 경계선 기법으로 불규칙용언을 써서 미리 보기 네 조건-동일조건(예: 구워), 형태소 조건(예: 굽다), 시각유사조건(예: 굼다), 무관조건(예: 죨어)-으로 제시했다. 실험 결과는 단일고정시간에서 형태소조건은 동일조건보다는 반응시간이 길었지만 시각유사조건과 무관조건에서는 이득효과가 있었다. 첫고정시간과 주시시간에서 형태소조건이 시간유사조건과 무관조건과 차이가 없었지만 무관조건보다 더 이득효과가 있었다. 이는 우리글 읽기에서는 중심와주변에서 형태소 정보가 추출될 수 있음을 시사한다.

Part-of-speech Tagging for Hindi Corpus in Poor Resource Scenario

  • Modi, Deepa;Nain, Neeta;Nehra, Maninder
    • Journal of Multimedia Information System
    • /
    • 제5권3호
    • /
    • pp.147-154
    • /
    • 2018
  • Natural language processing (NLP) is an emerging research area in which we study how machines can be used to perceive and alter the text written in natural languages. We can perform different tasks on natural languages by analyzing them through various annotational tasks like parsing, chunking, part-of-speech tagging and lexical analysis etc. These annotational tasks depend on morphological structure of a particular natural language. The focus of this work is part-of-speech tagging (POS tagging) on Hindi language. Part-of-speech tagging also known as grammatical tagging is a process of assigning different grammatical categories to each word of a given text. These grammatical categories can be noun, verb, time, date, number etc. Hindi is the most widely used and official language of India. It is also among the top five most spoken languages of the world. For English and other languages, a diverse range of POS taggers are available, but these POS taggers can not be applied on the Hindi language as Hindi is one of the most morphologically rich language. Furthermore there is a significant difference between the morphological structures of these languages. Thus in this work, a POS tagger system is presented for the Hindi language. For Hindi POS tagging a hybrid approach is presented in this paper which combines "Probability-based and Rule-based" approaches. For known word tagging a Unigram model of probability class is used, whereas for tagging unknown words various lexical and contextual features are used. Various finite state machine automata are constructed for demonstrating different rules and then regular expressions are used to implement these rules. A tagset is also prepared for this task, which contains 29 standard part-of-speech tags. The tagset also includes two unique tags, i.e., date tag and time tag. These date and time tags support all possible formats. Regular expressions are used to implement all pattern based tags like time, date, number and special symbols. The aim of the presented approach is to increase the correctness of an automatic Hindi POS tagging while bounding the requirement of a large human-made corpus. This hybrid approach uses a probability-based model to increase automatic tagging and a rule-based model to bound the requirement of an already trained corpus. This approach is based on very small labeled training set (around 9,000 words) and yields 96.54% of best precision and 95.08% of average precision. The approach also yields best accuracy of 91.39% and an average accuracy of 88.15%.

안경원 브랜드의 디자인아이덴티티에 관한 연구 (A Study on the Design Identity of Optical Shop Brands)

  • 홍성일;손정식
    • 한국안광학회지
    • /
    • 제19권4호
    • /
    • pp.435-443
    • /
    • 2014
  • 목적: 안경원 브랜드의 디자인아이덴티티 시각 요소들의 분석을 통해 안경원의 브랜드 디자인 개발에 필요한 객관적인 자료로 활용하고자 하였다. 방법: 안경원의 브랜드 디자인아이덴티티 개념을 살펴보고 국내 프랜차이즈 안경원의 상징물, 심벌마크의 형태와 로고타입의 표현 스타일, 색상 활용도, 캐릭터 사용 여부 등을 중심으로 브랜드 디자인아이덴티티의 시각 요소들을 분석하였다. 결과: 안경과 눈, 얼굴과 홍채 같은 안경과 관련된 직접적인 상징물이 많았고 글자와 도형도 나타났다. 심벌 유형으로는 대부분이 구상형과 워드마크 형태의 디자인이 많았고 워드마크형에는 국문보다 영문이 많이 사용되었다. 로고타입 형식은 고딕체 형식이 주류를 이루었고 획의 굵기는 보통과 두꺼운 볼드체가 고루 사용되는 것으로 나타났다. 안경원 브랜드 디자인에서 가장 많이 사용되고 있는 색상 도수는 2도 조합 사용이 대부분이었고 색상 사용 빈도로는 검정과 빨강이 많았는데 심벌이나 로고타입의 전용 색상에는 검정과 함께 주황도 많이 나타났다. 캐릭터는 일부 안경원에서만 사용하고 있고 대부분 동물 소재로 표현은 만화와 그래픽 형식이었다. 결론: 상징물, 심벌마크와 로고타입, 색상, 캐릭터는 브랜드 디자인아이덴티티 기본 개발 시스템이다. 안경원 브랜드의 중요한 시각적 구성요소로 상호간 일관성이 있으면서 기능과 역할을 분명히 할 수 있는 체계적인 디자인이 되어야 한다.

한·중 인물지칭 신어 조어방식에 관한 고찰 - 2017년과 2018년을 중심으로 - (A review on the method of coined words by Korean and Chinese characters)

  • 왕연
    • 융합정보논문지
    • /
    • 제12권3호
    • /
    • pp.178-185
    • /
    • 2022
  • 본 연구는 2017년과 2018년 한·중 인물지칭 신어 197개를 조어방식에 따라 단일어, 합성어, 파생어, 축약어, 혼성어로 나누어 신어의 특성을 비교·분석했다. 인물지칭 신어 중 단일어의 경우 한국어는 영어와 중국어에서 차용된 단어들이었으며, 중국어에서는 단일어가 나타나지 않았다. 다음으로 합성어의 경우 중국어 합성법의 형식이 훨씬 다양하고 생성력이 한국보다 더 강하다는 특징이 있었다. 파생어의 경우 양국 접두파생어는 모두 많지 않다는 특징을 보였다. 한국어 접미파생어 중에서는 외래어나 고유어 접미사에 비해 한자어 접미사의 생산력이 강했다. 외래어 접미사는 한국어에서 중국어에 비해 보다 빈번하게 나타났다. 다음으로 축약어의 경우 한국어에 나타난 축약어 신어는 어두 음절의 생산력이 더 강한 반면 중국어의 축약어 신어에서는 비어두 음절어의 생산력이 더 강하다는 것을 알 수 있었다. 끝으로 혼성어의 경우 한국어의 혼성 형식이 중국어보다 훨씬 다양하게 나타났다. 본 연구는 중국인 한국어 학습자가 한국어 신어의 형성과정을 이해하는 데에 도움을 줄 수 있으며, 나아가 그들이 한국어 학습 과정에서 한국어 단어의 의미를 추측하는 능력을 함양하는 데에 이론적 단서를 제공한다는 점에서 의미가 있다.

Hunting for the Hurt in Chaucer′s Book of the Duchess

  • Vaughan, Miceal F.
    • 인문언어
    • /
    • 제2권2호
    • /
    • pp.85-107
    • /
    • 2002
  • The word play on h(e)art-hunting has become a virtual commonplace in criticism of Chaucer′s Book of the Duchess. Less widely discussed is the third meaning of ME herte, "hurt." The "hart"/ "heart" pun is, however, only implicit in the poem, while the rhyme of "heart" and "hurt" in lines 883-84 makes clear the close association of the terms for Chaucer. Earlier commentators insisted that this was in fact an instance of rime riche or "identical rhyme," but if it is so it is striking that it is the unique instance of the rhyme in Chaucer, whose works are full of occasions for hurt hearts. The essay argues that this is, instead, an instance of near-rhyme and that the confusion in scribal spellings of ME hurten(with ′u,′ ′0,′ ′i,′ ′y,′ and ′e′ ) suggests uncertainties about its root vowel that modem linguistic study has not clarified completely. If the rhyme of herte ("hurt") with herte ("heart") is, however, established by these lines in BD, then it is probably reasonable to ask about all the occasions where characters in the poem are hurt by emotional or physical distress. In the cases of A1cyone and the Man in Blak, the hurt is revealed plainly as the death of a loved one, and Alcyone′s death and the Man in Blak′s return "homwarde" offer contrasting responses to the realization and acknowledgement of their loss. In the case of the Narrator, however, the exact nature of his "hurt" is nowhere made clear and the questions this Jack of clarity raises for the reader remain unanswered when the poem declares its "hert-huntyng" done. Further examination of the Narrator′s character and his role in the poem may reveal him to be a physician himself in need of healing, and this reading of his character may identify him as an ancestor as much of Chaucer′s Pardoner as of the Pilgrim Narrator of Canterbury Tales.

  • PDF

PubMed 검색을 통한 항암화학요법 부작용 관련 침 임상시험 현황 고찰 (Review on Clinical Trials of Chemotherapy Induced Toxicity with Acupuncture in PubMed Database)

  • 김종윤;김진엽;김남식;김소정;뭉흐게렐;김용석;최도영;남상수
    • Journal of Acupuncture Research
    • /
    • 제30권2호
    • /
    • pp.43-53
    • /
    • 2013
  • Objectives : The purpose of this study is to review of Clinical trials related to the treatment of chemotherapy induced-toxicity by acupuncture therapy. Methods : We searched PubMed by using word of "chemotherapy induced, acupuncture" (Limits : Full text available, 10 years, Clinical trials, Humans, English). We analyzed 15 research paper and examined published journals, years, countries, topic, study design, their results, interventions, participants and instruments of assessment. Results : Eleven journals with fifteen papers were searched. These papers were published in USA, Germany, etc. On the topic of these clinical trials, seven of them were about nausea(vomiting), two about peripheral neuropathy, two about hot flash, two about arthralgia and one about neutropenia, one about fatigue. Six of these studies were single blinded, randomized controlled trial. Twelve studies reported significant effect. The median for number of final participants was 35.5 persons. Assessment for outcomes were versatile questionnaire, nerve conduction studies, WBC, ANC, G-CSF examination, etc. Conclusions : Their median for impact factor was 3.650 and average modified Jadad score of six RCTs was 4.33. In order to provide appropriate evidence regarding the effectiveness of acupuncture in treatment for chemotherapy-induced toxicity, more rigorous and well-designed studies are necessary.

유·아동복 브랜드 구성요소의 특성 (Characteristics of Components in Infant and Children's Clothing Brand)

  • 나수임
    • 한국의상디자인학회지
    • /
    • 제13권1호
    • /
    • pp.135-146
    • /
    • 2011
  • Despite the recession that has affected people's consumption of clothing, the 'Gold Kids' market shows steady growth. This study analyzed the characteristics of components that make up infant and children's wear brands. Firstly, this study found the linguistic features of infant and children's clothing brands. Most brand names have common characteristics such as idiomatic expressions, combination and separation of vocabulary, and more than 6 syllables. Also, when they formative brand quality, they frequently used words like 'girl', 'kid' and 'baby' to clarify the category of the brand product. Also it is meant to present a clear brand concept to the target consumer to offer their brand information and product characteristics. Moreover, English is widely used in the brand names, and they used appropriate symbol graphics that fit the titles and qualities of the brands. Second, to strengthen their brand identity and inherent concepts, infant and children's clothing brands normally use their own particular brand colors wich makes special and strong visual impressions on the target consumer. Also, they mainly use applied sans serif typeface showing the softer brand quality. Brand logos have different visual expressions depending on their brand value and the target consumer. The word type of the logos presents clear brand identity and information to the target consumer. Through the study, we found that infant and children's clothing brands tend to use written brand names for the logo type more than graphic symbol logo patterns. This indicates that infant and children's clothing brands tend to emphasize information transfer rather than visual graphic symbols when they organize brand logos.

  • PDF

활동 중심 수학과 디지털교과서의 개발 및 적용 (Development and Application of Action Based Mathematics Digital Textbook)

  • 허남구;류희찬
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제25권2호
    • /
    • pp.241-261
    • /
    • 2015
  • 디지털교과서는 정부에서 제시하는 새로운 교육 시스템을 지칭하는 스마트교육을 실현시키기 위한 주요 전략 중 하나이다. 우리나라는 과학, 수학, 사회, 영어 교과의 디지털교과서를 2013년까지 개발하여 2014년에 적용하려고 하였다. 하지만 수학 과목의 경우, 디지털교과서의 초안이 기능적인 측면에서 서책형 교과서와 크게 다르지 않아 무기한 연기되었다. 이러한 상황은 수학 교과에 부적합한 저작도구의 사용으로 인해 수학교육에서 가장 중요한 측면 중의 하나인 학생의 탐구 활동이 매우 제한적으로 구현될 수밖에 없었기 때문이다. 본 논문은 디지털교과서가 보다 잘 사용되어지기 위한 개발 방향과 저작도구로서 Cabri LM을 사용하여 고등학교 3학년의 수학과 디지털교과서를 개발하고 적용하면서 나타난 결과를 소개한다.

다문화가정 이주여성의 운율구 경계짓기와 억양패턴 (Prosodic Phrasing and Intonation Patterns in the Speech of Migrant Women from Multicultural Families)

  • 정진숙;이숙향
    • 한국음향학회지
    • /
    • 제31권7호
    • /
    • pp.461-471
    • /
    • 2012
  • 본 연구는 다문화가정 이주여성의 운율구 경계짓기와 억양패턴에 대한 음향학적인 분석을 통하여 이주여성대상 한국어교육 프로그램 개발의 기초자료를 제공하고자 하였다. 대부분의 운율 특성에서 이주집단이 한국집단과 차이를 보였다. 한국집단은 첫 어절을 100% 강세구로 읽은 반면, 이주집단은 거의 억양구로 실현하였으며 이주여성들은 첫 분절음에 따라 달라지는 강세구의 첫 음조의 패턴 습득이 아직 제대로 이루어지지 않아 한국집단보다 훨씬 다양한 첫 어절의 억양패턴들을 보였다. 몇몇 운율 특성에서는 이주집단 간에도 차이를 보였으며 한국에서의 거주기간이 상대적으로 긴 필리핀집단이 베트남집단에 비해 상대적으로 한국집단에 가까운 특성을 보였다. 문장 내 평균 억양구수는 베트남집단이 필리핀집단보다 많았으며 가부의문문의 문미 경계음조는 필리핀집단은 한국집단처럼 'H%'로만 실현한 반면, 베트남집단은 'H%'뿐만 아니라 'HL%'로도 실현하였다.