• 제목/요약/키워드: 영어처리

검색결과 470건 처리시간 0.024초

식당예약 및 추천을 위한 한국어 대화 코퍼스 구축 연구 (A Study on Building Korean Dialogue Corpus for Restaurant reservation and recommendation)

  • 소아람;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.630-632
    • /
    • 2018
  • 최근 딥러닝(Deep Learning)기반 연구가 활발해짐에 따라 딥러닝 모델 기반의 대화 시스템 연구가 활성화되고 있다. 하지만 이러한 연구는 다량의 데이터를 기반으로 이루어지기 때문에 데이터 구축 연구의 필요성이 증가하고 있다. 기존에 공개된 대화 코퍼스는 대부분 영어로 이루어져있어 한국어 대화 시스템에는 적용하기 어렵다. 본 논문에서는 한국어 대화 코퍼스 구축을 위하여 식당예약 및 추천을 위한 한국어 대화를 수집하였으며, 총 498개의 대화를 수집하였다. 대화는 식당 예약 및 추천을 위한 12개의 정보를 수집할 수 있도록 구성하였다. 또한 데이터의 활용성을 높이기 위하여 데이터 후처리 작업으로 12개의 정보를 태깅작업을 하였다.

  • PDF

STT로 생성된 자막의 자동 문장 분할 (Automatic sentence segmentation of subtitles generated by STT)

  • 김기현;김홍기;오병두;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.559-560
    • /
    • 2018
  • 순환 신경망(RNN) 기반의 Long Short-Term Memory(LSTM)는 자연어처리 분야에서 우수한 성능을 보이는 모델이다. 음성을 문자로 변환해주는 Speech to Text (STT)를 이용해 자막을 생성하고, 생성된 자막을 다른 언어로 동시에 번역을 해주는 서비스가 활발히 진행되고 있다. STT를 사용하여 자막을 추출하는 경우에는 마침표가 없이 전부 연결된 문장이 생성되기 때문에 정확한 번역이 불가능하다. 본 논문에서는 영어자막의 자동 번역 시, 정확도를 높이기 위해 텍스트를 문장으로 분할하여 마침표를 생성해주는 방법을 제안한다. 이 때, LSTM을 이용하여 데이터를 학습시킨 후 테스트한 결과 62.3%의 정확도로 마침표의 위치를 예측했다.

  • PDF

결합범주문법을 이용한 한국어 경어 체계의 이해와 처리 (Computational Processing of Honorifics in Korean with Combinatory Categorial Grammar)

  • 권오식;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.365-372
    • /
    • 2001
  • 한국어나 일본어는 영어 등 서구의 언어와 비교하여 매우 발달된 경어 체계를 가지고 있다. 그러나 이러한 경어 체계는 이들 언어를 모국어로 사용하지 않는 사람들을 포함하여 모국어로 사용하는 많은 사람들까지도 정확하게 구사하기는 어려워 하는 것이 현실이다. 그럼에도 불구하고 경어 체계의 정확한 구사 능력은 적절한 어휘 선택 능력과 함께 자연스러운 의사 소통을 위한 중요한 언어 능력으로 간주되고 있다. 특히 기계번역기나 문법검사기를 구현하고자 할 때 이러한 경어 체계를 정확하게 이해하는 시스템의 구현은 한 차원 높은 자연스러운 표현을 제공하기 위하여 필수적이라고 할 수 있다. 본 논문에서는 한국어의 경어 체계를 조사하고 결합범주문법을 통하여 이를 검증하는 시스템을 소개한 뒤 사극 대본을 대상으로 하여 이 시스템의 성능을 확인한다.

  • PDF

한국어-프랑스어 자동번역을 위한 과거시제 선어말어미 '-었'의 처리방안 (Past Tense Generation in Korean to French Machine Translation)

  • 임승희;노란;홍문표
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.173-174
    • /
    • 2014
  • 본 연구는 현재 개발 진행 중인 다국어 자동통번역시스템에서 발생하는 한국어 과거시제 선어말어미 '-었'의 생성문제를 다루었다. 한국어 과거시제 선어말 어미는 영어와 독일어의 경우에는 대부분 단순과거형으로 생성될 수 있으나, 프랑스어의 경우에는 복합과거의 형식과 반과거의 형식 중 하나를 선택해야 하는 문제가 발생한다. 본 연구에서는 이러한 문제의 해결을 위해 한-프랑스어 코퍼스 분석을 통해 복합과거와 반과거의 올바른 생성을 위한 네 가지의 자질을 선정하였고, 이에 SVM 알고리즘을 적용한 분류기를 구현하였다. 현재까지의 실험결과는 84.45%의 정확률이며 현재 성능개선을 위한 연구가 계속 진행 중이다.

  • PDF

외국인 관광객을 위한 다국어 통번역 시스템 (Multilingual Speech and Machine Translation System for Foreign Tourists)

  • 최승권;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.665-666
    • /
    • 2016
  • 본 논문은 현재 개발 중에 있는 외국인 관광객을 위한 다국어 통번역 시스템을 기술하는 것을 목표로 한다. 다국어 통번역 시스템에서 개발 중에 있는 언어는 한국어, 일본어, 중국어, 영어, 스페인어, 불어, 독일어, 러시아어이다. 이렇게 개발된 다국어 통번역 시스템은 2018년 평창 동계 올림픽 때 다국어 통번역 서비스를 제공할 예정이다. 현재의 다국어 통번역 시스템의 성능은 번역만 보았을 때, 영한 87.63%, 한영 88.21%, 중한 85.38%, 한중 77.94%, 일한 89.00%, 한일 86.69%, 스한 76.90%, 한스 77.46%, 불한 76.28%, 한불 79.78%이다.

WIPI 기반의 모바일 영단어 학습 시스템의 설계 및 구현 (Design and Implementation of a Mobile English Words Learning System based on WIPI)

  • 강의영;고진희;김한일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.1005-1008
    • /
    • 2005
  • 현재 휴대폰을 통한 무선 인터넷 사용자가 급격한 증가폭을 보이고 있다. 또한 WIPI 탑재 의무화에 따른 WIPI 플랫폼을 탑재한 휴대폰이 본격적으로 출시되고 있다. 이에 본 논문에서는 제한된 공간을 벗어나 정보를 이용할 수 있는 모바일 기기를 활용하고, 영어 학습자들의 어휘력 증진에 도움이 되는 영단어 학습 시스템을 WIPI 기반의 플랫폼에서 설계하고 구현한 결과를 보인다.

  • PDF

모바일 기기를 이용한 콘텐츠 재활용 (Contents Recycling using Mobile Device)

  • 한은정;박안진;정기철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.911-914
    • /
    • 2005
  • 기존 오프라인 콘텐츠는 텍스트 중심의 정보량과 신속성 등의 한계로 교육 발전에 역부족이다. 그러나 최근에는 시 공간의 제약을 탈피한 열린 학습을 제공하여 교육의 장을 확대할 수 있으며, 또한 교육의 기회를 넓힐 수 있는 무선 단말기 학습 시스템의 사용범위를 확장시키고 있다. 본 논문에서 모바일 기기를 이용하는 영어 학습 콘텐츠는 기존의 다양한 오프라인 콘텐츠에 온라인 정보 태그를 첨가함으로써, 기존의 콘텐츠에 동적인 인터랙션과 다양한 멀티미디어 정보를 융합할 수 있는 장점으로, 정적인 2차원 시각 정보만을 제공하는 기존 오프라인 책의 활용범위를 넓힌 학습 콘텐츠이다.

  • PDF

불꽃축제의 현황과 향후 발전방향

  • 안명석
    • 대한화약발파공학회:학술대회논문집
    • /
    • 대한화약발파공학회 2008년도 추계학술발표회 논문집
    • /
    • pp.119-127
    • /
    • 2008
  • 불꽃놀이는 한국명 연화(煙火), 중국명 폭죽(爆竹), 일본명 하나비(花火), 영어명 파이어웍스 디스플레이(Fireworks display) 표기되며 화약류를 연소 폭발시켜서 빛, 소리, 형태, 연기, 연막, 시간지연, 운동에너지 등을 조합하여 예술적인 감각을 연출시키는 공학으로써 공예술학으로 불랴는 일종의 예술작품이다. 우리나라의 연화기술은 세계적이다. 1980년대에 개발이 완료되었고, 1990년대에 완숙단계흘 거쳐 향후 2010년 이후에는 환경안전을 고려한 최첨단 나노 생명공학으로 발전하여야 할 것이다. 즐거운 불꽃축제 후에 환경오염방지 대책과 비상체제 운영능력, 저장소관리, 불발탄 및 폐기물처리, 시민의식 향상 등이 더욱 요망된다. 본 논문은 올해 제4회를 맞는 부산불꽃축제를 중심으로 현황 및 발전방향과 개선안을 제시하였다.

  • PDF

접사 정보를 이용한 영어 미등록어의 품사부착 성능개선 (Performance Improvement of POS tagging for English Unknown words Using Affixes)

  • 김형철;김재훈;최윤수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.186-190
    • /
    • 2009
  • 품사 부착은 각종 자연어처리의 기본적인 요소이며, 크게 규칙 기반 방법과, 통계 기반 방법으로 나눌 수 있다. 대부분은 통계 기반의 기계학습을 이용하고 있으며, 대개 95% 이상의 성능을 보여주고 있다. 그러나 미등록어에 대해서는 성능이 그다지 높지 않다. 이 논문에서는 단어의 접사 정보를 이용해서 미등록어에 대한 품사 부착의 성능을 높이는 방법을 제안한다. 제안된 시스템은 CRF(Conditional Random Fields)를 이용하며, 그 자질의 일부로 접사 정보를 이용한다. 그 결과 미등록어에 대해서 약 40%의 성능이 개선되었다. 앞으로 미등록어에 적합한 자질을 연구하고 개발할 필요가 있을 것으로 생각된다.

  • PDF

시맨틱 어노테이션과 한국어 시맨틱 어노테이션 시스템 사례 (Semantic Annotation and an Example of Korean Semantic Annotation System)

  • 심상아;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-100
    • /
    • 2009
  • 인터넷에는 다양하고 많은 정보들이 담겨져 있다. 이 많은 정보들 중에서 사용자가 정말로 필요로 하는 정보를 기계로 추출해 내기 위해서 시맨틱 웹이라는 기술이 제안 되었다. 시맨틱 웹의 구현을 위해서는 기계가 해석할수 있는 데이터들이 필요한데 이것은 시맨틱 어노테이션을 통해서 얻어낼수 있다. 대부분의 시맨틱 어노테이션 시스템들은 영어로 작성된 문서들에 포커스를 두고 개발되었다. 한국어와 같은 교착어를 처리할수 있는 시스템들은 드물다. 본 논문에서는 시맨틱 어노테이션에 대해서 자세히 설명하고 한국어 시맨틱 어노테이션 시스템을 개발하는데에 어떤 언어적인 특징을 고려해야 하는지 살펴본다. 그리고 국외에서 개발된 한국어 시맨틱 어노테이션 시스템 EXCOM을 예제로 소개하겠다.

  • PDF