• 제목/요약/키워드: 문어

검색결과 131건 처리시간 0.025초

음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템 (Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information)

  • 최성자;강미영;허희근;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-53
    • /
    • 2003
  • 본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

  • PDF

공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법 (Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora)

  • 한경은;백슬예;임재수
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

스토리텔링이 한식의 구매의도에 미치는 영향 -문장의 문체, 사전지식을 중심으로- (The Effects of Storytelling of Korean Food Purchase Intention - Focused on sentence style and preliminary Knowledge -)

  • 송영애
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2015년도 춘계 종합학술대회 논문집
    • /
    • pp.105-106
    • /
    • 2015
  • 본 연구는 스토리텔링 전공자, 음식 전공자, 마케팅 전공자가 음식 관련 스토리 창작을 위한 방법론을 제공하기 위한 기초 실험연구이다. 기존 음식 스토리텔링 관련 선행연구에서는 스토리가 [왜 필요한가?], [왜 중요한가?]에 대한 답을 제공해주었다. 그러나 본 연구에서는 한 단계 나아가 [어떻게 창작할 것인가?]에 답을 제공하고자 스토리 창작을 위한 첫 번째 고민인 스토리의 문체에 집중하였다. 따라서 독립변수로 음식 스토리텔링의 유 무, 음식과 스토리텔링에 관한 지식의 정도(초심자 전문가), 스토리의 문체(구어체 문어체)가 음식 구매의도에 어떠한 영향을 미치는지 면밀히 검증하였다.

  • PDF

강화학습을 이용한 구어 태거의 모델링과 구어 태거의 구현 (Modeling a Tagger for Korean Spoken Language)

  • 정홍;서명원;김용;박기윤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.367-369
    • /
    • 2001
  • 본 논문에서는 기존의 문어를 다루는 태거와는 달리 구어를 처리할 수 있는 구어태거를 구현하였다. 구어태거는 크게 심층구조와 표층구조의 두 가지 부분으로 구성되어 있으며, 촘스키의 구조에 따라 설계하였다. 심층구조에서 예측된 문장은 표층구조에서 실제의 입력과 음소열수준으로 비교되고 그 결과 가 다시 심층구조로 되메김된다. 이를 통해 가장 적합한 후부가 선택되며 또한 강화학습을 통해 문법과 어휘가 학습된다. 실험을 통해서 여러 가지 잡음이 섞인 입력단어를 본 태거가 얼마나 정확한 예측을 할 수 있는가를 보았으며, 그 결과 잡음에 강한 특성을 나타내는 것을 확인하였다.

  • PDF

세계의식품기업 <제3회> - 그 다각경영과 해외진출전략 - 유닐리버 - 지구를 덮은 거대한 문어

  • 이동원
    • 좋은식품
    • /
    • 통권16호
    • /
    • pp.82-85
    • /
    • 1973
  • 세계 최대의 식품메이커 유닐리버(Unilever Ltd.)의 72년도 매상고는 88억 6천 4백44만불. 원화로 따져 3초 5천 4백 56억이 넘는 엄청난 거액이다. 유닐리버는 세계유지원료의 1/3을 매입, 세계식용유지의 반이상 공급하고 있다. 4대주력상품인 마아가린, 비누, 공업유지, 식료품 가운데 마아가린은 전유럽 수요의 75$\%$, 비누는 영국시장의 60$\%$를 장악하고 있다. 전통상품인 마아가린과 비누가 전체 매상의 약 60$\%$를 차지하고 있으나 근래에 와서는 60개국에 뿌리박고 있는 6백에 이르는 자회사와 2백 50개 직영공장을 통해 맥주, 자전거, 합판, 해운 등 경영다각화에도 힘을 쏟고 있다. 그러나 기본경영방향을 불황이나 전쟁에 영향을 받지 않는 식품을 중심으로 한 평화산업에 중점을 두고 해외시장에 진출하고 있는 것이 분명하다.

  • PDF

우리나라에 출현하는 두족류 이름 (Korean Name of Cephalopods in Korea)

  • 김영혜;전영열
    • 한국패류학회지
    • /
    • 제26권2호
    • /
    • pp.171-175
    • /
    • 2010
  • 두족류의 우리말 사용에 따른 혼란을 해결하고, 한국산 두족류 총 목록 작성의 예비연구로써 이미 국내에 보고된 분류군의 우리말 이름을 수집 조사하였다. 우리말 이름을 가진 두족류의 어원과 조사 결과 나타난 문제점을 제시하고, 우리말 통일 작업이나 제정에 필요한 원칙을 제언하였다. 제언을 토대로 갑오징어목 2고 14종, 오징어목 7과 17종, 문어목 3과 7종에 대한 우리말 이름을 재정립하였다.

세종 문어체 말뭉치를 위한 말뭉치 데이터 추출 도구 (Corpus Data Extracting Tool for Sejong Text Corpus)

  • 박일남;장우석;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.1102-1105
    • /
    • 2010
  • 본 논문에서는 세종 말뭉치 데이터를 활용할 때 한글코드의 변환 및 말뭉치에서 필요한 정보 추출 등 한국어 말뭉치에서 통계 정보를 추출하는데 사용되는 여러 가지 기능들을 한데 묶어, 말뭉치 작업의 사용자 편의성을 개선시키기 위한 도구를 설계, 구현하였다. 이 말뭉치 활용 도구는 세종 말뭉치의 원시, 형태, 형태의미, 구문 말뭉치들을 다양한 옵션에 따라 사용자가 원하는 데이터를 추출할 있을 뿐만 아니라 일반적인 한글 텍스트 파일에 공통적으로 사용되는 코드 변환, 파일 합병, 빈도 계산 등을 제공하기 때문에 말뭉치 작업을 하는 사용자들이 편리하게 사용할 수 있게 하였다.

구어 의존 구문 분석을 위한 비유창성 처리 연구 (A Study of Disfluency Processing for Dependency Parsing of Spoken)

  • 박석원;최현수;한지윤;오태환;안의정;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.144-148
    • /
    • 2019
  • 비유창성(disfluency)은 문어와 같이 정연한 구조로 말하지 못하는 현상 전반을 지칭한다. 이는 구어에서 보편적으로 발생하는 현상으로 구어 의존 구문 분석의 난이도를 상향시키는 요인이다. 본 연구에서는 비유창성 요소 유형을 담화 표지, 수정 표현, 반복 표현, 삽입 표현으로 분류하였다. 또한 유형별 비유창성 요소를 실제 말뭉치에서 어떻게 구문 주석할 것인지를 제안한다. 이와 같은 구어 데이터 처리 방식은 대화시스템 등 구어를 처리해야 하는 도메인에서의 자연언어이해 성능 향상에 기여할 것이다.

  • PDF

대화문에서의 이벤트 추출을 위한 프레임 논항 역할 분류기 (Frame Arguments Role Labeling for Event extraction in Dialogue)

  • 허철훈;노영빈;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.119-123
    • /
    • 2020
  • 이벤트 추출은 텍스트에서 구조화된 이벤트를 분석하는 것이다. 본 논문은 대화문에서 발생하는 다양한 종류의 이벤트를 다루기 위해 이벤트 스키마를 프레임넷으로 정한다. 대화문에서의 이벤트 논항은 이벤트가 발생하는 문장 뿐만 아니라 다른 문장 또는 대화에 참여하는 발화자에서 발생할 수 있다. 대화문 주석 데이터의 부재로 대화문에서의 프레임 파싱 연구는 진행되지 않았다. 본 논문이 제안하는 모델은 대화문에서의 이벤트 논항 구간이 주어졌을 때, 논항 구간의 역할을 식별하는 모델이다. 해당 모델은 이벤트를 유발한 어휘, 논항 구간, 논항 역할 간의 관계를 학습한다. 대화문 주석 데이터의 부족을 극복하기 위해 문어체 주석 데이터인 한국어 프레임넷을 활용하여 전이학습을 진행한다. 이를 통해 정확도 51.21%를 달성한다.

  • PDF

한국어 기반 음성 인식에서 사투리 표현에 관한 연구 (A Study on Dialect Expression in Korean-Based Speech Recognition)

  • 이신협
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.333-335
    • /
    • 2022
  • 음성인식 처리기술의 발전은 STT, TTS 기술과 함께 각종 동영상, 스트리밍 서비스에서 적용되어 사용되고 있다. 그러나 실제 대화내용의 음성인식은 사투리 사용과 불용어, 감탄사, 유사어의 중복 등으로 명료한 문어체적 표현에 장벽이 높은 편이다. 본 연구에서는 음성인식에 모호한 사투리에 대해 범주별 사투리 중요 단어 사전 처리 방식과 사투리 운율을 음성 인식 네트워크 모델 속성으로 적용한 음성인식기술을 제안한다.

  • PDF