• 제목/요약/키워드: 서울 코퍼스

검색결과 16건 처리시간 0.02초

담화 성분을 활용한 지시 발화의 키프레이즈 추출: 한국어 병렬 코퍼스 구축 및 데이터 증강 방법론 (Keyphrase Extraction of Directive Utterances via Discourse Component: Construction and Data Augmentation of Korean Parallel Corpus)

  • 조원익;문영기;김종인;김남수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.241-245
    • /
    • 2019
  • 문서 요약, 키프레이즈 추출과 패러프레이징은 인간이, 혹은 기계가 문서를 보다 원활히 이해하는 데에 도움을 주는 방법론들이다. 우리는 본 연구에서 질문/요구 등의 지시성 발화를 대상으로, 핵심 내용을 추출하는 간단한 방법론을 통해 한국어 병렬 코퍼스를 구축한다. 또한, 우리는 인적 자원을 활용한 효율적인 데이터 증강 전략을 통해 부족하거나 필수적인 유형의 발화의 양을 보강하고, 약 5만 쌍 크기의 코퍼스를 제작하여 이를 공개한다.

  • PDF

한국어 혐오 표현 코퍼스 구축 방법론 연구: 온라인 악성 댓글에 나타나는 특성을 중심으로 (A Study on the Construction of Korean Hate Speech Corpus: Based on the Attributes of Online Toxic Comments)

  • 조원익;문지형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.298-303
    • /
    • 2020
  • 온라인 공간에서 특정인, 혹은 특정 집단의 사람들을 대상으로 한 혐오 표현은 당사자에게 정신적 고통을 미칠 뿐 아니라 이를 보는 이에게도 간접적인 불쾌함을 유발한다. 이에 관한 문제의식은 사회적으로 공감대가 형성된 바 있지만, 아직 한국어에서는 많은 연구들이 혐오 표현 자체의 논의에 집중하고 있으며, 이는 실제로 관찰되는 혐오 표현들의 자동 탐지 및 예방에는 효과적인 정보를 제공하지 못하는 것이 사실이다. 이에 우리는 실제 온라인 댓글들을 탐구하여 혐오, 모욕 및 사회적 편견을 탐지할 수 있는 모델 학습에 필요한 코퍼스 구축 가이드라인을 제작하였다. 구체적인 사례를 동반한 가이드라인과 크라우드소싱을 바탕으로 약 9천 3백 문장 가량의 코퍼스를 구축하였으며, 해당 데이터에 관한 개요와 함께 우리의 접근 방식이 어떤 점에서 기존의 담론과 연관되어 있는지에 대한 분석을 제시한다.

  • PDF

담화표지 '아', '어', '음'의 성별과 연령별 사용 양상 (The pattern of use by gender and age of the discourse markers 'a', 'eo', and 'eum')

  • 송영숙;심지수;오재혁
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.37-45
    • /
    • 2020
  • 이 연구는 담화 표지 '아, 어, 음'의 출현 빈도와 발화 시간, 발화 위치 등을 계량적으로 관찰하여 성별과 연령별 차이를 보이고자 하였다. 이를 위해 대용량 음성 코퍼스인 서울코퍼스를 이용하였고, Praat(ver.6.1.31)으로 음길이와 실제 발화를 확인하고, Emeditor(ver.17.6.1)로 코퍼스를 분석하고, R(ver.3.4.4)로 통계 분석하여 결과를 제시하였다. 성별에 따라 보면 여성의 경우 남성보다 단독 발화에서 '음'이 고빈도로 사용되었고, 발화 종결 위치에서의 평균 음길이 또한 길었다. 연령에 따라 보면 발화 시작 위치에서 10대에서는 '아'가, 40대는 '어'가 고빈도로 출현하는 것이 특징적이었다.

추체외로 증상에 따른 항정신병 약물 복용량과 음성 특성의 상관관계 분석 (Correlation analysis of antipsychotic dose and speech characteristics according to extrapyramidal symptoms)

  • 이수빈;김서영;김혜윤;김의태;유경상;이호영;이교구
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.367-374
    • /
    • 2022
  • 본 논문은 항정신병 약물의 복용량에 따른 음성 특징의 상관관계 분석을 수행하였다. 항정신병 약물의 대표적 부작용 중 하나인 추체외로 증상(ExtraPyramidal Symptoms, EPS) 발생에 따른 음성 특징의 패턴을 알아보기 위하여, 문장 개발을 통해 한국어 기반 추체외로 증상 음성 코퍼스를 구축하였다. 수집된 자료는 추체외로 증상 군과 비 추체외로 증상 군으로 나누어 음성 특징 패턴을 조사하였으며, 특히 추체외로 증상 군의 높은 음성 특징 상관관계를 보였다. 또한, 발화 문장의 종류가 음성 특징 패턴에 영향을 미친다는 것을 확인할 수 있었으며, 이를 통해 음성 특징을 기반한 추체외로 증상의 조기 발견 가능성을 기대해볼 수 있었다.

한국어 오픈 도메인 대화 모델의 CTRL을 활용한 혐오 표현 생성 완화 (Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL)

  • 좌승연;차영록;한문수;신동훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.365-370
    • /
    • 2021
  • 대형 코퍼스로 학습한 언어 모델은 코퍼스 안의 사회적 편견이나 혐오 표현까지 학습한다. 본 연구에서는 한국어 오픈 도메인 대화 모델에서 혐오 표현 생성을 완화하는 방법을 제시한다. Seq2seq 구조인 BART [1]를 기반으로 하여 컨트롤 코드을 추가해 혐오 표현 생성 조절을 수행하였다. 컨트롤 코드를 사용하지 않은 기준 모델(Baseline)과 비교한 결과, 컨트롤 코드를 추가해 학습한 모델에서 혐오 표현 생성이 완화되었고 대화 품질에도 변화가 없음을 확인하였다.

  • PDF

서울 코퍼스 20대 남성의 성대진동 개시시간 연구 (A study on the voice onset times of the Seoul Corpus males in their twenties)

  • 이유리;윤규철
    • 말소리와 음성과학
    • /
    • 제8권4호
    • /
    • pp.1-8
    • /
    • 2016
  • The purpose of this work is to examine the voice onset times (VOTs) of the three types of plosives from the Seoul Corpus male speakers in their twenties. In addition, the factors known to affect VOTs were analyzed, including the place and manner of articulation, speakers, location in words, type of following vowels and speech rates calculated from the three consecutive words. Much of the findings agreed with those from earlier studies on Korean and other languages and new discoveries were made.

제 16회 mbc 건축박람회

  • 전국보일러설비협회
    • 보일러설비
    • /
    • 9호통권152호
    • /
    • pp.100-107
    • /
    • 2006
  • 박람회 전문기업 동아전람은 바르고 유익한 건축정보를 제공하고 업체 마케팅 장소 제공 및 관련산업의 활성화를 위해 '2006 제16회 mbc건축박람회'를 지난 8월 17일부터 212일까지 5일간 지하철 3호선 학여울 역의 서울무역전시장에서 개최했다. 박람회에는 200여 업체 참가하여 총 2,000여 아이템을 전시됐다. '동아전람 사이버 건축박람회'와 병행해서 동시에 개최된 이번 전시회는 건축자재전, 인테리어전, 건축Renovation전, 전원주택전, 조명산업전, 건축공구전, DIY산업전, 가구전, 부동산 분양 및 펜션 정보전으로 펼쳐졌다.

  • PDF

영어와 한국어 자연발화 음성 코퍼스에서의 무성 파열음 연구 (A study on the voiceless plosives from the English and Korean spontaneous speech corpus)

  • 윤규철
    • 말소리와 음성과학
    • /
    • 제11권4호
    • /
    • pp.45-53
    • /
    • 2019
  • 본 논문의 목적은 자연발화 음성 코퍼스를 대상으로 영어 무성 파열음 [p, t, k]과 한국어 격음 파열음 [ph, th, kh]의 조음위치 결정에 영향을 미치는 요인들을 살펴보는 것이다. 프랏 스크립트를 이용하여 요인들은 자동 추출하였고, 판별분석을 통해 요인의 수를 점차 증가시켜가면서 무성 파열음의 예측 정확도를 계산하였다. 분석에 사용된 요인들은 개방파열, 파열 후 기식음과 모음 시작 부분의 운동량과 스펙트럼 기울기, 폐쇄구간과 VOT, 단어와 발화 내 위치, 마지막으로 직후 모음의 종류 등이었다. 분석 결과에 따르면, 요인의 수가 다섯 개까지 증가하는 경우 예측정확도가 최대로 증가하여 영어는 74.6%, 한국어는 66.4%를 나타내었다. 그러나 사실상의 최대값에 도달하는 데는 네 개의 요인으로도 충분하였고, 이들은 개방파열과 직후 모음의 운동량과 스펙트럼 기울기, 폐쇄구간과 VOT였다. 이는 무성파열음의 조음위치가 자신의 내부 요인들과 직후 모음의 영향을 동시에 받는다는 것을 의미한다고 볼 수 있다.

구개인두부전증 환자의 한국어 음성 코퍼스 구축 방안 연구 (Research on Construction of the Korean Speech Corpus in Patient with Velopharyngeal Insufficiency)

  • 이지은;김욱은;김광현;성명훈;권택균
    • Korean Journal of Otorhinolaryngology-Head and Neck Surgery
    • /
    • 제55권8호
    • /
    • pp.498-507
    • /
    • 2012
  • Background and Objectives We aimed to develop a Korean version of the velopharyngeal insufficiency (VPI) speech corpus system. Subjects and Method After developing a 3-channel simultaneous speech recording device capable of recording nasal/oral and normal compound speech separately, voice data were collected from VPI patients aged more than 10 years with/without the history of operation or prior speech therapy. This was compared to a control group for which VPI was simulated by using a french-3 nelaton tube inserted via both nostril through nasopharynx and pulling the soft palate anteriorly in varying degrees. The study consisted of three transcriptors: a speech therapist transcribed the voice file into text, a second transcriptor graded speech intelligibility and severity and the third tagged the types and onset times of misarticulation. The database were composed of three main tables regarding (1) speaker's demographics, (2) condition of the recording system and (3) transcripts. All of these were interfaced with the Praat voice analysis program, which enables the user to extract exact transcribed phrases for analysis. Results In the simulated VPI group, the higher the severity of VPI, the higher the nasalance score was obtained. In addition, we could verify the vocal energy that characterizes hypernasality and compensation in nasal/oral and compound sounds spoken by VPI patients as opposed to that characgerizes the normal control group. Conclusion With the Korean version of VPI speech corpus system, patients' common difficulties and speech tendencies in articulation can be objectively evaluated. Comparing these data with those of the normal voice, mispronunciation and dysarticulation of patients with VPI can be corrected.

KcBERT: 한국어 댓글로 학습한 BERT (KcBERT: Korean comments BERT)

  • 이준범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF