• 제목/요약/키워드: korean corpus

검색결과 1,203건 처리시간 0.024초

꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구 (KKMA : A Tool for Utilizing Sejong Corpus based on Relational Database)

  • 이동주;연종홈;황인범;이상구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권11호
    • /
    • pp.1046-1050
    • /
    • 2010
  • 말뭉치는 언어학 분야에서 다양한 연구를 위한 기초자료로서 활용된다. 국내에서도 세종 21세기 계획 등을 통해서 몇몇 대용량 말뭉치가 구축되었으나, 다수의 사용자가 쉽게 활용할 수 있는 활용 도구에 대한 연구는 여전히 부족하다. 본 논문에서는 한국어 대용량 말뭉치 중 하나인 세종 현대 국어 말뭉치를 관계형 데이터베이스에 저장하여, 다양한 방법으로 활용할 수 있도록 지원하는 말뭉치 활용 도구에 대한 설계 및 구현 방법을 보인다. 웹 기반의 말뭉치 활용 시스템을 구축하였고, 실제로 언어학 연구자들에게 사용되고 있다.

우리나라 중.상급학습자 영어의 특징 : 말뭉치 언어학적 분석 (Characteristics of Intermediate/Advanced Korean Inter-Englishes: A Corpus-Linguistic Analysis.)

  • 안성호;이영미
    • 한국영어학회지:영어학
    • /
    • 제4권1호
    • /
    • pp.83-102
    • /
    • 2004
  • The purpose of this paper is to find out some major characteristics of intermediate-advanced Korean learners' English by corpus- linguistically analyzing their essays in comparison with native speakers'. We construct a corpus of CBT TOEFL essays by Korean learners, NNS1 (94076 words in 402 texts), and its sub-corpus, NNS2 (14291 words in 45 texts), and then a corpus of model essays written or meticulously edited by native speakers, NS (14833 words in 35 texts). We compare NNS1 and NNS2 with NS, and with some other corpora, in terms of high-frequency words, and show that Korean learners' writings have more features of informal writing than those of formal writing, which is in accord with the reports in Granger (1998) that EFL writings by European advanced learners are characterized by informality.

  • PDF

음경해면체 이완작용에 미치는 사상자(蛇床子)의 효과 (Effects of Torilis Fructus Extract on the Relaxation of Corpus Cavernosum)

  • 김호현;안상현;박선영
    • 동의생리병리학회지
    • /
    • 제32권1호
    • /
    • pp.24-29
    • /
    • 2018
  • In order to define the effect of Torilis Fructus(TF) extract which has been used for the treatment of erectile dysfunction, experiments were carried out by organ bath study, histochemical and immunohistochemical methods. First, in the organ bath study, when TF extract was administered to the maxillary contracted corpus cavernosum by PE ($10^{-6}M$), there was a significant relaxation effect on corpus cavernosum at concentration of 1, $3mg/m{\ell}$. Compared with the absence of $\text\tiny{L}$-NNA pretreatmen, pretreatment of $\text\tiny{L}$-NNA was inhibited the relaxation effect of penile corpus cavernosum. In the immunohistochemical study, the eNOS positive reaction was significantly increased, and the PDE5 positive reaction was significantly decreased due to the administration of TF extract. Therefore, it show that the TF enhances the production of eNOS and NO, inhibits PDE5 which blocks the action of increased cGMP, relaxes the corpus cavernosum. So TF relaxes the corpus cavernosum and it can be used as a safer erectile dysfunction treatment.

The Korean Corpus of Spontaneous Speech

  • Yun, Weonhee;Yoon, Kyuchul;Park, Sunwoo;Lee, Juhee;Cho, Sungmoon;Kang, Ducksoo;Byun, Koonhyuk;Hahn, Hyeseung;Kim, Jungsun
    • 말소리와 음성과학
    • /
    • 제7권2호
    • /
    • pp.103-109
    • /
    • 2015
  • This paper describes the development of the Korean corpus of spontaneous speech, also called the Seoul corpus. The corpus contains the audio recording of the interview-style spontaneous speech from the 40 native speakers of Seoul Korean. The talkers are divided into four age groups; talkers in their teens, twenties, thirties and forties. Each age group has ten talkers, five males and five females. The method used to elicit and record the speech is described. The corpus containing around 220,000 phrasal words was phonemically labeled along with information on the boundaries for Korean phrasal words and utterances, which were additionally romanized. According to the test result of labeling consistency, the inter-labeler agreement on phoneme identification was 98.1% and the mean deviation on boundary placement was 9.04 msec. The corpus will be made available for free to the research community in March, 2015.

초음파검사 및 혈중 progesterone 농도측정에 의한 도축우 유래 난소낭종의 감별진단 (Differential diagnosis of ovarian cysts using ultrasonogrphy and progesterone assay in slaughtered cows)

  • 박상국;김상욱;임종수;박장일;정만호
    • 한국동물위생학회지
    • /
    • 제21권1호
    • /
    • pp.57-66
    • /
    • 1998
  • To establish the differential diagnosis and treatment method in bovine ovarian cysts, specially ovarian cysts with corpus luteum, serum progesterone concentration and ulrasonography for measuring the cyclic area, thickness of cystic wall and echogenicity of corpus luteum were investigated in cystic ovaries from slaughtered cows. The incidence rates of ovarian cysts were follicular cyst 69.2% and luteal cyst 30.8%. The incidence rates of 8 various types of ovarian cysts were as follows; 2Ba 32.3%, 2Aa 25.8% and 2Bb 14.5%, respectively. The thickness of cystic wall were 2Bb 3.93mm, 2Ab 3.70mm and 1Aa 1.93mm and the serum progesterone concentrations were above 1.0ng/$m\ell$ in 2Ab, 2Bb and IAa, respectively. The cystic area of ovarian cysts with corpus luteum was 288.30mm2, but ovarian cysts without corpus luteum 542.30$\textrm{mm}^2$, and the thickness of cystic wall 2.12mm and 2.40mm, respectively. The serum progesterone concentration was 1.91ng/$m\ell$ in ovarian cysts with corpus luteum and 1.20ng/$m\ell$ ovarian cysts without corpus luteum. There was not the correlations between thickness of cystic wall and serum progesterone concentration in ovarian cysts with corpus luteum, whereas, was the correlations in ovarian cysts without corpus. These results indicated that PGF2$\alpha$ analogues can be choice for treating the ovarian cysts with corpus luteum because serum progesterone concentrations were above 1.0ng/$m\ell$ in ovarian cysts with corpus luteum. In conclusion, it is suggest that ultrasonography is useful diagnostic tool for diagnosing and choicing of treatment remedy in cystic ovaries of bovine.

  • PDF

오공(蜈蚣)이 노령(老齡)에 따른 mouse의 면역(免疫) 기능(機能)에 미치는 영향(影響) (Effects of Scolopendrae corpus on immune response in mice of different ages)

  • 김길섭;서운교;정지천
    • 대한한방내과학회지
    • /
    • 제19권1호
    • /
    • pp.477-487
    • /
    • 1998
  • To clarify the activating effects of Scolopendrae corpus on immunological function, its effect on primary and secondary antibodies production in mice of various ages was investigated. Scolopendrae corpus increased the number of both antibody producing cells(anti-IgM and anti-IgG producing plaque forming cells, PFC) and phagocytic activity of peritoneal macrophage. Futhermore, these phenomena were significantly increased with aging in mice. Scolopendrae corpus also increased natural killer cell activity concerning to cancer immunology. These results suggest that Scolopendrae corpus markedly increases the reduced activity in the elderly and activates the immune response in senescence mice.

  • PDF

한국 예비 대학생의 영어 사용 특성 파악을 위한 대규모 공개 영어 학습자 코퍼스 구축 및 분석 (Compilation of the Yonsei English Learner Corpus (YELC) 2011 and Its Use for Understanding Current Usage of English by Korean Pre-university Students)

  • 이석재;정채관
    • 한국콘텐츠학회논문지
    • /
    • 제14권11호
    • /
    • pp.1019-1029
    • /
    • 2014
  • 최근 영어 학습자 코퍼스(English learner corpus)를 활용하여 다양한 영어 교육 분야에 활용하는 시도가 이뤄지고 있다. 하지만 지금까지 국내에서 개발된 대다수 영어 학습자 코퍼스는 소규모이거나 공개가 되지 않아 공익을 위한 영어 교육 콘텐츠로서의 적절한 역할을 하지 못하고 있다. 본 연구에서는 국내외 영어 학습자 코퍼스 구축 현황을 살펴보고 대규모 공개 한국인 영어 학습자 코퍼스의 필요성을 논의한다. 또한, 이와 같은 필요성을 바탕으로 1백만 단어 이상으로 만들어진 대규모 공개 한국인 영어 학습자 코퍼스 구축과정과 결과를 분석하여 예비 대학생의 영어사용 특성을 파악하고 이를 영어 교육 개선을 위해 활용할 수 있는 방안을 제안한다.

Lessons from Developing an Annotated Corpus of Patient Histories

  • Rost, Thomas Brox;Huseth, Ola;Nytro, Oystein;Grimsmo, Anders
    • Journal of Computing Science and Engineering
    • /
    • 제2권2호
    • /
    • pp.162-179
    • /
    • 2008
  • We have developed a tool for annotation of electronic health record (EHR) data. Currently we are in the process of manually annotating a corpus of Norwegian general practitioners' EHRs with mainly linguistic information. The purpose of this project is to attain a linguistically annotated corpus of patient histories from general practice. This corpus will be put to future use in medical language processing and information extraction applications. The paper outlines some of our practical experiences from developing such a corpus and, in particular, the effects of semi-automated annotation. We have also done some preliminary experiments with part-of-speech tagging based on our corpus. The results indicated that relevant training data from the clinical domain gives better results for the tagging task in this domain than training the tagger on a corpus form a more general domain. We are planning to expand the corpus annotations with medical information at a later stage.

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축 (Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon)

  • 강승식;원혜진;이민행
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.144-151
    • /
    • 2020
  • 모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 '좋-', '죄송하-', '즐겁-' 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.

교육용 과학언어 연구를 위한 범용 자료로서 과학교과서 말뭉치 K-STeC(Korean Science Textbook Corpus) 구축 (Building Korean Science Textbook Corpus (K-STeC) for research of Scientific Language in Education)

  • 윤은정;김진호;남길임;송현주;옥철영;최준;박윤배
    • 한국과학교육학회지
    • /
    • 제38권4호
    • /
    • pp.575-585
    • /
    • 2018
  • 본 연구에서는 과학교육에서 그 동안 주목받지 못했던 과학언어 및 과학용어에 대한 연구를 체계적으로 수행하기 위한 목적으로 지난 20년간의 과학교과서 텍스트를 한 자리에 모아 과학교과서 말뭉치를 구축함으로써 다각도로 분석 가능한 형태의 언어 자원을 생성하였다. 말뭉치 구축 대상 자료는 6차 교육과정, 7차 교육과정, 2009 개정교육과정의 초등학교에서부터 고등학교까지 모든 과학교과서를 수집하고 이 가운데 두 개의 출판사에 해당하는 132권에 대한 말뭉치를 구축하였다. 원시말뭉치, 형태주석 말뭉치, 용어주석 말뭉치의 총 3단계로 구축하였다. 최종적으로 구축된 과학교과서 말뭉치를 K-STeC(Korea - Science Textbook Corpus)이라 명명하였다. K-STeC은 과학용어에 대한 의미 구분과 분야가 표지된 의미 주석 말뭉치로서 교육과정, 과목, 학년, 출판사의 서지 정보와 대단원, 중단원, 소단원의 단원 정보, 페이지, 문장번호의 위치 정보와 함께 본문, 탐구활동, 참고자료, 제목 등의 텍스트 구조 정보를 메타정보로 마크업 하였다. 총 3년여에 걸친 연구 기간 동안 언어정보학, 컴퓨터공학, 과학교육학의 세 분야 전문가들의 노하우를 융합하여 새로운 연구 방법을 창출하였고, 다수의 전문 인력들이 투입되어 노동집약적 결과물을 내었다. 본 원고에서는 전체적인 연구 절차와 방법을 조망함으로써 새로운 연구 방법론 및 결과물을 소개하고 향후 과학언어 연구의 발전 가능성 및 결과물의 활용방안에 대해 논의하였다.