본 논문은 문장 내에서 나타나는 어휘간의 관계를 통해 표현 수준을 자동으로 평가할 수 있는 시스템을 제안한다. 제안하는 방법은 영어에세이 코퍼스 내의 문장에서 발생하는 철자 및 문법의 오류와 함께 어휘와 문법 패턴에 따른 표현난이도를 평가할 수 있는 자질을 생성하고 다양한 기계학습기법을 사용하여 문장의 수준을 평가하고자 하였다. 또한 기존에 연구되어온 규칙기반의 문장 평가시스템을 구현하고 기계학습기법을 이용한 문장 평가시스템과 비교하였다. 이를 통해 철자 및 문법의 오류율뿐만 아니라 표현난이도를 평가할 수 있는 자질들이 유용함을 확인할 수 있었다. 영어작문 문장의 수준평가를 위해서 국내 학생들의 토플 에세이 코퍼스를 수집하여 2,000문장을 추출하였고, 4명의 전문평가자들을 통해 6단계로 평가하여 학습 및 테스트 세트를 구성하였다. 성능척도로는 정확률과 재현율을 사용하였으며, 제안하는 방법으로 67.3%의 정확률과 67.1%의 재현율을 보였다.
본 연구는 과학 교육용 과학 전문 용어 목록을 만들기 위한 기초 연구로써 중학교 과학 교과서 물리 단원에 수록된 과학 전문 용어를 조사하였다. 그 결과 7학년 249개, 8학년 170개, 9학년 137개, 총 556개의 과학 전문 용어를 얻을 수 있었다. 그리고, 초등학교와 중학교에서 다루는 어휘수의 차이가 매우 심함을 알 수 있었고, 교육인적자원부의 편수자료와 물리학용어집, 표준국어대사전 간에 불일치가 상당히 많았다. 본 연구의 결과에 수정, 보완 작업을 거쳐서 수준별로 평정된 과학 전문 용어 목록이 완성되면 도서 및 사전 편찬, 각종 검사 제작, 교사 교육, 학습능력 향상 등에 다양하게 활용될 수 있을 것이다.
본 논문에서는 단백질 간 상호작용 자동 추출을 위해서 기존에 연구되어 높은 성능을 나타낸 구문 트리 커널을 확장한 시맨틱 구문 트리 커널을 제안한다. 기존 구문 트리 커널의 문제점은 구문 트리의 단말 노드를 구성하는 개별 어휘에 대한 단순 외형적 비교로 인해, 실제 의미적으로는 유사한 두 구문 트리의 커널 값이 상대적으로 낮아지는 현상이며 결국 상호작용 자동 추출의 전체 성능에 악영향을 줄 수 있다는 점이다. 본 논문에서는 두 구문 트리의 구문적 유사도(syntactic similarity)와 어휘 의미적 유사도(lexical semantic similarity)를 동시에 효과적으로 계산하여 이를 결합하는 새로운 커널을 고안하였다. 어휘 의미적 유사도 계산을 위해서 문맥 및 워드넷 기반의 어휘 중의성 해소 시스템과 이 시스템의 출력으로 도출되는 어휘 개념(WordNet synset)의 추상화를 통한 기존 커널의 확장을 시도하였다. 실험에서는 단백질 간 상호작용 추출(PPII, PPIC) 성능의 심층적 최적화를 위해서 기존의 SVM에서 지원되던 정규화 매개변수 외에 구문 트리 커널의 소멸인자와 시맨틱 구문 트리 커널의 어휘 추상화 인자를 새롭게 도입하였다. 이를 통해 구문 트리 커널을 적용함에 있어서 소멸인자 역할의 중요성을 확인할 수 있었고, 시맨틱 구문 트리 커널이 기존 시스템의 성능향상에 도움을 줄 수 있음을 실험적으로 보여주었다. 특히 단백질 간 상호작용식별 문제보다도 비교적 난이도가 높은 상호작용 분류에 더욱 효과적임을 알 수 있었다.
본 연구에서는 해사영어어휘의 특징인 ballast water, fore peak bulkhead, container, freight station charges와 같은 n-gram의 복수 단어로 구성된 합성어 (multi-word compounds) 태깅(tagging)처리가 포함된 해사영어코퍼스를 구축하였다. 해사영어코퍼스는 백만 단어씩 수집한 학술, 법, 신문, 교과서 4개 하위 코퍼스로 구성된 총 400만 단어의 해사영어코퍼스로 구성되어 있다.
검색기능은 사용자가 원하는 정보를 효과적으로 탐색하고 이용가능하게 하는 중요한 서비스 요소이다. 본 논문에서는 과학기술분야 전문분석자료, 수집자료, 동향정보를 제공하는 KOSEN(한민족과학기술자네트워크)의 통합검색 서비스 구축에 대해 논한다. 어휘지능망, 연구주제망 등 시맨틱 자원을 활용하여 사용자의 검색 편의성 및 효율성을 최대화 하였으며, 빠른 검색속도와 다양한 검색 부가기능을 제공함으로써 정보의 획득 및 이용의 만족도를 증가시키고자 FAST 검색엔진을 적용한 특징이 있다.
본 연구는 미국영어 화자의 평균적 음향 스펙트럼 분포를 확보한 후 과학영재학교 재학생의 영어발화 양상을 비교하여 상대적으로 우수한 지적 역량을 갖춘 우리나라 과학영재들의 초분절적 영어 유창성 양상을 규명하고, 그 근접성 정도가 영재학교 학생의 영어 과목 정기고사 성취도와 어떤 관계성을 갖는지 탐구하고자 진행되었다. 불과 수 초에서 수십 초에 불과한 음성녹음 데이터 위주로 분석을 시행했던 종래의 연구와 달리 총 4시간에 달하는 미국영어 원어민 화자(남성 15명, 여성 15명)의 음성녹음 자료를 MATLAB(R2022a; The Math Works) 코드로 분석하여 20 -20,000 Hz 주파수 범위 내의 대역별로 장기 스펙트럼 음향에너지 분포값을 확보했으며, 이를 기준으로 과학영재학교 1학년 신입생 80명의 녹음데이터 LTASS(long-term average speech spectrum) 분석 수치와 비교한 결과, 영어 과목 학기말고사의 학업성취도 수준이 상위 30% 이내인 학생들의 표본을 제외하고는 미국영어 음향에너지 분포와의 근접성이 통계적으로 유미하지 않다고 밝혀졌다. 영재학교 입학 후 영어 성취도를 예측하기 위한 지표를 발견하기 위해 수용성 어휘크기검사(receptive vocabulary size test), 학기 중 복수 회 실시한 영어 어휘 형성평가 퀴즈 누적 점수, 공인 영어말하기시험(English Speaking Proficiency Test, ESPT) 성취도를 추가 변량으로 하여 정기고사 성취도와의 상관관계 분석 및 각 변량 간 선형 회귀분석을 시행하였는데, 대개 유년시절 완성되는 영어 유창성을 측정하는 ESPT보다는, 1학기 및 2학기 초 실시한 수용성 어휘크기검사 및 수과학 분야 저빈도 어휘 위주 형성평가 점수와의 통계적 유의성이 월등히 높다는 사실이 관찰되었다. 따라서, 본 연구로부터 확보된 이론적 기반을 토대로 국내 영재학교에서는 발음교육보다 과학영재를 주요 대상으로 한 전문적 수준의 저빈도어휘 교육이 보다 효과적인 교수 요목이라 추정할 수 있다.
대부분의 한국어 형태소 분석기는 파생명사나 합성명사가 포함된 어절을 오분석 또는 과분석하는 경향이 있다. 이는 하나의 어절에서 오분석이나 과분석을 방지하기 위하여 획득할 수 있는 정보가 제한적이기 때문이다. 이에 본 논문은 파생명사나 합성명사 후보가 포함된 어절뿐만 아니라 주변 및 전문에서 분석에 필요한 정보를 수집하여 이용하는 방법을 제시한다. 제안한 방법은 오분석된 파생명사나 합성명사에만 나타나는 저빈도 단어를 제거하고, 파생명사나 합성명사 후보의 주변 어휘들을 실마리로 이용하며, 문서 전역에서 동일한 파생명사나 합성명사 후보가 포함된 둘 이상의 어절을 비교분석하여 파생명사 및 합성명사 후보가 포함된 어절을 처리한다. 실험 결과 제안한 방법은 99.8%의 정확도와 95.3%의 재현율로 파생명사나 합성명사 후보가 포함된 어절을 올바르게 분석할 수 있었다.
음원 스트리밍 서비스 시장은 지속해서 성장해왔다. 그중 최근에 가장 성장세가 돋보이는 서비스는 Spotify와 Youtube music이다. 두 서비스의 추천시스템은 사용자가 좋아할 만한 음악을 계속해서 추천해 줌으로써 많은 사랑을 받고 있다. 추천시스템 성능은 추천에 활용할 수 있는 변수(Feature) 수에 비례한다고 볼 수 있다. 최대한 많은 정보를 알아야 사용자가 원하는 추천이 가능하기 때문이다. 본 논문에서는 기존에 존재하는 감정분류 방법론인 사전기반과 딥러닝 BERT를 사용한 머신기반 방법론을 적절하게 결합하여 장점을 유지하면서 단점을 보완한 하이브리드 감정 분석 모델을 제안함으로써 가사에서 느껴지는 감정 비율을 분석한다. 감정 비율을 음원 가중치 변수로 사용하면 감정 정보를 포함한 고도화된 추천을 기대할 수 있다.
일상어는 한 사회의 모든 구성원이 쉽게 이해할 수 있고 사회생활에서 아무런 어려움이 없이 상호간에 의사소통을 할 수 있는 언어의 표현 수단이다. 이에 반하여 학술어는 각각의 전문분야에서 사용되고 있는 언어의 한 형태이다. 학술적 텍스트에서 나타나는 일반적인 특징은 글이 객관적이면서도 명확하게 기술된다는 점이다. 일반독자는 자주 사용되는 전문어휘를 통하여 학술적 텍스트를 가장 쉽게 인식할 수 있으며, 또한 텍스트의 구성에 있어서도 학술적 텍스트가 일반 텍스트와 다르다는 사실을 알 수 있다. 이 외에도 독일어에서는 일정한 문법적 현상들이 학술적 전문어의 요소로서 사용되고 있다. 예를 들면 삼인칭 단수, 부사구, 명사화 경향, 기능동사구의 선호, 수동구문 등등이 있다. 일반적으로 학술적 전문어에 자주 사용되고 있는 문법적 요소 중의 하나가 수동구문이다. 학술어의 요소로서 수동구문이 갖는 언어적 기능은 다음과 같다: 1. 수동구문에서는 일반적으로 행위자가 언급되지 않음으로써 사실이 객관적으로 표현되며, 동시에 행위자의 억제는 언어의 경제성에 기여한다. 2. 경우에 따라서 행위자가 표현될 때, 직접적인 행위의 주체를 나타내는 von-전치사구 혹은 매개체나 원인을 표현하는 durch-전치사구를 통하여 사건을 정확하게 기술할 수 있다. 3. 테마-레마 구조와 관련하여 살펴보면 문장구성 혹은 문장연결을 위한 표현수단으로도 수동구문은 활용된다. 4. 수동구문을 사용함으로써 문체상의 단조롭고 획일적인 점을 회피할 수도 있다. 본 논문은 이와 같이 수동구문이 지니고 있는 언어적 기능을 살펴봄으로써 학술적 전문어의 특징과 전문어를 이해하는데 기여한다.
최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.