통합 검색 | Korea Science

Document Classification Methodology Using Autoencoder-based Keywords Embedding

Seobin Yoon;Namgyu Kim
- 한국컴퓨터정보학회논문지
- /
- 제28권9호
- /
- pp.35-46
- /
- 2023
본 연구에서는 문서 분류기의 정확도를 높이기 위해 문맥 정보와 키워드 정보를 모두 사용하는 이중 접근(Dual Approach) 방법론을 제안한다. 우선 문맥 정보는 다양한 자연어 이해 작업(Task)에서 뛰어난 성능을 나타내고 있는 사전학습언어모델인 Google의 BERT를 사용하여 추출한다. 구체적으로 한국어 말뭉치를 사전학습한 KoBERT를 사용하여 문맥 정보를 CLS 토큰 형태로 추출한다. 다음으로 키워드 정보는 문서별 키워드 집합을 Autoencoder의 잠재 벡터를 통해 하나의 벡터 값으로 생성하여 사용한다. 제안 방법을 국가과학기술정보서비스(NTIS)의 국가 R&D 과제 문서 중 보건 의료에 해당하는 40,130건의 문서에 적용하여 실험을 수행한 결과, 제안 방법이 문서 정보 또는 단어 정보만을 활용하여 문서 분류를 진행하는 기존 방법들에 비해 정확도 측면에서 우수한 성능을 나타냄을 확인하였다.
https://doi.org/10.9708/jksci.2023.28.09.035 인용 PDF HTML

이중언어 동사 결합가 사전에 관한 연구 (Eine Studie $\"{u}ber$ zweisprachige Verbvalenzlexika)

이점출
- 한국독어학회지:독어학
- /
- 제1집
- /
- pp.11-39
- /
- 1999
Das Ziel dieses Aufsatzes liegt darin, $da\ss$ wir eine Unterlage $f\"{u}r$ die Erarbeitung des kunftigen vergleichenden deutsch-koreanischen Verbvalenzlexikons bereitstellen, indem wir zweisprachige Valenz-lexika vergleichen, bei denen die Muttersprache der Lemenden als Ausgangssprache und die deutsche Sparche als Zielsprache fungieren, und ein neues Valenzmodell mit dem Verb 'kaufen 팔다' aufzeigen. Als Ergebnis dieser Arbeit $k\"{o}nnen$ wir feststellen, $da\ss$ die Entwicklung der kontrastiven Valenzlexikographie vom register-ahnlichen Lexikon hin zum benutzerfreundlichen $W\"{o}rterbuch$ $verl\"{a}uft$. Und ferner ist die Tendenz ansteigend, zweisprachige Versionen aus den einsprachigen $W\"{o}rterb\"{u}chern$ des Deutschen zu entwickeln, denn die kontrastiven $W\"{o}rterb\"{u}cher$ kommen den praktischen $Bed\"{u}rfnissen$ des Fremdsprachenunterrichts $f\"{u}r\;Anf\"{a}nger$ mehr entgegen als die einsprachigen. Die Valenzlexika sollten $prim\"{a}r$ dem Deutsch Lernenden helfen, seinen Wortschatz zu erweitern und korrekte $S\"{a}tze$ zu bilden, sollten jedoch nicht unmittelbares Selbststudienmaterial, sondern Nachschlagewerke sein. Die neuere Entwicklung in der Valenzlexikographie $f\"{u}hrt$ hin zum didaktisch orientierten $W\"{o}rterbuch$, in dem die $Valenzeintr\"{a}ge$ neben anderen syntaktischen und semantischen Informationen stehen. $F\"{u}r$ Studenten im Grundstudium sind $W\"{o}rterb\"{u}cher$ in der Fremdsprache zu schwierig. Bei der zweisprachigen Version erleichtern die $Valenzeintr\"{a}ge$ In der Muttersprache den Studierenden den Umgang mit dem $Lernw\"{o}rterbuch$. In Zukunft $k\"{o}nnen\;Valenzw\"{o}rterb\"{u}cher$ als wichtige Hilfsmittel im Fremdsprachenunterricht noch an Bedeutung gewinnen. Ein $Valenzw\"{o}rterbuch$ ist vor allem ein $Produktionsw\"{o}rterbuch,\;denn\;es\;enth\"{a}lt$ syntaktisch-semantische Informationen und $Beispiels\"{a}tze$, die bei der Produktion korrekter Strukturen helfen. Das $Valenzw\"{o}rterbuch$ soll ein Nachschlagewerk, ein $Lernw\"{o}rter-buch$ zur weiteren Erforschung der syntaktish-semantischen Eigenschaften der deutschen Verben sein. Diese Untersuchung $\"{u}ber$ zweisprachige Verbvalenzlexika $k\"{o}nnte\;zur\;k\"{u}nfigen$ Erarbeitung des deutsch-koreanischen kontrastiven Verbvalenzlexikons beitragen.
PDF

한국어 전산처리에서 규칙과 확률을 이용한 구문관계에 따른 의미역 결정 (Determination of Thematic Roles according to Syntactic Relations Using Rules and Statistical Models in Korean Language Processing)

강신재;박정혜
- 한국산업정보학회논문지
- /
- 제8권1호
- /
- pp.33-42
- /
- 2003
본 논문은 한국어정보처리 과정에서 규칙과 확률을 이용하여 구문 관계를 의미역으로 사상시키는 방법을 제시하고 있다. 의미역의 결정은 의미 분석의 핵심 작업 중 하나이며 자연어처리에서 해결해야 하는 매우 중요한 문제중 하나이다. 일반적인 언어학 지식과 경험만 가지고 의미역 결정 규칙을 기술하는 것은 작업자의 주관에 따라 결과가 많이 달라질 수 있으며, 또 모든 경우를 다룰 수 있는 규칙의 구축은 불가능하다. 하지만 본 논문에서 제시하는 혼합 방법은 대량의 원시 말뭉치를 분석하여 실제 언어의 다양한 사용례를 반영하며, 또 수십 명의 한국어학자들이 심도 있게 구축하고 있는 세종전자사전의 격틀 정보도 함께 고려하기 때문에 보다 객관적이고 효율적인 방법이라 할 수 있다. 의미역을 보다 정확하게 결정하기 위해 구문관계, 의미부류, 형태소 정보, 이중주어의 위치정보 등의 자질 정보를 사용하였으며, 특히 의미부류의 사용으로 인해 적용률이 향상되는 효과를 가져올 수 있었다.
PDF

검색결과 23건 처리시간 0.02초

Document Classification Methodology Using Autoencoder-based Keywords Embedding

이중언어 동사 결합가 사전에 관한 연구 (Eine Studie $\"{u}ber$ zweisprachige Verbvalenzlexika)

한국어 전산처리에서 규칙과 확률을 이용한 구문관계에 따른 의미역 결정 (Determination of Thematic Roles according to Syntactic Relations Using Rules and Statistical Models in Korean Language Processing)

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)