Abdelmawgoud M. Meabed;Sherif Mahdy Abdou;Mervat Hassan Gheith
International Journal of Computer Science & Network Security
/
제23권9호
/
pp.120-128
/
2023
In this work, we have presented ATSA, a hierarchical attention deep learning model for Arabic sentiment analysis. ATSA was proposed by addressing several challenges and limitations that arise when applying the classical models to perform opinion mining in Arabic. Arabic-specific challenges including the morphological complexity and language sparsity were addressed by modeling semantic composition at the Arabic morphological analysis after performing tokenization. ATSA proposed to perform phrase-chunks sentiment embedding to provide a broader set of features that cover syntactic, semantic, and sentiment information. We used phrase structure parser to generate syntactic parse trees that are used as a reference for ATSA. This allowed modeling semantic and sentiment composition following the natural order in which words and phrase-chunks are combined in a sentence. The proposed model was evaluated on three Arabic corpora that correspond to different genres (newswire, online comments, and tweets) and different writing styles (MSA and dialectal Arabic). Experiments showed that each of the proposed contributions in ATSA was able to achieve significant improvement. The combination of all contributions, which makes up for the complete ATSA model, was able to improve the classification accuracy by 3% and 2% on Tweets and Hotel reviews datasets, respectively, compared to the existing models.
자연어 정보처리 분야의 거듭된 발전은 다양한 언어처리 도구들의 출현을 가져왔다. 그러나 객관적인 성능 평가 기준의 부재로 인해, 개발된 도구들은 임의의 기준에 따라 평가될 수 밖에 없었다. 그 결과 성능 평가 결과는 평가자와 평가자가 제안한 기준에 따라 다를 수 밖에 없었고 따라서 평가 결과 자체 역시 설득력을 갖을 수가 없었다. 이와 같은 문제에 대한 해결책을 찾고자 하는 노력의 일환으로, 본 연구에서는 한국어처리 도구들 중 특히 구문분석기의 체계적이고도 객관적인 성능 평가를 목적으로 제작된 문장들과 관련 주석 정보들로 구성된 SERI Test Suites '97을 소개한다.
단문분할은 한 문장에 용언이 복수개 있을 때 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 비교적 효율적인 결과를 얻을 수 있으나, 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해서 구문 정보만이 아니라, 의미 정보를 활용하여 단문을 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 무장 구조의 모호성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문분할이 필요하다. 의미 영역에서 단문분할을 하면 기존의 구문 의존적인 방법들에서 발생하는 모호성을 상당수 해소할 수 있게 된다. 논문에서는 먼저 하위범주와 사전과 시소러스의 의미 정보를 이용하여 용언과 보어성분 간의 의존구조를 우선적으로 파악하고, 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문분할 알고리즘을 제안한다. 제안된 이단계 단문분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 25,000문장을 수작업으로 술어와 보어성분 간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행하였으며, 이때 단문분할의 결과는 91.8%의 정확성을 보였다.
본 논문에서는 명사구 색인과 복합명사 분할을 포함한 복합명사 처리를 위해 통계 정보와 자연언어 처리를 제한적으로 이용 가능하게 하는 통합적 색인 기법을 제안한다. 먼저 색인과 검색에서 복합명사 분할 및 합성 모두를 고려한 통합 기법을 제시하고, 이를 위해 통계 정보와 제한적인 자연언어 처리를 모두 이용하는 통합 색인 기법을 제안한다. 먼저 형태소 분석 및 태깅 과정에서 단일어를 색인어로 추출하고 구문분석의 결과에서 명사구를 합성해 낸다. 구문 분석 실패 시에는 형태소 분석 및 태깅의 결과만을 사용하게 된다. 또한 태깅의 결과에서 복합명사를 골라 통계 정보를 이용하여 단일 명사로 분할하고 재합성한다. 분할된 단일 명사와 합성된 명사구는 기존의 단일어로만 이루어진 색인어를 보완하기 위해 색인어로 사용된다. 실험은 한국어 정보검색의 실험 집합인 KTSET 2.0과 KRIST SET을 사용하여 통합색인 기법이 복합명사 처리에 효율적임을 보였다.
우리는 사람들이 음악을 들으면서 책을 읽거나 학습활동을 하는 경우를 자주 발견하게 된다. 이러한 배경음악이 언어처리 과정에 어떠한 영향을 미치는지에 대해 그동안 활발한 논의가 진행됐다. 하지만 음악의 언어처리에 대한 영향성은 아직까지 명확히 밝혀져 있지 않은 상황에 있다. 본 연구는 사건관련전위(ERP)를 활용하여, 각 언어의 처리 과정-표기 정보 처리, 의미 정보 처리, 통사 정보 처리에 따라 나타나는 배경음악의 효과를 분석하고 이를 통해 음악이 언어처리에 미치는 영향성을 규명하고자 하였다. 총 60명의 피험자를 세 가지 실험조건그룹(가사 있는 음악 조건, 가사 없는 음악 조건, 무 음악 조건)으로 구분하고, 각 언어처리 과정에 해당하는 문장 자극을 제시하고 이에 대한 뇌파를 측정하였다. 실험 결과, 무음악 조건에 비해 가사 있는 음악 조건에서 표기 처리를 반영하는 P2와 통사 처리를 반영하는 P600의 진폭이 유의미하게 낮게 나타났다. 이에 반해, 의미 처리 과정을 반영하는 N400은 조건 간의 차이가 발견되지 않았다. 이러한 결과는 가사 있는 음악이 표기 처리 과정과 통사 처리 과정을 방해하는 한편, 의미 처리 과정에는 영향을 미치지 않는다는 점을 시사한다.
단백질이나 유전자들 간의 상호작용 인식은 생물학적 현상의 기술에 있어서 필수적이고, 이러한 상호작용의 네트웍 파악은 생물학 접근의 시작이라고 할 수 있다. 최근에, 대량의 생물학 관련 문서로부터 자연언어처리 기술을 사용하여 이러한 정보를 추출하려는 연구들이 많이 등장했다. 또한 이전 연구들은 언어학적 정보가 문서로부터 유전자 상호작용을 자동으로 추출하는 데 있어서 유용하다고 주장하고 있다. 하지만 기존의 방법들은 정확률에 비해 재현율이 많이 낮아서 성능이 그다지 좋지 못했다. 정확률의 감소 없이 재현율의 성능향상을 위해, 이 논문은 생물학관련 문서에서 구문관계에 기반하여 유전자 상호작용을 인식하는 방법을 제안한다. 생물학 도메인에 관련된 전문지식 없이, 우리의 방법은 단지 적은 양의 학습데이터를 사용하여 효과적인 성능을 보인다. LLL05(ICML05 Workshop on Learning Language in Logic)에서 제공한 데이터 포맷을 그대로 사용하여, 상호작용하는 두 유전자 중 작용의 주체가 되는 유전자를 에이전트라 하고 상호 작용의 대상이 되는 유전자를 타겟이라 한다. 본 논문에서 제안하는 첫 단계에서, 에이전트와 타겟 유전자에 대한 유전자-전이 구문관계를 인식한다. 두 번째 단계에서, 유전자 간의 상호작용이 있음을 암시하는 용언리스트를 구축한다. 마지막 단계에서, 상호작용하는 것으로 인식된 두 유전자 중 어느 것이 에이전트이고 타겟인지를 판단하기 위해 구문관계의 방향 정보를 학습한다. LLL05 데이터를 사용한 실험결과에서, 본 논문에서 제안한 방법이 학습 데이터에 대해서는 88%의 F-measure 성능을 보였고, 테스트 데이터에 대해서는 70.4%의 F-measure 성능을 보였다. 이 결과는 기존의 방법들보다 훨씬 더 좋은 성능이다. 우리는 성능에 대한 각 단계의 공헌도를 실험하여, 첫 단계는 재현율 향상에 기여를 하고 두 번째와 세 번째 단계는 정확률 향상에 기여했음을 보인다.
The current study was conducted to examine the temporal and spatial activation sequences related to morphosyntactic, semantic and orthographic-lexical sentences, focusing on the morphological-orthographic and lexical-semantic deviation processes in Korean language processing. The Event-related Potentials (ERPs) of 15 healthy students were adopted to explore the processing of head-final critical words in a sentential plausibility task. Specifically, it was examined whether the ERP-pattern to orthographic-lexical violation might show linear precedence over other processes, or the presence of additivity across combined processing components. For the morphosyntactic violation, fronto-central LAN followed by P600 was found, while semantic violation elicited N400, as expected. Activation of P600 was distributed in the left frontal and central sites, while N400 appeared even in frontal sites other than the centro-parietal areas. Most importantly, the orthographic-lexical violation process revealed by earlier N2 with fronto-central activity was shown to be complexes of morphological and semantic functions from the same critical word. The present study suggests that there is a linear precedence over the morphological deviation and its lexical semantic processing based on the immediate possibility of lexical information, followed by sentential semantics. Finally, late syntactic integration processes were completed, showing different topographic activation in order of importance of ongoing sentential information.
사전은 각종 자연언어처리 시스템에 있어서 고도의 언어처리 및 성능향상을 위한 필수 요소이며, 아무리 좋은 언어처리 도구와 알고리즘이라도 계산언어학에 근거한 양질의 체계적인 전자사전이 없는 한 이의 실용화는 불가능하다. 기존의 출판된 일반 사전은 자연언어처리 및 이해를 목적으로 하여 개발된 사전이 아니다. 또한, 자연언어처리 도구 및 응용시스템을 위해 개발된 사전은 각 시스템의 목적에 따라 각기 다른 체계에 의해 구축되어 있기 때문에 이용하는데 있어서 비효율적인 점이 있다. 따라서, 고도의 언어처리 및 이해를 목적으로 한 체계적이고 과학적인 방법론을 이용하여 형태소 구문 의미정보등 각종 정보가 통합된 통합정보사전의 개발이 필요하다. 본 논문에서는 통합정보사전을 구축하기 위한 방법론을 제시하고, 이에 근거하여 개발한 통합정보사전 개발 시스템을 제시한다.
자연어 처리에서 언어에 대한 지식은 전자사전과 문법규칙으로 구성되어 서로 상보적 관계에 있고, 각 어휘에 대한 품사 및 기타 자질-값에 의해 매개된다. 이러한 언어지식을 전통적인 방법에서는 국어자료의 분석에 경험이 많은 언어전문가의 직관에 다분히 의존하여 정의하였고, 말뭉치를 이용한 자동 획득 기법에서는 태그세트를 먼저 설정하고, 이 태그를 원시 말뭉치에 부착하여 태깅된 말뭉치로부터 자동으로 통계적 분석을 통하여 획득한다. 그런데 두가지 접근방법이 가지고 있는 공통적인 문제점은 품사나 자질-값의 정의 및 할당기준, 선악의 평가기준, 튜닝에 대한 적극적 대처 등이 마련되어 있지 않다는 점이다. 이 연구에서는 이러한 문제점의 발생원인을 말뭉치 분석 과정에서 살펴보고, 품사 및 자질-값의 설정과 할당기준을 마련하는 방법론 및 이를 적극적으로 지원하는 도구를 설계한다.
Universal Dependency 프로젝트는 여러 언어에 공통으로 적용할 수 있는 형태소 패턴과 구문 관계를 찾기 위한 연구를 진행하고 있으며, 점진적으로 많은 언어들이 참여하여 UD 가이드라인에 따라 말뭉치를 구축하고 시스템을 개발하고 있다. 한국어 UD 말뭉치도 구축되어서 공유되고 있지만 구축을 위한 상세한 가이드라인은 제공되지 않고 있다. 본 논문에서는 UD를 기반으로 한국어 구문분석 말뭉치를 구축할 때 논의되어야 할 요소들을 나열하고 예제를 통해서 설명하였다. 본 연구를 기반으로 한국어 구문분석 말뭉치 구축, 구문분석 시스템 개발에서 UD 가이드라인을 적용하는 논의가 시작되기를 기대한다.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.