papersilove

Friday, January 12, 2024

[2305.18290] Direct Preference Optimization: Your Language Model is Secretly a Reward Model

https://arxiv.org/abs/2305.18290

Posted by taylor at 2:03 AM

Email This BlogThis!Share to X Share to Facebook Share to Pinterest

No comments:

Post a Comment

Newer Post Older Post Home

Subscribe to: Post Comments (Atom)

Blog Archive

► 2025 (335)
- ► November (16)
- ► October (39)
- ► September (31)
- ► August (20)
- ► July (23)
- ► June (21)
- ► May (18)
- ► April (48)
- ► March (45)
- ► February (37)
- ► January (37)

▼ 2024 (425)
- ► December (49)
- ► November (50)
- ► October (29)
- ► September (45)
- ► August (39)
- ► July (47)
- ► June (23)
- ► May (36)
- ► April (24)
- ► March (34)
- ► February (21)
- ▼ January (28)

► 2023 (239)
- ► December (18)
- ► November (30)
- ► October (30)
- ► September (20)
- ► August (17)
- ► July (22)
- ► June (23)
- ► May (21)
- ► April (15)
- ► March (16)
- ► February (13)
- ► January (14)

► 2022 (144)
- ► December (14)
- ► November (22)
- ► October (25)
- ► September (8)
- ► August (11)
- ► July (11)
- ► June (10)
- ► May (13)
- ► April (5)
- ► March (14)
- ► February (8)
- ► January (3)

► 2021 (129)
- ► December (18)
- ► November (13)
- ► October (6)
- ► September (8)
- ► August (14)
- ► July (10)
- ► June (9)
- ► May (2)
- ► April (12)
- ► March (9)
- ► February (11)
- ► January (17)

► 2020 (162)
- ► December (22)
- ► November (9)
- ► October (12)
- ► September (13)
- ► August (9)
- ► July (24)
- ► June (7)
- ► May (15)
- ► April (6)
- ► March (14)
- ► February (12)
- ► January (19)

► 2019 (95)
- ► December (13)
- ► November (13)
- ► October (8)
- ► September (9)
- ► August (8)
- ► July (6)
- ► June (10)
- ► May (10)
- ► April (4)
- ► March (2)
- ► February (5)
- ► January (7)

► 2018 (67)
- ► December (10)
- ► November (11)
- ► October (7)
- ► September (11)
- ► July (2)
- ► June (3)
- ► May (6)
- ► April (5)
- ► March (2)
- ► February (3)
- ► January (7)

► 2017 (35)
- ► December (6)
- ► November (2)
- ► October (4)
- ► September (2)
- ► August (1)
- ► July (2)
- ► June (4)
- ► May (1)
- ► April (5)
- ► March (1)
- ► February (7)

Simple theme. Powered by Blogger.